Autor: Redakcia AI Feed
LLM stále zlyhávajú pri abstraktných pojmoch viac, než sa čakalo
Nový paper pripomína, že veľké jazykové modely nemusia mať pevné chápanie abstraktných významov. Na úlohe ReCAM zaostávajú aj za staršími fine-tuned modelmi.
Tag
Všetky publikované články, v ktorých sa téma LLM objavuje ako dôležitý kontext.
Autor: Redakcia AI Feed
Nový paper pripomína, že veľké jazykové modely nemusia mať pevné chápanie abstraktných významov. Na úlohe ReCAM zaostávajú aj za staršími fine-tuned modelmi.
Autor: Redakcia AI Feed
Nová práca ArcDeck tvrdí, že pri generovaní slidov nestačí len sumarizovať text. Kľúčom má byť rekonštrukcia argumentačnej línie paperu a koordinácia viacerých agentov.
Autor: Redakcia AI Feed
Nová práca GoodPoint skúša urobiť z recenzentskej spätnej väzby nie len generovaný text, ale prakticky použiteľné odporúčania. Kľúčová myšlienka je nezvyčajná: kvalitu feedbacku odhadovať cez to, ako naň reagujú samotní autori vedeckých článkov.
Autor: Redakcia AI Feed
Nová práca ukazuje, že veľké jazykové modely zaostávajú pri chápaní abstraktných slov a významov viac, než naznačujú bežné dojmy z používania. Pre prax je to dôležitý signál: fluentný text ešte neznamená hlbšie porozumenie a pri zložitejších mentálnych pojmoch môžu byť staršie fine-tuned prístupy spoľahlivejšie než moderné generatívne LLM.
Autor: Redakcia AI Feed
Nová výskumná práca navrhuje Filtered Reasoning Score, ktorý hodnotí iba najsebaistejšie reasoning trace modelu namiesto jednoduchého priemerovania všetkých pokusov. Cieľom je rozlíšiť modely, ktoré vyzerajú rovnako dobre v presnosti, no opierajú sa o rozdielne kvalitné uvažovanie.
Autor: Redakcia AI Feed
Nový text IBM Research tvrdí, že rozhodujúci skok v reasoningu neprichádza iba z RL alebo inštrukčného ladenia, ale z medzifázy mid-trainingu zameranej na matematiku, kód a vedu.
Autor: Redakcia AI Feed
Nový technický materiál AWS ukazuje, ako má SageMaker HyperPod fungovať aj ako inference platforma. Kľúčová téza je praktická: kombinácia KEDA a Karpenteru má umožniť škálovanie od nuly až po produkčnú záťaž bez trvalých nečinných GPU nákladov.