IBM: mid-training rozhoduje o tom, či sa model naučí naozaj uvažovať
IBM tvrdí, že medzistupeň medzi pretréningom a post-tréningom nie je kozmetická optimalizácia. V stovkách experimentov mal zásadne pomôcť pri reasoning úlohách.
Kategória
Výskumné práce, metódy, reprodukovateľné výsledky a posuny v bezpečnosti modelov.
IBM tvrdí, že medzistupeň medzi pretréningom a post-tréningom nie je kozmetická optimalizácia. V stovkách experimentov mal zásadne pomôcť pri reasoning úlohách.
Nový výskum Apple ukazuje, že pri plánovaní pohybu nemusí model skladať celé video. Stačiť môže kompaktné latentné zastúpenie trajektórií.
Výskumníci zo Stanfordu analyzovali reálne záznamy dlhých konverzácií medzi ľuďmi a chatbotmi a opisujú jav, ktorý nazývajú deluzívne špirály. Riziko podľa nich nevzniká iba z halucinácií, ale aj zo sklonu modelov používateľa povzbudzovať, validovať a posúvať rozhovor ďalej aj vtedy, keď by mali brzdiť.
Na arXive pribudla práca o novom skóre pre multivariačné conformal prediction, teda technike, ktorá má k modelovej predikcii priložiť oblasť neistoty s garantovaným pokrytím. Autori tvrdia, že namiesto hrubého zredukovania chyby na jedno číslo vedia lepšie zachytiť geometriu reziduí.
Nový benchmark AgentSearchBench tvrdí, že pri AI agentoch nestačí opis v katalógu. Rozhodovať má aj správanie pri vykonaní úlohy a schopnosť zvládnuť úlohy z otvoreného prostredia.
Výskumníci predstavili end-to-end ukrajinský RAG systém pre lokálne nasadenie. Stavia na hybridnom vyhľadávaní, ľahšom generovaní a kompresii modelu, aby vedel bežať aj pri obmedzenom hardvéri.
Nová práca na arXive opisuje, ako PayPal testoval špekulatívne dekódovanie EAGLE3 nad doladeným modelom Nemotron. Pri vhodnom nastavení dosiahol citeľne vyššiu priepustnosť aj nižšiu latenciu a naznačuje, že časť agentických workloadov môže bežať lacnejšie bez ďalšieho hardvéru.
Výskumníci navrhujú prístup ZeroFolio, ktorý pri výbere algoritmu nahrádza ručne tvorené príznaky textovými embeddingmi zo surového vstupu. Ak sa výsledky potvrdia aj mimo benchmarkov, môže to zjednodušiť oblasť, kde sa doteraz rátalo s pomerne vysokou doménovou expertízou a nákladnou prípravou reprezentácií problému.
Nová arXiv práca opisuje rámec strojového učenia pre štyri cementárne, ktorý má presnejšie predpovedať emisie oxidov dusíka a zachytiť prekročenia ešte predtým, než k nim dôjde. Výskum ukazuje, ako sa AI presúva aj do priemyselných procesov, kde nejde o chatboty, ale o náklady, kvalitu výroby a environmentálne limity.
Apple predstavilo ParaRNN, framework, ktorý má odstrániť kľúčové úzke miesto klasických rekurentných sietí. Firma tvrdí, že pri tréningu nelineárnych RNN dosiahla zrýchlenie až 665-krát a otvorila cestu k sedemmiliardovým modelom s konkurencieschopnou perplexitou.
Survey o transliterácii v NLP pripomína, že rozdielne písma zostávajú praktickou brzdou cross-lingual prenosu. Aj v ére veľkých modelov môže prepis medzi skriptami zlepšiť pokrytie, efektivitu aj prácu s code-mixom.
Nová práca skúma geometriu embeddingov Google AlphaEarth a tvrdí, že pri environmentálnom reasoning je dôležitejšia lokálna retrieval logika než jednoduché skladanie „konceptových smerov“ vo vektorovom priestore.