IBM: mid-training rozhoduje o tom, či sa model naučí naozaj uvažovať
IBM tvrdí, že medzistupeň medzi pretréningom a post-tréningom nie je kozmetická optimalizácia. V stovkách experimentov mal zásadne pomôcť pri reasoning úlohách.
Tag
Všetky publikované články, v ktorých sa téma open source objavuje ako dôležitý kontext. Aktuálne 21 textov v archíve.
IBM tvrdí, že medzistupeň medzi pretréningom a post-tréningom nie je kozmetická optimalizácia. V stovkách experimentov mal zásadne pomôcť pri reasoning úlohách.
Amazon zverejnil architektúru, ktorá spája open-source model Parakeet-TDT, AWS Batch a spotové GPU inštancie pri veľkoobjemovom prepise audia. Signálom nie je len technický návod, ale aj rastúci tlak na lacnejšie multimodálne pipeline mimo uzavretých API služieb.
Apple predstavilo ParaRNN, framework, ktorý má odstrániť kľúčové úzke miesto klasických rekurentných sietí. Firma tvrdí, že pri tréningu nelineárnych RNN dosiahla zrýchlenie až 665-krát a otvorila cestu k sedemmiliardovým modelom s konkurencieschopnou perplexitou.
Hugging Face reaguje na rastúci záujem o AI v kyberbezpečnosti tvrdením, že otvorené nástroje, auditovateľné workflowy a menšie špecializované modely môžu byť pre obranu dôležitejšie než uzavreté frontier systémy.
GitHub rozšíril svoj open-source Secure Code Game o novú sezónu zameranú na bezpečnosť agentických AI systémov. Season 4 stavia hráča do roly útočníka aj obrancu pri terminálovom agentovi ProdBot, takže vývojári si môžu prakticky vyskúšať prompt injection, zneužitie nástrojov aj únik tajomstiev ešte predtým, než podobné workflow pustia do produkcie.
Mistral spája nový open coding model Devstral 2 s open-source Vibe CLI agentom a ukazuje, že boj o AI programovanie sa nehrá len cez model, ale cez celý workflow stack okolo neho.
Cohere uviedlo Transcribe ako open-source ASR model pre presnejšie prepisy zvuku. Nie je to len ďalší hlasový model: firma tým naznačuje, že speech intelligence sa stáva samostatnou vrstvou enterprise AI, naviazanou na analytiku, vyhľadávanie a automatizáciu.
Výskumníci ukazujú, že sériu menších modelov možno koordinovať tak, aby spolu riešili zložitejšie úlohy bez potreby jedného extrémne drahého modelu. V praxi by to mohlo zmeniť ekonomiku inferencie.
Meta rozširuje open model stratégiu o multimodálny systém, ktorý kombinuje text, video aj audio. Otázkou zostáva, ako rýchlo sa okolo neho vytvorí ekosystém nástrojov a finetuning pipeline.