Tag

#interpretovateľnosť

Všetky publikované články, v ktorých sa téma interpretovateľnosť objavuje ako dôležitý kontext. Aktuálne 10 textov v archíve.

Výskum22. júla 2026

Nový preprint hľadá štruktúru v pravdepodobnostných tenzoroch cez algebraické podpisy

Práca z arXivu navrhuje, aby sa niektoré pravdepodobnostné modely identifikovali podľa miznúcich binomických vzťahov namiesto priameho odhadu parametrov.

Výskum20. júla 2026

Prahový Bayesov model sľubuje čitateľnejšiu AI klasifikáciu v medicíne

Nový preprint navrhuje prenositeľný prahový rámec pre medicínske dáta. Namiesto čiernej skrinky používa štatisticky vedené prahy a Bernoulliho naivný Bayes, aby klinické rozhodnutia zostali reprodukovateľné a vysvetliteľné.

Výskum8. júla 2026

Preprint skúša zrozumiteľnejšie rozpoznávanie cieľov v radarových snímkach SAR

Nový arXiv preprint navrhuje G-DNMF, viacvrstvovú faktorizáciu pre rozpoznávanie objektov v radarových snímkach. Zaujímavý je najmä tým, že rieši interpretovateľnosť modelov v bezpečnostne citlivom videní.

Výskum7. júla 2026

Apple ukazuje, že bezpečnostné odmietanie vie prelomiť aj jeden neurón

Výskumníci Apple opisujú mechanistický problém v bezpečnostnom ladení jazykových modelov: pri viacerých modeloch stačilo potlačiť alebo zosilniť jediný identifikovaný neurón, aby sa zmenilo odmietanie škodlivých požiadaviek.

Výskum2. júla 2026

MemoryLLM od Apple skúma, či sa vrstvy FFN dajú čítať ako pamäť transformera

Apple opisuje MemoryLLM, výskumný prístup na oddelenie feed-forward vrstiev od self-attention. Cieľom je lepšie pochopiť, ako tokeny pristupujú k pamäťovým miestam v parametroch a či sa časť výpočtu dá presúvať medzi VRAM a úložiskom.

Výskum16. júna 2026

Preprint hľadá pamäťové stopy v neurónových sieťach a nazýva ich AI engramy

Nová práca na arXive navrhuje geometrický rámec na identifikáciu a úpravu konkrétnych pamäťových stôp v modeloch. Tvrdí, že niektoré naučené znalosti možno skladať alebo mazať lineárnymi operáciami bez opakovaného tréningu.

Výskum8. júna 2026

Nový preprint rozkladá activation steering na uhol a veľkosť skrytého stavu

Štúdia na siedmich jazykových modeloch ukazuje, že pri riadení správania modelu nestačí sledovať iba smer zásahu. Uhol nesie väčšinu konceptovej informácie, no veľkosť skrytého stavu rozhoduje o stabilite a vedľajších účinkoch.

Výskum2. júna 2026

LLM a ľudské EEG môžu zdieľať jednu os emočnej valencie, naznačuje nový preprint

Nový arXiv preprint opisuje V-os: jednorozmerný smer emočnej valencie odvodený z LLM iba z deviatich viet. Smer sa prenáša medzi 14 modelmi, koreluje s EEG 123 ľudí sledujúcich afektívne videá, no pokročilé zarovnávacie stratégie dekódovanie nezlepšili.

Výskum21. mája 2026

Nová miera komplexity modelu sleduje podobnosť gradientov naprieč vstupmi

Preprint navrhuje výpočtovo dostupnú mieru komplexity modelov založenú na podobnosti gradientov. Má fungovať pre parametrické aj kernelové modely.

Výskum20. apríla 2026

Porovnanie vysvetliteľnosti pre LLM naznačuje, že gradientové metódy sú zatiaľ najpraktickejšie

Štúdia porovnávajúca Integrated Gradients, Attention Rollout a SHAP upozorňuje, že pri diagnostike jazykových modelov neexistuje univerzálne vysvetlenie. Najstabilnejšie sa podľa autorov ukazujú gradientové atribúcie, kým attention a model-agnostic prístupy majú vlastné kompromisy.