Výskum
Autor: Redakcia AI Feed
BASIS sľubuje tréning s podstatne nižšou pamäťou na aktivácie
Práca BASIS navrhuje spôsob, ako odpojiť pamäťové nároky backpropagácie od dĺžky sekvencie a batchu cez vyvážené skicovanie aktivácií. Ak sa výsledky potvrdia, môže ísť o praktický posun pre tréning dlhokontextových modelov na obmedzenom hardvéri.