Výskum
Autor: Redakcia AI Feed
Apple chce zlacniť prevádzku LLM cez zdieľanie KV cache medzi vrstvami
Apple Machine Learning Research ukazuje, že tlak na lacnejší serving nemusí ísť len cez kvantizáciu či skracovanie kontextu. Nová práca skúša zmenšiť KV cache po hĺbke siete a zachovať pritom výkon aj priepustnosť.