Preprint varuje, že kvantizácia KV cache môže oslabiť bezpečnostné odmietanie modelov
Autori tvrdia, že nízkobitová kvantizácia pamäte pri inferencii môže poškodiť alignment aj vtedy, keď bežné metriky kvality vyzerajú takmer nezmenené.
Tag
Všetky publikované články, v ktorých sa téma KV cache objavuje ako dôležitý kontext. Aktuálne 2 textov v archíve.
Autori tvrdia, že nízkobitová kvantizácia pamäte pri inferencii môže poškodiť alignment aj vtedy, keď bežné metriky kvality vyzerajú takmer nezmenené.
Apple Machine Learning Research ukazuje, že tlak na lacnejší serving nemusí ísť len cez kvantizáciu či skracovanie kontextu. Nová práca skúša zmenšiť KV cache po hĺbke siete a zachovať pritom výkon aj priepustnosť.