Preprint upozorňuje, že neškodný fine-tuning môže vracať staré správanie modelu
Nový arXiv preprint navrhuje geometrické vysvetlenie javu, pri ktorom neskoršie doladenie na zdanlivo neškodných dátach čiastočne obnovuje správanie získané v skoršom tréningu. Téma je dôležitá pre bezpečnosť aj správu modelov po nasadení.