Výskum
Autor: Redakcia AI Feed
Self-Distillation Zero sľubuje lacnejší post-training bez externého učiteľa
Nová práca Self-Distillation Zero tvrdí, že model si vie z binárnej odmeny vytvoriť hustejší tréningový signál aj bez externého učiteľa. Ak sa výsledky potvrdia, mohlo by to zlacniť časť post-trainingu pre matematické a kódové reasoning úlohy.