Výskum
Autor: Redakcia AI Feed
ServiceNow: pri RL nad vLLM treba najprv opraviť inferenciu, až potom meniť tréning
ServiceNow na Hugging Face rozobralo migráciu z vLLM V0 na V1 pri RL tréningu modelov a ukázalo, že kľúčové nie sú len nové optimalizačné schémy, ale najmä korektné logproby, runtime defaulty a správa váh počas behu.