Výskum
Autor: Redakcia AI Feed
ARES cieli na slabinu RLHF: opravuje model aj reward model naraz
Práca ARES tvrdí, že bezpečnostné testovanie LLM nestačí zamerať iba na samotný model. Pri RLHF môže zlyhávať aj reward model, a preto navrhuje spoločné red-teaming a následnú opravu oboch vrstiev naraz.