Audit benchmarkov na detekciu depresie upozorňuje na krehké rebríčky a slabý prenos modelov
Nový preprint preveruje klinické interview benchmarky pre detekciu depresie štyrmi sondami. Ukazuje, že oficiálne splitovanie môže meniť poradie modelov, silné výsledky sa horšie prenášajú medzi dátovými sadami a textové signály sa správajú inak než audio.