Nový transformer na joint attention prekonal multimodálne LLM
Výskumníci navrhli dual-stream transformer pre detekciu vzájomného pohľadu a spoločnej pozornosti v dvojkamerových videách. Na dátach interakcií medzi opatrovateľom a dieťaťom prekonal konvolučný baseline aj multimodálne LLM.