Apple v BalCapRL učí multimodálne modely opisovať obrázky presnejšie a bez balastu
Apple ukazuje, že pri titulkovaní obrázkov nestačí tlačiť len na dĺžku a detail. BalCapRL kombinuje viac cieľov naraz, aby multimodálne modely menej halucinovali a písali použiteľnejšie popisy.