Y finalmente: ¿deberían todos los modelos (, por ejemplo, Genie, Veo, Imagen), converger en un gran modelo para cada modalidad?
Esto no es posible hoy - las limitaciones de ingeniería y hardware no lo permitirían.
Tienes que hacer concesiones sobre en qué debería especializarse cada modelo.
Ver originales