Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)
“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений
“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные
“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM
Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная
Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)
W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей
Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная
Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)
W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей