*если ссылки не открываются, попробуй включить vpn
*если ссылки не открываются, попробуй включить vpn
Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности
(Flamingo, LLaVA, Kosmos‑1 и др.)




“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений




“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные




“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM
Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)

“A Comprehensive Survey and Guide to Multimodal Large Language Models
in Vision-Language Tasks” — обзор архитектур и приложений

“Multimodal Large Language Models: A Survey” — освещает историю, задачи и данные

“Large Multimodal Agents: A Survey” — про агентов на основе мультимодальных LLM
обзоры на мультимодальные LLM
Это база:
Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)




“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений




“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные




“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM
Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная




Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)




W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей

Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная

Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)

W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей

и методики
Технические статьи
Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)




“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений




“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные




“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM
Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная




Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)




W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей

Roboflow: How to label data for GPT‑4o — настройка разметки изображений
с Roboflow Annotate и подготовка под GPT‑4o object detection




Encord: Pre‑Classification using GPT‑4o — автоматическая предварительная
классификация изображений с маршрутизацией неуверенных кейсов




OpenAI Cookbook: tag & caption images with GPT‑4o-mini — код на Python
для тегирования и описания изображений




Cursor‑IDE: Complete Guide to GPT‑4o Image API — руководство по работе
с GPT‑4o Image API: распознавание и генерация с примерами

Roboflow: How to label data for GPT‑4o — настройка разметки изображений
с Roboflow Annotate и подготовка под GPT‑4o object detection

Encord: Pre‑Classification using GPT‑4o — автоматическая предварительная
классификация изображений с маршрутизацией неуверенных кейсов

OpenAI Cookbook: tag & caption images with GPT‑4o-mini — код на Python
для тегирования и описания изображений

Cursor‑IDE: Complete Guide to GPT‑4o Image API — руководство по работе
с GPT‑4o Image API: распознавание и генерация с примерами

авторазметки
Примеры
Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)




“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений




“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные




“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM
Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная




Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)




W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей

Roboflow: How to label data for GPT‑4o — настройка разметки изображений
с Roboflow Annotate и подготовка под GPT‑4o object detection




Encord: Pre‑Classification using GPT‑4o — автоматическая предварительная
классификация изображений с маршрутизацией неуверенных кейсов




OpenAI Cookbook: tag & caption images with GPT‑4o-mini — код на Python
для тегирования и описания изображений




Cursor‑IDE: Complete Guide to GPT‑4o Image API — руководство по работе
с GPT‑4o Image API: распознавание и генерация с примерами

Понять принцип работы подсчетов инференса:



Полностью изучить, прочитать и выполнить задания из книги:
  1. Понять принцип работы подсчетов инференса:


2.Полностью изучить, прочитать и выполнить задания из книги:
и книга
Домашнее задание
Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)




“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений




“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные




“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM
Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная




Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)




W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей

Roboflow: How to label data for GPT‑4o — настройка разметки изображений
с Roboflow Annotate и подготовка под GPT‑4o object detection




Encord: Pre‑Classification using GPT‑4o — автоматическая предварительная
классификация изображений с маршрутизацией неуверенных кейсов




OpenAI Cookbook: tag & caption images with GPT‑4o-mini — код на Python
для тегирования и описания изображений




Cursor‑IDE: Complete Guide to GPT‑4o Image API — руководство по работе
с GPT‑4o Image API: распознавание и генерация с примерами

Курс "LLM-инженер" стартует уже 14 июля!

онлайн
Где учиться?