Польза LLM

*если ссылки не открываются, попробуй включить vpn

Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности
(Flamingo, LLaVA, Kosmos‑1 и др.)

“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений

“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные

“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM

Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)

“A Comprehensive Survey and Guide to Multimodal Large Language Models
in Vision-Language Tasks” — обзор архитектур и приложений

“Multimodal Large Language Models: A Survey” — освещает историю, задачи и данные

“Large Multimodal Agents: A Survey” — про агентов на основе мультимодальных LLM

обзоры на мультимодальные LLM

Это база:

Читать

Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)

“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений

“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные

“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM

Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная

Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)

W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей

и методики

Технические статьи

Читать

Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)

“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений

“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные

“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM

Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная

Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)

W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей

Roboflow: How to label data for GPT‑4o — настройка разметки изображений
с Roboflow Annotate и подготовка под GPT‑4o object detection

Encord: Pre‑Classification using GPT‑4o — автоматическая предварительная
классификация изображений с маршрутизацией неуверенных кейсов

OpenAI Cookbook: tag & caption images with GPT‑4o-mini — код на Python
для тегирования и описания изображений

Cursor‑IDE: Complete Guide to GPT‑4o Image API — руководство по работе
с GPT‑4o Image API: распознавание и генерация с примерами

авторазметки

Примеры

Читать

Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)

“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений

“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные

“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM

Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная

Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)

W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей

Roboflow: How to label data for GPT‑4o — настройка разметки изображений
с Roboflow Annotate и подготовка под GPT‑4o object detection

Encord: Pre‑Classification using GPT‑4o — автоматическая предварительная
классификация изображений с маршрутизацией неуверенных кейсов

OpenAI Cookbook: tag & caption images with GPT‑4o-mini — код на Python
для тегирования и описания изображений

Cursor‑IDE: Complete Guide to GPT‑4o Image API — руководство по работе
с GPT‑4o Image API: распознавание и генерация с примерами

Понять принцип работы подсчетов инференса:

Полностью изучить, прочитать и выполнить задания из книги:

Понять принцип работы подсчетов инференса:

2.Полностью изучить, прочитать и выполнить задания из книги:

как работает LLaMa.cpp?

практические задания.

Джей Аламмар. Практическое руководство по большим языковым моделям.

производительность больших языковых моделей.

и книга

Домашнее задание

Neptune.ai: Multimodal Large Language Models —
объясняет принципы работы и сложности (Flamingo, LLaVA, Kosmos‑1 и др.)

“A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks” —
обзор архитектур и приложений

“Multimodal Large Language Models: A Survey” —
освещает историю, задачи и данные

“Large Multimodal Agents: A Survey” —
про агентов на основе мультимодальных LLM

Medium: Multimodal Models and Fusion — разбирает четыре стратегии объединения
модальностей: ранняя, промежуточная, поздняя, гибридная

Chip Huyen: Multimodality and Large Multimodal Models — вводный обзор
мультимодальных систем и ключевых моделей (CLIP, Flamingo, BLIP‑2, LLaVA и др.)

W3C Multimodal Architecture and Interfaces — спецификация архитектурных
принципов взаимодействия нескольких модальностей

Roboflow: How to label data for GPT‑4o — настройка разметки изображений
с Roboflow Annotate и подготовка под GPT‑4o object detection

Encord: Pre‑Classification using GPT‑4o — автоматическая предварительная
классификация изображений с маршрутизацией неуверенных кейсов

OpenAI Cookbook: tag & caption images with GPT‑4o-mini — код на Python
для тегирования и описания изображений

Cursor‑IDE: Complete Guide to GPT‑4o Image API — руководство по работе
с GPT‑4o Image API: распознавание и генерация с примерами

Курс "LLM-инженер" стартует уже 14 июля!

онлайн

Где учиться?