11:00–12:00
Регистрация, сбор участников
12:00–12:15
От локальных задач к общим технологиям
Алексей Гусаков
СТО
БГ Поиск и Рекламные технологии
12:30–13:15
Как рекомендательный движок ежегодно экономит 200 тыс. CPU в инфраструктуре Рекламы
Антон Полднев
Руководитель инфраструктуры
Яндекс Реклама
Архитектура бэкенда
для ML-моделей
Алёна Васильева
Руководитель разработки
Шедеврум
13:15–13:55
Подбор инфраструктуры для LLM
Антон Алексеев
MLOps-инженер
Avito
Чтение с реплик в распределённых системах: опыт YDB
Александр Зевайкин
Руководитель разработки
YDB
14:00–14:40
Эволюция рекомендательного движка и перезапуск рекомендаций ВКонтакте
Дмитрий Погорелов
Руководитель отдела бэкенда рекомендаций
VK
Инструменты удаленной помощи автономному транспорту
Дмитрий Плещеев
Руководитель службы разработки внутренних сервисов
Автономный транспорт
14:40–15:20
Кофе-брейк
15:20–15:50
LLM Inside: выжимаем максимум из decoder attention на GPU
Андрей Шукшов
Старший разработчик, Команда оптимизаций инференса
Яндекс R&D
Как мы вынесли рекламу в офлайн и что из этого вышло
Юрий Журихин
Руководитель разработки Наружной рекламы
Яндекс Реклама
15:55–16:25
AI Агенты — как мы сделали DeepResearch по интранету и кодовой базе
Сергей Скородумов
Руководитель отдела поисковых сервисов
Яндекс Поиск
От прототипа к продакшену: оптимизация runtime в задаче разделения речи (Speaker Diarization)
Михаил Кузьмин
Senior ML Engineer
Sber
16:25–17:00
Кофе-брейк
17:00–17:40
Эволюция технологий real-time индексации
Никита Сикалов
Руководитель группы Базового поиска
Яндекс Поиск
Tool calling в диалоговой системе Алисы
Роман Жиганов
Руководитель группы разработки AI-агентов Алисы
Алиса и Умные устройства
17:45–18:25
Кост-модель LLM: иллюзия простоты
Михаил Чебаков
Руководитель разработки инструментальных ML платформ
Т‑Банк
18:30–18:40
Закрытие конференции в главном зале
18:45–20:00
2718 — Разработчик из Яндекса решает сложную архитектурную задачу от внешнего участника
18:40–22:00
Нетворкинг
Качественный бэкенд жизненно необходим для интеграции ML в продукты. При этом важно эффективно использовать GPU.
Порассуждаем о том, как работать с долгим инференсом ML-моделей: синхронно или асинхронно. Сравним поллинги, SSE и веб сокеты. Подумаем, нужны ли бэкенду вокруг ML очереди и как можно их использовать с сайдкарами. Поделюсь опытом Шедеврума в области экономии GPU.
Алёна Васильева
Руководитель разработки
Шедеврум
В докладе расскажем как исторически в Яндекс Поиске развивалась real-time индексация.
В последние несколько лет мы активно мигрируем индексацию со старых всем известных batch технологий на real-time. Мы уже смогли построить распределенную масштабируемую конструкцию на десятки терабайт, в которой обновления под поисковой трафик выезжают за минуты. Сейчас мы занимаемся тем, что переводим большую поисковую базу на несколько петабайт на эти же технологии. Расскажу с какими сложностями сталкивается наша команда и как мы их решаем в большом поисковом бекенде.
Никита Сикалов
Руководитель группы Базового поиска
Яндекс Поиск
LLM повсюду, но мало кто умеет их считать. А без правильной кост-модели невозможно масштабироваться или еще хуже — можно потратить миллионы на токены, которые были не нужны. Михаил расскажет, какие инженерные сложности и компромиссы стоят за тем, чтобы спрятать всю сложность инференса LLM за простыми и понятными числами. Поделится опытом, как сделать измеримым то, что по природе своей сложно и не всегда предсказуемо.
Михаил Чебаков
Руководитель разработки инструментальных ML платформ
Т‑Банк
В докладе поговорим про архитектуру современных GPU и о том, как выжать из них максимум производительности при реализации одного из ключевых примитивов LLM — attention, его декодерной версии.
Доклад будет полезен разработчикам, которые уже пробовали писать что-то на CUDA, но хотели бы детальнее разобраться, как устроена GPU и что происходит внутри LLM.
Андрей Шукшов
Старший разработчик, Команда оптимизаций инференса
Яндекс R&D
В этом докладе расскажем, как развивалась архитектура рекомендательного движка VK, какие архитектурные решения оказались удачными, а какие — нет, как мы переработали шардирование и адаптировали систему под рост нагрузки. Поделимся опытом перезапуска ленты во ВКонтакте на новом движке и тем, как это помогло добиться заметного роста пользовательских метрик.
Дмитрий Погорелов
Руководитель отдела бэкенда рекомендаций
VK
Рекомендательный движок — сердце рекламной системы Яндекса. Он обслуживает более миллиона запросов в секунду, каждый из которых может принести деньги. Перестроив архитектуру, мы добились ежегодной экономии 200 тыс. CPU — примерно четверти всего объёма. Этот путь дал нам чёткое понимание, как строить современные и эффективные поисково-рекомендательные системы.
Я расскажу нашу историю и поделюсь конкретными решениями, которые можно применять для оптимизации похожих бэкендов — от хаков на стыке с GPU до универсальных и элегантных улучшений балансировки. Помимо этого, сделаю небольшой обзор актуальных трендов в развитии инфраструктуры рекомендаций — без интеграции этих решений в ближайшем будущем невозможен существенный рост эффективности.
Антон Полднев
Руководитель инфраструктуры
Яндекс Реклама
AI Агенты сегодня повсюду, а одна из самых важных проблем, которую они уже решают — поиск ответов на очень сложные вопросы. Уже сейчас DeepResearch от Perplexity, OpenAI и Gemini могут найти информации в открытом интернете, проведя много итераций поиска и чтения страниц. Но что делать с вашей внутренней документацией и кодом? Расскажу как мы, в Яндексе, сделали DeepResearch по нашей внутренней информации, и даже научили его читать и понимать наш код.
Сергей Скородумов
Руководитель отдела поисковых сервисов
Яндекс Поиск
В распределённых системах важно обеспечивать высокую производительность и доступность при работе с большими объёмами данных. В YDB реализовано чтение с реплик — механизм, позволяющий выполнять запросы к копиям данных с допустимым уровнем устаревания, что снижает задержки, повышает пропускную способность и устойчивость системы, а также особенно эффективно при работе в многодатацентровых окружениях и под высокой нагрузкой. В докладе мы рассмотрим архитектурные решения и практический опыт использования чтения с реплик в YDB.
Александр Зевайкин
Руководитель разработки
YDB
Доклад посвящен решениям в области digital офлайн-рекламы (Digital Out Of Home).
Будут рассмотрены методы определения аудитории вблизи физических рекламных экранов, алгоритмы отслеживания видимости рекламы на движущихся носителях и способы переосмысления традиционных методов оценки эффективности наружной рекламы. Особое внимание уделим проблемам удалённого мониторинга и обслуживания физических рекламных экранов.
Юрий Журихин
Руководитель разработки Наружной рекламы
Яндекс Реклама
Как мы первыми в мире внедрили подход function calling в голосового ассистента на умных устройствах. Расскажу о том, как прежде была устроена Алиса, как был устроен бэкенд, что изменилось и про недостатки старого стека.Почему мы поставили перед собой задачу понимать пользователя лучше и как это измеряем.
Роман Жиганов
Руководитель группы разработки AI-агентов Алисы
Алиса и Умные устройства
Доклад посвящен инструментам и сервисам, которые мы делаем для экосистемы автономного транспорта. Поговорим о непосредственном управлении юнитами для устранения проблем при их эксплуатации в реальной среде, например, в условиях плохой связи. Обсудим, как мы строим для этого инструменты и сервисы, какие проблемы перед нами возникают, и как мы их решаем.
Дмитрий Плещеев
Руководитель службы разработки внутренних сервисов
Автономный транспорт
Когда заказчик приходит с запросом «Разверните мне Qwen», невольно задаёшься вопросом — а какая инфраструктура нужна для такой задачи? А если запрос становится более конкретным — «Разверните Qwen так, чтобы держать 10 RPS с задержкой до 5 секунд», то можно и вовсе растеряться: как подобрать конфигурацию под такие требования? В своём докладе я разберу, как отвечаю на такие вопросы. Расскажу, какие инструменты помогают быстро подобрать оптимальную инфраструктуру, как тестировать производительность инференса и автоматизировать процесс. Покажу, как пройти путь от ручных запусков примеров моделей до автоматизированного анализа работы фреймворков на GPU с подбором оптимальной конфигурации.
Антон Алексеев
MLOps-инженер
Avito
В докладе подробно рассмотрю процесс разработки и интеграции пайплайна Speaker Diarization в систему распознавания речи: от постановки задачи до внедрения решения в промышленную эксплуатацию. Будут представлены применяемые модели и алгоритмы, а также опыт оптимизации пайплайна. Покажу, как сочетание алгоритмических эвристик и низкоуровневой инженерной оптимизации позволило существенно снизить латенси и обеспечить стабильную работу системы в production-среде.
Михаил Кузьмин
Senior ML Engineer
Sber
Как потребности Поиска, Рекламы и Алисы превращаются в общую бэкенд‑инфру Яндекса: от локальной боли к корпоративным стандартам. На примерах Перфоратора, YTsaurusFlow и runtime‑nodes покажу, как мы профилируем прод, строим стриминговые пайплайны и гибко конфигурируем рантайм-графы — и где здесь важнейшие челленджи.
Алексей Гусаков
СТО
БГ Поиск и Рекламные технологии
Алексей Мерсон
Backend Brand Director
Яндекс
Антон Полднев
Руководитель инфраструктуры
Яндекс Реклама
Сергей Скородумов
Руководитель отдела поисковых сервисов
Яндекс Поиск
Пётр Ермаков
ML Brand Director
Яндекс
Евгений Рейх
СТО монетизации
Яндекс Карты
Александр Минаков
Руководитель отдела инфраструктуры
Алиса и Умные устройства
Анастасия Черненкова
DevRel в Яндексе