я про бэкенд

Современную цифровую экосистему невозможно построить без рекомендательных и генеративных технологий. Каждый первый сервис предлагает персональные подборки, «умный» поиск и генерацию контента. В основе таких сервисов лежит ML, но его развитие меняет разработку на серверной стороне.

Бэкенд эпохи рекомендаций и генеративного ИИ — это уже не просто пачка API и БД, а сложнейшая ML‑инфраструктура с новыми вызовами для инженеров. Масштабирование под высокую нагрузку, оптимизацию использования железа, уменьшение задержки и повышение отказоустойчивости — всё это приходится придумывать заново с приходом на бэк нейросеток и GPU.

Если вы занимаетесь разработкой таких систем или только смотрите в эту сторону — мы создали эту конференцию для вас. Приходите послушать и пообщаться с ведущими экспертами ПРО БЭКЕНД.

Программа

11:00–12:00

Регистрация, сбор участников

12:00–12:15

От локальных задач к общим технологиям

Алексей Гусаков

СТО

БГ Поиск и Рекламные технологии

12:30–13:15

Как рекомендательный движок ежегодно экономит 200 тыс. CPU в инфраструктуре Рекламы

Антон Полднев

Руководитель инфраструктуры

Яндекс Реклама

Архитектура бэкенда
для ML-моделей

Алёна Васильева

Руководитель разработки

Шедеврум

13:15–13:55

Подбор инфраструктуры для LLM

Антон Алексеев

MLOps-инженер

Avito

Чтение с реплик в распределённых системах: опыт YDB

Александр Зевайкин

Руководитель разработки

YDB

14:00–14:40

Эволюция рекомендательного движка и перезапуск рекомендаций ВКонтакте

Дмитрий Погорелов

Руководитель отдела бэкенда рекомендаций

Инструменты удаленной помощи автономному транспорту

Дмитрий Плещеев

Руководитель службы разработки внутренних сервисов

Автономный транспорт

14:40–15:20

Кофе-брейк

15:20–15:50

LLM Inside: выжимаем максимум из decoder attention на GPU

Андрей Шукшов

Старший разработчик, Команда оптимизаций инференса

Яндекс R&D

Как мы вынесли рекламу в офлайн и что из этого вышло

Юрий Журихин

Руководитель разработки Наружной рекламы

Яндекс Реклама

15:55–16:25

AI Агенты — как мы сделали DeepResearch по интранету и кодовой базе

Сергей Скородумов

Руководитель отдела поисковых сервисов

Яндекс Поиск

От прототипа к продакшену: оптимизация runtime в задаче разделения речи (Speaker Diarization)

Михаил Кузьмин

Senior ML Engineer

Sber

16:25–17:00

Кофе-брейк

17:00–17:40

Эволюция технологий real-time индексации

Никита Сикалов

Руководитель группы Базового поиска

Яндекс Поиск

Tool calling в диалоговой системе Алисы

Роман Жиганов

Руководитель группы разработки AI-агентов Алисы

Алиса и Умные устройства

17:45–18:25

Кост-модель LLM: иллюзия простоты

Михаил Чебаков

Руководитель разработки инструментальных ML платформ

Т‑Банк

18:30–18:40

Закрытие конференции в главном зале

18:45–20:00

2718 — Разработчик из Яндекса решает сложную архитектурную задачу от внешнего участника

18:40–22:00

Нетворкинг

Архитектура бэкенда для ML-моделей

Качественный бэкенд жизненно необходим для интеграции ML в продукты. При этом важно эффективно использовать GPU.

Порассуждаем о том, как работать с долгим инференсом ML-моделей: синхронно или асинхронно. Сравним поллинги, SSE и веб сокеты. Подумаем, нужны ли бэкенду вокруг ML очереди и как можно их использовать с сайдкарами. Поделюсь опытом Шедеврума в области экономии GPU.

Алёна Васильева

Руководитель разработки

Шедеврум

Эволюция технологий real-time индексации

В докладе расскажем как исторически в Яндекс Поиске развивалась real-time индексация.

В последние несколько лет мы активно мигрируем индексацию со старых всем известных batch технологий на real-time. Мы уже смогли построить распределенную масштабируемую конструкцию на десятки терабайт, в которой обновления под поисковой трафик выезжают за минуты. Сейчас мы занимаемся тем, что переводим большую поисковую базу на несколько петабайт на эти же технологии. Расскажу с какими сложностями сталкивается наша команда и как мы их решаем в большом поисковом бекенде.

Никита Сикалов

Руководитель группы Базового поиска

Яндекс Поиск

Кост-модель LLM: иллюзия простоты

LLM повсюду, но мало кто умеет их считать. А без правильной кост-модели невозможно масштабироваться или еще хуже — можно потратить миллионы на токены, которые были не нужны. Михаил расскажет, какие инженерные сложности и компромиссы стоят за тем, чтобы спрятать всю сложность инференса LLM за простыми и понятными числами. Поделится опытом, как сделать измеримым то, что по природе своей сложно и не всегда предсказуемо.

Михаил Чебаков

Руководитель разработки инструментальных ML платформ

Т‑Банк

LLM Inside: выжимаем максимум из decoder attention на GPU

В докладе поговорим про архитектуру современных GPU и о том, как выжать из них максимум производительности при реализации одного из ключевых примитивов LLM — attention, его декодерной версии.

Доклад будет полезен разработчикам, которые уже пробовали писать что-то на CUDA, но хотели бы детальнее разобраться, как устроена GPU и что происходит внутри LLM.

Андрей Шукшов

Старший разработчик, Команда оптимизаций инференса

Яндекс R&D

Эволюция рекомендательного движка и перезапуск рекомендаций ВКонтакте

В этом докладе расскажем, как развивалась архитектура рекомендательного движка VK, какие архитектурные решения оказались удачными, а какие — нет, как мы переработали шардирование и адаптировали систему под рост нагрузки. Поделимся опытом перезапуска ленты во ВКонтакте на новом движке и тем, как это помогло добиться заметного роста пользовательских метрик.

Дмитрий Погорелов

Руководитель отдела бэкенда рекомендаций

VK

Как рекомендательный движок ежегодно экономит 200 тыс. CPU в инфраструктуре Рекламы

Рекомендательный движок — сердце рекламной системы Яндекса. Он обслуживает более миллиона запросов в секунду, каждый из которых может принести деньги. Перестроив архитектуру, мы добились ежегодной экономии 200 тыс. CPU — примерно четверти всего объёма. Этот путь дал нам чёткое понимание, как строить современные и эффективные поисково-рекомендательные системы.

Я расскажу нашу историю и поделюсь конкретными решениями, которые можно применять для оптимизации похожих бэкендов — от хаков на стыке с GPU до универсальных и элегантных улучшений балансировки. Помимо этого, сделаю небольшой обзор актуальных трендов в развитии инфраструктуры рекомендаций — без интеграции этих решений в ближайшем будущем невозможен существенный рост эффективности.

Антон Полднев

Руководитель инфраструктуры

Яндекс Реклама

AI Агенты — Как мы сделали DeepResearch по интранету и кодовой базе

AI Агенты сегодня повсюду, а одна из самых важных проблем, которую они уже решают — поиск ответов на очень сложные вопросы. Уже сейчас DeepResearch от Perplexity, OpenAI и Gemini могут найти информации в открытом интернете, проведя много итераций поиска и чтения страниц. Но что делать с вашей внутренней документацией и кодом? Расскажу как мы, в Яндексе, сделали DeepResearch по нашей внутренней информации, и даже научили его читать и понимать наш код.

Сергей Скородумов

Руководитель отдела поисковых сервисов

Яндекс Поиск

Чтение с реплик в распределённых системах: опыт YDB

В распределённых системах важно обеспечивать высокую производительность и доступность при работе с большими объёмами данных. В YDB реализовано чтение с реплик — механизм, позволяющий выполнять запросы к копиям данных с допустимым уровнем устаревания, что снижает задержки, повышает пропускную способность и устойчивость системы, а также особенно эффективно при работе в многодатацентровых окружениях и под высокой нагрузкой. В докладе мы рассмотрим архитектурные решения и практический опыт использования чтения с реплик в YDB.

Александр Зевайкин

Руководитель разработки

YDB

Как мы вынесли рекламу в офлайн и что из этого вышло

Доклад посвящен решениям в области digital офлайн-рекламы (Digital Out Of Home).

Будут рассмотрены методы определения аудитории вблизи физических рекламных экранов, алгоритмы отслеживания видимости рекламы на движущихся носителях и способы переосмысления традиционных методов оценки эффективности наружной рекламы. Особое внимание уделим проблемам удалённого мониторинга и обслуживания физических рекламных экранов.

Юрий Журихин

Руководитель разработки Наружной рекламы

Яндекс Реклама

Tool calling в диалоговой системе Алисы

Как мы первыми в мире внедрили подход function calling в голосового ассистента на умных устройствах. Расскажу о том, как прежде была устроена Алиса, как был устроен бэкенд, что изменилось и про недостатки старого стека.Почему мы поставили перед собой задачу понимать пользователя лучше и как это измеряем.

Роман Жиганов

Руководитель группы разработки AI-агентов Алисы

Алиса и Умные устройства

Инструменты удаленной помощи автономному транспорту

Доклад посвящен инструментам и сервисам, которые мы делаем для экосистемы автономного транспорта. Поговорим о непосредственном управлении юнитами для устранения проблем при их эксплуатации в реальной среде, например, в условиях плохой связи. Обсудим, как мы строим для этого инструменты и сервисы, какие проблемы перед нами возникают, и как мы их решаем.

Дмитрий Плещеев

Руководитель службы разработки внутренних сервисов

Автономный транспорт

Как приручить LLM: подбор инфраструктуры для инференса

Когда заказчик приходит с запросом «Разверните мне Qwen», невольно задаёшься вопросом — а какая инфраструктура нужна для такой задачи? А если запрос становится более конкретным — «Разверните Qwen так, чтобы держать 10 RPS с задержкой до 5 секунд», то можно и вовсе растеряться: как подобрать конфигурацию под такие требования? В своём докладе я разберу, как отвечаю на такие вопросы. Расскажу, какие инструменты помогают быстро подобрать оптимальную инфраструктуру, как тестировать производительность инференса и автоматизировать процесс. Покажу, как пройти путь от ручных запусков примеров моделей до автоматизированного анализа работы фреймворков на GPU с подбором оптимальной конфигурации.

Антон Алексеев

MLOps-инженер

Avito

От прототипа к продакшену: оптимизация runtime в задаче разделения речи (Speaker Diarization)

В докладе подробно рассмотрю процесс разработки и интеграции пайплайна Speaker Diarization в систему распознавания речи: от постановки задачи до внедрения решения в промышленную эксплуатацию. Будут представлены применяемые модели и алгоритмы, а также опыт оптимизации пайплайна. Покажу, как сочетание алгоритмических эвристик и низкоуровневой инженерной оптимизации позволило существенно снизить латенси и обеспечить стабильную работу системы в production-среде.

Михаил Кузьмин

Senior ML Engineer

Sber

От локальных задач к общим технологиям

Как потребности Поиска, Рекламы и Алисы превращаются в общую бэкенд‑инфру Яндекса: от локальной боли к корпоративным стандартам. На примерах Перфоратора, YTsaurusFlow и runtime‑nodes покажу, как мы профилируем прод, строим стриминговые пайплайны и гибко конфигурируем рантайм-графы — и где здесь важнейшие челленджи.

Алексей Гусаков

СТО

БГ Поиск и Рекламные технологии

Программный комитет

Алексей Мерсон

Backend Brand Director

Яндекс

Антон Полднев

Руководитель инфраструктуры

Яндекс Реклама

Сергей Скородумов

Руководитель отдела поисковых сервисов

Яндекс Поиск

Пётр Ермаков

ML Brand Director

Яндекс

Евгений Рейх

СТО монетизации

Яндекс Карты

Александр Минаков

Руководитель отдела инфраструктуры

Алиса и Умные устройства

Анастасия Черненкова

DevRel в Яндексе

Место проведения

г. Москва, ул. Ленинская Слобода, 26, стр. 35 м. Автозаводская

LOFT HALL # 1

Открыть в картах

FAQ

Я прошёл регистрацию, когда ждать решение по моей заявке?

До скольки будет регистрация офлайн участников на площадке 4 октября?

Сколько стоят билеты?

Что потребуется в день мероприятия при регистрации?

Регистрация участников проходит по спискам, а также документам, удостоверяющим личность. Возьмите с собой паспорт или водительское удостоверение, а также билет, который был отправлен вместе с приглашением. Билет распечатывать необязательно, достаточно показать его на телефоне. Рабочий пропуск, бейджи и визитные карточки не являются документами.

Можно ли прийти на конференцию с коллегой?

Можно ли передать свою регистрацию другому человеку?

Могу ли я приехать из другого города?

Будет ли онлайн-трансляция?

Будут ли доступны записи выступлений и презентации спикеров?

Есть ли возрастные ограничения?