Real-time Machine Learning и потоковая обработка

В этом видео:
03:00 - План лекции
05:35 - Что такое Real-time ML?
11:45 - Требования к Latency в ML задачах
21:05 - Batch, Streaming, Hybrid подходы к обработке данных
25:00 - Кейс ML System Design - проектирование stream-пайплайна
45:10 - Основные компоненты stream пайплайнов
49:02 - Lambda, Kappa, Microservices архитектуры
01:01:00 - Задержки в ML за счёт инфраструктуры
01:04:00 - Задержки в ML за счёт моделей и признаков
01:16:00 - Адаптация признаков к stream архитектуре
01:28:00 - Адаптация моделей к потоковой архитектуре
01:30:00 - Выбор оптимального размера Batch
01:32:00 - Способы ускорения инференса
01:36:00 - GPU ускорение и виды компиляции
01:40:44 - Курс по Data Science

В бесплатном уроке подробно разберем концепцию Real-time Machine Learning - применение ML-моделей в сценариях, где данные обрабатываются и модели делают предсказания в режиме низкой задержки.

Начинается урок с объяснения, что такое real-time ML и почему это важно для современных систем.

Далее обсуждаются требования к latency в ML-задачах: какие уровни задержки приемлемы, от чего они зависят, и какие последствия для системных архитектур возникают, если латентность слишком велика.

Затем автор видео рассказывает про 3 ключевых подхода к обработке данных: batch, streaming и hybrid. В уроке объясняется, чем они отличаются, какие плюсы и минусы у каждого, в каких случаях стоит применять один подход вместо другого.

На примере кейса из ML System Design в уроке разбирается, как строить stream-пайплайн, а именно: как проектируется такой поток, как организовать подачу и обработку данных, а также как обеспечить стабильную работу системы для real-time предсказаний.

Далее автор расскажет про основные компоненты стримингового пайплайна - источники данных, буферы, обработчики, хранилища и серверы инференса. Автор урока также объясняет стандартные архитектурные шаблоны: Lambda, Kappa и архитектуру на основе микросервисов, их отличия и когда что уместно использовать.

После этого в уроке подробно рассматриваются источники задержек в ML-системах: сначала из-за инфраструктуры (сеть, кластер, распределенные ресурсы), затем - из-за самих моделей и признаков (время обработки, сложность модели, фичи).

Далее лекция переходит к адаптации признаков и моделей под потоковую архитектуру: как подготовить признаки в реальном времени, как адаптировать модель, чтобы она могла работать на потоке, а не только в batch-режиме.

Очень важная часть - выбор оптимального размера batch для гибридных систем: как балансировать размер батча, чтобы минимизировать задержку, но при этом эффективно использовать ресурсы. Также обсуждаются способы ускорения инференса, включая GPU-ускорение и разные подходы к компиляции моделей для повышения производительности.

Автор данного урока - Дмитрий Сафонов, Data Science Team Lead в Яндекс, где он разрабатывает алгоритмы антифрода рекламы, руководит ML-командой.

В нашей школе вы можете пройти курс по Data Science для Middle, где в течение 6 недель рассматриваем практические подходы к выводу ML-моделей в промышленную эксплуатацию на основе реальных кейсов из BigTech. Никакого «показательного» машинного обучения и элементарных техник - только работа с неидеальными данными, real-time решениями и повседневными вызовами, с которыми сталкиваются специалисты по Data Science в реальных проектах.

Real-time ML и потоковая обработка