Real-time ML и потоковая обработка: как ускорить latency до миллисекунд?
2 часа вместе с Team Lead Yandex на практике учимся адаптировать ML модели к работе в real-time, оптимизировать признаки и инференс на примере современной стриминговой архитектуры
Все прекрасно в батч-режиме, но в стриминге — черная дыра ресурсов
Агрегации скользящих окон в Spark Streaming съедают всю память. Feature Store не успевает обновлять признаки для инференса. Данные в GPU поступают медленно или батчинг неэффективен. И все это из-за архитектурных провалов в стриминговых пайплайнах
В этом уроке разберем, как сделать модель по-настоящему real-time: спроектируем эффективную архитектуру стриминга, оптимизируем признаки и инференс с GPU, чтобы latency было в миллисекундах, а не минутах
Что будет на уроке
/1
Архитектура streaming-пайплайнов: Spark Streaming, Feature Store и Model Serving
/2
Оценка требований к real-time ML пайплайну: latency, масштабируемость, мониторинг
/3
Ключевые техники оптимизации: батчинг кэширование, GPU-ускорение
/4
Адаптация признаков и моделей к потоковой архитектуре: агрегации скользящих окон, quantization
Урок для Data Scientists, Classic ML и NLP-инженеров. Нужны базовые знания основ машинного обучения, математики и программирования. Ограничений по грейду нет
Архитектура streaming-пайплайнов: Spark Streaming, Feature Store и Model Serving
Оценка требований к real-time ML пайплайну: latency, масштабируемость, мониторинг
Ключевые техники оптимизации: батчинг кэширование, GPU-ускорение
Адаптация признаков и моделей к потоковой архитектуре: агрегации скользящих окон, quantization
В понедельник 27 октября в 19:00 по МСК. Запись будет для всех, кто зарегистрировался на урок