Minority Drift в ML — обнаружение, стабилизация и оценка рисков

В этом уроке:

00:00 — Введение
03:55 — План лекции
05:35 — Постановка задачи
08:52 — Наглядный Minority drift
12:20 — Чеклист (bingo) дебага модели
15:00 — Как найти drift в признаках
16:15 — Что стоит за смещением в признаках
20:30 — Итоги кейса
21:30 — Что такое Minority Drift
22:08 — Виды Minority Drift
24:00 — Примеры Minority Drift
27:02 — Какой вид смещения был в кейсе
29:28 — Методы стабилизации признаков и моделей
30:50 — PSI (Population stability index)
34:12 — Расчет PSI
35:20 — Интерпретация PSI
41:00 — KL-дивергенция
42:45 — JSD — дивергенция Йенсена-Шеннона
45:55 — Применение методов к кейсу
49:48 — Оценка деградации моделей и финансовых потерь
54:00 — Почему ROC-AUC может обманывать
54:55 — Как переводить метрики в деньги
01:02:17 — Контроль качества
01:05:00 — Мониторинги и инциденты
01:06:35 — Fairness в ML
01:14:00 — Итоги урока
01:16:00 — Курс по Data Science для middle

В данном видео автор разбирает проблему Minority Drift — тип смещения, при котором небольшие, но значимые подгруппы данных начинают вести себя иначе, чем в обучающей выборке, и модель теряет качество, хотя глобальные метрики могут этого не показывать. На наглядном примере демонстрируется, как даже небольшое изменение распределений признаков в редких сегментах может приводить к деградации.

Далее автор проходит по чек-листу отладки, объясняя, как искать drift в признаках, что стоит за их смещением и как отличать естественные изменения от проблем в данных. На примерах показывается, какие виды Minority Drift встречаются в промышленности, и как определить, какой именно проявился в кейсе.

Отдельный блок посвящен методам стабилизации — как уменьшать чувствительность модели к смещениям и какие техники помогают контролировать деградацию. Затем разбираются ключевые способы измерения устойчивости: PSI, KL-дивергенция и JSD. Автор показывает, как рассчитывать PSI, как интерпретировать значения, когда стоит реагировать и какие выводы можно сделать по кривой распределения. На практике демонстрируется применение этих методов к реальному кейсу, оценка потерь качества и финансовых последствий.

Также обсуждается, почему ROC-AUC может вводить в заблуждение и как правильно переводить метрики в деньги, чтобы оценивать риски. В завершающей части автор поднимает вопросы контроля качества, мониторинга ошибок и инцидентов в ML-системах, а также затрагивает важную тему fairness — как дрейф меньшинств влияет на справедливость и устойчивость моделей в продакшене.

Урок ведет Дмитрий Сафонов, который является Data Science Team Lead в Яндекс, где разрабатывает алгоритмы антифрода рекламы и руководит ML-командой. До этого Дмитрий cтроил прогнозные модели биржевых индикаторов, разработал инфраструктуру для автоматизации ML-процессов в Quantum Brains и преподавал анализ данных на Python в СПБГЭУ.