хватайте -30% на все до 30 ноября
Открытые уроки

Minority Drift

В этом уроке:
  • 00:00 — Введение
  • 03:55 — План лекции
  • 05:35 — Постановка задачи
  • 08:52 — Наглядный Minority drift
  • 12:20 — Чеклист (bingo) дебага модели
  • 15:00 — Как найти drift в признаках
  • 16:15 — Что стоит за смещением в признаках
  • 20:30 — Итоги кейса
  • 21:30 — Что такое Minority Drift
  • 22:08 — Виды Minority Drift
  • 24:00 — Примеры Minority Drift
  • 27:02 — Какой вид смещения был в кейсе
  • 29:28 — Методы стабилизации признаков и моделей
  • 30:50 — PSI (Population stability index)
  • 34:12 — Расчет PSI
  • 35:20 — Интерпретация PSI
  • 41:00 — KL-дивергенция
  • 42:45 — JSD — дивергенция Йенсена-Шеннона
  • 45:55 — Применение методов к кейсу
  • 49:48 — Оценка деградации моделей и финансовых потерь
  • 54:00 — Почему ROC-AUC может обманывать
  • 54:55 — Как переводить метрики в деньги
  • 01:02:17 — Контроль качества
  • 01:05:00 — Мониторинги и инциденты
  • 01:06:35 — Fairness в ML
  • 01:14:00 — Итоги урока
  • 01:16:00 — Курс по Data Science для middle

В данном видео автор разбирает проблему Minority Drift — тип смещения, при котором небольшие, но значимые подгруппы данных начинают вести себя иначе, чем в обучающей выборке, и модель теряет качество, хотя глобальные метрики могут этого не показывать. На наглядном примере демонстрируется, как даже небольшое изменение распределений признаков в редких сегментах может приводить к деградации.

Далее автор проходит по чек-листу отладки, объясняя, как искать drift в признаках, что стоит за их смещением и как отличать естественные изменения от проблем в данных. На примерах показывается, какие виды Minority Drift встречаются в промышленности, и как определить, какой именно проявился в кейсе.

Отдельный блок посвящен методам стабилизации — как уменьшать чувствительность модели к смещениям и какие техники помогают контролировать деградацию. Затем разбираются ключевые способы измерения устойчивости: PSI, KL-дивергенция и JSD. Автор показывает, как рассчитывать PSI, как интерпретировать значения, когда стоит реагировать и какие выводы можно сделать по кривой распределения. На практике демонстрируется применение этих методов к реальному кейсу, оценка потерь качества и финансовых последствий.

Также обсуждается, почему ROC-AUC может вводить в заблуждение и как правильно переводить метрики в деньги, чтобы оценивать риски. В завершающей части автор поднимает вопросы контроля качества, мониторинга ошибок и инцидентов в ML-системах, а также затрагивает важную тему fairness — как дрейф меньшинств влияет на справедливость и устойчивость моделей в продакшене.

Урок ведет Дмитрий Сафонов, который является Data Science Team Lead в Яндекс, где разрабатывает алгоритмы антифрода рекламы и руководит ML-командой. До этого Дмитрий cтроил прогнозные модели биржевых индикаторов, разработал инфраструктуру для автоматизации ML-процессов в Quantum Brains и преподавал анализ данных на Python в СПБГЭУ.
Data Science