В этом уроке:
В данном видео автор разбирает проблему Minority Drift — тип смещения, при котором небольшие, но значимые подгруппы данных начинают вести себя иначе, чем в обучающей выборке, и модель теряет качество, хотя глобальные метрики могут этого не показывать. На наглядном примере демонстрируется, как даже небольшое изменение распределений признаков в редких сегментах может приводить к деградации.
Далее автор проходит по чек-листу отладки, объясняя, как искать drift в признаках, что стоит за их смещением и как отличать естественные изменения от проблем в данных. На примерах показывается, какие виды Minority Drift встречаются в промышленности, и как определить, какой именно проявился в кейсе.
Отдельный блок посвящен методам стабилизации — как уменьшать чувствительность модели к смещениям и какие техники помогают контролировать деградацию. Затем разбираются ключевые способы измерения устойчивости: PSI, KL-дивергенция и JSD. Автор показывает, как рассчитывать PSI, как интерпретировать значения, когда стоит реагировать и какие выводы можно сделать по кривой распределения. На практике демонстрируется применение этих методов к реальному кейсу, оценка потерь качества и финансовых последствий.
Также обсуждается, почему ROC-AUC может вводить в заблуждение и как правильно переводить метрики в деньги, чтобы оценивать риски. В завершающей части автор поднимает вопросы контроля качества, мониторинга ошибок и инцидентов в ML-системах, а также затрагивает важную тему fairness — как дрейф меньшинств влияет на справедливость и устойчивость моделей в продакшене.
Урок ведет Дмитрий Сафонов, который является Data Science Team Lead в Яндекс, где разрабатывает алгоритмы антифрода рекламы и руководит ML-командой. До этого Дмитрий cтроил прогнозные модели биржевых индикаторов, разработал инфраструктуру для автоматизации ML-процессов в Quantum Brains и преподавал анализ данных на Python в СПБГЭУ.
- 00:00 — Введение
- 03:55 — План лекции
- 05:35 — Постановка задачи
- 08:52 — Наглядный Minority drift
- 12:20 — Чеклист (bingo) дебага модели
- 15:00 — Как найти drift в признаках
- 16:15 — Что стоит за смещением в признаках
- 20:30 — Итоги кейса
- 21:30 — Что такое Minority Drift
- 22:08 — Виды Minority Drift
- 24:00 — Примеры Minority Drift
- 27:02 — Какой вид смещения был в кейсе
- 29:28 — Методы стабилизации признаков и моделей
- 30:50 — PSI (Population stability index)
- 34:12 — Расчет PSI
- 35:20 — Интерпретация PSI
- 41:00 — KL-дивергенция
- 42:45 — JSD — дивергенция Йенсена-Шеннона
- 45:55 — Применение методов к кейсу
- 49:48 — Оценка деградации моделей и финансовых потерь
- 54:00 — Почему ROC-AUC может обманывать
- 54:55 — Как переводить метрики в деньги
- 01:02:17 — Контроль качества
- 01:05:00 — Мониторинги и инциденты
- 01:06:35 — Fairness в ML
- 01:14:00 — Итоги урока
- 01:16:00 — Курс по Data Science для middle
В данном видео автор разбирает проблему Minority Drift — тип смещения, при котором небольшие, но значимые подгруппы данных начинают вести себя иначе, чем в обучающей выборке, и модель теряет качество, хотя глобальные метрики могут этого не показывать. На наглядном примере демонстрируется, как даже небольшое изменение распределений признаков в редких сегментах может приводить к деградации.
Далее автор проходит по чек-листу отладки, объясняя, как искать drift в признаках, что стоит за их смещением и как отличать естественные изменения от проблем в данных. На примерах показывается, какие виды Minority Drift встречаются в промышленности, и как определить, какой именно проявился в кейсе.
Отдельный блок посвящен методам стабилизации — как уменьшать чувствительность модели к смещениям и какие техники помогают контролировать деградацию. Затем разбираются ключевые способы измерения устойчивости: PSI, KL-дивергенция и JSD. Автор показывает, как рассчитывать PSI, как интерпретировать значения, когда стоит реагировать и какие выводы можно сделать по кривой распределения. На практике демонстрируется применение этих методов к реальному кейсу, оценка потерь качества и финансовых последствий.
Также обсуждается, почему ROC-AUC может вводить в заблуждение и как правильно переводить метрики в деньги, чтобы оценивать риски. В завершающей части автор поднимает вопросы контроля качества, мониторинга ошибок и инцидентов в ML-системах, а также затрагивает важную тему fairness — как дрейф меньшинств влияет на справедливость и устойчивость моделей в продакшене.
Урок ведет Дмитрий Сафонов, который является Data Science Team Lead в Яндекс, где разрабатывает алгоритмы антифрода рекламы и руководит ML-командой. До этого Дмитрий cтроил прогнозные модели биржевых индикаторов, разработал инфраструктуру для автоматизации ML-процессов в Quantum Brains и преподавал анализ данных на Python в СПБГЭУ.