Data Science Team Lead в Яндекс

Дмитрий Сафонов

01.12.2025

AutoML: что это, где использовать и как

Практическая статья с примерами реализации на Python

Содержание:

Что такое AutoML
История и развитие AutoML
AutoML в действии: прогноз цен на жильё за 3 минуты
AutoML vs ручной подход и LLM на шумных данных сенсоров
Плюсы и минусы
Заключение: когда и зачем использовать AutoML

Что если часть вашей работы можно было бы делегировать — не коллеге, а алгоритму? Современный дата-сайентист часто напоминает архитектора, который сам кладёт кирпичи вместо того, чтобы проектировать здание. Подбор моделей, настройка гиперпараметров, борьба с выбросами — вся эта рутина отнимает часы, а иногда и дни.

AutoML (Automated Machine Learning) обещает взять на себя скучную часть работы — и вернуть специалисту время для стратегических задач: анализа, интерпретации и внедрения решений. Но может ли автоматизация заменить экспертизу? Где проходит граница между «умным помощником» и риском потерять контроль над процессом?

Мы не просто разберём плюсы и минусы AutoML, а проверим его в действии — на чистом датасете и на реальных «грязных» данных NASA. Наша цель — показать, когда стоит довериться автоматике, а когда без человеческого опыта не обойтись.

Автор — дмитрий сафонов, data science team lead в яндекс

разрабатывает алгоритмы антифрода рекламы, руководит ML-командой

Яндекс

cтроил прогнозные модели биржевых индикаторов, разработал инфраструктуру для автоматизации ML-процессов

Quantum Brains

преподавал анализ данных на Python

СПБГЭУ

Содержание

1. Что такое AutoML

2. История и развитие AutoML

5. Плюсы и минусы

3. AutoML в действии: прог...

4. AutoML vs ручной подход...

6. Заключение

1. Что такое AutoML?

AutoML (Automated Machine Learning) — это набор инструментов и подходов, которые автоматизируют задачи, обычно выполняемые дата-сайентистом вручную:

предобработка данных,
создание и трансформация признаков,
выбор архитектуры модели,
подбор гиперпараметров,
оценка и сравнение моделей,
построение ансамблей.

Задача AutoML не в том, чтобы заменить специалиста. Он действует как надёжный ассистент, который берёт на себя повторяющиеся операции и ускоряет процесс разработки моделей без потери качества.

Благодаря этому у эксперта остается больше времени на то, что по-настоящему требует человеческого мышления — формулировку задач, понимание бизнес-контекста и интерпретацию результатов.

2. История и развитие AutoML

AutoML — не вчерашнее изобретение. Его история показывает путь от нишевых экспериментов до становления полноценной индустрией.

Ключевые вехи:

2015–2017

Появляются первые инструменты, такие как TPOT (на основе генетических алгоритмов) и Auto-sklearn, который расширил возможности scikit-learn автоматическим подбором моделей и гиперпараметров

2018

Google запускает Cloud AutoML, открыв путь для бизнес-пользователей, которые хотят строить модели без глубоких знаний машинного обучения

2019–2020

На сцену выходят H2O AutoML и AutoGluon (от Amazon) — мощные open-source решения, способные обучать модели на табличных данных буквально в несколько строк кода

2021–2023

Эра расширения. AutoML выходит за рамки табличных задач и начинает работать с изображениями, текстами и временными рядами. Появляются AutoXGBoost, FLAML, MLJAR

2024–2025

Технология становится частью MLOps-инфраструктуры. AutoML теперь не просто обучает модели, но и контролирует интерпретируемость, мониторинг и интеграцию с LLM-ассистентами

Сегодня AutoML — зрелая технология, которой пользуются как исследователи, так и инженеры в крупных компаниях. Она перестала быть «чёрным ящиком» и всё больше превращается в прозрачного, управляемого помощника, ускоряющего эксперименты и вывод моделей в продакшн.

3. AutoML в действии: прогноз цен на жильё за 3 минуты

Пора проверить AutoML в деле. Для начала возьмем классический датасет — California Housing. В нем собраны данные о районах Калифорнии: средний доход, количество комнат, население, координаты и медианная стоимость жилья. Задача проста: предсказать цену дома по признакам района.

Мы используем AutoGluon — одно из самых сильных open-source решений. Цель — получить качественную модель максимально быстро, без ручной настройки.

Инструмент: AutoGluon
Условия: лимит обучения – 3 минуты, акцент на максимальное качество

Установка и подготовка данных

Подключаем необходимые библиотеки и загрузим данные. Весь процесс занимает пару строк кода:

bash

pip install autogluon pandas scikit-learn

python

from autogluon.tabular import TabularDataset, TabularPredictor
from sklearn.datasets import fetch_california_housing
import pandas as pd

# Загружаем данные
california = fetch_california_housing(as_frame=True)
california_housing = california.frame  # DataFrame с 20k+ строк, 8 признаков + target

Далее — загрузим данные через AutoGluon, разделим их на train/test и обучим модель. Все этапы — от предобработки до построения ансамбля — выполняются автоматически

python

# Загружаем через AutoGluon
data = TabularDataset(california_housing)

# Разделяем на train/test
train_data, test_data = data.iloc[:-2000], data.iloc[-2000:]

# Обучаем модель (всё автоматически: предобработка, подбор, ансамбль)
predictor = TabularPredictor(label='MedHouseVal').fit(
    train_data,
    time_limit=180,           # 3 минуты
    presets='best_quality'    # Качество важнее скорости
)

# Оценка на тесте
results = predictor.evaluate(test_data)
print(f"RMSE: {results[root_mean_squared_error]:.3f}")
print(f"R²: {results['r2']:.3f}")

# Предсказания
predictions = predictor.predict(test_data)

Результаты

Для модели, обученной всего за 3 минуты, результаты впечатляют:

R² (на тесте)

0.843 ± 0.005

Высокое качество объяснения дисперсии

RMSE

0.341 ± 0.003

Средняя ошибка — в пределах нормы

MAE

0.202

Средняя абсолютная ошибка ≈ $202,000

Лучшая модель

WeightedEnsemble (стекинг LightGBM, XGBoost, CatBoost)

AutoGluon автоматически построил ансамбль

Время обучения

2 мин 55 сек

Уложился в лимит

Предобработка

Автоматическая: нормализация, обработка выбросов, валидация

Без ручного вмешательства

AutoML показывает отличные результаты на чистых данных. Он способен за несколько минут построить модель уровня опытного специалиста — и это делает его идеальным инструментом для прототипов и MVP

Для опытных дата-сайентистов AutoML полезен и как быстрый бейзлайн: за считанные минуты можно получить рабочую модель и понять, стоит ли тратить время на глубокую ручную настройку. Это ускоряет цикл экспериментов и помогает быстрее находить promising-направления.

4. AutoML vs ручной подход и LLM на шумных данных сенсоров

На чистом датасете AutoML показал себя отлично. Но мир машинного обучения редко бывает «чистым». В реальных задачах данные полны шумов, выбросов и временных зависимостей. Проверим, как AutoML справится там, где даже опытным специалистам приходится быть внимательными к каждой детали.

Для эксперимента возьмём промышленный кейс — NASA Turbofan Engine Degradation Simulation. Это классический датасет для задач predictive maintenance, где нужно предсказать оставшийся ресурс работы двигателя (RUL — Remaining Useful Life).

Что внутри датасета

260 экспериментов, где каждый — это запуск двигателя до отказа.
Каждый эксперимент — временной ряд длиной от 10 до 380 циклов.
26 признаков

Среди признаков:

3 операционных режима (условия полёта),
21 сенсор (температура, давление, вибрации и т. д.),
2 технических параметра (износ, настройки)

Именно такие данные часто встречаются в промышленности и исследованиях — с шумами, выбросами и непредсказуемыми дрейфами сенсоров.

Цель — классифицировать состояние двигателя:
«Критический износ» (≤ 30 циклов до отказа) vs «Нормальная работа».

Сложности задачи

1. Временные ряды с шумом и дрейфом сенсоров

2. Высокий риск утечки времени (data leakage), если признаки создаются неаккуратно

3. Наличие признаков, напрямую связанных с целевым (например, time_in_cycles), которые нужно удалить

Сравнение подходов

Мы проверили четыре сценария:

Ручной подход — фичеринговый baseline с осмысленным выбором признаков.
AutoML — обучение «из коробки» без дополнительной обработки.
AutoML + ручной фичеринг — комбинированный вариант.
LLM + ручной — добавляем генеративные подсказки для идей по фичам.

1. Ручной подход

Вручную мы построили признаки, отражающие поведение сенсоров во времени: скользящие средние, тренды, разности, стандартные отклонения, минимумы и максимумы. Для каждого сенсора рассчитали mean, std, min, max, slope, diffs на окне в 30 циклов.

Учитывали дисбаланс классов и выбросы.

Результат: ROC-AUC 0.83: модель уверенно различает стадии износа.

2. AutoML «из коробки»

AutoML (в нашем случае AutoGluon) обучался на сырых данных — без feature engineering. Он сам обработал пропуски и выбросы, построил ансамбль из бустингов и нормализовал данные.

Качество оказалось ниже, но всё ещё приемлемым: ROC-AUC 0.75.

Результат: ROC-AUC 0.83: модель уверенно различает стадии износа.

3. AutoML + ручной фичеринг

Когда мы подали в AutoML те же признаки, как и в ручном решении, качество стало сопоставимым — ROC-AUC 0.85. Здесь AutoML выступил как ускоритель: он не создаёт сложные фичи, но отлично оптимизирует и ансамблирует модели.

4. LLM + ручной

Добавили в процесс LLM, чтобы получать идеи по генерации признаков.
Модель предлагала варианты вроде EWMA (экспоненциальное сглаживание), нормализацию по режимам, калибровку вероятностей.

Некоторые идеи действительно помогли — ускорили прототипирование и повысили метрику. Но часть решений оказалась ошибочной: LLM не учитывал временные зависимости и «подглядывал в будущее».

Пример: где LLM ошибся

df['sensor_1_rolling_mean'] = (
    df.groupby('unit_id')['sensor_1']
      .rolling(window=30, center=True)
      .mean()
      .reset_index(level=0, drop=True)
)

Проблема: параметр center=True создаёт утечку времени — окно включает значения из будущего.

Правильный вариант — center=False, чтобы использовать только прошлые наблюдения.

Когда вы работаете с сотнями признаков и сотнями двигателей, даже одна утечка может полностью исказить оценку модели. LLM даёт быстрые гипотезы, но без контроля эксперта они могут привести к неверным выводам.

Результаты сравнения

AutoML

0.75

5 мин

Нет

Низкая

Ручной

0.83

2 ч

Нет

Высокая

Ручной + AutoML

0.85

1.5 ч

Нет

Высокая

LLM + ручной

0.85

1.5 ч

Да

Высокая

Вывод

AutoML без ручного фичеринга часто проигрывает хорошо продуманному решению. Но стоит добавить качественные признаки — и он быстро догоняет, а иногда и превосходит baseline за счёт стекинга и тюнинга.

LLM полезен как источник идей, но требует критической проверки. Он может ускорить процесс, но не способен отличить корректный признак от утечки данных.

5. Плюсы и минусы

Основные плюсы AutoML

Скорость. Строит хороший бейзлайн за минуты, а не дни. Идеально для MVP и прототипов.
Доступность. Позволяет использовать ML без глубоких знаний — аналитикам, инженерам, бизнес-пользователям.
Качество «из коробки». Часто достигает уровня, сопоставимого с ручной настройкой, за счёт ансамблей и оптимизации.
Автоматизация рутины. Сам обрабатывает пропуски, кодирует признаки, подбирает модели и гиперпараметры.
Масштабируемость. Легко запускать большое количество моделей под разные сегменты (например, по оборудованию, регионам, клиентам).

Основные минусы AutoML

Сложно интерпретировать решения модели — критично в регулируемых отраслях (финансы, медицина).
Не проверяет каузальность признаков, поэтому возможны утечки времени. Может построить модель, которая «подглядывает в будущее».
Ограниченная гибкость. Нельзя легко добавить кастомную логику, loss-функцию или бизнес-правила.
Зависимость от качества данных. Если данные с семантическими пропусками, выбросами или смещениями — AutoML может усилить ошибки.
Не может заменить опытного дата-сайентиста. Не задаёт правильные вопросы, не понимает контекст, не объясняет бизнесу, почему модель работает.

Заключение: когда и зачем использовать AutoML

AutoML — это не замена дата-сайентисту, а мощный множитель его эффективности. Он идеален там, где нужно быстро проверить гипотезу, создать прототип или автоматизировать рутинные операции на относительно чистых данных.

На сложных, зашумленных данных с высокими требованиями к надёжности и интерпретируемости ключевую роль играет эксперт. Именно он должен ставить задачу, проводить feature engineering, контролировать отсутствие утечек и интерпретировать результат.

Финальная рекомендация: используйте AutoML как высокоскоростного junior-инженера, который отлично выполняет четкие инструкции. Но никогда не забывайте, что стратегическое мышление, критическая проверка и ответственность за результат остаются за вами.

Лучшая модель — не та, у которой самый высокий AUC на тесте, а та, которую вы понимаете и которая реально работает в продакшене.

бесплатные уроки по data science

курс по Data Science для middle: senior-навыки за 6 недель

Best practices по внедрению моделей в продакшн на примере реальных задач из BigTech. Без «красивых» ML и базовых методов — только грязные данные, real-time ML и ежедневные проблемы DS на работе

Смотреть программу

AutoML: что это, где использовать и как

Автор — дмитрий сафонов, data science team lead в яндекс

Содержание

1. Что такое AutoML?

2. История и развитие AutoML

Ключевые вехи:

3. AutoML в действии: прогноз цен на жильё за 3 минуты

Установка и подготовка данных

Результаты

4. AutoML vs ручной подход и LLM на шумных данных сенсоров

Что внутри датасета

Сложности задачи

Сравнение подходов

Результаты сравнения

Вывод

5. Плюсы и минусы

Основные плюсы AutoML

Основные минусы AutoML

Заключение: когда и зачем использовать AutoML

бесплатные уроки по data science

курс по Data Science для middle: senior-навыки за 6 недель

курс по Data Science для middle: senior-навыки за 6 недель