Внимание: для доступа к курсам ITtensive на Udemy напишите,пожалуйста,на [email protected] с названием курса или группы курсов,которые хотите пройти.
Мы разберем 2 задачи с хакатонов 2020 года:
1. По выделению факторов,в наибольшей степени влияющих на продолжительность жизни в России,с точки зрения фундаментальных и прикладных подходов к понижению размерности данных. В заключении построим ансамбль моделей для предсказания продолжительности жизни,базируясь на выделенных факторах.
2. По прогнозу срока экспозиции объявлений с хакатона Яндекс.Недвижимости - решим ее с помощью методов кластеризации и поиска аномалий.
Курс разбит на 7 частей. Впервой части мы последовательно пройдем все этапы работы с данными:от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения,базовые метрики и наиболее простые модели - линейную регрессии,решающие деревья и случайный лес. Атакже ансамбли машинного обучения.
Во второй части на практике разберем:
Очистку и предобработку данных - ETL
Линейную регрессию для экстраполяции данных
Линейную регрессию с регуляризацией для выделения факторов
Информационные критерии понижения размерности
Взаключении создадим ансамбль стекинга из простых моделей понижения размерности.
Третья часть посвящена матричным методам:
Метод главных компонент (PCA)
Сингулярное разложение (SVD)
Анализ независимых компонент (ICA)
Положительно-определенные матрицы (NMF)
Уточним решение задачи обучения без учителя через матричные методы.
Вчетвертой части рассмотрим нелинейные подходы:
Стабилизируем ансамбль понижения размерности и используем его для предсказания продолжительности жизни в России,основываясь на наиболее важных макроэкономических показателях.
Пятая часть посвящена базовым моделям кластеризации:
Изучите внешние и внутренние метрики кластеризации.
Разберете модели К-средних и FOREL и потренируетесь в их применении.
Рассмотрите принципы работы агломеративной кластеризации и используете ее на практике.
Узнаете про расстояние Махаланобиса и работу GMM.
Вкачестве задания соберем простую модель кластеризации исходных данных.
Вшестой части перейдем к продвинутой кластеризации:
Погрузитесь в различия моделей DBSCAN, HDBSCAN и OPTICS.
Разберете особенности модели распространения близости.
Посмотрите на расширяющийся нейронный газ.
Запустите и обучите самоорганизующиеся карты Кохонена (SOM).
Столкнетесь с матрицей Кирхгофа и спектральной кластеризацией.
Исоберем ансамбль из несколько моделей кластеризации.
Взавершении:
Изучите поиск аномалий и метрику pAUC.
Используете тест Смирнова-Граббса на практике.
Потренируетесь в эллипсоидальной аппроксимации.
Разберете разницу между LOF и ABOD.
Обучите и используете модель COPOD.
Вырастите как iForest,как и расширенный лес изоляции.
Вфинале соберем свое решение задачи Хакатона 2020 года.