Video description
课程简介
6小时以上的视频教学
通过scikit-learn中包含的大量示例代码来学习现代机器学习中的主要概念和技术
“通过课程中的Jupyter Notebook的代码,很好地介绍和概述了scikit-learn库中的API。这非常适合掌握数据科学过程中使用到的技术,提纲挈领。” 5星/5星。
--mazurkrzysztofk,O'Reilly在线学习评论员
Overview
概述
Machine Learning with scikit-learn LiveLessons 是scikit-learn库的指南,该库提供了广泛的机器学习算法,以及通用且直观的相对统一的Python API。
为各种模型提供的几十个类中大多数有着相同的接口。
大多数时候你可以很容易地用一种算法来替换另一种算法,并且几乎不用修改你的代码。
这使你能够快速探索问题空间,并经常可以获得关于你的问题或数据集的最佳的解决方案,或者至少是得到一个令你满意的方案。
scikit-learn库建立在一些数学方面的Python库之上。它使用NumPy进行基本数据结构和性能上的优化,并与pandas和matplotlib兼容。scikit-learn是BSD许可下的免费软件。在深度神经网络这一个细分领域之外,Python中非常多机器学习程序是通过scikit-learn来完成的。
Get技能
• 使用各种机器学习技术
• 探索数据集
• 执行各种分类算法任务
• 使用回归算法,聚类算法和超参数
• 使用特征工程和特征选择
• 实现数据管道(Pipeline)
• 开发稳健的训练集/测试集划分
"
Table of Contents
课程介绍
课程介绍
第1课:什么是机器学习
学习目标
1.1安装
1.2了解ML库(新课程,标题待定)
1.3介绍机器学习中的各种技术
1.4了解“深度学习”与其他机器学习技术之间的区别
1.5了解分类算法,回归算法,聚类算法,以及过拟合/欠拟合
1.6了解降维,特征工程,特征选择
1.7区分类别变量,序数变量和连续变量
1.8执行独热编码
1.9使用超参数和网格搜索
1.10了解选择和指标
第2课:探索数据集
学习目标
2.1发现数据中的异常和数据完整性问题
2.2清理和调整你的数据
2.3选择特征和目标
2.4实现训练集/测试集划分并且选择模型
第三课:分类
学习目标
3.1了解特征重要性
3.2在决策树中建立切点
3.3使用通用API
3.4使用更加优质的数据集
3.5多个分类器之间的比较
3.6了解有关特征重要性的更多信息
3.7使用多类别分类
3.8了解预测概率和决策边界
第四课:回归
学习目标
4.1 scikit-learn中的样本数据集
4.2不同回归器之间的比较
4.3使用线性模型
4.4了解线性模型的缺陷
4.5使用非线性回归器
第5课:聚类
学习目标
5.1聚类算法之间的比较
5.2聚类检验假设
5.3聚类为N类
5.4聚类为未知数量的类别
5.5使用基于密度的聚类算法:DBScan和HDBScan
5.6评估聚类算法
第6课:超参数
学习目标
6.1探索一个超参数
6.2探索多个超参数
6.3使用Gridsearch CV
第7课:特征工程和特征选择
学习目标
7.1理解一个合成的例子
7.2了解降维
7.3使用主成分分析(PCA)
7.4使用其他分解算法:NMF,LDA,ICA,t-dist
7.5实现特征选择:单变量
7.6实现特征选择:基于模型的特征选择
7.7了解维数扩展(多项式特征)
7.8使用独热编码
7.9使用StandardScaler,RobustScaler,MinMaxScaler,Normalizer等进行缩放
7.10四分位数化和二值化
第八课:管道
学习目标
8.1了解命令式顺序处理
8.2使用管道
8.3对管道进行网格搜索
第9课:稳健的训练集/测试集划分
学习目标
9.1了解训练集/测试集划分
9.2了解多种划分手段:KFold,LeaveOneOut,StratifiedKFold等
9.3使用交叉验证
总结
总结