1.定义
- 非显著式编程:如规定行为和收益函数,让计算机自行寻找最大收益,这种通过经验和数据自动学习。
- 定义:对任务T,随着经验E增加,性能P提高。
2.分类
按照任务性质区分:
- 监督学习:使用数据和标签(人工提供)
- 传统监督学习:每个数据都有标签(SVM、NN、DNN)
- 非监督学习:数据都无标签(聚类、EM算法、PCA)
- 半监督学习:部分数据有标签
- 另一种区分监督学习的方法是基于标签的固有属性:分类(标签值离散)和回归(标签值连续);但因离散与连续颇有联系,故本区分并不严格
- 强化学习:经验是计算机与环境互动得来;计算机产生行为,我们只需定义收益函数
3.过程
- 特征提取:对数据感性观察得出可能的影响因素,并将其数量化;提取特征十分重要,但因媒质、任务不同,提取方法各不相同,故ML更注重后续算法的研究
- 特征选择:选出以上结果中区分度高的特征
- 特征整理:如选出两种特征,就将其处理后(如归一化)放入二维空间,一个dimension表示一种特征,这个二维空间就是特征空间
- 算法选择与训练:训练结果会分割特征空间,结果一旦确定,训练结束,就可以用来预测新的样例了(不同算法自然划分结果不同)
- 测试:多个算法结果测试后选择最优算法
注:ML的意义:解决高维空间的划分