机器学习的目的:根据现有数据构建合理的映射.本文提供机器学习的大致框架.
机器学习基本概念
数据集 (data set) 由一系列 样本 (sample) 所组成的集合.样本由多种 属性 (attribute) 组成,每种属性都有相应的值.其中样本可以被理解成向量,属性可以被理解成维度,属性值就是向量在这个维度上的分量.例如西瓜数据集 里面的某个西瓜 就是一个样本:
比如这里第一个属性是色泽,第二个属性是敲声,第三个属性是花纹.
由属性张成的空间称为 样本空间 (sample space),每个样本的属性个数就是样本空间的维数.
为数据集里的每个样本标记其“输出期望值”,机器才能从中习得规律,这里的“输出期望值”就是 标记 (labal),比如离散值 和 ,分别表示坏瓜和好瓜.
拥有标记信息的样本称为 样例 (exsample),用 表示,其中 是样本, 是标记, 是 标记空间 (label space).
从数据习得 模型 (model) 的过程称为 学习 (learning),或者称为 训练 (training).训练过程中使用到的数据是训练数据,其中的样本称为 训练样本,由训练样本所组成的集合称为 训练集.
习得模型后,将模型用于预测的过程称为 测试 (testing),被用于预测的样本称为测试样本.
根据训练数据标记信息的有无,机器学习分为 监督学习 (supervised learning) 与 无监督学习 (unsupervised learning) ,其中监督学习是在实际中使用最多的机器学习类型.
监督学习
- 若模型的功能是预测离散值,则称此次学习任务为 分类 (classification),即让机器建立 (习得) 映射 .特别地,若 ,则此次学习任务是二分类,分为正类和负类.
在一组用于辨别猫和狗的训练集中,样本空间属性有:体长、体重,此时 里的每个元素是二维向量,标记空间 , 表示猫, 表示狗. 垃圾邮件过滤也用到了监督学习中的分类.
详见 [[1-3 逻辑回归]]
- 若模型的功能是预测连续值,则称为 回归 (regression),此时 .
在一组用于预测房价的训练集中,样本空间属性有:占地面积、已建成年数、距离市中心距离、所处楼层数、当地人口数,此时 里的每个元素是五维向量,标记空间 ,也就是房价.
详见 [[1-2 线性回归]]
非监督学习
- 聚类 (clustering) 是非监督学习的代表,即在无标记信息 的情况下,让机器自发地将训练样本分为若干簇 (clustering).
例如机器会自动将含有相同关键词的文章聚类到一起,自动将基因相似程度高的人聚类到一起,自动将观看视频标签相似的人聚类到一起.
- 异常检测 (anomaly detection) 也是非监督学习的一种.
例如检测异常的交易行为数据.
- 降维 (dimensionality reduction) 也是非监督学习的一种.
将一个大数据集压缩成小得多的数据集的同时,丢失尽可能少的信息.