(ML-1-1) 机器学习及其类别

机器学习的目的:根据现有数据构建合理的映射.本文提供机器学习的大致框架.

机器学习基本概念

  1. 数据集 (data set) 由一系列 样本 (sample) 所组成的集合.样本由多种 属性 (attribute) 组成,每种属性都有相应的值.其中样本可以被理解成向量,属性可以被理解成维度,属性值就是向量在这个维度上的分量.例如西瓜数据集 X\mathcal {X} 里面的某个西瓜 xi\boldsymbol{x}_{i} 就是一个样本:

    xi=(0.9,0.4,0.7)\boldsymbol x_{i} = (0.9, 0.4, 0.7)

    比如这里第一个属性是色泽,第二个属性是敲声,第三个属性是花纹.

  2. 由属性张成的空间称为 样本空间 (sample space),每个样本的属性个数就是样本空间的维数.

  3. 为数据集里的每个样本标记其“输出期望值”,机器才能从中习得规律,这里的“输出期望值”就是 标记 (labal),比如离散值 0011,分别表示坏瓜和好瓜.

  4. 拥有标记信息的样本称为 样例 (exsample),用 (xi,yi)(\boldsymbol x_{i}, y_{i}) 表示,其中 xi\boldsymbol x_{i} 是样本,yiYy_{i} \in \mathcal Y 是标记,Y\mathcal Y标记空间 (label space)

  5. 从数据习得 模型 (model) 的过程称为 学习 (learning),或者称为 训练 (training).训练过程中使用到的数据是训练数据,其中的样本称为 训练样本,由训练样本所组成的集合称为 训练集

  6. 习得模型后,将模型用于预测的过程称为 测试 (testing),被用于预测的样本称为测试样本.

  7. 根据训练数据标记信息的有无,机器学习分为 监督学习 (supervised learning)无监督学习 (unsupervised learning) ,其中监督学习是在实际中使用最多的机器学习类型.

监督学习

  1. 若模型的功能是预测离散值,则称此次学习任务为 分类 (classification),即让机器建立 (习得) 映射 f:XYf : \mathcal X \rightarrow \mathcal Y.特别地,若 Y=2|\mathcal Y| = 2,则此次学习任务是二分类,分为正类和负类.

在一组用于辨别猫和狗的训练集中,样本空间属性有:体长、体重,此时 X\mathcal {X} 里的每个元素是二维向量,标记空间 Y={0,1}\mathcal {Y} = \{0, 1\}00 表示猫,11 表示狗. 垃圾邮件过滤也用到了监督学习中的分类.

详见 [[1-3 逻辑回归]]

  1. 若模型的功能是预测连续值,则称为 回归 (regression),此时 Y=R\mathcal Y = \mathbf{R}

在一组用于预测房价的训练集中,样本空间属性有:占地面积、已建成年数、距离市中心距离、所处楼层数、当地人口数,此时 X\mathcal {X} 里的每个元素是五维向量,标记空间 Y=R\mathcal {Y} = \mathbf{R},也就是房价.

详见 [[1-2 线性回归]]

非监督学习

  1. 聚类 (clustering) 是非监督学习的代表,即在无标记信息 Y\mathcal{Y} 的情况下,让机器自发地将训练样本分为若干簇 (clustering)

例如机器会自动将含有相同关键词的文章聚类到一起,自动将基因相似程度高的人聚类到一起,自动将观看视频标签相似的人聚类到一起.

  1. 异常检测 (anomaly detection) 也是非监督学习的一种.

例如检测异常的交易行为数据.

  1. 降维 (dimensionality reduction) 也是非监督学习的一种.

将一个大数据集压缩成小得多的数据集的同时,丢失尽可能少的信息.

(ML-1-2) 线性回归
(ML-0) 微积分与线性代数