(ML-1-1) 机器学习及其类别

机器学习的目的：根据现有数据构建合理的映射．本文提供机器学习的大致框架．

机器学习基本概念

数据集 (data set) 由一系列 样本 (sample) 所组成的集合．样本由多种 属性 (attribute) 组成，每种属性都有相应的值．其中样本可以被理解成向量，属性可以被理解成维度，属性值就是向量在这个维度上的分量．例如西瓜数据集 $\mathcal {X}$ 里面的某个西瓜 $\boldsymbol{x}_{i}$ 就是一个样本：
$\boldsymbol x_{i} = (0.9, 0.4, 0.7)$
比如这里第一个属性是色泽，第二个属性是敲声，第三个属性是花纹．
由属性张成的空间称为 样本空间 (sample space)，每个样本的属性个数就是样本空间的维数．
为数据集里的每个样本标记其“输出期望值”，机器才能从中习得规律，这里的“输出期望值”就是 标记 (labal)，比如离散值 $0$ 和 $1$ ，分别表示坏瓜和好瓜．
拥有标记信息的样本称为 样例 (exsample)，用 $(\boldsymbol x_{i}, y_{i})$ 表示，其中 $\boldsymbol x_{i}$ 是样本， $y_{i} \in \mathcal Y$ 是标记， $\mathcal Y$ 是 标记空间 (label space)．
从数据习得 模型 (model) 的过程称为 学习 (learning)，或者称为 训练 (training)．训练过程中使用到的数据是训练数据，其中的样本称为 训练样本，由训练样本所组成的集合称为 训练集．
习得模型后，将模型用于预测的过程称为 测试 (testing)，被用于预测的样本称为测试样本．
根据训练数据标记信息的有无，机器学习分为 监督学习 (supervised learning) 与 无监督学习 (unsupervised learning) ，其中监督学习是在实际中使用最多的机器学习类型．

监督学习

若模型的功能是预测离散值，则称此次学习任务为 分类 (classification)，即让机器建立 (习得) 映射 $f : \mathcal X \rightarrow \mathcal Y$ ．特别地，若 $|\mathcal Y| = 2$ ，则此次学习任务是二分类，分为正类和负类．

在一组用于辨别猫和狗的训练集中，样本空间属性有：体长、体重，此时 $\mathcal {X}$ 里的每个元素是二维向量，标记空间 $\mathcal {Y} = \{0, 1\}$ ， $0$ 表示猫， $1$ 表示狗．垃圾邮件过滤也用到了监督学习中的分类．

详见 [[1-3 逻辑回归]]

若模型的功能是预测连续值，则称为 回归 (regression)，此时 $\mathcal Y = \mathbf{R}$ ．

在一组用于预测房价的训练集中，样本空间属性有：占地面积、已建成年数、距离市中心距离、所处楼层数、当地人口数，此时 $\mathcal {X}$ 里的每个元素是五维向量，标记空间 $\mathcal {Y} = \mathbf{R}$ ，也就是房价．

详见 [[1-2 线性回归]]

非监督学习

聚类 (clustering) 是非监督学习的代表，即在无标记信息 $\mathcal{Y}$ 的情况下，让机器自发地将训练样本分为若干簇 (clustering)．

例如机器会自动将含有相同关键词的文章聚类到一起，自动将基因相似程度高的人聚类到一起，自动将观看视频标签相似的人聚类到一起．

异常检测 (anomaly detection) 也是非监督学习的一种．

例如检测异常的交易行为数据．

降维 (dimensionality reduction) 也是非监督学习的一种．

将一个大数据集压缩成小得多的数据集的同时，丢失尽可能少的信息．

机器学习基本概念 ​

监督学习 ​

非监督学习 ​

机器学习基本概念

监督学习

非监督学习