机器学习&深度学习笔记-v1

用户5475

2024年12月6日创建

基本概念

机器学习基本概念

研究如何通过计算的手段，利用经验改善系统自身性能。经验在计算机中被理解成数据​

计算机会根据数据产生模型，面对新情况时，则会提供相应的预测和判断。​

基本术语

•
示例：关于一个对象不同维度的描述（eg. 对于西瓜，[色泽=青绿；根蒂=蜷缩；敲声=浊响]）​

•
数据集：即一堆示例 / 记录的集合​

•
属性：即示例中的每个维度​

•
属性值：属性对应的值​

•
属性空间：属性张成的空间。而由于有n属性，所以其实就是n维空间，每个样例对应一个n维向量​

•
特征向量：样例在属性空间中对应的n维向量​

标记信息

在训练样本中添加结果信息（eg. ([色泽=青绿；根蒂=蜷缩；敲声=浊响]，好瓜)），这里“好瓜”就是一个标记​

分类和回归

•
分类：预测的是离散值，如“好瓜”、“坏瓜”​
◦
一共分成n类就是n分类问题​

•
回归：预测的是连续值，例如给西瓜打个分，99分，98分...​

聚类

将训练集中的数据分成若干组，每组称为“簇”

🌟

需要注意的是聚类和分类是有区别的。分类问题一开始就已经把类规定好了，如“好瓜”、“坏瓜”；而聚类问题一开始则不知道类别信息​

监督学习和无监督学习

监督学习的训练数据有标记信息，无监督学习的训练数据没有标记信息​

泛化能力

学得模型适用于新样本的能力

模型评估与性能度量

经验误差

1.
错误率：分类错误的样本数占样本总数的比例​

2.
误差：学习器的实际预测输出和样本的真实输出之间的差异​
a.
经验误差：学习器在训练集上的误差称为经验误差，也叫训练误差​
b.
泛化误差：在新样本上的误差​

评估方法

通常使用“测试集”来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似。​

测试集应当尽可能与训练集互斥

下面将提到一些划分训练集和测试集的方法。

留出法

将数据集
划分为两个互斥的集合，训练集记作
，测试集记作
，其中：​

🌟

需要注意的是

1.
训练 / 测试集划分尽可能保持数据分布的一致性（eg. 保持样本类别的比例相近）​

机器学习&深度学习笔记-v1​