分享
机器学习&深度学习笔记-v1
输入“/”快速插入内容
机器学习&深度学习笔记-v1
用户5475
用户5475
2024年12月6日创建
61
66
0
0
基本概念
机器学习基本概念
研究如何通过计算的手段,利用经验改善系统自身性能。经验在计算机中被理解成数据
计算机会根据数据产生模型,面对新情况时,则会提供相应的预测和判断。
基本术语
•
示例:关于一个对象不同维度的描述(eg. 对于西瓜,[色泽=青绿;根蒂=蜷缩;敲声=浊响])
•
数据集:即一堆示例 / 记录的集合
•
属性:即示例中的每个维度
•
属性值:属性对应的值
•
属性空间:属性张成的空间。而由于有n属性,所以其实就是n维空间,每个样例对应一个n维向量
•
特征向量:样例在属性空间中对应的n维向量
标记信息
在训练样本中添加结果信息(eg. ([色泽=青绿;根蒂=蜷缩;敲声=浊响],好瓜)),这里“好瓜”就是一个标记
分类和回归
•
分类:预测的是离散值,如“好瓜”、“坏瓜”
◦
一共分成n类就是n分类问题
•
回归:预测的是连续值,例如给西瓜打个分,99分,98分...
聚类
将训练集中的数据分成若干组,每组称为“簇”
🌟
需要注意的是聚类和分类是有区别的。分类问题一开始就已经把类规定好了,如“好瓜”、“坏瓜”;而聚类问题一开始则不知道类别信息
监督学习和无监督学习
监督学习的训练数据有标记信息,无监督学习的训练数据没有标记信息
泛化能力
学得模型适用于新样本的能力
模型评估与性能度量
经验误差
1.
错误率:分类错误的样本数占样本总数的比例
2.
误差:学习器的实际预测输出和样本的真实输出之间的差异
a.
经验误差:学习器在训练集上的误差称为经验误差,也叫训练误差
b.
泛化误差:在新样本上的误差
评估方法
通常使用“测试集”来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似。
测试集应当尽可能与训练集互斥
下面将提到一些划分训练集和测试集的方法。
留出法
将数据集
划分为两个互斥的集合,训练集记作
,测试集记作
,其中:
🌟
需要注意的是
1.
训练 / 测试集划分尽可能保持数据分布的一致性(eg. 保持样本类别的比例相近)