基础知识

向量 $a = (a_1,a_2,\cdots,a_n),b = (b_1,b_2,\cdots,b_n)$ .

空间距离

  • 欧氏距离:n 维空间内两点之间的距离.
  • 曼哈顿距离:两个点在标准坐标系上的绝对轴距之和.
  • 切比雪夫距离:n 维空间两点维度上的最大差值.
  • 闵可夫斯基距离(统一):一种距离的定义方式.


编码距离

  • 汉明距离:两个等长字符串s1与s2,将其中一个变为另外一个所需要的最小替换次数。
  • 编辑距离:两个字符串s1与s2,将其中一个变为另外一个所需要的最小最小编辑次数(插入、删除和替换)次数。

相关距离

  • Jaccard相似系数:衡量两个集合的相似度.
  • 余弦相似性
  • 皮尔森相关系数:

TF-IDF

在进行关键词提取时,我们不仅应该考虑到到此出现的次数(词频:Term Frequency),同时也要考虑单词的重要性(逆文档频率:Inverse Document Frequency)。

其中,


矩阵可逆

n 阶方阵可逆的充要条件

  • $\det (A) \not= 0$
  • $rank(A) = n$
  • A 的列(行)向量组线性无关
  • 齐次线性方程组 $AX=0$ 仅有零解
  • 非齐次线性方程组 $AX=b$ 有唯一解
  • A 的特征值都不为 0 ($\det (\lambda I - A)=0$)

  • 信息熵
  • 条件熵
  • 联合熵
  • 互信息

各种熵之间的关系:

此处输入图片的描述


决策树

ID3

ID3算法采用信息增益作为属性选择度量。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。同时ID3算法只能处理离散型的描述性属性。

C4.5

C4.5算法是ID3算法的一种改进,使用信息增益率来作为属性选择量度。对于连续型的描述性属性,通过将这些连续型属性的值分成不同的区间,即“离散化”,再进行处理。在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

CART

CART算法使用 Gini 指标作为属性选择度量, CART生成的是二叉树,不会像多叉树那样形成过多的数据碎片。决策树的生成就是递归构建二叉决策树的过程,对回归树用平方误差最小化的准则,对分类树采用基尼指数最小化准则,进行特征选择,生成二叉树。

对于回归树选择最优切分变量$j$与切分点$s$,求解:

基本计算流程(要求熟练掌握):

  • 计算数据集$D$的经验熵$H(D)$

  • 计算特征$A$对数据集$D$的经验条件熵$H(D|A)$

  • 计算信息增益(信息增益率).


题库

BAT