数据挖掘笔试准备
基础知识
向量 $a = (a_1,a_2,\cdots,a_n),b = (b_1,b_2,\cdots,b_n)$ .
空间距离
- 欧氏距离:n 维空间内两点之间的距离.
- 曼哈顿距离:两个点在标准坐标系上的绝对轴距之和.
- 切比雪夫距离:n 维空间两点维度上的最大差值.
- 闵可夫斯基距离(统一):一种距离的定义方式.
编码距离
- 汉明距离:两个等长字符串s1与s2,将其中一个变为另外一个所需要的最小替换次数。
- 编辑距离:两个字符串s1与s2,将其中一个变为另外一个所需要的最小最小编辑次数(插入、删除和替换)次数。
相关距离
- Jaccard相似系数:衡量两个集合的相似度.
- 余弦相似性
- 皮尔森相关系数:
TF-IDF
在进行关键词提取时,我们不仅应该考虑到到此出现的次数(词频:Term Frequency),同时也要考虑单词的重要性(逆文档频率:Inverse Document Frequency)。
其中,
矩阵可逆
n 阶方阵可逆的充要条件:
- $\det (A) \not= 0$
- $rank(A) = n$
- A 的列(行)向量组线性无关
- 齐次线性方程组 $AX=0$ 仅有零解
- 非齐次线性方程组 $AX=b$ 有唯一解
- A 的特征值都不为 0 ($\det (\lambda I - A)=0$)
熵
- 信息熵:
- 条件熵:
- 联合熵:
- 互信息:
各种熵之间的关系:
决策树
ID3
ID3算法采用信息增益作为属性选择度量。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。同时ID3算法只能处理离散型的描述性属性。
C4.5
C4.5算法是ID3算法的一种改进,使用信息增益率来作为属性选择量度。对于连续型的描述性属性,通过将这些连续型属性的值分成不同的区间,即“离散化”,再进行处理。在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
CART
CART算法使用 Gini 指标作为属性选择度量, CART生成的是二叉树,不会像多叉树那样形成过多的数据碎片。决策树的生成就是递归构建二叉决策树的过程,对回归树用平方误差最小化的准则,对分类树采用基尼指数最小化准则,进行特征选择,生成二叉树。
对于回归树选择最优切分变量$j$与切分点$s$,求解:
基本计算流程(要求熟练掌握):
-
计算数据集$D$的经验熵$H(D)$
-
计算特征$A$对数据集$D$的经验条件熵$H(D|A)$
-
计算信息增益(信息增益率).