聚类 — 相依

数据相似性的度量方法

现实中，我们需要处理的数据具有着不同的形式和特征。而对数据相似性的度量又是数据挖掘分析中非常重要的环节。针对这些不同形式的数据，不可能找到一种具备普遍意义的相似性度量算法，甚至可以说，每种类型的数据都有它对应的相似度度量标准。这些标准很多，也比较杂乱，有必要作以总结。

很简单，拿两个对象O1和O2举例，直接看这两个对象每种属性的属性值的匹配数。

假设这一类对象一共有n个属性（每个对象都有这n个属性），两个对象O1和O2匹配的属性数为m，那么相似度为匹配数占总属性数的总数。

即：sim(O1, O2) = m/n

总的来说，和标称属性是类似的，但是情况稍微复杂一点。要分成对称和非对称2种形式。

对称二元属性：对象的所有属性都是一样重要的。这就和标称属性类似了，用所有具有相同属性值的属性个数除总的属性数。公式和标称属性一致。

sim(O1, O2) = (m1 + m2) / n m1和m2是O1和O2中全为0或者全为1的属性数。

非对称二元属性：所谓非对称，是说我们只关心“正匹配”的情况，也就是只关心两个对象属性中都是1的情况。

sim(O1, O2) = m1 / n

Jaccard系数：两个集合的交比两个集合的并

“闵可夫斯基”距离，也叫Lp范数。

切比雪夫距离：使用的时候，维度起码为3以上；两个点之间的距离定义为各坐标数值差的最大值。

曼哈顿距离。

欧氏距离。

加权的欧式距离。对不同属性设置不同的权重，各权重之和为1，这样依然可以保证相似度的统一性。

假设序列用1，2，3……来表示，通过以下公式将每个整数型的属性值映射到[0.0, 1.0]的区间上。

y = x − 1 / m − 1

前面情况都是数据库中的数据相对类型比较统一，但是很多时候，实际工作中遇到的情况却并非如此。我们遇到的一组数据可能拥有多种类型的属性，也就是混合类型属性。

sim(O1, O2) = (从1到m fi*sim(O1i, O2i)) / (从1到m fi)

sim(O1i, O2i)表示2个对象在属性i上的相似度。

对于fi呢？这样计算：

针对文档数据的，特殊的相似度测量方法。

可以描述为将同等长度的字符串由其中一个变换到另一个的最小替换次数。如将a(11100)变换为b(00010)，则其距离为4，汉明距离主要是为了解决在通信中数据传输时，改变的二进制位数，也称为信号距离。

K-means算法

输入数据一般需要做缩放，如标准化。
如果输入数据的变量类型不同，部分是数值型（numerical），部分是分类变量（categorical），需要做特别处理。方法1是将分类变量转化为数值型，但缺点在于如果使用独热编码（one hot encoding）可能会导致数据维度大幅度上升，如果使用标签编码（label encoding）无法很好的处理数据中的顺序（order）。方法2是对于数值型变量和分类变量分开处理，并将结果结合起来，具体可以参考Python的实现，如K-mode和K-prototype。
输出结果非固定，多次运行结果可能不同。