数据挖掘
- 分类与聚类 定义及区别
- 分类方法
- 聚类方法
分类与聚类 定义及区别
- 分类:是一种有指导(有监督)的学习(Supervised Learning),即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。即根据样本数据形成的类知识对源数据进行分类,进而预测未来数据的归类…2分
- 聚类:属于无指导学习,聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。2分
- 综上所述,聚类是通过对数据的分析比较形成新的类标识,分类是在特定的类标识下寻求新元素属于哪个类。………………………………1分
分类方法
分类的基本概念与步骤
1.数据分类分为两个步骤 --建模和使用
建立模型,描述预定的数据类集或概念集
使用模型进行分类
基于距离的分类算法
距离越近,相似性越大,距离越远,相似性越小
- 基本思想:通过计算每个元祖得到各类的中心距离就可以找出相应的类,从而实现简单的分类技术。
- K-最临近分类算法
使用下表给出的样本数据,采用KNN算法对元组<范大可,男,1.8>进行分类,只用高度参与距离计算,K=3。
2.1 基本思想:计算每个训练数据到待分类元组的距离,取和待分类元祖距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪类
决策树分类方法
贝叶斯算法
- 朴素贝叶斯法概述
朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入输出的联合概率分布(朴素贝叶斯法这种通过学习得到模型的机制,显然属于生成模型);然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y。
学习朴素贝叶斯算法之前,我们先搞定下面这些基本概念和数学公式 👇
条件概率公式:
P(Y∣X)= P(X∣Y)P(Y) / P(X)
这里的每个概率都有其特定的名称:
P ( Y ) :先验概率。先验概率(prior probability)是指事情还没有发生,求这件事情发生的可能性的大小,是先验概率。它往往作为"由因求果"问题中的"因"出现。
P ( Y ∣ X ):后验概率。后验概率是指事情已经发生,求这件事情发生的原因是由某个因素引起的可能性的大小。后验概率的计算要以先验概率为基础
P ( X ∣ Y ) :条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。
- 案例:给定如下所示的训练数据,请使用朴素贝叶斯算法对待分类样本X=(高度=“矮”,头发=“红”,眼睛=“兰”)进行分类,判断其属于类别“+”还是“-”。(要求先写出详细公式,然后再将数值带入计算)(15分)
解 设类别为C,则P(C/X)=P(X/C)P©………………2分
记类别“+”为C1,类别“-”为C2,则根据训练数据集,
得出P(C1)=3/8, P(C2)=5/8………………4分
P(C1/X)=P(X/C1)*P(C1)=P(高度=“矮”/C1)*P(头发=“红”/C1)*P(眼睛=“兰”/C1)P(C1)=(1/3)(1/3)1(3/8)=1/24………………4分
P(C2/X)=P(X/C2)*P(C2)=P(高度=“矮”/C2)*P(头发=“红”/C2)P(眼睛=“兰”/C2)P(C2)=(2/5)(1/5)(2/5)(5/8)=1/50……………………4分
1/24>1/50,所以样本X属于类别“+”……………………1分
聚类方法
划分聚类的方法
k-平均算法
-
基本思想:算法首先先随机选择k个对象,每个对象初始地代表了一个簇的平均值或中心,对剩余的每个对象根据其与各个簇的中心距离,将它赋给最近的簇,然后重新计算每个簇的平均值
-
案例:给出下表所示的事务数据库,用k-means算法进行聚类(写出具体过程,用欧氏距离公式),其中K=3,初始簇中心为1,4,7。(20分)


发布评论