数据挖掘编程频道|福州电脑网

数据挖掘

分类与聚类定义及区别
分类方法
聚类方法

分类与聚类定义及区别

分类：是一种有指导（有监督）的学习（Supervised Learning），即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识。即根据样本数据形成的类知识对源数据进行分类，进而预测未来数据的归类…2分
聚类：属于无指导学习，聚类是把一组个体按照相似性归成若干类别，它的目的是使得属于同一类别的个体之间的差别尽可能的小，而不同类别上的个体间的差别尽可能的大。2分
综上所述，聚类是通过对数据的分析比较形成新的类标识，分类是在特定的类标识下寻求新元素属于哪个类。………………………………1分

分类方法

分类的基本概念与步骤

1.数据分类分为两个步骤 --建模和使用
建立模型，描述预定的数据类集或概念集
使用模型进行分类

基于距离的分类算法

距离越近，相似性越大，距离越远，相似性越小

基本思想：通过计算每个元祖得到各类的中心距离就可以找出相应的类，从而实现简单的分类技术。
K-最临近分类算法
使用下表给出的样本数据，采用KNN算法对元组<范大可，男，1.8>进行分类，只用高度参与距离计算，K=3。
2.1 基本思想：计算每个训练数据到待分类元组的距离，取和待分类元祖距离最近的K个训练数据，K个数据中哪个类别的训练数据占多数，则待分类元组就属于哪类

决策树分类方法

贝叶斯算法

朴素贝叶斯法概述
朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练集，首先基于特征条件独立假设学习输入输出的联合概率分布（朴素贝叶斯法这种通过学习得到模型的机制，显然属于生成模型）；然后基于此模型，对给定的输入 x，利用贝叶斯定理求出后验概率最大的输出 y。

学习朴素贝叶斯算法之前，我们先搞定下面这些基本概念和数学公式 👇
条件概率公式：

P(Y∣X)= P(X∣Y)P(Y) / P(X)

这里的每个概率都有其特定的名称：
P ( Y ) ：先验概率。先验概率（prior probability）是指事情还没有发生，求这件事情发生的可能性的大小，是先验概率。它往往作为"由因求果"问题中的"因"出现。

P ( Y ∣ X )：后验概率。后验概率是指事情已经发生，求这件事情发生的原因是由某个因素引起的可能性的大小。后验概率的计算要以先验概率为基础

P ( X ∣ Y ) ：条件概率，又叫似然概率，一般是通过历史数据统计得到。一般不把它叫做先验概率，但从定义上也符合先验定义。

案例：给定如下所示的训练数据，请使用朴素贝叶斯算法对待分类样本X=（高度=“矮”，头发=“红”，眼睛=“兰”）进行分类，判断其属于类别“+”还是“-”。（要求先写出详细公式，然后再将数值带入计算）（15分）

解设类别为C，则P（C/X）=P(X/C)P©………………2分
记类别“+”为C1，类别“-”为C2,则根据训练数据集，
得出P(C1)=3/8, P(C2)=5/8………………4分
P(C1/X)=P(X/C1)*P(C1)=P(高度=“矮”/C1)*P(头发=“红”/C1)*P(眼睛=“兰”/C1)P（C1）=(1/3)(1/3)1(3/8)=1/24………………4分
P(C2/X)=P(X/C2)*P(C2)=P(高度=“矮”/C2)*P(头发=“红”/C2)P(眼睛=“兰”/C2)P（C2）=(2/5)(1/5)(2/5)(5/8)=1/50……………………4分
1/24>1/50，所以样本X属于类别“+”……………………1分

聚类方法

划分聚类的方法

k-平均算法

基本思想：算法首先先随机选择k个对象，每个对象初始地代表了一个簇的平均值或中心，对剩余的每个对象根据其与各个簇的中心距离，将它赋给最近的簇，然后重新计算每个簇的平均值
案例：给出下表所示的事务数据库，用k-means算法进行聚类(写出具体过程，用欧氏距离公式)，其中K=3，初始簇中心为1，4，7。(20分)

数据挖掘

数据挖掘

分类与聚类定义及区别

分类方法

分类的基本概念与步骤

基于距离的分类算法

决策树分类方法

贝叶斯算法

聚类方法

划分聚类的方法

发布评论取消回复

最近发表

相关推荐

标签列表

数据挖掘

数据挖掘

分类与聚类 定义及区别

分类方法

分类的基本概念与步骤

基于距离的分类算法

决策树分类方法

贝叶斯算法

聚类方法

划分聚类的方法

发布评论 取消回复

最近发表

相关推荐

标签列表

分类与聚类定义及区别

发布评论取消回复