数据挖掘-第10章--聚类分析:基本概念和方法.pptx
- 文档编号:14863615
- 上传时间:2023-06-28
- 格式:PPTX
- 页数:40
- 大小:22.63MB
数据挖掘-第10章--聚类分析:基本概念和方法.pptx
《数据挖掘-第10章--聚类分析:基本概念和方法.pptx》由会员分享,可在线阅读,更多相关《数据挖掘-第10章--聚类分析:基本概念和方法.pptx(40页珍藏版)》请在冰点文库上搜索。
数据挖掘与商务智能,范勤勤物流研究中心,第十章聚类分析,聚类分析,聚类分析:
基本概念,4,聚类分析:
应用示例,5,数据挖掘对聚类的典型要求,6,可以用于比较聚类方法的诸方面,7,基本聚类方法概述,8,9,基本聚类方法概述,划分方法,划分方法,11,K-均值:
一种基于形心的技术,12,K-均值:
一种基于形心的技术,13,K-均值:
例子-步骤1,14,随机选择3个簇中心,K-均值:
例子-步骤2,15,分配每个点到最近的簇中心,K-均值:
例子-步骤3,16,移动每个簇中心到每个簇的平均位置,K-均值:
例子-步骤4,17,把对象重新分布到离簇中心最近的簇中,K-均值:
例子-步骤4,18,A:
threepointswithanimation,K-均值:
例子-步骤4b,19,重新计算簇的均值,K-均值:
例子-步骤5,20,把簇的中心移到簇的均值,K-均值:
缺点,21,是局部最优,不是全局最优要求用户必须事先给出要生成的簇的数目,选择初始划分的最佳方向、更新分区和停止准则不适合发现大小很不相同的簇或具有凹状的簇算法只有在簇的平均值被定义的情况下才能使用,这不适合涉及有类属性的数据对噪音和异常点非常敏感孤立点(极大值)的存在,会大幅度扭曲数据的分布,K-中心点:
一种基于代表对象的技术,22,K-中心点:
一种基于代表对象的技术,23,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,K=2,任意选取k个对象作为初始medoids,将其余对象分配到最近的medoids所代表的类,随机选取一非中心对象,Oramdom,计算交换代价,如果聚类质量被提高,则代替原medoid,DoloopUntilnochange,层次方法,凝聚的与分裂的层次聚类,25,层次方法,26,算法方法距离度量,27,BIRCH:
使用聚类特征树的多阶段聚类,28,29,CF树结构,Chameleon:
使用动态建模的多阶段层次聚类,30,概率层次聚类,31,基于密度的方法,基于密度的方法,33,DBSCAN:
一种基于高密度连通区域的基于密度的聚类,34,密度相连,DBSCAN:
一种基于高密度连通区域的基于密度的聚类,35,OPTICS:
通过点排序识别聚类结构,36,OPTICS:
通过点排序识别聚类结构,37,例:
设=6(mm),MinPts=5.p的核心距离是p与第四个最近的数据对象之间的距离。
q1关于p的可达距离是p的核心距离(即=3mm),因为它比从p到q1的欧几里得距离要大。
q2关于p的可达距离是从p到q2的欧几里得距离,它大于p的核心距离。
38,OPTICS中的簇次序,对象的簇排序,DENCLUE:
基于密度分布函数的聚类,39,谢,谢,关,注,欢,迎,指,导,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 10 聚类分析 基本概念 方法