【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
I . 基于方格的聚类方法 简介II . 基于方格的聚类方法 图示III . STING 方法IV . CLIQUE 方法
I . 基于方格的聚类方法 简介
1 . 基于方格的聚类方法 :
① 数据结构 划分 : 将 多维数据 空间 , 划分成一定数目的单元 ;
② 数据结构 操作 : 在上述 划分好的 数据单元 数据结构 上 , 进行聚类操作 ;
2 . 基于方格聚类方法 优缺点 :
① 优点速度快 : 聚类速度很快 , 其聚类速度 与 数据集样本个数无关 , 与划分的单元个数有关 ;
② 缺点准确率低 : 聚类的准确率会大大降低 , 划分的方格越大 , 准确率越低 , 但速度越快 ;
3 . 如 : 有 1 1 1 亿数据 , 如果按照样本数量进行聚类很慢 , 如果将其划分成 100 100 100 个聚类 , 相当于划分成了 100 100 100 个数据单元 , 其速度相当于 100 100 100 个样本进行聚类 , 速度很快 ;
II . 基于方格的聚类方法 图示
如下图的二维空间 , 二维空间中分布着 100 100 100 个点 , 将其划分成 9 9 9 个方格 , 然后对 9 9 9 个方格进行聚类 , 不再考虑对样本进行聚类了 ;
9 9 9 个方格 , 将每个方格当做一个 样本对象 , 进行聚类分组 ;
III . STING 方法
1 . STING 方法 简介 :
① 全称 : STING , Statistical Information Grid , 统计信息网格 , 是一种 多分辨率聚类技术 ;
② 划分方格 : 将数据空间 划分成矩形区域 ;
③ 划分分辨率 : 不同层次的 矩形方格 划分成的 数据单元 , 其分辨率不同 ;
④ 层次结构 : 这些 不同分辨率 的 数据单元 , 构成层次结构 , 如下示例 , 绿色的矩形 ( 数据单元 ) 中 , 包含紫色的 矩形 ( 数据单元 ) ;
2 . 单元统计 :
① 统计信息 : 每个单元 都有 数据统计信息 , 如 单元所有样本的 平均值 , 最大值 , 最小值 , 数据分布 等数据 ;
② 预先计算 : 统计信息需要预先计算出来 , 供之后的聚类操作使用 ;
③ 聚类分组 : 根据每个 数据单元 的统计信息 , 为 数据单元 进行 聚类分组 ;
IV . CLIQUE 方法
1 . CLIQUE 方法 : 是 基于密度 和 基于方法 结合后的算法 ;
① 划分 方格 : 将多维 数据集 样本 , 在 多维数据空间 中 , 划分成 互不相交 的矩形单元 , 这些单元之间互相不能覆盖 ;
② 密集单元 : 如果 某个 数据单元 的样本个数 大于 一个阈值 , 这个 数据单元 就是 密集单元 ;
③ 阈值 : 这个阈值一般是开始时 , 用户输入的参数 ;
④ 聚类 : 密集单元 相互连接 构成一个集合 , 就是一个聚类分组 ;
2 . CLIQUE 算法优点 :
① 性能高 : CLIQUE 算法可以 找出 具有 高密度 数据样本 对象所在的数据单元 ,
② 扩展性好 : 这些数据的 输入顺序 , 数据的分布 , 不会影响最终的数据分布 ;
3 . CLIQUE 算法缺点 : 聚类的准确度较低 :
更多推荐
所有评论(0)