I . 基于方格的聚类方法 简介


1 . 基于方格的聚类方法 :


① 数据结构 划分 : 将 多维数据 空间 , 划分成一定数目的单元 ;

② 数据结构 操作 : 在上述 划分好的 数据单元 数据结构 上 , 进行聚类操作 ;


2 . 基于方格聚类方法 优缺点 :


① 优点速度快 : 聚类速度很快 , 其聚类速度 与 数据集样本个数无关 , 与划分的单元个数有关 ;

② 缺点准确率低 : 聚类的准确率会大大降低 , 划分的方格越大 , 准确率越低 , 但速度越快 ;


3 . 如 : 1 1 1 亿数据 , 如果按照样本数量进行聚类很慢 , 如果将其划分成 100 100 100 个聚类 , 相当于划分成了 100 100 100 个数据单元 , 其速度相当于 100 100 100 个样本进行聚类 , 速度很快 ;



II . 基于方格的聚类方法 图示


如下图的二维空间 , 二维空间中分布着 100 100 100 个点 , 将其划分成 9 9 9 个方格 , 然后对 9 9 9 个方格进行聚类 , 不再考虑对样本进行聚类了 ;


9 9 9 个方格 , 将每个方格当做一个 样本对象 , 进行聚类分组 ;

在这里插入图片描述



III . STING 方法


1 . STING 方法 简介 :


① 全称 : STING , Statistical Information Grid , 统计信息网格 , 是一种 多分辨率聚类技术 ;

② 划分方格 : 将数据空间 划分成矩形区域 ;

③ 划分分辨率 : 不同层次的 矩形方格 划分成的 数据单元 , 其分辨率不同 ;

④ 层次结构 : 这些 不同分辨率 的 数据单元 , 构成层次结构 , 如下示例 , 绿色的矩形 ( 数据单元 ) 中 , 包含紫色的 矩形 ( 数据单元 ) ;

在这里插入图片描述


2 . 单元统计 :


① 统计信息 : 每个单元 都有 数据统计信息 , 如 单元所有样本的 平均值 , 最大值 , 最小值 , 数据分布 等数据 ;

② 预先计算 : 统计信息需要预先计算出来 , 供之后的聚类操作使用 ;

③ 聚类分组 : 根据每个 数据单元 的统计信息 , 为 数据单元 进行 聚类分组 ;



IV . CLIQUE 方法


1 . CLIQUE 方法 : 是 基于密度 和 基于方法 结合后的算法 ;


① 划分 方格 : 将多维 数据集 样本 , 在 多维数据空间 中 , 划分成 互不相交 的矩形单元 , 这些单元之间互相不能覆盖 ;

② 密集单元 : 如果 某个 数据单元 的样本个数 大于 一个阈值 , 这个 数据单元 就是 密集单元 ;

③ 阈值 : 这个阈值一般是开始时 , 用户输入的参数 ;

④ 聚类 : 密集单元 相互连接 构成一个集合 , 就是一个聚类分组 ;


2 . CLIQUE 算法优点 :


① 性能高 : CLIQUE 算法可以 找出 具有 高密度 数据样本 对象所在的数据单元 ,

② 扩展性好 : 这些数据的 输入顺序 , 数据的分布 , 不会影响最终的数据分布 ;


3 . CLIQUE 算法缺点 : 聚类的准确度较低 :

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐