论文摘要
聚类是数据挖掘领域中的一种常用方法,它是通过数据之间的相似程度,把数据集分割成若干簇。传统的聚类没有利用到数据的监督信息,所以被当作是一种无监督的机器学习方法。半监督聚类就是利用数据的监督信息来帮助提升无监督聚类的性能。其中,数据的监督信息包括数据的类标记信息和数据间的成对约束信息(must-link约束和cannot-link约束)。半监督聚类是在无监督聚类中加入监督信息,利用这些监督信息来辅助聚类的学习。如何有效利用数据的监督信息来提升聚类学习的性能,是现今数据挖掘中的一个重要问题。目前,已有很多半监督聚类的有效方法。本文从遗传算法的角度研究半监督聚类方法,主要从两个方面出发,一方面研究在半监督聚类中利用成对约束信息的新方法,一方面研究如何改进现有的基于遗传算法的半监督聚类算法,使遗传算法更好地用于半监督聚类中。本文的主要工作及创新点包括:1、提出了近邻度这个新的概念。每个样本都有一个近邻度,近邻度大,说明该样本附近的样本分布比较稀疏,样本之间的距离比较远;反之,近邻度小,说明该样本附近的样本分布比较密集,样本之间的距离比较近。2、提出了一种在半监督聚类中利用成对约束信息的新方法。凝聚层次聚类(AHC)是层次聚类的一种,它采用自底向上的方式,把原子簇一步步合并起来。但是,AHC算法并没有利用到数据的监督信息,是一种无监督的聚类过程。本文把成对约束信息引入到AHC算法中,利用样本的近邻度,提出了基于成对约束的半监督凝聚层次聚类算法(PS-AHC). PS-AHC算法利用成对约束来重新调整聚类簇之间的距离,使聚类簇之间的距离更真实,最终影响聚类的结果。实验结果说明了PS-AHC算法可以有效提升聚类性能。3、遗传算法是一种自适应全局优化概率搜索算法,是解决搜索问题的一种通用算法。现有的一种基于遗传算法的半监督聚类算法(LG-SSC)只利用了数据的类标记信息,并未利用数据的成对约束信息。本文提出了基于遗传算法的改进半监督聚类算法(PLG-SSC),该算法同时利用了数据的类标记信息和成对约束信息,充分利用了数据的监督信息。在该算法中提出了PFDS样本分配方法,该方法充分减少了成对约束的违反个数。实验结果表明PLG-SSC算法能进一步提高聚类的准确率。
论文目录
摘要ABSTRACT第一章 引言1.1 课题研究的背景和意义1.2 国内外研究现状1.3 本文的主要工作及组织结构第二章 半监督聚类相关知识2.1 数据挖掘技术简介2.1.1 数据挖掘的定义、历史和发展2.1.2 数据挖掘的主要方法2.1.2.1 关联规则方法2.1.2.2 决策树方法2.1.2.3 人工神经网络2.2 聚类分析技术2.2.1 聚类分析概念2.2.1.1 聚类分析定义2.2.1.2 距离和相似性的度量2.2.2 聚类分析方法分类2.2.2.1 划分聚类方法2.2.2.2 层次聚类方法2.2.2.3 密度聚类方法2.3 半监督聚类技术2.3.1 基于约束的半监督聚类方法2.3.2 基于距离的半监督聚类方法2.3.3 基于遗传算法的半监督聚类方法2.4 本章小结第三章 半监督聚类利用成对约束信息的新方法3.1 成对约束的定义3.2 近邻度的定义3.3 凝聚层次聚类算法(AHC)3.4 基于成对约束的半监督凝聚层次聚类算法(PS-AHC)3.4.1 利用成对约束改变聚类簇之间的距离3.4.2 PS-AHC算法的步骤3.5 实验结果与分析3.5.1 实验方案3.5.2 结果与分析3.6 本章小结第四章 基于遗传算法的改进半监督聚类算法4.1 建立遗传算法模型4.2 基于遗传算法的半监督聚类算法(LG-SSC)4.3 基于遗传算法的改进半监督聚类算法(PLG-SSC)4.3.1 利用类标记信息4.3.2 通过PFDS方法来利用成对约束信息4.3.3 PLG-SSC的整体描述4.4 实验结果与分析4.4.1 实验方案4.4.2 结果与分析4.5 本章小结结论参考文献在读期间已发表和录用的论文个人简历
相关论文文献
- [1].基于约束信息的微博用户划分[J]. 计算机与数字工程 2019(11)
- [2].基于凸壳的约束信息扩展方法[J]. 计算机工程与应用 2014(04)
- [3].改进的约束变密度界面反演策略及其应用[J]. 地球物理学报 2020(10)
- [4].过程约束信息在软件静态测试中的应用[J]. 计算机辅助设计与图形学学报 2011(03)
- [5].基于约束信息的并行k-means算法[J]. 东南大学学报(自然科学版) 2011(03)
- [6].DISP相关QoS约束信息跨层信道抢占算法[J]. 科技通报 2014(10)
- [7].基于非凸约束信息的传感器网络节点定位方法[J]. 计算机工程 2008(11)
- [8].历史轨道约束信息下的区域站GPS卫星轨道确定[J]. 大地测量与地球动力学 2009(05)
- [9].识别概念的允许变换说质疑[J]. 应用概率统计 2011(06)
- [10].提高静态缺陷检测精度方法[J]. 计算机辅助设计与图形学学报 2010(11)
- [11].混合约束的软限制近邻传播半监督聚类算法[J]. 烟台大学学报(自然科学与工程版) 2011(04)
- [12].复杂产品拆卸层次模型与构建方法研究[J]. 机电工程 2020(03)
- [13].强化学习在中职招生系统中的应用[J]. 计算机应用与软件 2013(04)
- [14].基于成对约束的主动半监督文本聚类[J]. 计算机工程 2011(13)
- [15].协同感知的框架研究[J]. 福建电脑 2010(04)
- [16].协同设计中约束信息的可视化映射研究[J]. 合肥工业大学学报(自然科学版) 2009(03)
- [17].基于约束投影的近邻传播聚类算法[J]. 计算机工程与科学 2014(03)
- [18].带有先验约束信息边坡变形监测滤波算法[J]. 湖南大学学报(自然科学版) 2011(02)
- [19].基于强化学习的业务流程中的柔性约束研究[J]. 计算机科学 2011(03)
- [20].交通是平的[J]. 中国公路 2017(10)
- [21].一种基于数据相关性的半监督模糊聚类集成方法[J]. 计算机科学 2015(06)
- [22].一种混合约束的半监督聚类算法[J]. 模式识别与人工智能 2011(03)
- [23].滑坡监测的自适应约束抗差滤波算法研究[J]. 大地测量与地球动力学 2011(06)
- [24].基于工艺约束矩阵的加工序列优化[J]. 中国机械工程 2009(09)
- [25].一种主动式的半监督最近邻学习方法[J]. 山东大学学报(理学版) 2011(05)
- [26].基于社会管理视角的信息异化控制机制研究[J]. 情报理论与实践 2013(11)
- [27].融合通道信息注意力网络的叶片病害识别[J]. 计算机工程与应用 2020(23)
- [28].基于Web Services的关系型数据服务动态发布方法[J]. 计算机与现代化 2014(12)
- [29].带有等式状态约束的多传感器数据融合算法[J]. 上海交通大学学报 2014(07)
- [30].基于谱图和成对约束的主动半监督聚类算法[J]. 控制与决策 2013(06)