文本聚类的开题报告.docxVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本聚类的开题报告 文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,可以将重要新闻文本进行聚类处理,是一种处理文本信息的重要手段。 文本聚类开题报告 基于K―Mean文本聚类的探讨 摘 要 文本聚类能够把相像性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采纳一种基于聚类中心的改进算法分析文本,通过试验,验证算法的有效性。 中国论文网 /9/view-6244858.htm 关键词 文本聚类;k-means;相像性;度量准则 中图分类号:TP391 文献标识码:B 文章编号:1671-489X(20XX)18-0050-03 Research for Text Clustering based on K-Mean//ZHANG Yue, LI Baoqing, HU Lingfang, MENG Li Abstract Text clustering can make the text similarity large clustered into the same class, K-Means usually is used in text clustering, because of impacting on the cluster center, which results in the clustering instability. Therefore, this paper uses a text analysis of improved algorithm based on the clustering center, through the experiment, it verifies the effectiveness of the improved algorithm. Key words text clustering; k-means; similarity; measure criterion 文本聚类是把不同的文本分别聚在不同的类别中,是文本挖掘的重要技术,它是一种无监督的学习技术,每个类中包含的文本之间具有较大的相像性,不同类间的文本相像性比较小。文本聚类是数据挖掘的重要分支,它应用神经网络、机器学习等技术,能够自动地对不同文本进行分类。 在文本聚类分析中,文本特征表示一般采纳向量空间模型[1],这种模型能更好表现文本。在对文本聚类的探讨中,Steinbach等人探讨了基于划分的方法和基于层次的方法在文本聚类中的适用程度[2-3],得出结论:采纳K-Means算法进行聚类,不仅聚类结果较好,而且适用于数据量比较大的聚类场合。在文章中依据探讨者对K-Means的发觉,结合实际探讨,采纳一种基于K-Means的改进算法来聚类。Dhillod等人对文本聚类进行探讨发觉,采纳余弦夹角作为相像性度量比采纳欧氏距离度量的结果好许多[4]。 1 文本聚类 文本聚类的方法许多,主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格的方法[5]。在这些聚类方法中,基于划分的K-Mean是最常用也是许多改进方法的基础,文章中实行的改进方法也是基于K-Mean的。 K-Mean首先由MacQueent[6]提出。它能在大数据集中广泛被运用,因为算法效率较高、算法执行过程理解简单。当前进行的许多探讨都是以K-Mean为基础开展进行的,它的计算困难度低,具有与文档数量成线性关系的特性,计算效率不仅高,而且伸缩性较强,适应大数据集的实力也很强。K-Mean以k为初始聚类数,然后把n个文本分到k个聚类中,这样类内的文本具有较高的相像度,不同类间的相像度较小。 K-Mean详细的算法过程如下: 1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心; 2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中; 3)重新计算已经得到的各个类的中心,通常计算中心的准则函数采纳平方误差准则,这个准则能够使生成的结果类尽可能地独立和紧凑; 4)迭代执行其次步和第三步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。 详细的算法流程如图1所示。 2 改进的聚类算法 虽然运用K-Mean算法进行文本聚类时,具有计算困难度低,计算效率不仅高,而且伸缩性较强,适应大数据集的实力也很强的优点,但是试验发觉,不仅初始聚类中心的选取对聚类结果有影响,孤立点的存在对文本的相像性的推断也有很大的影响,这就导致聚类推断不稳定。基于此,文章采纳一种改进的方法来进行文本聚类,改进关键点在于聚类中心的计算,

文档评论(0)

158****2095 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档