基于Weka和LDA主题模型跨文本人名聚类研究.doc

下载文档 降价啦

8
0
约3.03千字
约 7页
2018-06-24 发布于福建
举报
版权申诉
保障服务

基于Weka和LDA主题模型跨文本人名聚类研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Weka和LDA主题模型跨文本人名聚类研究

基于Weka和LDA主题模型跨文本人名聚类研究　　Abstract: Chinese Personal Name Clustering is key problem in people search and the base of multi-document summarization and information fusion technology. According to the topic correlation of news and the feature of low-noise in name’s context, we did some research about using clustering algorithm in Weka and topic model to solve the problem of Personal Name Clustering from the point view of text clustering. Experimental results show that this method is feasible and efficient. 　　Key words: personal name cluster LDA model Weka 　　摘要：人名聚类是人物搜索技术中的核心问题，是多文本摘要、信息融合技术的基础。根据新闻类语料的主题相关性及人名上下文噪音小等特性，本文从文本聚类的角度研究了将Weka中的聚类算法及主题模型用于人名聚类。实验结果表明将人名聚类的问题转化为文本聚类的问题是可行且有效的。　　关键字：人名聚类 LDA模型 Weka 　　中图分类号：O141.4 文献标识码：A 文章编号：　　1 引言　　由于字少人多、文化趋同、迎合时尚、家谱限制等原因，中国人重名现象十分普遍[1]。据网络查询[ /shengri/]，在中国叫张伟的人有三十多万人，叫王刚的有十五多万人。随着社交网络的发展，包含相同人名但人物不同的网络数据也会越来越多，如何快速、准确从这些海量数据中搜索到特定人物的相关信息变得极为困难。例如：在搜索人物时，像百度、Google等全文搜索引擎返回的大多是特定领域里名人的相关信息，即使是全球最大的中文搜人引擎Ucloo优库[ /]，返回的也只是同名不同人物地理位置的分布，并没有返回人物的其他相关信息。面对人物搜索领域的这一难题，提出了人名聚类这一关键技术。　　人名聚类经过多年的研究，已经使用的方法有：用指代链提取摘要并聚类的方法[2]；用最大熵的方法进行初步分类然后采用概念-实例对聚类的方法[3]；基于社会网络的重名消解方法[4]；基于主题模型和上下文摘要相结合的人名聚类方法[5]；基于多阶段的中文人名聚类的聚类技术[6]；引入社会角色知识库，再进行聚类的方法[7]。　　本文主要研究了将SimpleKMeans算法、sIB算法、EM算法、FarthestFirst算法、HierarchicalClusterer???法、LDA主题模型应用于人名聚类。为了能更好的了解人名聚类，分别用基于文本空间向量模型和主题模型两种不同模型的6种算法，对提取出的与人名相关的信息进行了聚类，并对实验的结果进行了分析。　　基本思想　　2.1向量空间模型　　向量空间模型(Vector Space Modal，VSM)是由哈佛大学的Gerard Salton等于20世纪60年代提出的。是目前应用最广泛的一种文本信息特征表示模型。该模型的主要思想是：以一个规范化的特征向量来表示文本。其相关的概念如下：　　文档(Document)：定义为一篇文章或文本片断。文档集表示如下：D={D1,D2, … ,Dn}。　　项(Term)：定义为表达文档的特征项，一般用文档中的词来表示。　　权重(Weight)：定义为特征项在文本中的重要程度。常用的计算方法是TF-IDF方法。　　TF(Term Frequency)：定义为词项t在文档中出现的次数。对于在特定文档中的词项ti其重要性可表示为：　　 ( 表示该词项在文档中出现的次数) (1) 　　 DF(Document Frequency)：定义为待处理文档集中出现词项t的文档数。　　 IDF(Inverse Document Frequency)：定义为文档的总数除以DF，再将得到的商取对数得到,其表达式为：　　 (2) 　　(||：文档集中的文件总数，||指包含词的文件数目)。　　这样，特征项在文档中的权重即可用下面的公式计算出来。　　 (3) 　　对于某一特定文档中的高频率词语，以及该词语在整个文档集合中的低文档频率，可以产生出高权重的TF