- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
简单的文本查重软件的设计与实现
随着科技的进步,人们对网络依赖的加深,大量的信息在网络上共享,在方便了我们日常生活、学习和工作的同时,如何快速有效地找到我们所需要的信息就成为了关键。本论文通过分析文本查重的意义与方法,以及中文分词的各种算法与作用,阐述了中文分词是文本查重的重要基础,并通过中文分词算法中的正向最大匹配算法,以及文本中重复词汇、短语的统计得到重复率,实现整个文本查重系统的设计。
中文分词算法;正向最大匹配;重复率;文本查重
Design and Implementation ofthe Text Comparison System
With the development of science and technology, people become more and more relying on the network, a lot of information is shared on the network. The network facilitates our daily life, include studying and working at the same time. How to find the information that we need on the internet quickly and efficiently become more important for us. This article analyzes the method of the text comparison and the Chinese word segmentation. The Chinese word segmentation is the basic of the text comparison. This system uses forward maximum matching method and phrase’s repetition rate to realize the text comparison system.
Chinese word segmentation; Forward maximum matching; Repetition rate; Text comparison
目 录
TOC \o "1-3" \h \z \u 1 背景与意义 1
1.1 背景 1
1.2 分词的意义 1
1.3 分词的难点 2
1.4 常见分词算法 3
1.4.1 基于字符串匹配的分词(又称作机械分词方法) 3
1.4.2 基于理解的分词方法 4
1.4.3 基于统计的分词方法 4
2 系统分析 5
2.1 文本查重系统的需求分析 5
2.1.1 性能需求分析 5
2.1.2 功能需求分析 6
2.1.3 分词的基本过程 7
2.2 可行性分析 8
2.2.1 经济可行性分析 8
2.2.2 技术可行性分析 9
2.3 开发平台分析 9
3 系统设计 10
3.1 系统相应的模块 10
3.2 系统功能模块的介绍 10
4 编码与实现 11
4.1 词库加载的实现 11
4.2 分词处理的实现 13
4.3 对比查重的实现 14
4.4 对比结果显示 15
4.4.1 运行时间的显示 15
4.4.2 结果显示 15
5 系统运行与测试 17
5.1 系统的运行 17
5.2 系统的测试 22
5.2.1 模块的测试 22
5.2.2 系统的测试 22
结束语 24
参考文献 25
附录 26
致谢 30
PAGE 30
背景与意义
背景
信息作为人类发展以及进步的根基,随着科技的进步,网络的飞速发展普及,大量的在网络上共享,我们能够越来越方便的对所需要的内容进行查阅和引用,这为我们的生活、学习和工作带来极大的方便。但一切事物皆具有两面性,在信息爆炸的当今,我们又遇到了各种各样新的问题。
有人将网络比作海洋来形容网络上的信息的面的广以及量的大。而如何在广泛而又繁杂的信息之中准确的找到想要的信息以及数据就显得尤为重要,毕竟效率是审查事物价值的重要指标之一。也有人将网络比作图书馆,那么统筹管理大量的数据,建立一个参考咨询和文摘索引就是必不可少的了,这就是所谓的信息检索。而究其根本就在于分词。
目前在自然语言处理技术中,与英文相比较而言中文的处理技术要相差很大一段距离,而且英文的处理方法对于中文而言并不能够直接使用,究其原因是因为中文必需先进行分词。中文分词是文本挖
您可能关注的文档
- springboot vue java校园台球厅人员与设备管理系统论文.docx
- springboot vue java网吧管理系统论文.docx
- asp在线调查与统计系统_论文.doc
- java物流运输管理系统论文.doc
- php社交网络微博论文.doc
- thinkPHP学生公寓宿舍管理系统的设计与实现论文.docx
- 企业产品信息发布网站的设计与实现论文.docx
- 生猪养殖信息管理系统论文.doc
- 基于Android的校园订票系统论文.doc
- 基于web的英语学习网站论文.doc
- 第一单元 四则运算(单元测试)-2023-2024学年四年级下册数学人教版.docx
- 第七单元小数的初步认识(单元测试)-2023-2024学年三年级下册数学人教版.docx
- 第四单元 小数的意义和性质(单元测试)-2023-2024学年四年级下册数学人教版.docx
- 期末检测题(试题)-2023-2024学年二年级下册数学人教版.docx
- 期中测试(第1-5单元)-2023-2024学年三年级下册数学人教版.docx
- 期中测试(试题)-2023-2024学年四年级数学下册人教版.docx
- 期中考试(1-4单元)(试题)-2023-2024学年三年级数学下册人教版.docx
- 第二单元 观察物体(二)(单元测试)-2023-2024学年四年级下册数学人教版.docx
- 第六单元 小数的加法和减法(单元测试)-2023-2024学年四年级下册数学人教版.docx
- 我的死蠢同桌.doc
文档评论(0)