C#简单的文本查重软件的设计与实现毕业论文.docx

C#简单的文本查重软件的设计与实现毕业论文.docx

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
简单的文本查重软件的设计与实现 随着科技的进步,人们对网络依赖的加深,大量的信息在网络上共享,在方便了我们日常生活、学习和工作的同时,如何快速有效地找到我们所需要的信息就成为了关键。本论文通过分析文本查重的意义与方法,以及中文分词的各种算法与作用,阐述了中文分词是文本查重的重要基础,并通过中文分词算法中的正向最大匹配算法,以及文本中重复词汇、短语的统计得到重复率,实现整个文本查重系统的设计。 中文分词算法;正向最大匹配;重复率;文本查重 Design and Implementation of the Text Comparison System With the development of science and technology, people become more and more relying on the network, a lot of information is shared on the network. The network facilitates our daily life, include studying and working at the same time. How to find the information that we need on the internet quickly and efficiently become more important for us. This article analyzes the method of the text comparison and the Chinese word segmentation. The Chinese word segmentation is the basic of the text comparison. This system uses forward maximum matching method and phrase’s repetition rate to realize the text comparison system. Chinese word segmentation; Forward maximum matching; Repetition rate; Text comparison 目 录 TOC \o "1-3" \h \z \u 1 背景与意义 1 1.1 背景 1 1.2 分词的意义 1 1.3 分词的难点 2 1.4 常见分词算法 3 1.4.1 基于字符串匹配的分词(又称作机械分词方法) 3 1.4.2 基于理解的分词方法 4 1.4.3 基于统计的分词方法 4 2 系统分析 5 2.1 文本查重系统的需求分析 5 2.1.1 性能需求分析 5 2.1.2 功能需求分析 6 2.1.3 分词的基本过程 7 2.2 可行性分析 8 2.2.1 经济可行性分析 8 2.2.2 技术可行性分析 9 2.3 开发平台分析 9 3 系统设计 10 3.1 系统相应的模块 10 3.2 系统功能模块的介绍 10 4 编码与实现 11 4.1 词库加载的实现 11 4.2 分词处理的实现 13 4.3 对比查重的实现 14 4.4 对比结果显示 15 4.4.1 运行时间的显示 15 4.4.2 结果显示 15 5 系统运行与测试 17 5.1 系统的运行 17 5.2 系统的测试 22 5.2.1 模块的测试 22 5.2.2 系统的测试 22 结束语 24 参考文献 25 附录 26 致谢 30 PAGE 30 背景与意义 背景 信息作为人类发展以及进步的根基,随着科技的进步,网络的飞速发展普及,大量的在网络上共享,我们能够越来越方便的对所需要的内容进行查阅和引用,这为我们的生活、学习和工作带来极大的方便。但一切事物皆具有两面性,在信息爆炸的当今,我们又遇到了各种各样新的问题。 有人将网络比作海洋来形容网络上的信息的面的广以及量的大。而如何在广泛而又繁杂的信息之中准确的找到想要的信息以及数据就显得尤为重要,毕竟效率是审查事物价值的重要指标之一。也有人将网络比作图书馆,那么统筹管理大量的数据,建立一个参考咨询和文摘索引就是必不可少的了,这就是所谓的信息检索。而究其根本就在于分词。 目前在自然语言处理技术中,与英文相比较而言中文的处理技术要相差很大一段距离,而且英文的处理方法对于中文而言并不能够直接使用,究其原因是因为中文必需先进行分词。中文分词是文本挖

文档评论(0)

计算机论文专家 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档