搜我要搜索引擎内核软件设计说明书.docx

搜我要搜索引擎内核软件设计说明书.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
搜我要搜索引擎内核软件 设计说明书 、引言编写目的 为了用户能够更快更方便更准确的获得想要的信息,本人独立自主开发了搜我要搜索引擎内核,主要使用了语义搜索等核心技术,并针对移动互联网的特点做了功能扩展。该设计说明书是对搜我要搜索引擎内核软件的设计说明,有利于该软件的开发和使用,并作为开发该软件的一个文档,同时它还将作为该产品设计与开发的重要参考依据。 项目背景 开发者:王志勇 软件名称:搜我要搜索引擎内核软件 搜索引擎名称:搜我要 工程组织者:王志勇 产品用户:互联网用户 产品设计者:王志勇 产品生产者:王志勇 产品所有权:王志勇拥有定义 搜我要——搜索我想要的; 搜我要搜索引擎器一一以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织及处理,并且能为用户提供检索服务,从而起到信息导航的目的,一般包括信息搜集、信息整理和用户查询三部分。它主要用于帮助互联网用户查询信息的搜索工具 索引器一一C#的简单组件,使用索引器,可以用索引数组的方式来索引对象,索引器提供了与数组访问相类似的类成员访问方式。 控制器一一英文名称:controller,按照预定顺序改变主电路或控制电路的接线和改变电路中电阻值来控制电动机的启动、调速、制动和反向的主令装置。 索引数据库——将文献中具有检索意义的事项(可以是人名、地名、词语、概念、或其他事项)按照一定方式有序编排起来,以供检索的数据库。 语义搜索一一指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。 网络爬虫一一又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 参考资料 《搜索引擎:信息检索实践:informationretrievalinpractice》一(美)W.BruceCroft,(美)DonaldMetzler,(美)TrevorStrohman著机械工业出版社 《搜索引擎基础教程》一一袁津生,李群主编清华大学出版社 《搜索引擎技术基础》一一刘奕群[等]编著清华大学出版社 《C语言程序设计》一一郭晓利,孙玉钰主编北京理工大学出版社二、总体设计需求概述 随着信息多元化的增长,互联网一天天的强大,几乎没有其不可达到的领域,尤其是搜索引擎扮演着十分重要的角色,没有出色的搜索引擎用户就不能检索到所需要的信息,没有良好的搜索布局就不会有更系统的网页数据,显然好的搜索引擎必须要以更系统的数据源为前提。 作为一个重要的信息平台,网络内容不断丰富,整个网络逐渐堆积成一个前所未有的超大型信息库。因此怎样快速有效的从海量数据中找出所需的信息就变成一个困难的问题,搜索引擎正是为了解决“信息丰富,知识贫乏”奇怪现象问题而出现的技术。它已经成为信息领域的产业之一。搜索引擎有大量的用户,从而衍生出许多商机,具有很好的经济价值。 需求分析: 用户可以通过搜我要搜索引擎查询商品信息; (1)使用具体商品名称作为查询条件; (2)使用若干搜索条件进行筛选商品,如商城、价格区间、品牌、商品类别等。 用户可以选择一种商品在各个商城进行价格比较,从而选择物美价廉的商品; 在查询或比较结果中,可以点击结果中的一款,以得到其产品详细信息,并可以看到以下几项: (1)用户评论(多少人评论,评论内容,评论时间等) (2)搜我要搜索引擎的关注程度 (3)销售榜和关注榜排名情况 (4)商品详细描述 (5)上市时间开发环境 基于WindowsXPSP3、CentOS5.0操作系统 5台HP64位服务器(Intel8核CPU、1T硬盘、4G内存、千兆网卡) MYSQL数据库 采用C++/C语言开发软件结构 3.1搜我要搜索引擎流程图 建立索引和排序用户输入用户查询图1搜我要搜索引擎流程图3.2搜我要搜索引擎的体系结构 图2体系结构图 4前期处理流程 图4前期处理流程图 在网络爬虫程序把目标网页存到本地后,应该用处理程序进行初步处理,根据不同的字典来进行扫描,将html控制代码,多余的广告的无用信息去除,只保存有命中率的页面并存成纯文本格式,这样会提高索引准确率和效率。 这里提到的字典是人工创建的,开发人员应将不同类别的关键词汇放到字典文件中,由前期处理程序读取并记录每个目标页面关键词的命中率,当所有关键词的命中率为0时,此页面将被丢弃,否则转换成文本格式以便建索引。 如何建立字典?除了人们日常的词汇,开发人员应下载一些不同类别的目标页面,搜集最新关键词来丰富词典,从而提高字典的准确性。 如果想要不同的分类,比如餐饮,电子和旅游,那么就要有三个字典,分别包含餐

文档评论(0)

ld521521 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

认证主体李**

1亿VIP精品文档免费下

相关文档

相关课程推荐