web网站信息采集系统设计方案.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
web网站信息采集系统设计方案

web网站信息采集系统设计方案   [摘要]讨论利用.Net技术、数据库技术,设计Web网站信息的采集系统,并以某人才网站招聘信息的采集为例,说明实现过程。提出基于Web的信息采集系统的设计方案,并利用.Net技术与数据库技术,实现对特定网站信息的采集与处理。   [关键词]信息检索 WEB技术 ADO.NET   中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)1120081-01      随着WWW的发展,搜索引擎所提供的搜索和导航服务已经成为互联网上非常重要的网络服务,它的特点是能够帮助我们很快找到所需的网站或资料。本文讨论利用.Net技术、数据库技术,设计Web网站信息的采集系统,并以某人才网站招聘信息的采集为例,说明实现过程。      一、信息采集系统的设计      (一)采集系统设计的思路   首先,要采集指定网站的信息,必须了解信息的浏览方式,并记录相应的访问路径。大多数网站采用动态网页技术(ASP、PHP等)构建,通过参数传递来检索数据库,输出对应信息的。   第二,采集所获的信息必须存入本地数据库,需要对几个目标网站上的信息进行比较与分析,得到统一的数据模型,并设计相应的数据表,便于将来对不同网站采集来的信息统一进行结构化。   第三,考虑到可能会对网站进行多次采集,要避免重复的信息存入自己的数据库内,同时重复处理已经存在的信息也会降低采集系统的工作效率。因此可以在记录每条信息的同时,记录其对应的URL或相关ID,便于验证链接是否已经访问过。   (二)相关的技术   1.请求/响应模型。Web应用是基于HTTP协议的客户端/服务器请求响应机制的信息交换,当我们在浏览器输入一个网址,需要经过建立连接、发送请求、发送响应、关闭连接4个步骤,才能获得网页信息。   在.Net框架的命名空间System.Net中提供了两个类WebRequest和WebResponse,分别用来发送客户端请求和获取服务器返回的响应。   2.正则表达式。正则表达式提供了功能强大、灵活而又高效的方法来处理文本。正则表达式的模式匹配可以快速地分析大量的文本以找到特定的字符模式;提取、编辑、替换或删除文本子字符串;或将提取的字符串添加到集合。   在.Net的命名空间System.Text.RegularExpressions提供Regex类构建正则表达式,同时还提供了相应的方法完成对字符串的匹配和过滤。   3.ADO.Net。采集系统得到的数据最终都要存入本地数据库,在.NET框架中提供了数据库访问技术ADO.NET。它屏蔽了各类数据源之间的差异,以统一的接口进行访问,由一组访问各类数据源的类构成。为提高访问效率,还为SQL Server提供了专用类,SqlConnection、SqlCommand、SqlDataReader、   Dataset、SqlDataAdapter等,完成对SQL Server数据库的访问与数据处理。   (三)算法描述   要完成信息的采集,首先要能够在页面中过滤出我们所需要的链接起点,然后系统模拟人工点击流程来读取信息。   1.根据访问路径创建一个C#自带的REGEX类的对象,该类是用来进行正则表达式的匹配文本类。   2.通过WebRequest发送请求,WebResponse接取返回的响应,再通过StreamReader读取返回的响应,形成包含网页所有源码的字符串。   3.对该字符串用正则表达式进行匹配,得到MatchCollection集合,存放了所有我们需要进一步读取的目标链接。   4.遍历集合的成员,访问成员链接所指向的页面,由StreamReader读取信息后,使用正则表达式提取页面信息。      二、人才招聘信息采集系统的实现      (一)读取招聘单位列表信息   打开web_url指定的网站页面,并通过StreamReader对象读取网页源代码存入字符串all_code中,便于正则表达式提取。   HttpWebRequestall_codeRequest=(HttpWebRequest)WebRequest.Create(web_url);   WebResponseall_codeResponse=all_codeRequest.GetResponse();   StreamReaderthe_Reader=newStreamReader(all_codeResponse.GetResponseStream(),System.Text.Encoding.Default);   stringall_code=the_Reader.ReadToEnd();   the_

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档