网络信息资源检索技术.pptxVIP

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 网络资源检索技术 第一节 检索词技术一、关键词技术 虽然布尔操作符和其他的检索辅助符号(如双引号、file type等)也非常重要,但对于检索来说,最根本,也是最困难的,是使用什么样的关键词来构造检索提问。 只有关键词的检索提问能够检索到很多结果,而没有关键词的检索提问即使包括再多的布尔和其他操作符也检索不到任何结果。从这个意思上说关键词是检索的灵魂丝毫不为过。 虽然近年来自然语言检索和智能检索代理等领域的研究进展很快,但目前最成熟应用也最广泛的仍然是基于关键词的检索技术,所以要想真正提高自己的检索水准,必须从关键词开始。 一次检索就是寻找一个特定主题的信息的过程。下面的步骤将引导读者如何把检索需求转换成具体的、确切的关键词或词组一正是通过它们才能检索到我们需要的信息。 1、足够多的关键词是快速定位目标信息的关键 构建检索时的5W1H:-------第一个检索技巧 (1)What:要找的信息和主题是什么,可以从什么角度或是立场来切入,把相关的关键词或是词组都列出来。(2)Who:是否涉及特定的群体或是个人?有特定的人名的话,应该把人名也列出来,并留意这个人名有没有不同的写法(译法)或是拼法?(3)Where:是否限于特定的国家或地区?中国内地?港澳台地区?美国?很多搜索引擎都可以按地区或国家限定查询范围。(4)When:是否从特定的时间剖面来探讨?或特定时间点以后才有有事件或情况?(5)Why:这个主题有什么意义或影响?为什么会有这种现象发生?(6)How:是不是有特定的方法,有的话,也将其列为关键词,有时查询结果太多时,可以增加关键词来限定再查询。2、检索时应当避免停用词和单独使用过于常用词----第二个检索技巧问题:能不能直接将上面分5个方面列出的信息直接作为检索提问呢?答案是否定的。一个最明显的问题是常用词:英文词,如and,about.the,of,a,in,as,if,not,why,never,before,it,etc.汉语词,如“了”,“这”,“那”,“很”,“的”等等。检索工具忽略这些词,因为这类词过于常用了,信息价值很低,检索这些关键词不仅无助于缩小查询范围,而且会大大降低搜索速度。除了停用词(stoplists)之外,还有一些所谓的vulgar words,意思是过于普通的词,虽然它们不属于停用词,但使用得实在过于广泛,以至于出现在百万上千万的网页中,使得它们事实上不能被用来帮助找到什么有用的信息(除非和别的关键词一起使用),比如说“气温”,有无数个网站提供跟“气温”相关的信息,从地方天气预报到学术论文到气象学科普等等,所以使用更多的关键词或更明确的关键词来检索要比单纯检索“气温”好得多,例如设计一个类似“北京冬季气温零下”这类特殊的搜索关键词。3、在检索提问时避免使用行为关键词,谨慎使用修饰词。-----第3个检索技巧 经过分析以后,Jan初步确定了下面的关键词:bird、building、city、Spring、daylight而很明显检索的主题在于bird。4、截词检索和通配符---检索的第四个技巧 一般来说,截词检索对于中文检索意义不大,西文检索时使用较多。 bird与birds,可以使用bird*来进行检索。 并不是所有的检索工具都支持截词检索,Google就不支持这种形式。5、选定合适的关键词级别---检索时的第5个技巧 上位词:指概念上外延更广的关键词,或者可以说每一个关键词所覆盖的信息范围都是它的上位词所覆盖信息范围的子集。下位词:下位词则是指概念上内涵更窄的关键词。6、使用一定数量的同义词参加检索,以覆盖目标信息的范围----第六个检索技巧7、尽量使用词组检索----第七个检索技巧 关键词是检索的灵魂,对象词是关键词的重点和核心,而检索时最强有力的关键词则是词组.词组检索强制检索结果必须与词组的形式完全一致(顺序和间隔都不变),这样对检索结果限制得更严,检准率也更高。8、使用英文专业术语检索----第八个检索技巧 尽量使用英文专业术语检索,这是提高搜索结果质量的重要途径。 一项对6.5亿个Internet网页语言属性的调查表明,发现其中英文信息内容占了71%,而日文是6.82%,德文是5.08%,法文是1.75%,中文则为1.52%。 其实上面,Jan在列检索词时罗列了太多的无用词,例如building,daylight似乎没有必要。我们可以更改一下:第一、该鸟应为食肉类动物:可以定检索词为“猛禽”,英文为raptor,bird of prey。我们利用中文来进行检索;第二、该鸟的体形:类似于乌鸦。鸦类在鸟类中体形较大,大致在50—70厘米之间。可以利用50厘米来进行检索;第三、该鸟的毛色:灰白相间;第四、该鸟的喙:黄黑相间。利用Google检索,找到“泡泡社区--‖逛‖中

文档评论(0)

zhiliao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档