信息内容安全管理及应用教学课件(共12章)第11章信息过滤.pptxVIP

信息内容安全管理及应用教学课件(共12章)第11章信息过滤.pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十一章 信息过滤;目录 Contents;信息过滤 概念;信息过滤是用以描述一系列将信息传递给需要它的用户处理过程的总称 信息过滤系统是从大量动态产生的信息中选择并展现给那些用户以满足他或她信息的需求 信息过滤是根据给定的对信息的需求,只在输入数据流中保留特定数据的行为; 建模:用户的长期兴趣 一般是在持续的信息中进行快速的处理 有时候用户可以有反馈意见 ;假设一个酒店推荐系统,酒店的数据包括酒店描述,用户评价,价格等多种信息。推荐系统进行推荐时,有两个推荐的方案,一种是根据用户当前的搜索(根据地理位置或者价格因素)进行,另一种是根据用户的长期兴趣(隐藏在用户对以往住过酒店的评价之中)。 根据长期兴趣的推荐,一般属于过滤系统的范畴。 如何描述用户的兴趣,是过滤系统首先要解决的问题。也称为用户模型。;信息过滤可以认为是满足用户信息需求的信息选择过程 在内容安全领域 信息过滤提供信息的有效流动,消除或者减少信息过量、信息混乱、信息滥用造成的危害;信息过滤 历史;1958 图书馆工作人员根据每个用户的不同需求,建立相应的查询模型,然后通过精确匹配的文本选择方法,为每个用户产生一个符合其查询需求的新文本清单 1969 选择性信息分发系统(SDI,Selective Dissemination of Information),用户模型人工更新 1982年,Denning提出了“信息过滤”的概念,提出了电子邮件过滤的应用(识别紧急邮件和一般邮件)。发展为现在的垃圾邮件过滤系统 1986 Malone提出了三种信息选择模型,即认知、经济和社会。其中社会模式中,文本的表示是基于以前读者对于文本的标注,通过交换信息,自动识别具有共同兴趣的团体。各种社会过滤的萌芽 1990年,DARPA建立了TIPSTER计划,利用统计技术进行消息预选;1997年的TREC-6开始,自然语言处理会议中主要的文本过滤任务 Routing路由过滤 用户的检索需求固定,提供对应于该检索需求的训练文档集中的相关文档,从检索需求构造查询语句来查询测试文档集。 Batch Filtering批过滤 用户需求固定,提供对应于该用户需求较大数量的相关文档作为训练数据,构造过滤系统,对测试文??集中的全部文本逐一作出接受或拒绝的决策 Adaptive Filtering自适应过滤 从主题描述出发,不提供或只提供很少的训练文档,对输入文本流中的文本逐一判断。对“接受”的文本,能得到用户的反馈信息,用以自适应地修正过滤模板。而被“拒绝”的文本不提供反馈信息;目录 Contents;信息过滤 分类体系;分类体系;主动式 主动为用户查找信息 例如:新闻推送服务(头条有点像,信息汇总,信息推荐) 被动式 定义信息源,只处理信息源中的数据,通常该信息源是可写的数据源 例如:邮件过滤器;系统部署在信息的源头 抖音的推送 系统部署在专用的过滤服务器上 内容网关(网络设备,可以提供网段内信息过滤服务) 系统部署在信息接收方(用户端) 邮件客户端过滤功能 安装在个人计算机上的病毒查杀系统;认知过滤(基于内容或者用户兴趣) 基于带过滤信息的内容,和用户兴趣进行比对,实施过滤 社会过滤(协作式过滤) 通过个体和群体的关系,或者个体和个体之间的关系 相似的个体(或者从属于同一个群体)有相似的兴趣 使用相似个体的行为来预测个体的行为 例如:客户A和B都喜欢某酒店H1,B很喜欢酒店H2,猜测:A很喜欢H2;显式 刚登陆网站,即要求填写爱好领域 隐式 你之前浏览过的页面 你放进购物车的物品,你吃过的饭店 你给的五星评价;信息过滤 应用;搜索引擎 登录搜索引擎,个人浏览记录可用来做未来的信息推荐 电子邮件垃圾过滤 微博 – 热门 绿色上网 客户推荐(电影推荐、抖音推荐);信息过滤 评价;查全率 所有符合用户兴趣的文本,被过滤系统过滤出来的比例 查准率 被过滤系统过滤出来的文本中真正符合用户兴趣的占比 问题:如何判断是否符合用户兴趣?理论上只有用户自己说了算 增加用户反馈 正面的反馈 反面的反馈 标注数据集,假设数据集中的数据标记都是正确的;目录 Contents;内容安全领域 的信息过滤;广义地讲,信息过滤是信息检索的一种特殊表现形式 信息过滤的信息需求将反复使用,长期用来进行特征描述;信息检索的信息需求往往只是用户查询时使用一次。 信息过滤的数据库是动态的,但是需求是相对静态的(有变化,但更新相对较慢);信息检索的数据库是静态,同时需求也是静态的。 信息过滤使用用户偏好,而信息检索使用一般查询。 如果信息过滤用户对系统有所了解,可以更好的使用过滤系统。信息检索不需要。 信息过滤要涉及到用户建模/个人隐私等社会问题;信息提取是指从一段文本中抽取指定的一类信息(例如事件、事实)、并将其(形成结构化的数据)填

您可能关注的文档

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档