- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十二章 基于大数据的信息内容安全管理;目录 Contents;目录 Contents;传统的网络舆情监测预警,是指通过对某个区域网民的有效抽样,进而面向抽样的网民群体,有效统计其在某个时间段内的网络舆论,从而实现该时间段网络社会舆情热点的输出,以及下一阶段网络社会舆情热点的研判。
我国政府同样高度重视互联网信息资源的合理开发和利用,尤其对涉及国家安全与社会稳定的信息捕获和分析技术的研究与开发。 “十九大”报告明确指出“加强互联网内容建设,建立网络综合治理体系,营造清朗的网络空间”,这又为新时期网络安全与信息化工作、网络信息内容安全管理与应用工作提出了更高要求。
总体而言,该领域的技术发展趋势可归纳为以下几个方面:
1)针对信息源的深入信息采集
2)异构信息的融合分析
3)非结构信息的结构化表达
;1)针对信息源的深入信息采集
在各类互联网信息提取分析系统或技术中,核心技术必然包括对互联网公开信息资源的广泛采集与提取。以常见的google、hotbot、百度等搜索引擎为例,其核心的技术路线是以若干核心信息源为起点,通过大量的信息提取“机器人”(agent or spider)完成对信息的广泛提取。
虽然各个搜索引擎的具体实现不尽相同,但一般包含Robot、分析器、索引器、检索器和用户接口等五个基本部分,其基本工作原理如图 12-1所示。
;2)异构信息的融合分析
互联网信息的一大特征就是高度的异构化。所谓异构化,指的是互联网信息在编码、数据格式以及结构组成方面都存在巨大的差异。而对于海量信息分析与提取的重要前提就是对不同结构的信息可以在统一表达或标准的前提下进行有机的整合,并得出有价值的综合分析结果。
对于异构信息的融合分析,目前比较流行的方式可以分为两类
一是通过采取通用的具有高度扩展性的数据格式进行资源的整合。其中具有代表性的技术是XML——Extensible Markup Language;XML具有结构简单、易于理解的特点,是目前国际上广泛使用的对于异构信息融合分析的重要工具。
二是采取基于语义等应用层上层信息的抽象融合分析。这一类技术的代表是RDF。XML所存在的问题是因为XML不具备???义描述能力,所以在真正处理对于内容融合要求比较高的信息时,难免力不从心。为此,W3C推荐了RDF(resource Description Framework)标准来解决XML的语义局限。;3)非结构信息的结构化表达
与传统的信息分析系统处理对象不同,针对互联网信息分析处理的大量对象是非结构化信息。对于从非结构化信息得到结构化信息,传统意义上我们将之归结为典型的文本中的信息提取问题。
信息提取技术一般被分解为五个层次:
第一是专有名词(Named Entity),主要是人名、地名、等名词性条目
第二是模板要素(Template Element),指应用模板的方法搜索和识别名词性条目的相关信息,通常是一元关系
第三是模板关系(Template Relation),指应用模板的方法搜索和识别专有名词与专有名词之间的关系,通常是二元关系 ;
第四是同指关系(Co-reference),要解决文本中的代词指称问题。
第五是脚本模板(Scenario Template),是根据应用目标定义任务框架,用于特定领域的信息识别和组织;;据网络舆情监测预警的应用需求和目前国内外技术发展趋势,网络媒体信息提取、网络媒体内容聚合分析以及网络媒体内容综合表达等若干方面,沟通构成了网络舆情监测预警核心关键技术。
目前,国内外政府职能机构与研究部门,尤其是西方发达国家,针对相关的网络技术投入了很多资源,推动了该类系统与技术的全面发展。国内外相关技术发展的主要现状为:
1)高仿真网络信息(论坛、聊天室)深度提取技术
2)基于语义的海量媒体内容特征快速提取与分类技术
3)非结构信息自组织聚合表达技术;1)高仿真网络信息(论坛、聊天室)深度提取技术
在各类针对互联网信息提取分析系统与技术中,核心技术必然包括对互联网公开信息资源的广泛采集与提取。以我们常见的google,hotbot,百度等搜索引擎为例,其核心的技术路线是以若干核心信息源为起点,通过大量的信息提取“机器人”(agent or spider)完成对信息的广泛提取。
因此,在针对互联网的信息提取中,对于动态、实时、分布式发布信息的准确与深度采集有很高的要求。而这正是目前针对普通网络媒体的信息采集技术严重欠缺之处。具体而言,目前一般的网络媒体信息采集技术有两点不能满足网络舆情监测预警基础设施与关键应用的技术需要。
首先是针对定点信息源的全面和深入采集。现有的互联网信息采集技术的代表性产品是搜索引擎。而事实上,目前的搜索引擎在信息提全率方面的表现差强人意。
更加重要的是,随着互联网信息发布技术
您可能关注的文档
- 信息技术基础-Office-2010实用案例教程教学课件-第3章职业生涯规划文档制作.pptx
- 信息检索与运用PPT课件(共8章)第三章-淡墨留香的知识典藏---纸质文献检索.pptx
- 信息内容安全管理及应用教学课件(共12章)第1章.pptx
- 信息内容安全管理及应用教学课件(共12章)第2章.pptx
- 信息内容安全管理及应用教学课件(共12章)第3章.pptx
- 信息内容安全管理及应用教学课件(共12章)第11章信息过滤.pptx
- 信息内容安全管理及应用教学课件(共12章)第八章基于深度学习的图像处理.pptx
- 信息内容安全管理及应用教学课件(共12章)第九章深度网络自然语言处理.pptx
- 信息内容安全管理及应用教学课件(共12章)第六章图像处理特征抽取.pptx
- 信息内容安全管理及应用教学课件(共12章)第七章信息处理模型和算法.pptx
- 2023-2024学年河北省邢台市信都区八年级(上)月考道德与法治试卷(10月份)(含解析).docx
- 公司新员工转正申请书(15篇).pdf
- 应聘求职自荐书.pdf
- 2022-2023学年福建省龙岩五中九年级上学期期中英语试卷(含解析,无听力音频及原文).doc
- 第16课《猫》课件(共34张ppt)统编版语文七年级上册.pptx
- 2023年秋人教版九年级数学上册期中模拟考试题(含答案).docx
- 人教版八年级数学上册试题 第十一章 三角形单元测试卷(含答案).docx
- 人教版八年级数学上册试题 第十五章 分式单元测试卷(含答案).docx
- 2022-2023学年陕西省西安市三校联考九年级(上)期末数学试卷(含解析).docx
- 福建省龙岩市上杭县紫金中学2023-2024学年七年级上学期第一次月考生物试卷(含解析).docx
文档评论(0)