网络涉恐行为的特征分析与判定标准研究.ppt

网络涉恐行为的特征分析与判定标准研究.ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

网络涉恐行为的特征分析与判定标准研究内容简要背景文本特征提取中文分词单词归类判定方法系统设计背景国内恐怖势力活动猖獗网络环境错综复杂恐怖分子利用网络传播涉恐信息,达到扩大影响和策划活动等目的。一种基于词频的文本特征提取算法一套使用该算法和神经网络的文本判定系统文本特征提取1)建立零向量,维数与词类数相同2)取出文本下一个单词3)查询该单词类别,若该单词无分类,回到2),若有分类继续4)4)向量对应该类的坐标增加15)若还有下一个单词,返回2),若已经没有下一个单词,向量的每一维坐标除以总词数转化为频率,得到最终特征向量。特征提取需要解决的问题如何识别文中的每一个单词?如何给单词分类?如何确定分多少类?中文分词算法分词算法的选择 1)词典匹配的方法 2)字符标注的方法(CRF、HMM、MEMM)MMSEG算法(词典匹配) 词串(chunk)消岐规则MMSEG算法的改进 匹配方向 消岐规则 自学习的方法 MMSEG算法的改进匹配方向的改进假设最大匹配长度为5。原匹配方向: 改进后的匹配方向:单词分类的方法对正常、涉恐文本样本分别统计单词使用频率两类文本单词的使用频率的差别作为分类依据单词分类的方法(2)词频取对数缩小结果的数量级范围更准确地表现出单词使用差异第一类文本:第二类文本:相减结果:对数相减结果:类数取决于每条文本单词数L,不宜多于L/10,也可根据对数绝对值动态决定。得到结果后,先按结果符号(正负)分为2类,每一大类中,再将结果区间等长划分。我们0.001500邪恶0.000501我们0.001000邪恶0.000001我们0.005000邪恶0.005000我们0.17邪恶2.70特征判定标准如何根据特征来区分正常文本和涉恐文本?1)单词统计的是所有样本的词频,对于单条文本,词频波动很大2)样本较多,人力总结两类文本的特征费时费力3)网络更新速度非常快;为了逃避审查,涉恐语言经常改变句式、用词。静态的标准随着网络语言的发展逐渐不再适用神经网络:非线性逼近自学习高效神经网络的选择BP网络RBF网络网络类型网络结构学习效率逼近误差BP网络事先决定:试凑、实验速度难以控制,存在陷入局部极小值、震荡等问题任意精度,非最佳逼近RBF网络训练过程中动态变更速度容易掌控,不存在以上问题任意精度,最佳逼近系统流程学习:生成标准判定:使用生成的标准进行判定系统展示(1)基本分词系统展示(2)单词分类系统展示(3)训练网络系统展示(4)系统测试谢 谢!*背景文本特征提取:首先自然语言处理,这里涉及到的就是简单的分词,之后是根据具体应用而定的单词归类判定方法:提取出文本特征之后,用何种办法去判定其属性系统设计:总的流程从分词—提取—归类——训练————判定-*你懂的的原因,我国为营造一个健康的网络环境十分重视,但是环境错综复杂,活动猖獗由此,*文本---分词---为简化问题—提取出共性--分词*文本特征提取的总体思路:将成百上千的词汇,分类,建立特征向量*分词算法*有多种典型算法MMSEG包括1字符串的匹配2一系列消除歧义规则*优化算法*正常文本与涉恐文本对于某些词汇的使用频率是不同的以此作为依据来分类作为其特征属性*BP---是一种按误差逆传播算法训练的多层前馈网络RBF径向基网络用了RBF**背景文本特征提取:首先自然语言处理,这里涉及到的就是简单的分词,之后是根据具体应用而定的单词归类判定方法:提取出文本特征之后,用何种办法去判定其属性系统设计:总的流程从分词—提取—归类——训练————判定-*你懂的的原因,我国为营造一个健康的网络环境十分重视,但是环境错综复杂,活动猖獗由此,*文本---分词---为简化问题—提取出共性--分词*文本特征提取的总体思路:将成百上千的词汇,分类,建立特征向量*分词算法*有多种典型算法MMSEG包括1字符串的匹配2一系列消除歧义规则*优化算法*正常文本与涉恐文本对于某些词汇的使用频率是不同的以此作为依据来分类作为其特征属性*BP---是一种按误差逆传播算法训练的多层前馈网络

您可能关注的文档

文档评论(0)

iris + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档