搜索日记中人名识别研究.docxVIP

下载本文档

0
0
约6.56千字
约 7页
2023-08-30 发布于广东
举报
版权申诉

搜索日记中人名识别研究.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索日记中人名识别研究 1 人名识别任务转化成crfs序列标注任务近年来，大量从互联网用户的搜索越来越受到重视。作为一个丰富的公共智慧数据资源，搜索编年史已成为科学研究的对象。社会的进步使得用户对自己或他人的关注度越来越高, 会借助搜索引擎进行检索, 因此搜索日志中存在着大量的人名。Downey等的研究表明, 每天产生的搜索日志中, 有2%-4%为人名查询串。由于搜索日志中存在大量的人名, 对日志中人名识别的研究在垂直搜索、查询推荐以及Web检索等方面被广泛应用。前人研究人名识别通常基于1998年人民日报标注语料, 多是基于统计模型以及统计与规则相结合的方法。随着机器学习方法的兴起, 研究者将其应用在人名识别上。与丰富的文本语料相比, 搜索日志略显单薄, 内容短、缺少上下文、结构不规范, 这些特点给日志中人名识别带来了挑战。目前在搜索日志中进行人名识别的研究相对较少, Pasca提出一种根据手动给定的种子实体确定其所在查询串的模板, 利用模板相似性算法抽取候选人名的方法。然而该方法只有当种子实体仅属于单个语义类别时才能取得较好的效果。曹雷等提出了一个基于弱指导话题模型的命名实体框架, 通过引入弱指导生成的概率模型, 学习各个类别的查询模块分布, 改善了候选实体的排序效果。张磊等将Pasca的框架移植到中文查询日志中, 借助关联规则对命名实体进行评分排序。上述方法对选取的种子要求较高, 种子性能的好坏将直接影响实验结果。Wen等提出一种基于搜索会话的无监督中文人名识别方法, 通过模拟人与人之间建立联系的过程, 结合候选人名上下文提出了候选人名的筛选方法。该方法虽实现了种子人名的自动发现, 但仅立足于搜索会话范围, 不能实现整个搜索日志内的人名识别。与前人研究方法不同, 本文将人名识别任务转化成CRFs序列标注任务。分析用户输入查询串中人名的分布特点、用字规律, 设计有效的颗粒特征和复合特征。引入人名知识库, 部分解决机器学习对缺少上下文信息的孤立人名查询串的弱识别难题。对未召回的含人名查询串进行统计, 发现其均存在查询串短 (一般为2-3个字) 、且多为低频或生僻的人名用字现象, 据此设计了条件概率筛选准则作为优化处理。 2 日聚体信号搜索存储相关量表与文本领域的句子不同, 查询串自身包含的字面信息较少, 人名所能依赖的信息更少, 构成查询串的关键词顺序前后也比较随意, 并不遵循严格的语法规则, 如表1所示: 通过表1对比发现, 人民日报语料中的人名有着丰富的上下文、紧密的逻辑关系。而搜狗搜索日志内容贫乏, 上下文信息易缺失, 缺乏严格的语法规范, 给搜索日志中人名识别带来了挑战。但搜索日志数量庞大, 涉及范围较广, 拥有其他语料无可比拟的召回效果。并且日志内容结构单一, 可以有效避免一些人名歧义现象, 例如表1中的第二组对比语料。本文从人名用字、人名上下文信息、人名关注度以及伪人名4个方面对查询串进行详细的分析。 2.1 设置分布型对搜索日志中的人名统计其姓氏和名字的词频, 发现姓氏用字集中在几个常见大姓, 如王、赵、李等。名字用字情况则较为复杂, 较常用的名字用字相对集中在几十个字上, 如英、明、志、国、月、杰、珍等, 其通常被赋予某种美好含义, 但人名用字涉及的范围较广, 一些生僻字、方言字、古字也有出现, 如蕤、肜、琮、巽、祚等。 2.2 查询串的前后结构对比由于用户输入查询串较短, 主要以主谓、定中结构为主。因此查询串上下文缺失比较严重, 如表2所示。由表2可得, 虽然查询串的语法结构混乱, 但其上下文结构比较单一, 同一模式下的人名边界词比较集中固定。如上边界词: 主持人、将军、演员; 下边界词: 资料、简历、照片等。本文将人名边界富含的信息特征融入机器学习模型。 2.3 互联网信息扩散识别关注度是汉语词汇中的一个热词, 意为关注的程度。搜索日志中的人名关注度即指该人名在当下被搜索引擎检索的热度, 反映在数值上则是其出现频次的高低。关注度较高的人名, 在搜索日志中反复出现, 可利用其充足的信息量通过信息扩散来辅助识别信息量不足的人名。关注度较低的人名由于频次低, 鲜有上下文信息, 且多含生僻字等特点使其成为人名识别中的难点。 2.4 构词是由长期在规范层作用上出现的,指“名词+名词”、“动词+名词”等词间的组合形成的,易产生伪人名。易产生伪人名。易产生伪人名。易形成伪人名。请看“资金+” 伪人名指字面意义上虽近似人名, 但在整个查询串语境中并不符合语义的假人名。日志涉及内容广泛, 不免会有伪人名存在。如实体间的混淆, “陈家坝大桥”, 地名“陈家坝”近似人名。“名词+名词”、“动词+名词”这类词间组合易形成伪人名, 如“方正卓越K100-5460最新价格”易出现“方正卓”。此外用户输入不当也会导