词共现频次变化视角下的动态主题识别研究-《知识管理论坛》(2022年2期).docx

  • 0
  • 0
  • 约4.95千字
  • 约 85页
  • 2023-06-13 发布于四川
  • 正版发售

词共现频次变化视角下的动态主题识别研究-《知识管理论坛》(2022年2期).docx

  1. 1、本文档共85页,仅提供部分内容试读,阅读完整内容需要下载文档。
  2. 2、本内容来自版权合作机构,仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
  3. 3、因数字商品的特殊性,一经售出,不提供退换货服务、不进行额外附加服务。
龙源版权所有 词共现频次变化视角下的动态主题识别研究 作者:席崇俊 刘文斌 丁楷 来源:《知识管理论坛》2022年第02期 摘要:[目的/意义]主题识别研究对于理清领域内的知识结构与研究热点非常重要,对领域主题进行动态识别,可以很好地帮助研究人员了解和掌握领域的发展态势及未来走向。[方法/过程]利用张量的数据结构形式,在词共现矩阵中融入时间维度,只需一次聚类便可进行动态主题的识别。[结果/结论]张量结构及非负张量分解算法为词共现频次变化视角下的动态主题识别提供一种新的方法,该方法相较于传统方法更为简单快捷,有效避免了信息的损失。 关键词:关键词共现 非负矩阵分解 非负张量分解 动态主题识别 知识管理 分类号:G254.2 引用格式:席崇俊, 刘文斌, 丁楷. 词共现频次变化视角下的动态主题识别研究[J/OL]. 知识管理论坛, 2022, 7(2): 197-208[引用日期]. http:///p/281/. 1 引言 在信息时代背景下,随着科技文献数量的迅猛增长,研究人员无法在短时间内吸收和掌握数以万计的研究成果,即便是针对范围狭窄的领域进行密切关注、持续阅读,仍难理清该领域的研究热点和研究方向[1]。因此,对领域主题的挖掘与演化研究则显得尤为重要,它可以很好地帮助研究人员了解和掌握领域的发展态势及未来走向,也是解决信息大爆炸时代情报危机的有效方法[2-3]。本文基于词共现频次变化视角对动态主题识别方法进行探讨,旨在为科技决策提供更好的支持。 2 研究现状 主题識别与演化研究是利用文献特征项之间的关联关系对文献集合进行分析从而发现主题,并通过主题揭示文献集合中蕴涵的内容,以了解当前领域的研究热点并预测未来的发展趋势[4]。在主题识别与演化分析研究中,相关学者已经开展了大量研究,根据研究对象由浅及深可分为基于文献外部引用关系的方法、基于文献内部词分析的方法、基于全文内容文本挖掘的方法等。 基于文献引用关系的分析方法可分为文献共被引法、文献耦合法以及文献间的直接引用法等,主要是利用文献之间的引用关系来判断文献之间的关联程度,从而对文献进行划分,达到主题聚类的目的[5-6]。例如祝清松等提出基于引文主路径文献共被引的主题演化分析方法,通过对引文主路径上关键文献的共被引分析来揭示学科领域的主题演化情况[7];黄福等通过核心文献与其被引文献进行耦合分析,再通过核心文献及其施引文献进行共被引分析,进而分别构建研究前沿领域[8];宋艳辉等以SCI和SSCI收录的7种情报学期刊在2000-2010年间的数据为样本,以作者文献耦合分析方法为研究视角,探寻新世纪以来情报学的知识结构[9]。 基于词分析的方法主要分为词频分析法和词共现分析法,词频分析法是通过统计文献中关键词出现频次的高低变化来确定领域的研究重点及热点[10],词共现分析法则是通过统计一组词共同出现的次数来分析词之间的关联关系,从而对词进行聚类得到主题[11]。例如奉国和等基于生命周期理论和词频分析方法,对学科领域发展过程进行客观合理的动态跟踪与分析[12];储节旺等运用词频分析法,通过对文献关键词的词频统计,进而对近10年来知识管理领域的研究热点、应用领域和研究方法进行分析[13];姜鑫等利用CNKI数据库通过词频分析法结合共词分析法对2005-2016年我国科学数据领域的研究主题进行演化分析[14];赵丽梅等以共词分析为基本研究框架,揭示大数据背景下数字图书馆研究领域的主流研究范式,为后续研究提供内容基础和理论依据[15];唐果媛等采用人工判读法提炼出基于共词分析法的学科主题演化研究分析流程的5个步骤,并对每个步骤中研究人员使用的策略、分析手段和工具进行归纳总结[16]。 基于文本挖掘的方法则是通过文本挖掘技术对主题进行抽取,并用相关评价标准对主题进行分类。例如胡吉明等构建了适用于动态文本内容主题挖掘的LDA模型[17];杨超等构建了基于“主语—行为—宾语”(subject-action-object, SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析[18];J. Kim等通过文本挖掘和决策树的方法进行技术预测,从论文作者、期刊、所属领域及专利的专利权人、所属领域等字段中抽取能代表技术主题领域的特征[19]。 其中,基于词共现分析的方法可以深入到文献内部,既关注词出现的频次大小,也考虑了词间的语义关系,是当前较为广泛使用的一种方法。因此,本文考虑基于词共现的分析方法对领域主题进行挖掘。传统基于词共现分析对多个周期的主题进行动态识别时,通常是基于二维数据——要么是根据各年份的词频变化矩阵进行聚类;要么是先按年份对词进行时间切片,然后分别构造词共现矩阵进行单独多次聚类,从而实现动态主题识别。前一种方法未考虑词间的语义关系,后一种方法则需要

您可能关注的文档

文档评论(0)

龙源期刊 + 关注
官方认证
服务提供商

龙源期刊网创建于1998年,是中国领先的人文大众期刊数字发行平台。全文在线的综合性人文大众类期刊品种达到4200多种,优质版权文章数量超过2500万篇,内容涵盖时政、管理、财经、文学、艺术、哲学、历史、社会、科普、军事、教育、家庭、体育、休闲、健康、时尚、职场等全领域。

认证主体北京龙源网通电子商务有限公司
IP属地四川
统一社会信用代码/组织机构代码
91110113721412769J

1亿VIP精品文档

相关文档

相关课程推荐