单机大规模知识图谱嵌入系统及方法.doc

单机大规模知识图谱嵌入系统及方法.doc

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

CN113609310A

CN113609310A

(12)发明专利申请

(10)申请公布号CN113609310A

(43)申请公布日2021.11.05

(21)申请号202110983670.X

(22)申请日2021.08.25

(71)申请人上海交通大学

地址200240上海市闵行区东川路800号

申请人上海燧原科技有限公司

(72)发明人姚建国程建南张亚林

(74)专利代理机构上海汉声知识产权代理有限

公司31236

代理人胡晶

(51)Int.Cl.

G06F16/36(2019.01)

G06F9/50(2006.01)

G06F9/54(2006.01)

G06T1/20(2006.01)

G06K9/62(2006.01)

权利要求书3页说明书12页附图3页

(54)发明名称

单机大规模知识图谱嵌入系统及方法

(57)摘要

本发明提供了一种单机大规模知识图谱嵌入方法及系统,包括:步骤S1:根据关系对知识图谱进行划分操作,得到多个子知识图谱;步骤S2:将各个子知识图谱与GPU绑定,利用GPU对子知识图谱进行训练,得到知识图谱中每个实体与关系对应的嵌入向量。相比于传统使用分布式集群来进行大规模知识图谱嵌入训练的方法,本发明使用非易失性内存大容量的特性,并且合理分配知识图谱训练过程中的数据在非易失性内存、GPU显存与DRAM的位置,能够克服分布式训练过程中网络通信所带来的性能开销,使得在不影响最终嵌入向量质量的情况下,总体训练效率提升40%-50%;同时还能大大节约搭建分布式集群

的费用,具有经济上的优势。

CPU

CPU0CPU1CPU_n

写入

非易失性内存+DRAM

显存

读取

写入

写入

显存

GPU0

GPU0

1/3页A113609310CN权利要求书

1/3页

A

113609310

CN

2

1.一种单机大规模知识图谱嵌入方法,其特征在于,包括:

步骤S1:根据关系对知识图谱进行划分操作,得到多个子知识图谱;

步骤S2:将各个子知识图谱与GPU绑定,利用GPU对子知识图谱进行训练,得到知识图谱

中每个实体与关系对应的嵌入向量。

2.根据权利要求1所述的单机大规模知识图谱嵌入方法,其特征在于,所述步骤S2采

用:

步骤S2.1:读取每个子知识图谱的原始数据,并存放在知识图谱类中,将当前知识图谱

类数据存放在非易失性内存中;

步骤S2.2:为每个子知识图谱中的实体与关系进行嵌入向量的初始化,初始化的嵌入

向量存放在DRAM中,且声明实体的嵌入向量为统一内存空间;

步骤S2.3:初始化每个子知识图谱对应的采样池,每个采样池都包含两份缓存,GPU处

理其中一个缓存池数据,CPU为另一个缓存池采样数据;

步骤S2.4:将每个知识图谱的初始化嵌入向量传输到相应的GPU的共享内存中,将每个子知识图谱实体的别名表传入相应GPU的共享内存中,将逻辑表数据写入GPU的常量内存

中;

步骤S2.5:CPU线程在对应的子知识图谱中进行正采样操作,搜集到正采样得到的实体

与关系的嵌入向量,而后将正采样得到的数据传输到GPU共享内存中;

步骤S2.6:GPU根据相应子知识图谱中实体的别名表进行负采样,并通过PCIe读入采样

得到的实体对应的嵌入向量;

步骤S2.7:GPU利用共享内存中的正采样数据与负采样数据,根据逻辑表进行梯度下降

的前向传播与反向传播,更新正采样样例与负采样样例中实体与关系对应的嵌入向量;

步骤S2.8:将更新的嵌入向量写入DRAM中,CPU根据映射关系将GPU传回的嵌入向量写入原对应的嵌入向量中,完成对嵌入向量的更新;重复触发步骤S2.1至步骤S2.8,直至嵌入

向量收敛。

3.根据权利要求1所述的单机大规模知识图谱嵌入方法,其特征在于,在GPU端进行第n

次训练的过程中,CPU端准备第n+1次训练所需要的数据。

4.根据权利要求2所述的单机大规模知识图谱嵌入方法,其特征在于,所述步骤S2.5采用:使用多线程采样三元组,并搜集三元组中的关系与实体对应的嵌入向量,放入采样池中

的一个缓存中,而后将搜集得到的嵌入向量传到相应的GPU共享内存中。

5.根据权利要求2所述的单机大规模知识图谱嵌入方法,其特征在于,根据每个子知识

图谱中的实体出现的频率制作相应的别名表,并对别名表进行压缩。

6.根据权利要求5所述的单机大规模知识图谱嵌入方法,其特征在于,所述对别名表进

行压缩采用:

步骤S3:统计每个子知识图谱中实体出现的概率,根据出现

文档评论(0)

chenzehao888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档