KG2Vec: A node2vec-based vectorization model for knowledge graph Editor: Chi-Hua Chen, Fuzhou University, CHINA Published: March 30, 2021 Public Library of Science 论文链接

提出了一个异构网络向量表示方法基于随机游走和节点2Vec,称为KG2vec(异构网络向量)解决了知识图的传统向量表示所遇到的全文语义和上下文关系考虑不足的问题。 国家节点和导演节点对电影的影响及其关系是不同的,但是在向量化的过程中,以相同的概率和算法算法去处理。 电影和导演之间存在着两种不同的关系,不能简单的用三元组训练。 trans-algorithms以相同的概率处理实体-关系-实体三元组,缺乏了2vec模型处理向量化时的重点。

由于KG2vec是在node2vec的基础上进行embedding的获取,但是由于异构网络的特殊性 :1)异构网络是由实体(不同类型的节点)和关系(不同类型的边)组成的。对于异构网络,三重形式(头实体、关系和尾部实体)是构建节点上下文的关键。node2vec算法忽略了这些关键信息,从而影响了嵌入的质量。2)面对异构网络的复杂性,必须适应随机游走策略。

创新点:

重构了原始异构网络,提出了实体关系拓扑。提出了一种新的异构网络嵌入方法,并对节点2vec进行了改进。将新的行走策略应用于重构的异构网络中。并引入了一个节点度参数来控制行走时间针对异构网络提出了两种训练模型:给定关系,使用CBOW预测上下文实体;给定实体,使用跳过-gram预测关系节点。

Heterogeneous network reconstruction 异构网络重构

重构过程是将三元组转换为三个元组。这意味着,我们把一个链接也当作一个节点,这样在原始的同构网络中,一个链接可以分成三个组成一个三角形,即一个实体之间的链接,一个实体和关系之间的链接,一个关系和实体之间的链接。 在重构的异构网络G‘中有两种类型的节点:关系节点和实体节点。关系节点之间不存在链接,而关系节点和实体节点之间存在普通链接。实体节点之间可能存在链接。

Entity-EntityEntity-RelationRelation-Rntity

经过这样的重构之后,异构网络变成了同构网络。在原来的三元组中,不能确定实体B和C对实体A的不同重要性 . 然而,在实体和关系的消失后,实体对(C、A)的出现频率比实体对(C、B)更高,突出了实体C对的影响权重 A. 所以,作者将实体对的频率作为重构的同质网络中的链路的权值。

Walk strategy游走策略

重构网络有两种节点,即实体节点和关系节点。因此,作者改变了步行策略。 对于实体节点:假设当前节点为实体节点S1,可以从关系节点R2到达。在下一个跳跃过渡时,可能会发生三种情况: i.跳回最后一个关系节点R2对于分析异构网络是没有意义的,因此概率为0. ii。跳转到另一个连接关系节点r1正是我们想要的,如假设1所示,因此,概率是1。 iii。跳到另一个连接实体节点S2异常,因此概率设为1/q。

对于关系节点:假设当前节点属于关系类型,并且根据假设1,关系节点只能连接到实体节点。如图8所示,当前节点为R,最后一个节点为S1。节点R的下一个转换包括三种情况: i.在异构网络中不存在跳回最后一个节点S1,因此概率为0. ii。跳转到与最后一个节点S1连接的节点S2构成了逻辑序列“实体-关系-实体”,这与假设1中所预期的完全一致,因此概率为1. iii。跳到另一个连接实体节点S3构成逻辑序列“实体关系”和“关系实体”,这可能发生但是意料之外的,因此概率设置为1/p。

Optimizing random walks优化随机游走

影响越大的节点的行走次数越多,相反,影响越小的节点的行走次数越少。此外,还引入了一个阈值来限制行走的上界。即,当节点度达到该阈值时,使用最大行走次数来训练模型,当节点度低于该阈值时,根据影响的比例减少行走次数。 Nmax为最大行走次数,Dp为节点p的度,Dmax为所有节点中的最大次数,t为阈值。

算法伪代码:

文章链接

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。