笔记整理:张溢驰,浙江大学硕士,研究方向为多模态知识图谱

链接:https://arxiv.org/abs/2303.10816

动机

多模态知识图谱补全需要将多种模态的信息(如图像和文本)融入到实体的结构表示中,以此来实现更好的链接预测,但是已有的方法往往通过将所有模态投影到一个统一的空间中,具有相同的关系来捕捉共性,这可能无法保存每个模态中的特定信息。因此,他们无法有效地模拟模式之间的复杂互动,以捕捉模态之间的交互性,这就导致这些方法的性能受到了限制。

贡献

为了解决上面提到的这个问题,提出了一种新的交互式多模式融合模型(IMF),用于知识图上的多模式链接预测。IMF可以在每个模态中单独学习知识,并通过两阶段融合对不同模态之间的复杂交互进行联合建模。

在多模态融合阶段,作者采用双线性融合机制,通过对比学习充分捕捉多模态特征之间的复杂交互。对于基本的链接预测模型,作者将关系信息作为上下文,将三元组列为每个模态中的预测。在最终决策融合阶段,作者整合来自不同模态的预测,并利用互补信息进行最终预测。本文的贡献总结如下:

作者提出了两个阶

精彩链接

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。