type
status
date
slug
summary
tags
category
论文链接
代码链接
Huggingface Demo
👥研究团队
Xiang Chen, Ningyu Zhang, Lei Li, Shumin Deng, Chuanqi Tan, Changliang
Xu, Fei Huang, Luo Si, and Huajun Chen
📖 期刊介绍
本论文发表于SIGIR,
📝 摘要
多模态知识图谱(MKG)是将视觉和文本事实知识组织起来的,最近已成功应用于信息检索、问答和推荐系统等任务。由于大多数MKG远未完整,因此已经提出了广泛的知识图谱补全研究,重点关注多模态实体、关系抽取和链接预测。然而,不同的任务和模态需要对模型架构进行更改,并且并非所有的图像/对象都与文本输入相关,这限制了在各种现实场景中的适用性。在本文中,我们提出了一种混合变压器与多层融合结构来解决这些问题。具体而言,我们利用统一的输入输出的混合变压器架构来处理多样化的多模态知识图谱补全任务。此外,我们提出了多层融合方法,通过粗粒度的前缀引导交互和细粒度的关联感知融合模块,将视觉和文本表示集成起来。我们进行了大量实验证明,我们的MKGformer在多模态链接预测、多模态关系抽取和多模态命名实体识别等四个数据集上可以取得最先进的性能。
🗝️关键词
knowledge graph completion; multimodal; relation extraction; named entity recognition
3. OUR APPROACH
在本节中,我们介绍了MKGformer的整体框架,这是一个通用框架,可应用于广泛的多模态知识图谱完成任务。为了便于理解,我们介绍了其详细实现,包括第3.1节中的统一多模态KGC框架,第3.2节中的混合变压器架构,以及第3.3节中的M-编码器的详细介绍。
3.1 统一的多模态KGC框架
如图2(a)所示,统一的多模态KGC框架主要包括混合变压器架构和任务特定的范式。具体而言,我们分别采用ViT和BERT作为视觉变换器和文本变换器模型,并通过变换器的最后𝐿𝑀层对实体的多模态表示进行建模。在接下来的部分中,我们介绍了其任务特定范式的详细实现。
3.1.1 应用于于多模态链接预测
多模态链接预测是多模态KGC中最常见的任务,其重点是根据给定的头实体和查询关系(表示为)预测尾实体。答案应始终在知识图谱中。对于与实体相关的图像,我们提出将尾实体的分布建模为。如图2(a)所示,为了充分利用预训练模型的优势,我们设计了类似于预训练语言模型(PLM)的链接预测特定过程。我们首先对图像-文本合并的实体表示进行建模,然后基于多模态实体表示预测缺失的实体。
图像-文本合并的实体建模。与以往的工作简单地基于实体的特定视觉和文本特征进行连接或融合不同,我们充分利用预训练Transformer模型的"掩码语言建模"(MLM)能力来对知识图谱中的实体进行图像-文本合并的多模态表示建模。具体而言,给定一个实体描述及其对应的多个图像,我们将实体的拼接图像输入到混合Transformer架构的视觉侧,并将混合Transformer架构的文本侧输入序列转换为:
我们扩展了BERT的词嵌入层,将每个标记嵌入视为对应的第个实体的多模态表示。然后,我们使用交叉熵损失训练MKGformer来预测多模态实体嵌入中的[MASK]标记:
值得注意的是,我们冻结整个模型,除了新增的多模态实体嵌入参数。我们认为修改后的输入可以引导MKGformer注意地将文本和视觉信息融入多模态实体嵌入中。
缺失实体预测。给定一个三元组 ,KGC模型预测头实体或尾实体。类似地,我们将链接预测视为MLM任务,使用实体、实体描述、关系和实体图像来预测上述多模态实体嵌入中的被遮蔽尾实体。具体而言,我们还将实体的多个裁剪图像处理为混合Transformer架构的视觉部分输入,并将三元组转换为文本部分输入序列,如下所示:
最后,我们通过二元交叉熵损失训练MKGformer来预测多模态实体嵌入中的[MASK]标记,用于多标签分类,考虑到链接预测中𝑒𝑡的预测并不唯一。
应用于MRE。关系抽取旨在将文本中的关系提及与知识图谱中的规范关系类型进行关联。给定文本和相应的图像,我们旨在预测实体对之间的关系,并输出关系类型的分布。具体而言,我们从混合Transformer架构的文本侧最终输出嵌入的特殊标记[CLS]来计算关系类别的概率分布,使用softmax函数。表示混合Transformer架构中M-Encoder文本侧第层的最终序列表示。通过最小化整个训练集上的上的交叉熵损失来微调模型的参数和。
应用于MNER。MNER是从文本序列和相应图像中提取命名实体的任务。给定标记序列和其相应的图像,我们关注建模标签序列的分布,其中是标签序列。为了公平比较,我们采用MKGformer与CRF [18]函数相结合的方法,类似于以前的多模态NER任务。对于标签序列,我们使用BIO标记模式(参考[18])计算标签序列𝑦在预定义标签集𝑌上的概率。
3.2 Hybrid Transformer Architecture
MKGformer的混合Transformer架构主要包括三个堆叠模块:(1) 底层文本编码器(T-Encoder),用于捕捉输入标记的基本句法和词汇信息,(2) 底层视觉编码器(V-Encoder),负责从输入的裁剪图像中捕捉基本视觉特征,以及(3) 上层多模态编码器(M-Encoder),用于在底层视觉Transformer和文本Transformer中对图像-文本融合的实体表示进行建模。此外,我们将V-Encoder层数表示为,T-Encoder层数表示为,M-Encoder层数表示为,其中,。
Transformer架构回顾。Transformer [44]现在是计算机视觉和自然语言处理领域大多数SOTA模型的主要架构,它由个堆叠的块组成。每个块主要包含两种类型的子层:多头自注意力(MHA)和全连接前馈网络(FFN)。每层还使用层归一化(LN)和残差连接。给定输入序列向量,传统的注意力函数将𝒙映射到查询和键-值对,:
其中表示序列长度。MHA并行地在𝑁ℎ个头上执行注意力函数,其中每个头由,,分别参数化,用于将输入投影到查询、键和值。MHA的作用是为每个头计算加权隐藏状态,然后将它们连接起来:
其中,表示隐藏嵌入的维度。通常在MHA中设置。FFN是Transformer中的另一个重要组成部分,通常由两层线性变换组成,其中包含ReLU激活函数,如下所示:
其中。