0. 摘要
类比推理对于人类认知和各个领域很重要。先前研究集中在单模态类比推理上,忽视了利用结构化知识的优势。认知心理学研究表明,多模态的信息比单一模态的信息具有更强大的认知传递能力。
为此,引入了在知识图谱上进行多模态类比推理的新任务,该任务需要在背景知识的帮助下进行多模态推理能力,包括:
- 构建了一个多模态类比推理数据集(MARS)和一个多模态知识图谱MarKG。
- 使用多模态知识图嵌入和预训练的Transformer基线进行评估,展示了所提出任务的潜在挑战。
- 提出了一种新颖的基于Transformer的模型无关多模态类比推理框架(MarT),该框架受结构映射理论的启发,能够获得更好的性能。
结构映射理论(Structural Mapping Theory) 【也可见2.1】结构映射理论(Structural Mapping Theory)是认知科学领域的一种理论,旨在解释人类如何理解和构建新的概念,以及如何在不同领域之间进行知识的迁移和应用。由美国心理学家冯·格拉斯(Gentner, D.)提出,基于认知心理学和概念学的观点,探讨人类如何通过将已有的知识和经验与新的情境相匹配,来理解和推断新的情境。强调了概念之间的相似性与类比的作用。人类在理解新概念时,会将其与已有的概念进行比较,并找到它们之间的结构映射关系。通过映射关系,人们能够将已有的知识和经验应用到新的情境中,从而推断和理解新概念。这种结构映射可以在不同的认知任务中发挥作用,包括学习新知识、解决问题、创造新概念等。通过结构映射,人们能够将领域知识之间的相似性转化为类比和推理的能力,从而实现知识的迁移和应用。
1. 引言
类比推理是人类认知中的重要部分,它指的是感知和利用两个情境或事件之间的关系相似性的能力,并且可以为教育、创造力等各个领域提供支持,因此在人工智能社区中备受关注。早期,提出了以视觉为基础的类比推理,旨在通过关联视觉、关系、结构和类比推理提升计算机视觉(CV)中的机器智能。与此同时,自然语言处理(NLP)的研究人员坚持联系主义假设的线性类比,例如,通过词嵌入的向量运算可以推断出两个词之间的关系。然而,人工神经网络是否也能够识别不同模态之间的类比仍然是一个开放的问题。
联系主义假设的线性类比联系主义假设是认知科学领域的一种理论,旨在解释人类如何通过比较和联系不同的概念来进行学习和推理。在联系主义假设中,线性类比是其中一种常见的认知机制。线性类比是指基于相似性的比较和映射过程,其中概念之间的关系被认为是线性的、一对一的关系。具体而言,线性类比假设认为人类在学习和推理过程中,会将一个已知的概念与一个新的概念进行对应,将它们之间的关系映射为线性的对应关系。举个例子来说,假设有一个已知的概念对:A对B,如“苹果对应于红色”。当遇到一个新的概念对:C对D,如“橙子对应于?”,人们可能会根据线性类比的假设,将C(橙子)与A(苹果)进行类比,推断D(?)应该对应于B(红色),即“橙子对应于橙色”。线性类比的假设认为人类在学习和推理过程中,倾向于将已有的概念关系应用于新的情境,并假设新的概念之间存在类似的关系。通过线性类比,人们能够利用已有的知识和经验来推断和理解新的情境,促进学习和问题解决的过程。
需要注意的是,人类能够在两个实例、情境或领域之间找到共同的关系系统后,快速掌握新的能力。根据梅耶的多媒体学习认知理论,当人类学习者从多模态源而不是单一模态源中学习时,在类比测试中表现通常更好。从识别单模态类比推理到探索神经模型中的多模态推理,我们强调了在知识图谱(KGs)上进行一种新型类比推理任务的重要性。
在本文中,我们引入了在知识图谱上进行多模态类比推理的任务,以填补这一空白。与先前的多项选择问答设置不同,我们直接预测类比目标,并将任务形式化为在不显式提供关系的情况下进行链接预测。具体而言,该任务可以表示为,其中具有不同的模态,在背景多模态知识图谱的帮助下进行推理。我们收集了一个多模态类比推理数据集(MARS)和一个多模态知识图谱MarKG来支持这个任务。这些数据是从E-KAR(Chen等人,2022a)和BATs(Gladkova等人,2016a)中的种子实体和关系收集和注释的,其中包含了来自Wikidata的链接外部实体和来自Laion-5B(Schuhmann等人,2021)的图像。
为了评估多模态类比推理过程,我们遵循心理学理论的指导方针,并对MARS进行了综合实验,使用多模态知识图嵌入基线和多模态预训练Transformer基线。我们进一步提出了一种新颖的基于Transformer的多模态类比推理框架MarT,可以轻松嵌入任何多模态预训练Transformer模型,并且能够获得更好的性能。
总结起来,我们的贡献有三个方面:
- 通过引入新的多模态类比推理任务,推进了类比学习的传统设置。我们的工作可能为通过多模态资源改进类比推理打开新的途径。
- 收集并构建了一个包含多模态知识图谱MarKG的数据集MARS,可以作为研究神经网络多模态类比推理能力的脚手架。
- 报告了各种多模态知识图嵌入、多模态预训练Transformer基线和我们提出的MarT框架的性能。进一步讨论了该任务的潜力,并希望它促进计算机视觉和自然语言处理领域中零样本学习和领域泛化的未来研究。
2. 背景
2.1心理学中的类比推理
为了更好地理解类比推理,我们介绍了一些来自认知心理学的重要理论,这些理论被视为设计多模态类比推理任务的指导方针。
结构映射理论(Structure Mapping Theory,SMT)(Gentner, 1983)。SMT是类比推理中的一种基本理论。具体而言,SMT强调人类进行类比推理依赖于共享的关系结构,而不是领域的表面属性,并区分了字面相似性和类比推理。Minnameier(2010)进一步将类比的推理过程分为三个步骤:概括、映射和归纳,这激发了我们设计多模态类比推理基准基线的灵感。
梅耶的认知理论(Mayer's Cognitive Theory)(Hegarty & Just, 1993; Mayer, 2002)。人类生活在一个多源异质的世界中,并自发地进行类比推理来理解日常生活中的陌生情境(Vamvakoussi, 2019)。梅耶的认知理论表明,当人们从多模态源而不是单一模态源学习时,在记忆和迁移测试中,人类学习者通常表现更好。然而,相对较少关注多模态类比推理,并且目前尚不清楚神经网络模型是否具有多模态类比推理的能力。
2.2 CV和NLP中的类比推理
视觉类比推理。计算机视觉领域的类比推理旨在通过将视觉与关系、结构和类比推理相关联来提升机器智能(Johnson等,2017; Prade和Richard,2021; Hu等,2021; Malkinski和Mandziuk,2022)。在Raven's Progressive Matrices(RPM)的背景下构建了一些数据集,包括PGM(Santoro等,2018)和RAVEN(Zhang等,2019)。同时,Hill等(2019)证明了在类比视觉推理中结构差异与结构映射的结合对机器学习模型有益处。Hayes和Kanan(2021)研究了在线连续类比推理,并展示了选择性重放策略的重要性。然而,上述工作仍然集中在视觉对象之间的类比推理,忽视了复杂文本的作用。
自然语言类比推理。在自然语言处理领域,早期的尝试致力于词类比识别(Mikolov等,2013b; Gladkova等,2016a; Jurgens等,2012; Ethayarajh等,2019a; Gladkova等,2016b),可以通过神经词嵌入Word2Vec(Mikolov等,2013a)和Glove(Pennington等,2014)的向量运算来有效解决。最近的研究还对预训练语言模型进行了评估(Devlin等,2019; Brown等,2020; Ushio等,2021)。然而,词类比主要衡量词表示的质量,而不探索模型的类比推理能力。因此,Chen等(2022a)构建了一个知识密集型基准来评估神经模型的类比推理能力。然而,Chen等(2022a)主要关注文本领域的推理,并未考虑使用外部知识图谱。在这项工作中,我们迈出了第一步,研究了在知识图谱上的多模态类比推理。
Figure 1: Overview of the Multimodal Analogical Reasoning task. We divide the task into single and blended settings with a multimodal knowledge graph. Note that the relation marked by dashed arrows (99K) and the text around parentheses under images are only for annotation and not provided in the input.
3.多模态类比推理任务
3.1 任务定义
本节介绍了多模态类比推理的任务,它可以被形式化为无需明确提供关系的链接预测问题。如图1所示,给定一个类比示例和一个问题-答案实体对,其中,类比推理的目标是预测缺失的实体。此外,多模态类比推理是基于背景多模态知识图谱进行的,其中和是实体和关系的集合,和表示实体的图像和文本描述。注意,和的关系是相同的,但是不可用,且可以从源领域隐含地类比到目标领域,而无需知道具体的关系。具体而言,任务可以形式化为,进一步根据的不同模态分为单一模态类比推理和混合模态类比推理。
单一模态类比推理:在这种设置中,类比示例和问题-答案实体对仅涉及一个模态。如图1中的中间列所示,类比示例的模态与类比问题-答案对的模态相同且相反。基于视觉和文本两种模态,此设置可以进一步分为和,其中和表示的模态为视觉或文本。
混合模态类比推理:在这种设置中,类比示例的模态是不相同的,这与真实的人类认知和感知相似。请注意,Mayer的理论表明,在多模态场景下,人类具有强大的迁移和知识回忆能力。受此启发,我们提出了混合模态类比推理,可以形式化为,这意味着和之间的模态是不同的。
3.2 数据收集与预处理
我们简要介绍了图2中数据集的构建过程。
- 首先,收集了一个多模态知识图谱数据集MarKG和一个多模态类比推理数据集MARS,这些数据集是从E-KAR(Chen et al.,2022a)和BATs(Gladkova et al.,2016a)中的种子实体和关系发展而来的。
- 其次,将这些种子实体链接到自由开放的知识库Wikidata3中进行规范化和标准化。第三,为了获取图像数据,我们进一步从Google搜索引擎中搜索,并通过实体的文本描述从多模态数据Laion-5B(Schuhmann et al.,2021)进行查询。
- 然后,采用图像验证策略来过滤低质量的图像。
- 最后,抽样高质量的类比数据来构建MARS。关于创建我们的数据集的数据收集和处理的详细描述请参见附录B.1和B.2。
Table 1: Comparison between MARS and previous analogical reasoning datasets. “KB” refers to the knowledge base, # denotes the number. “Knowledge Intensive” means reasoning requires external knowledge. Our MarKG focuses on knowledge-intensive reasoning across multiple modalities.
3.3 数据集数据
MARS是多模态类比推理任务的评估数据集,其中包含类比实例,而MarKG可以提供从Wikidata检索到的这些类比实体的相关结构信息。MARS和MarKG的统计数据如表1和表5所示。
MarKG包含11,292个实体、192个关系和76,424张图像,其中包括2,063个类比实体和27个类比关系。MARS包含10,685个训练实例、1,228个验证实例和1,415个测试实例,比之前的语言类比数据集更为丰富。MarKG的初衷是为更好的推理提供类比实体和关系的先验知识。我们在https://zjunlp.github.io/project/MKG_Analogy/发布了该数据集,并提供了排行榜。附录B.3中可以找到更多细节,包括质量控制方面的内容。
3.4 评估指标
以前的研究(Chen et al., 2022a)采用了多项选择问答来进行类比推理,并利用准确率指标进行评估。然而,多项选择问答设置可能难以处理一对多实体的情况,而这在现实世界的类比场景中非常常见。因此,我们将该任务形式化为链接预测,直接预测答案实体ea ∈ Ea。我们的评估指标包括Hits@k分数(前k名中正确实体的比例)和MRR(正确实体的平均排名的倒数)。更多细节可以在附录B.4中找到。
Chen et al., 2022a中的评估方法: 任务:给定输入 ,做出正确选择 ,并生成合理的解释 定义了两个共享任务:多项选择问答(QA)和解释生成(EG):问答任务要求理解查询与每个候选项之间的关系,以找到正确的答案,直接使用多项选择问答的准确性,给定一个作为查询的术语元组(例如,茶:茶壶:茶杯)和候选答案列表,所有的候选项可能与查询元组从某些角度相关。挑战在于找到最相关的候选项,即识别查询和候选项之间的内在联系和关系,考虑语言特征、术语的顺序、常识知识等属性。例如,图1中候选项 D 的错误可以归因于术语顺序不正确,尽管三个术语与查询中的关系相似。因此,最佳选择是 C。
Figure 1: An example in E-KAR. The explanations in E-KAR explain the structure-mapping process for analogical reasoning, where source structures are drawn from the query and mapped onto each candidate answer for decision-making.
4. 基准方法
在本节中,我们介绍了用于在MARS上建立初始基准结果的一些基准方法,包括多模态知识图嵌入基准和多模态预训练Transformer基准。我们进一步提出了MarT:一种基于Transformer的多模态类比推理框架,可以捕捉一个类比示例和一个类比问题-答案对之间的细粒度关联,以实现更好的多模态类比能力。
Figure 3: Overview of baseline methods. (a) Pipeline of MKGE methods for multimodal analogical reasoning. (b) and (c) are two stages of multimodal pre-trained Transformer (MPT) baselines.
4.1 多模态知识图嵌入基准
我们将三种多模态知识图嵌入(MKGE)方法作为我们的基准,包括IKRL(Xie等,2017),TransAE(Wang等,2019)和RSME(Wang等,2021)。这些方法通常基于TransE(Bordes等,2013)或ComplEx(Trouillon等,2016),并结合视觉编码器来对图像进行多模态知识表示学习。它们不能直接应用于多模态类比推理任务。为了成功利用MKGE方法,我们首先在MarKG上进行预训练,以获得实体嵌入,然后按照结构映射理论(Minnameier,2010)使用Abduction-Mapping-Induction作为MKGE方法的显式流程步骤。如图3.a所示,Abduction旨在预测的关系r,类似于关系分类任务,Mapping表示将结构关系映射到实体候选项,类似于模板填充,Induction利用关系来预测的尾实体,类似于链接预测任务。尽管先前的MKGE方法在知识图谱相关任务中取得了出色的性能,但其基础结构(例如TransE)并不是为类比推理而设计的,这可能会影响性能。因此,我们将MKGE方法的基础结构替换为ANALOGY(Liu等,2017),以明确地建模类比结构作为基准。
4.2 多模态预训练Transformer基准
我们选择多模态预训练Transformer(MPT)方法作为强基准,包括单流模型VisualBERT(Li等,2019)、ViLT(Kim等,2021)、双流模型ViLBERT(Lu等,2019)和混合流模型FLAVA(Singh等,2022),以及MKGformer(Chen等,2022b)。然而,当前的多模态预训练Transformer无法直接处理类比推理。为了解决上述问题,我们设计了一种端到端的方法,为MPT赋予类比推理能力。如图3所示,我们首先利用MarKG对稀疏MarKG进行预训练,以获得实体和关系的表示。然后,在MARS上进行基于提示的类比推理。
4.2.1 在MarKG上的预训练
我们将实体和关系表示为特殊标记,并将表示为这些特殊标记在语言模型的词汇中的可学习嵌入。在预训练阶段,我们设计了掩码实体和关系预测,类似于掩码语言建模(MLM)任务,以学习MarKG数据集上特殊标记的嵌入。如图3.b所示,我们设计了一个提示模板,通过[MASK]标记将输入转换为预测缺失实体和关系的任务。此外,在预训练阶段混合缺失关系和实体的预测,并考虑输入实体的不同模态。具体而言,我们用其图像和特殊实体嵌入表示视觉实体,用其文本描述和特殊实体嵌入表示文本实体。通过在预训练阶段使用混合实体和关系预测与多模态实体相结合,我们可以在当前知识图MarKG上获得具有多模态语义的知识图嵌入。
掩码语言建模(MLM)任务:MLM(Masked Language Modeling)任务是自然语言处理(NLP)中的一种预训练任务。在 MLM 任务中,模型被要求根据上下文语境中的其他单词,预测被部分遮蔽(mask)的输入单词。具体而言,MLM 任务通常通过遮蔽输入文本的某些单词来生成训练样本。被遮蔽的单词可以是随机选择的一部分单词,或者根据某种规则进行选择,例如通过按照一定比例将某些类型的单词遮蔽。然后,模型需要根据上下文中的其他单词来预测被遮蔽的单词。通过进行 MLM 任务的预训练,模型可以学习到单词之间的语义关系和上下文相关性,从而提升在下游任务(如文本分类、命名实体识别等)中的表现。MLM 任务在许多预训练模型(如BERT、RoBERTa 等)中得到广泛应用,并被认为是提升模型在理解和生成自然语言方面能力的有效方法。
4.2.2 基于提示的类比推理
基于上述在MarKG上预训练的实体和关系嵌入,我们提出了基于提示的类比推理方法,并在下游的MARS数据集上进行隐式结构映射。
以混合类比推理为例,我们将类比示例和类比问题-答案对作为输入,并目标是预测缺失的答案实体。我们使用类比提示模板将输入转换如下:
其中表示模板输入中的连接操作,和表示实体和的图像,是实体的文本描述。此外,、和是实体ID,并将被编码为特殊实体标记、和在词嵌入层中。由于实际类比推理任务中未明确提供关系,我们将指定为特殊标记,用于表示之间的显式关系,该标记的初始值为平均关系嵌入。最后,我们训练模型以预测特殊标记嵌入上的[MASK],类似于MLM任务的交叉熵损失。
备注1:我们将模板中的和两部分总结为隐式的Abduction和Induction,它们以端到端的学习方式与提示调整相统一。此外,类比推理被重新定义为在多模态类比实体嵌入上预测[MASK]以获取。
4.3 MarT:一种基于Transformer的多模态类比推理框架
虽然上述方法可以使多模态预训练Transformer模型具备多模态类比推理能力,但它们只是表面上考虑了隐式的Abduction和Induction,忽略了类比示例与类比问题-答案对之间的细粒度关联。
自适应跨类比交互。由于需要类比的问题可能会ying'x类比示例的表示,同时也存在不可避免的噪声数据问题,我们提出了自适应跨类比交互的编码过程,在类比示例和问题-答案对之间进行自适应交互,如图4所示。将输入传递给Transformer层的表示为,其中和分别表示类比示例和问题-答案对的隐藏表示。在每个注意力头中,查询和键的表示可以形式化为:
其中,是投影矩阵。类似的表达式也适用于值。然后,注意力概率矩阵可以通过四个子矩阵定义:
其中、(的对角线)是类比内部注意力,、(的反对角线)是类比与类比之间的注意力。我们使用门控G来自适应地调节类比间的交互:
其中是自适应关联门,具有两个可学习变量和∈[0,1]。
备注 2: 一方面,来自 的查询可能会干扰来自 的示例。另一方面,在嘈杂的数据中,对 的影响可能较弱。自适应关联门可以根据和的亲密程度自动增加和减少类比之间的交互作用。
关系导向的结构映射。结构映射理论强调类比推理中的关系传递而不是对象相似性,即从基准到目标的映射是对象之间的关系而不是对象的属性。例如,电池可以类比于水库,因为它们都储存潜能,而不是它们的形状是圆柱形的。受此启发,我们提出了放松损失来拉近关系并分离实体:
其中是训练集S的总数,是类比示例中的在MLM头部输出的隐藏特征,是余弦相似度。我们利用掩码实体预测任务通过交叉熵损失来获取答案实体:
然后,我们使用参数来插值放松损失和掩码实体预测损失,生成最终的损失:
备注3:放松损失由“拉近”和“拉远”组成,分别对应于紧密的关系和疏远的实体,可以约束模型关注关系结构的转移,并隐含地实现结构映射过程。
5 结果和分析
Table 2: The main performance results on MARS. We report pipeline baselines with multimodal knowledge graph embedding (MKGE) methods and replace their backbone models with analogyaware model ANALOGY. We also utilize our MarT on end-to-end baselines with multimodal pretrained Transformer (MPT) methods and obtain the best performance in MarT MKGformer.
5.1 主要结果
所有基准方法的主要性能结果如表2所示。总体而言,我们发现多模态知识图谱嵌入(MKGE)基准方法和多模态预训练Transformer(MPT)基准方法的性能相当,除了MKGformer在MARS上建立了竞争性的基准。此外,将MKGE方法的主干模型替换为显式建模类比结构的ANALOGY时,性能显著提高。同时,没有类比相关结构的MPT模型在类比推理能力得到增强的情况下取得了可观的性能。例如,尽管MKGformer取得了出色的性能,但MarT MKGformer进一步改进并获得了最先进的性能,在MRR指标上超过其他方法4.9%-12.4%。这表明MarT框架激发了基于Transformer的模型进行多模态类比推理的能力。我们还在附录C.2中报告了MarKG的预训练结果。
Table 3: Results of MKGformer on novel relation generalization. “w/ Full MARS” is the result trained with full data (upper bound).
5.2 新关系的泛化能力
新领域是人类创造力的基本要素。在本节中,我们进行了一项新领域关系转移实验(包括两种任务设置),以衡量模型通过类比对陌生关系进行泛化的能力。具体而言,我们随机将27个类比关系分为源关系和目标关系。然后在源关系上进行训练,并在新领域的目标关系上进行测试。如表3所示,我们观察到MarT MKGformer确实能够学习理解陌生关系。我们进一步评估了在MarKG上没有预训练的模型,发现性能下降,这表明MarKG提供的结构知识对于泛化是至关重要的。需要注意的是,新领域关系转移设置在某种程度上类似于零样本学习或领域泛化,我们希望我们的工作可以使其他领域受益。
Table 4: Ablation experiments on MARS.w/o MarKG refers to the model without pre-training on MarKG dataset. w/o MarT refers to ablate all components of MarT that equivalents to MKGformer.
5.3 消融研究
为了验证MarKG和MarT的有效性,我们进行了消融研究,如表4所示。我们观察到,放弃在MarKG上的预训练会导致MKGE和MPT基线的性能下降。这表明MarKG提供的知识结构信息有助于学习实体和关系的表示,进一步促进类比推理。我们还发现,在消融MarT的每个组成部分时,性能明显下降,并在消融所有组件时达到最低点,证明了我们的MarT的每个类比组件的有效性。此外,我们在输入中消除了类比示例,并发现性能大幅下降,这表明类比提示的重要性。
5.4 分析
Figure 5: Performance on MARS in different sub-task settings.
不同子任务的分析。在前面的表2中,我们惊讶地发现ANALOGY显著提高了MKGE基线的性能。因此,我们进一步比较了普通基线和不同子任务设置中添加类比组件的性能。如图5所示,我们观察到普通的TransAE在混合任务设置下表现不佳。然而,当用ANALOGY替换TransE作为主干时,TransAE在混合类比推理设置中表现出色,甚至超过了单一设置。另一方面,使用ComplEx作为主干的RSME在混合设置中表现勉强,但性能不如单一设置。ANALOGY提高了RSME在这种情况下的性能。同时,MarT进一步探索了MKGformer的潜力,并改善了其在各种任务中的性能。总之,类比组件始终提高了所有基准方法的多模态类比推理能力,特别是在混合类比推理中,这支持了Mayer的理论(Mayer,2002),即类比推理在多模态情景下更具亲和力。
Figure 6: Case examples of MARS. We show the analogy example and analogy question-answer pair with their implicit relations. “Top-3 Entity” means top-3 ranking entities in the prediction. “Gold Rank” refers to the rank of the gold answer entity in the prediction. * denotes the baseline model with analogical components (MarT or ANALOGY).
案例分析。如图6所示,我们进行案例分析,并观察到没有类比组件的基线中排名靠前的实体(电影、生活等)通常与问题实体“campaign”无关。类比组件使预测更加合理,并成功预测了答案实体“battle”。在困难的混合类比推理设置中,视觉和文本的混合模态输入具有挑战性。我们发现普通的MKGformer和TransAE无法理解“苹果”的视觉语义,并错误地与与“苹果公司”相关的“capital phone,shipping”相关联。我们还注意到,将ANALOGY作为主干的TransAE显著减少了预测错误,但由于“三七”的干扰,错误地将“植物”预测为top-1实体。相反,具有弛豫损失的MarT MKGformer能够将实体分离并专注于关系结构转移,并获得合理的预测。这些观察结果揭示了多模态类比推理是一项极具挑战性的任务,类比感知组件可以增强模型的类比能力。此外,我们在附录A中讨论了限制,并在附录D中提供了全面的错误分析。
6 讨论与结论
本研究引入了在知识图谱上进行多模态类比推理的新任务。初步实验证明这一任务带来了相当大的挑战,值得进一步探索。除了评估模型的类比推理能力外,还有一些潜在的应用需要探索:(1)通过类比进行知识图谱补全,(2)通过类比进行迁移学习和零样本学习,(3)类比问答。我们希望我们的工作能够激发对类比推理和应用的未来研究,尤其是在多模态世界中。
可重现性声明
源代码的MARS和MarKG数据集将很快在Github上发布。为了支持在第5节中重现我们的实验,我们提供了所有流水线基线(IKRL,TransAE,RSME)和端到端基线(VisualBERT,ViLBERT,ViLT,FLAVA,MKGformer)的详细源代码,包括所有脚本和超参数。我们还提供了一个README脚本,指导如何运行这些代码。
致谢
我们要对匿名审稿人的建设性评论表示感谢。本研究得到了中国国家自然科学基金(编号62206246和U19B2027),浙江省自然科学基金(编号LGG22F030011),宁波市自然科学基金(编号2021J190),甬江人才引进计划(编号2021A-156-G),CAAI-Huawei MindSpore开放基金以及NUS-NCS联合实验室(编号A-0008542-00-00)的支持。
A 局限
提出的工作仍然存在一些局限性。我们试图模拟现实世界的多模态类比推理环境,但它仍然无法预测在多模态知识图谱中不存在的类比实体。这个问题也被称为归纳式知识图谱补全,我们将这个问题留给未来的研究。此外,由于GPU资源的限制,我们尚未对非常大规模的预训练模型在MARS上进行评估,而是否值得探索大规模预训练模型是否能够展现多模态类比推理能力,这也是值得深入研究的。
B 补充的数据集相关信息
B.1 数据集构建方法
Figure 7: Relation distribution of MARS.
步骤1:收集类比实体和关系。由于E-KAR和BATs是广泛使用的具有高质量和语义特定实体的文本类比数据集,我们根据以下标准从中收集类比种子实体Ea和关系:(1)具有相同含义的关系和实体将被合并。例如,我们合并了E-KAR的关系“is a”和BATs的关系“Hypernyms”,因为它们都表示实体的上义词关系。在这一步骤之后,我们得到了38个关系。(2)关系必须涉及类比知识推理,而不仅仅是简单的词线性类比。例如,我们舍弃了BATs数据集中仅反映简单词汇变化的类比关系,如词形变化(名词、动词等)和派生(词干变化等)。在这一步骤之后,我们筛选了11个关系,保留了27个类比关系。(3)实体必须是可视化和现实的。我们过滤掉那些无法链接到Wikidata的实体,并手动删除了极为抽象的实体,如“virtue”(在第3步后没有图像的一些实体也被筛除)。在筛选后,共舍弃了463个实体。最终,我们获得了2063个种子实体和27个关系。
步骤2:链接到Wikidata并检索邻居。考虑到通过实体的个体信息(描述或图像)进行复杂的类比推理是困难的,我们通过Mediawiki API将类比种子实体链接到Wikidata,并检索种子实体的一跳邻居以及种子实体之间可能的关系,以获得它们的邻居结构信息。在这一步骤中,我们还将从Wikidata检索的描述作为实体和关系的文本信息。
步骤3:获取和验证图像。我们从两个来源收集图像:谷歌引擎和Laion-5B查询服务。我们使用实体的描述在谷歌引擎中进行搜索,并为每个实体抓取5张图像。Laion-5B服务依赖于Clip检索和knn索引查询;我们利用描述的Clip文本嵌入,也为每个实体查询5张图像。然后,我们对上述图像应用四个过滤器:(1)检查图像的格式并过滤无效文件,(2)删除损坏的图像(图像受损无法打开)、低质量的图像(图像尺寸小于50x50或非全色图像)和重复图像,(3)使用CLIP(Radford et al., 2021)删除具有异常视觉嵌入的图像,(4)手动删除不合理的图像。
步骤4:采样类比推理数据。从第1步到第3步,我们获得了MarKG,其中包括2063个类比实体、8881个邻居实体、27个类比关系和165个其他关系。为构建MARS数据集,我们从2063个类比实体中采样具有相同关系r的类比示例(eh; r; et)和类比问答对(eq; r; ea),但在输入中我们不明确提供关系。然后,我们均匀地将数据分割成不同的任务设置。有关MARS采样策略的更多详细信息,请参见B.2节。
B.2 取样策略
在B.1节中,我们获得了类比种子实体Ea和Ea之间的类比关系。然后,我们从Ea中采样类比示例(eh; et)和类比问答对(eq; ea)。在SMT的指导下,我们确保(eh; et)和(eq; ea)具有相同的关系r。具体而言,我们将具有相同关系的实体对分成两个类别,以避免重叠问题。然后,我们随机从一个类别中采样类比示例,并从另一个类别中采样类比问答对,以构建类比输入实例。最后,我们将实例均匀地分割成不同的任务设置。
B.3 数据集细节
在表格5中,我们对MarKG与两个多模态知识图谱数据集WN9-IMG(Xie等,2017)和FB15k-IMG(Liu等,2019)进行了统计比较,报告了实体、关系、三元组、图像的数量以及数据源。请注意,WN9-IMG和FB15k-IMG旨在进行知识补全和三元组分类任务,而我们的MarKG旨在支持MARS进行多模态类比推理。我们还在表格6中展示了MARS的完整关系,并在图7中展示了关系类别的分布情况。
Table 6: The complete relations with definitions, examples of MARS. Some relations and definitions
refer to (Chen et al., 2022a) and Wikidata Properties.
数据集的质量控制。在构建MarKG和MARS数据集时,我们设计了一些质量控制策略:(1) 实体和关系的规范化和标准化。我们将从E-KAR和SAT收集的类比实体链接到Wikidata,并过滤非链接项。由于Wikidata是一个经过质量保证的知识库,一些罕见或无价值的实体被排除在外。(2) 图像验证机制。我们设计了复杂的图像过滤策略,以控制图像数据的稳健性,如在B.1节中所提到的。(3) 文本描述的控制。我们将Wikidata中的描述作为实体的文本信息。
MARS的人工评估。为了评估多模态类比推理任务的复杂性和难度,我们在本节中进行了人工评估。然而,人类在这个实体预测任务中遇到了以下问题:(1) 对于人类来说,候选实体集太大,很难选择一个实体。(2) 由于人类难以进行硬排名预测,无法使用Hit@k指标。因此,我们采用多选题的形式,并应用准确性指标进行评估。具体来说,我们从测试集中随机抽取100个实例构建评估集,对于每个实例,我们使用TransAE预测的前10个排名实体作为候选选择。如果黄金答案实体不在前10个实体中,我们将随机替换一个候选实体为黄金实体。然后,人类必须从候选选择中选择一个实体作为答案实体。结果见表7。为了公平比较,我们限制了基线模型在候选选择中的预测空间。我们发现,基线模型在Hit@1指标上的表现与人类存在较大差距,这表明多模态类比推理任务的难度。
B.4 评估指标详情
由于有限的搜索空间,(Chen等人,2022a)的评估方法无法反映一对多的实体关系,并且未能充分探索模型中的内部知识。因此,我们遵循链接预测任务,并选择Hits@k和MRR作为评估指标。这两个指标的取值范围在[0, 1]之间,数值越大表示性能越好。Hits@k指标通过计算黄金实体在前k个位置中出现的次数来获得。给定候选实体集中每个实体的预测得分,我们对得分进行排序,并获得每个实体的排名。设第i个三元组的黄金实体的排名为ranki,倒数排名为1/ranki。平均倒数排名(MRR)是知识图谱中所有三元组的倒数排名的平均值:
C 其他实验
C.1 实现细节
Table 8: Hyper-parameter settings. We use the same parameter settings of MKGE baseline methods
as the original paper except for the learning rate.
在知识表示方法中,我们首先使用MarKG进行知识表示学习,获得实体和关系的矩阵嵌入。然后,我们在MARS数据集上应用绑架和归纳过程,继续对模型进行训练。需要注意的是,这些过程是串行的,并且共享模型。对于多模态预训练Transformer模型,我们还使用MarKG对模型进行预训练,然后采用我们的类比提示微调策略在MARS上进行端到端的微调。我们使用Pytorch在1个Nvidia 3090 GPU上进行所有实验。超参数的详细信息可以参见表8。
C.2 预训练MarKG的结果
Table 9: Pre-training results on MarKG. Note that these results are from the training process as we
do not divide MarKG. Since we follow the link prediction task to pre-train the models for MKGE
baselines, we only report the entity prediction results.
Figure 8: The results of pre-training on MarKG and fine-tuning on MARS. * refers to the baseline
model applied MarT.
我们在表9中报告了在MarKG上的预训练结果。我们发现,MPT基线模型的表现始终优于MKGE基线模型。这表明了基于Transformer的模型具有较强的适应能力。如图8所示,我们可以观察到预训练和微调阶段的趋势大致相同,尤其是在相同类型的基线模型中,这表明在MarKG上进行预训练对于在MARS上的类比推理是有益的。
C.3 MPT复杂关系推理结果
我们对MKGE和MPT方法的关系推断进行了评估实验。对于MKGE方法,我们使用Hit@k指标评估Abuduction过程的关系预测。由于MPT方法在端到端解决类比推理任务时没有明确的关系预测过程,我们使用两种方式评估它们的关系感知能力。第一种方法是通过特殊的关系标记[R]来预测关系,类似于掩码实体预测,并使用Hit@k指标评估预测结果。然而,这种评估方法并不能准确反映模型的关系感知能力,因为[R]是一个抽象的虚拟标记,可能汇总了多个关系信息。因此,我们设计了第二种方法,根据以下公式计算欧氏距离:
其中,是测试集的总数,是最后一个Transformer层中[R]的隐藏状态,是黄金关系的特殊关系嵌入(在第4.2.1节中描述)。表示向量的L2归一化,表示欧氏距离函数。
评估结果如表10所示,我们发现在Hit@k指标上,MKGE方法表现优于大多数MPT方法,特别是在Hit@3指标上,这可能得益于流水线过程中的明确关系感知。此外,MarT FLAVA在Hit@k和欧氏距离指标上表现出最好的关系感知性能,但在答案实体预测方面,MarT FLAVA的表现不如MarT MKGformer,如表2所示。我们推测特殊标记[R]不仅包含黄金关系,还包含其他相关关系信息。
C.4 性能和模型大小的比较
本节中,我们详细介绍了MPT基线模型的大小,并将其与性能进行了比较。在MPT模型中,单流模型(VisualBERT,ViLT)最小,双流模型(ViLBERT)居中,混合流模型(FLAVA,MKGformer)最大。模型的性能大致与其大小成比例,如图9所示。MKGformer优于所有其他模型,包括最大的FLAVA模型。
D 错误案例分析
在本节中,我们对MARS进行了错误案例研究,如图10所示。从错误案例中,我们可以看到多模态类比推理任务的困难之处:1)多模态的不平衡。图像和文本的语义尺度不一致,导致不正确的匹配(Zhu等,2022)。虽然在B.1节的数据收集中我们筛选了一些难以可视化的实体,但高语义实体仍然存在。如示例(a)所示,“management”和“control”是难以找到等价图像的抽象实体。此外,多模态学习中的不协调收敛问题进一步增加了多模态类比推理任务的难度(Peng等,2022;Wang等,2020)。2)一对多问题。对于模型来说,解决一对多实体是具有挑战性的。在示例(b)中,“Memba”既是“snake”又是“animal”的实例,这对MKGformer来说很令人困惑。3)不直观的关系。在我们的MARS数据集中,一些关系并不直观,需要模型具备较强的关系推理能力。如示例(c)所示,关系“intersection to”表示头实体和尾实体的扩展相交。所有四个模型都在挣扎中,与黄金答案实体相距甚远。