type
status
date
slug
summary
tags
category
论文链接
代码链接
Huggingface Demo
 
💡
类比推理对于人类认知和各个领域很重要。先前研究集中在单模态类比推理上,忽视了利用结构化知识的优势。认知心理学研究表明,多模态的信息比单一模态的信息具有更强大的认知传递能力。本博客重点研究ICLR2023上的论文“Multimodel Analogical Reasoning Over Knowledge Graphs”,包括论文精读、数据集研究和代码研究。该论文引入了在知识图谱上进行多模态类比推理的新任务,该任务需要在背景知识的帮助下进行多模态推理能力,包括:
  • 构建了一个多模态类比推理数据集(MARS)和一个多模态知识图谱MarKG。
  • 使用多模态知识图嵌入和预训练的Transformer基线进行评估,展示了所提出任务的潜在挑战。
  • 提出了一种新颖的基于Transformer的模型无关多模态类比推理框架(MarT),该框架受结构映射理论的启发,能够获得更好的性能。

Todo

翻译论文
深度理解论文内容
查看peer review,精炼一些可行的思路分享
归纳总结,制作beamer,准备讲稿
查看数据集,并弄清楚对今后的工作是否可作为benchdataset
hugging face验证
复现代码

论文翻译

论文翻译详见下文档,使用Chatgpt+人工校对,并补充了论文中提到的其他方法与概念:
知识图谱中的多模态类比推理

论文精读

由于本论文需要组会讲解分享,因此本博客的论文精读采用了beamer结合讲稿的形式,以确保能够清晰、准确地表达论文的思想和观点。讲稿将包括对每张beamer的解读以及相关理论和实证结果的说明。请注意,讲解的顺序为beamer在前,讲稿在后。若beamer已经很清晰详细展示出所表达的内容,并无其他需要补充的部分,则直接跳过,只针对一些复杂的部分进行讲解。

1. 会议介绍与论文主要内容

notion image

notion image
ICLR会议是三大顶会之一,推行的是Open Review评审制度,接受所有同行的评价和提问,历届论文及评审讨论的内容都完整地保存在OpenReview.net上。这个网站是2013年创办的公开评审系统,也是ICLR的官方投稿入口
通过查看论文的评审过程,以及评审讨论的内容,能够深入了解学术界同行对论文的看法、疑问和建议,启发我们对自己工作的思考,比如对论文结构和内容的思考以及response撰写等。针对接下来要讲解的论文,后面我们也会一起看一看它在OpenReview上的QA。
notion image
首先,高屋建瓴地看一看论文的主要内容。首先,类比推理在人类认知和各个领域中十分重要,多模态信息比单一模态信息具有更强大的认知传递能力。研究团队认为以往的研究主要集中在单一模态的类比推理上,忽视了利用结构化知识的潜在优势,此处的结构化知识,其实可以理解成知识图谱。基于这一认识,团队引入了一项新的任务,在知识图谱上进行多模态类比推理。这一任务要求结合知识图谱的背景知识进行多模态推理,包括:(见beamer中的列表)

2. 什么是类比推理(相关工作)?

notion image
论文首先对什么是类比推理做了解释,专门在相关工作给出一个部分叫做心理学中的类比推理。在心理学上有一些重要的理论,这些理论被视为设计多模态类比推理任务的指导方针,也比较有助于我们理解论文的核心思路。
第一个是结构映射理论,主要观点是人类进行类比推理依赖于共享的关系结构。 举个例子,假设有一个已知的概念对:A对B,如“苹果的颜色是红色”。当遇到一个新的概念对:C对D,如“橙子的颜色是?”,我们会将C(橙子)与A(苹果)进行类比,推断D(?)应该对应于B(红色),即“橙子的颜色是橙色”。在这个推理过程中,主要有三个步骤:演绎、映射和归纳。这也是模态类比推理基准基线的灵感,这三个步骤将贯穿始终。
这个时候需要抛出一个问题,这个例子中的“颜色是”这个关系的语义在推理中起到了至关重要的作用吗? 从结构映射理论来看是没有的,我们需要注意的是,结构映射理论强调类比推理中的关系传递而不是关系的相似性,即从基准到目标的映射是对象之间的关系结构,推理时没有用到关系的含义,比如我把颜色是这个关系,换成对应于,只要两个关系相同,应该能得到一样的结论。这是一个非常需要注意的重点,直接影响到后面对损失函数的理解。
心理学中另外一个非常重要的理论是梅耶认知理论,它表明当人们从多模态源而不是单一模态源学习时,在记忆和迁移测试中,人类学习者通常表现更好。而考虑到多模态源,结构化的多模态知识图谱似乎是实践这个理论的最优解。从识别单模态类比推理到探索神经模型中的多模态推理,强调了在知识图谱(KGs)上进行一种新型类比推理任务的重要性。
✍️
在此处我想插一句题外话,在这篇论文里面,心理学中的类比推理是专门放在了相关工作中作为一个章节,相当于是研究团队提出动机的理论之源。我认为这种对上级学科的根理论作阐释作为动机的思路,既非常巧妙,又很难有漏洞。 这让我想到之前我们在组会讨论论文写作的时候,经常说要举一个贴切的例子来说明动机,我们也可以从一些上级学科来找一些理论支撑,这样的说服力更强,这算是我学习这个论文有关写作的一个收获。
notion image
在计算机领域,CV的类比推理旨在通过将视觉与关系、结构和类比推理相关联来提升机器智能,在Raven's Progressive Matrices(RPM,瑞文氏图形推理测验)的背景下构建了一些数据集。论文中列举了一些工作,并评述上述工作仍然集中在视觉对象之间的类比推理,忽视了复杂文本的作用
NLP中,早期的尝试致力于词类比识别,用神经词嵌入Word2Vec和Glove的向量运算。最近的研究还对预训练语言模型进行了评估。然而,这些工作集中在评估词嵌入的质量,不探索模型的类比推理能力。因此,Chen等(2022a)构建了一个知识密集型基准来评估神经模型的类比推理能力。但这个工作主要关注文本领域的推理,并未考虑使用多模态的外部知识图谱
基于以上内容,我们可以小结一下该论文的动机。模仿人类认知方式,进行类比推理首先需要基于已有知识进行演绎,映射出关系,进行归纳类比出新的结论,且更多模态源意味着更好的推理效果。现有各领域内的研究工作要么只集中在单一模态,要么未考虑模型的推理能力,没有使用外部多模知识图谱辅助推理。因此,也就引入了今天要介绍的这个论文。

3. 多模态类比推理任务

notion image
首先明确一下什么是类比推理任务
🔑
类比推理任务是要给定一个类比示例和一个问题-答案实体对预测缺失的答案实体,而在这个过程中,的关系是相同的,但我们无需知道具体的关系就可以从源领域隐含地类比到目标领域
这段话有点难以理解,具体解释一下: 我们知道一个已知的类比对 ,以及一个新的类比对 ,它们之间的关系是相同的。然而,我们并没有直接提供的关系信息,也就是说,我们没有知道这两个类比对具体的关联含义。尽管如此,我们可以从源域推理出隐含的关系结构,并将其类比到目标域。这意味着我们可以通过已知的类比对中的关系结构,将这种关系结构隐式地应用于新的类比对 中,即使我们并不知道 具体的关系是什么
该团队的另一篇文章(Analogical Inference Enhanced Knowledge Graph Embedding)有个比较贴切的例子: 大部分KGE方法的参数化学习范式可以看作是将训练数据视为一本书的记忆,将预测缺失的链接看作闭卷考试,属于归纳推理。 类比推理是一种引用性方法,它检索类似的解决方案来解决新问题,类似于开卷考试。 例如,大多数人似乎无法记住甚至了解罗恩·韦恩(Ron Wayne)创办的公司是哪个。然而,如果他们知道罗恩·韦恩和史蒂夫·乔布斯是共同创始人,即在这个背景下,史蒂夫·乔布斯和罗恩·韦恩是类比对象,而众所周知史蒂夫·乔布斯创办了苹果公司;因此他们可以类比地推断罗恩·韦恩创办了苹果公司。 在此处,我们已知的类比对(罗恩韦恩,乔布斯)的关系是共同创始人,已知的类比对(乔布斯,苹果公司)的关系是创立,我们可以挖掘出这些关系的结构;我们要回答的类比问题答案对是(罗恩韦恩,?),关系是创立(注意这个关系与乔布斯,苹果公司之间的关系是相同的),我们利用已知源域的共同创始人结构,类比出(罗恩韦恩,苹果公司)的问题答案对。值得注意的是,在这个过程中我们并没有依赖于关系的语义,二是聚焦在关系的结构和结构的类比上。而我认为这个就是类比推理和传统的连接预测最大的不同,也因此影响到了后面损失函数的设计。
接下来,我们要理解多模态下的类比推理任务。
首先需要理解多模态类知识图谱是实体和关系的集合,红色圈起来的都是实体,绿色的都是关系;表示实体的图像和文本描述。我们也可理解成,展示的是结构,表示的是模态。针对类比示例对,有两种形式的类比推理:单一模态的和混合模态的。
单一模态类比推理中,类比示例仅涉及一个模态,可以分为两种模式:
  • 视觉模式:在模式中,类比示例的模态都是视觉模态。
  • 文本模式:在模式中,类比示例的模态都是文本模态;
混合模态类比推理中,受梅耶理论启发,类比示例的头实体和尾实体模态不同,这与真实的人类认知和感知相似,能够挖掘不同模态之间的关联性和知识传递,从而提供更丰富和全面的推理能力。比如此处,类比示例中的头实体华罗庚是视觉模态,尾实体数学家是文本模态。
🔑
需要注意的是,无论是单一模态还是混合模态,我们都没有限制问题答案对中问题的模态。换言之,还是之前的重点,我们对关系的利用是结构的,从源域推理出隐含的关系结构,并将其类比到目标域,而绝非利用了实体之间的特征相似性。
notion image
明确了任务后,接下来是论文使用的数据集,数据集主要是两个,一个是MARS,是评估数据集,其中包含类比实例,另一个是MarKG,是一个多模态知识图谱数据集。MARS是多模态类比推理任务的评估数据集,其中给出了类比实例;MarKG可以提供从Wikidata检索到的这些类比实体的相关结构信息。数据集的构造过程如下:
  1. 从E-KAR和BATs中抽取实体和关系,这两个数据集都是纯文本的数据集。对这些数据主要做了如下操作:1)合并了具有相同含义的实体和关系,2)去掉了简单的词转换线性关系,保证关系可以被应用于类比推理,比如BATs数据集中Inflections(词形在词性、语态、时态、数和格等方面发生变化)和Derivation关系(派生),3)去掉了抽象、无法可视化、非现实的实体,比如virtue实体;
  1. 通过Mediawiki API将种子实体链接到自由开放的知识库Wikidata3中进行规范化和标准化,在这个步骤中将维基百科中的文本描述转换成实体和关系的文本描述;
  1. 从Google搜索引擎和多模态数据Laion-5B(Schuhmann et al.,2021)中获取图像数据,并通过实体的文本描述,查询出5张描述实体的图片。采用图像验证策略来过滤低质量的图像,抽样高质量的类比数据来构建MARS。主要是1)检查图像的格式和图像是否有效,2)移除错误的图像、低质量的图像和重复的图像,3)用CLIP(Radford et al., 2021)移除异常的图像,4)人工移除不合理的图像。
  1. 通过以上步骤得到了MarKG,包含2063个类比实体,8881个邻居实体,27种类比关系和165种其他关系,数据规模比较适中。在类比实体中采样关系相同的类比实例对和类比问题答案对,要注意这个过程中没有把关系作为输入,只是用相同的关系作为条进行筛选。具体来说,将具有相同关系的实体对分为两类,以避免重叠问题。然后,我们从一类中随机抽出类比实例,从另类中抽出类比问题-答案对,以构建类比输入实例。最后,我们将这些实例均匀地分成不同的任务设置。
Table 6: The complete relations with definitions, examples of MARS. Some relations and definitions refer to (Chen et al., 2022a) and Wikidata Properties
Table 6: The complete relations with definitions, examples of MARS. Some relations and definitions refer to (Chen et al., 2022a) and Wikidata Properties
✍️
上表中展示了关系定义,我认为在其他工作中也可以参考,但如果要细究这个关系,其实也有不合理的地方,比如opposite of和antonym,part of 和subject-object,这些关系其实按照作者的解释是有包含性的,怎么定义的?为什么这么定义?该怎么定才科学?这三个问题我认为不能简单地参考前人研究,特别是大模型出现以后,模型的表达能力得到了飞跃,数据集定义是否科学合理其实是导向最终结果的关键,如果我们不去怀疑之前定义是否合理,很难取得新的突破。同时这篇文章只在自己定义的数据集上做了实验,无法评估数据集定义的质量,无法更全面客观评估框架本身的质量,也是我认为在实验设置上的不足。
 
notion image
在评估指标上,以往在知识图谱上进行类比推理(仅文字模态)的尝试采用的是多项选择问答的准确率来评估。比如给定茶:茶壶:茶杯三个实体,茶壶是装茶的容器,茶杯是装茶的容器,茶壶可以把茶到在茶杯里着三个关系,给出ABCD四个候选选项,让模型从中选出最匹配的答案,比较准确率。Chen的这篇文章也推荐各位去看一看,虽然是单一模态下的,但对之前的KGE方法进行类比推理的改进是很有启发的。
Chen er al, 2022a: Jiangjie Chen, Rui Xu, Ziquan Fu, Wei Shi, Zhongqiao Li, Xinbo Zhang, Changzhi Sun, Lei Li, Yanghua Xiao, and Hao Zhou. E-KAR: A benchmark for rationalizing natural language analogical reasoning. In Smaranda Muresan, Preslav Nakov, and Aline Villavicencio (eds.), Findings of the Association for Computational Linguistics: ACL 2022, Dublin, Ireland, May 22-27, 2022, pp. 3941–3955. Association for Computational Linguistics, 2022a. doi:10.1145/3477495.3531992 .URL https://doi.org/10.1145/3477495.3531992.
之前任务定义中说了,本工作的任务形式化为链接预测,所以评估指标采用了常用的Hits和MRR。
notion image
接下来是重点,基准方法,主要分两种,多模态知识图谱嵌入方法多模态预训练Transformer方法。 先说多模态知识图谱嵌入,团队采用了三种多模态知识图谱嵌入方法作为benchmark methods,这些方法基于TransE或者ComplEx,结合视觉编码器来进行表示学习,其基础结构(例如TransE)并不是为类比推理而设计的,这可能会影响性能,并不能直接用于类比推理任务。研究团队对MKGE方法进行了修改,先在MarKG上预训练得到实体嵌入,然后使用演绎(aduction)-映射(mapping)-归纳(induction)来进行类比推理。aduction旨在预测与关系分类任务类似的头尾实体之间的关系r,mapping表示将关系结构映射到实体候选项,类似于模板填充,induction用关系r来预测 未知的尾部实体,类似于连接预测任务。
再来说说多模态预训练Transformer方法。该类中包含单流模型和双流模型,当前的多模态预训练Transformer无法直接处理类比推理,因此团队设计了一种端到端的方法,首先利用MarKG对进行预训练,以获得实体和关系的表示(类似于MLM任务)。然后,在MARS上进行基于提示的类比推理。
在预训练的时候,模型被要求根据上下文语境中的其他单词,预测被部分遮蔽(mask)的输入单词。类似地,将实体和关系表示为特殊标记,并将表示为这些特殊标记在语言模型的词汇中的可学习嵌入,通过[MASK]标记将输入转换为预测缺失实体和关系的任务。在预训练阶段,混合缺失关系和实体的预测,并考虑输入实体的不同模态。具体而言,用头实体图像和头实体嵌入表示头实体,用尾实体文本描述和尾实体嵌入表示尾实体,用关系嵌入表示关系r。
第二阶段,进行prompt-based类比推理。基于实体和关系嵌入,在下游的MARS数据集上进行隐式结构映射。团队提出了提示模板如下,以混合模式为例,给定类比示例对中头实体华罗庚的图片尾实体数学家的文本,给定问题答案实例对的问题图片爱因斯坦的图片,类比示例对和问题答案对的关系相同,求文本模态的答案实体:
将模板中的两部分总结为隐式的Abduction和Induction,它们以端到端的学习方式与提示调整相统一。类比推理定义为在多模态类比实体嵌入上预测[MASK]以获取答案实体。由于在实际的类比推理任务中未明确提供关系信息,我们将[R]指定为特殊标记,用于表示(Ih; Tt)之间的显式关系,并使用平均关系嵌入来初始化该标记。最后,通过交叉熵损失训练模型,通过特殊标记嵌入E来预测特殊标记上的[MASK],类似于MLM任务。
以上内容主要还是聚焦在怎么将一些现有模型和方法进行改进,让它们能够进行类比推理,作为benchmark methods,接下来是团队所提出的MarT多模态类比推理框架。

4. MarT: 一种基于Transformer的多模态类比推理框架

notion image
多模态预训练Transformer方法虽然在改进后可以进行多模态类比推理,但是它们只在表面上考虑了演绎和推理,忽略了类比示例与类比问题-答案对之间的细粒度关联
由于论文中并没有详细解释什么是类比示例与类比问题-答案对之间的细粒度关联,以下是个人理解:
✍️
比如提示模板: 尽管说[MASK]受到前面输入序列中的…..中每一个输入的影响,但是并未考虑之间交互的影响。 Transformer中注意力的是自注意力,MLM对MASK的预测是对MASK之前的所有输入计算自注意力,是对类比示例中的头实体和尾实体和类比问题答案对中的问题和答案分别进行处理。可是,对来自于示例中的实体和来自问题答案对中的答案进行注意力计算是有意义的,能提升关联粒度。
因此,团队提出了自适应跨类比交互方法,将类比示例实体和问题-答案对中的实体的表示进行拼接后传入输入层,即矩阵和矩阵,再将和转置后的矩阵相乘得到注意力矩阵。也就是说P矩阵由四种形式的交互组成:
  1. 类比示例中实体与自身的交互
  1. 问题-答案对中实体与自身的交互
  1. 类比实体中实体对问题答案对中实体的交互
  1. 问题答案对中实体对类比实体中实体的交互
前两个是类比内部注意力,后两个是类比与类比之间的注意力。
然后使用一个门控来自适应调节类比于类比简交互的权重,一方面,来自 的查询可能会干扰来自 的示例。另一方面,在嘈杂的数据中,的影响可能较弱。自适应关联门可以根据的亲密程度自动增加和减少类比之间的交互作用。
notion image
我们之前一直在反复强调,结构映射理论强调类比推理中的关系传递而不是实体特征相似性,即从基准到目标的映射是对象之间的关系而不是对象的属性。因此在损失函数设计上,团队提出了一种张弛损失函数,由“拉近”和“拉远”组成,分别对应于紧密的关系和疏远的实体,可以约束模型关注关系结构的转移,并隐含地实现结构映射过程。具体来说,是训练集S的总数,是类比示例中的在MLM头部输出的隐藏特征,是余弦相似度,close relation部分,越接近,余弦相似度越接近1,损失越小;而头实体和问题实体越相似,余弦相似度越接近1,但通过max约束,损失最大不会超过0,两者相加,尽可能使得关系拉近,实体拉远。
在预测上,利用掩码实体预测任务通过交叉熵损失来训练模型获取答体,使用参数来插值,得到最终的损失
notion image

5. 实验结果

实验结果不作罗列,感兴趣可以查看论文或翻译
实验结果主要证明以下核心观点:见beamer。
在Hugging Face上也可以体验一些案例,博客中不详细展示,感兴趣的可以自己查看。

6. 局限

notion image
作者在附录部分也给出了自己目前工作的一些局限,其实是一些无关痛痒的。我读下来他整个论文后,最直观感受到的局限是他数据集构造的时候一些环节没有解释清楚,数据集的质量没有得到很好的评估和展示。这也是它三份审稿人意见中普遍反应出来的问题。而最近大模型的兴起,也导致知识图谱构建这个方向越来越火,对数据集评估的研究也越发深入,我认为这是我们在把构建数据集作为主要工作之一时需要注意的,特别是仅在自己构建的数据集评估模型效果的时候。

7. 案例分析

notion image
那么在作者的Hugging Face上,我也尽可能去尝试他给出来的demo,但除了他自己预设的example之外,填入从数据集中选择的其他数据,实验结果都显示error,目前我读了代码,也发现代码有些问题,无法直接拿来复现。关于一些错误的案例作者在这儿也给出了相应的例子和分析,我认为这也是去follow他们工作时需要去注意的,现有多模态类比推理上的难点和挑战,主要有如下几点:
1)多模态的不平衡。图像和文本的语义尺度不一致,导致不正确的匹配(Zhu等,2022)。虽然在B.1节的数据收集中我们筛选了一些难以可视化的实体,但高语义实体仍然存在。如示例(a)所示,“management”和“control”是难以找到等价图像的抽象实体。此外,多模态学习中的不协调收敛问题进一步增加了多模态类比推理任务的难度(Peng等,2022;Wang等,2020)。
2)一对多问题。对于模型来说,解决一对多实体是具有挑战性的。在示例(b)中,“Memba”既是“snake”又是“animal”的实例,这对MKGformer来说很令人困惑。
3)不直观的关系。在我们的MARS数据集中,一些关系并不直观,需要模型具备较强的关系推理能力。如示例(c)所示,关系“intersection to”表示头实体和尾实体的扩展相交。所有四个模型都在挣扎中,与黄金答案实体相距甚远。
notion image
接下来就是我开头提到的OpenReview上的相关内容,这篇文章是由三位审稿人评审,两个审稿人给了拒,一位审稿人给了通过,最终因为给过的审稿人在该领域内的造树更大,成功过稿。审稿意见中提到的各类问题大部分都已改进,当大家读完论文再去读这个审稿意见时其实是很有收获的,你会知道这篇论文初稿时缺失了什么,为什么要补充进来,这对我们去发同领域的文章很有帮助。在response中没有解决的问题主要有如下几个(见beamer)。
"k-shot learning"是一种基于少量训练样本的学习方法。在这种方法中,模型需要在只有少量标记数据的情况下进行学习和泛化。通常,模型在少量样本上进行预训练,然后根据这些样本学到的知识来推断未见过的类别或样本。这种方法有助于解决数据稀缺或标记样本有限的问题,特别是在新领域或新任务中。
"k-shot"和"k-shot learning"的目标是通过有限的样本来提高模型的泛化能力,并使其能够在未见过的类别或样本上进行准确预测。这些方法在迁移学习、元学习和领域适应等领域中得到广泛应用。

多模态知识图谱补全的多层融合混合Transformer
多模态知识图谱补全的多层融合混合Transformer

多模态知识图谱(MKG)是将视觉和文本事实知识组织起来的,最近已成功应用于信息检索、问答和推荐系统等任务。由于大多数MKG远未完整,因此已经提出了广泛的知识图谱补全研究,重点关注多模态实体、关系抽取和链接预测。然而,不同的任务和模态需要对模型架构进行更改,并且并非所有的图像/对象都与文本输入相关,这限制了在各种现实场景中的适用性。在本文中,我们提出了一种混合变压器与多层融合结构来解决这些问题。具体而言,我们利用统一的输入输出的混合变压器架构来处理多样化的多模态知识图谱补全任务。此外,我们提出了多层融合方法,通过粗粒度的前缀引导交互和细粒度的关联感知融合模块,将视觉和文本表示集成起来。我们进行了大量实验证明,我们的MKGformer在多模态链接预测、多模态关系抽取和多模态命名实体识别等四个数据集上可以取得最先进的性能。

KGE性能指标:MRR,MR,HITS@1,HITS@3,HITS@10
KGE性能指标:MRR,MR,HITS@1,HITS@3,HITS@10

本文将介绍用于衡量知识图谱嵌入(Knowledge Graph Embedding,KGE)模型性能中最常用的几个指标:MRR,MR,HITS@1,HITS@3,HITS@10。