论文笔记1 - VLMo

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

一种图文多模态预训练方法，经过预训练的VLMO可作为视觉语言分类任务（Vision-Language Classification ）的融合编码器或图像文本检索（Vision-Language Retrieval）的双重编码器进行微调。

以往的两种主流图文预训练架构：

①对比学习：双编码器，计算图像和文本的相似度，这种方法对检索任务非常有效，但图像和文本之间简单的浅层交互不足以处理复杂的VL分类任务。（CLIP特征的局限性，DALL·E 2论文中也提到了这个问题）

②融合编码器（fusion encoder）：联合编码所有可能的图像-文本对，以计算检索任务的相似性得分。在VL分类任务中表现出色，但计算量大。

VLMo模型是这两种预训练策略的结合。

预训练过程分为三阶段，图文数据共享attention层，通过添加不同的type_embedding区分数据类型。

纯图训练，采用beit提出的MIM方法对attention部分和V-FFN部分训练
纯文本训练，冻结attention和V-FFN的参数，掩码文本训练L-FFN
图像-文本对训练，开放调整所有参数，使用Image-Text Contrast、Masked Language Modeling和Image-Text Matching三个任务进行训练