寫在前面

視覺語(yǔ)言預(yù)訓(xùn)練提高了許多下游視覺語(yǔ)言任務(wù)的性能，例如：圖文檢索、基于圖片的問答或推理。有朋友要問了，除了在公開的學(xué)術(shù)任務(wù)上使用更大的模型/更多的數(shù)據(jù)/技巧把指標(biāo)刷得很高，多模態(tài)預(yù)訓(xùn)練模型有什么實(shí)際應(yīng)用呢？

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

為此，字節(jié)跳動(dòng) AI Lab Research 團(tuán)隊(duì)提出了X-VLM，首次提出學(xué)習(xí)多粒度的視覺和語(yǔ)言對(duì)齊。實(shí)驗(yàn)證明，這種預(yù)訓(xùn)練方法十分高效，模型規(guī)模無需很大，預(yù)訓(xùn)練數(shù)據(jù)無需很多，僅216M參數(shù)量的X-VLM就能在廣泛的多模態(tài)任務(wù)上獲得了十分優(yōu)秀的表現(xiàn)，例如：圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。目前，X-VLM 在字節(jié)跳動(dòng)的真實(shí)應(yīng)用場(chǎng)景上超過了業(yè)界常用的多個(gè)模型，完成了上線，服務(wù)于如今日頭條等業(yè)務(wù)。相關(guān)論文已被ICML 2022接收。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

論文：https://arxiv.org/abs/2111.08276
代碼：https://github.com/zengyan-97/X-VLM

比如，X-VLM 學(xué)到了多粒度的視覺和語(yǔ)言對(duì)齊，能為圖片生成更正確的描述物體和物體間關(guān)系的句子，這項(xiàng)能力被應(yīng)用到了字節(jié)跳動(dòng)的公益項(xiàng)目上。有視覺障礙的趙先生常用今日頭條了解時(shí)事新聞，他一直有個(gè)期待：“希望和普通人一樣‘看’到全部資訊內(nèi)容?！?今日頭條上超過三分之二的資訊內(nèi)容帶有圖片，為了解決視障人士的讀圖難題，今日頭條App最近應(yīng)用了 X-VLM 的生成能力，可以自動(dòng)識(shí)別圖片并為它們配上描述。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

為了讓他們“看”見每張圖片，我們做了個(gè)小改進(jìn)。

此外，X-VLM的理解和生成能力還被使用在大力智能學(xué)習(xí)燈的自動(dòng)批改功能上。下圖展示了補(bǔ)全短語(yǔ)題型以及模型預(yù)測(cè)的結(jié)果：

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

搭配了自動(dòng)解題功能的大力智能學(xué)習(xí)燈廣受家長(zhǎng)好評(píng)，這項(xiàng)能力還在持續(xù)優(yōu)化中。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

研究背景

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

現(xiàn)有的多模態(tài)預(yù)訓(xùn)練模型大致分為兩類：

1）依賴目標(biāo)檢測(cè)器提取基于物體（例如:車、人、樹、背包）的特征來表示圖片，這種方法可以學(xué)習(xí)到物體級(jí)別的視覺和語(yǔ)言對(duì)齊，如圖1中(a)所示。這些方法要么直接利用預(yù)先訓(xùn)練的目標(biāo)檢測(cè)器，要么將目標(biāo)檢測(cè)過程合并到多模態(tài)預(yù)訓(xùn)練中；

2）用 ResNet 或者 Vision Transformer 編碼整張圖片，只學(xué)習(xí)圖片和文本之間的對(duì)齊，如圖1(b)所示。

這兩種方法都存在一定的問題。首先，基于目標(biāo)檢測(cè)的方法會(huì)識(shí)別圖片中所有可能的物體，其中不乏一些與配對(duì)文本無關(guān)的。此外，這種方法所提取的基于物體的視覺特征可能會(huì)丟失物體之間的信息（可以認(rèn)為是一種上下文信息）。而且，這種方法只能識(shí)別有限種類的物體，我們很難預(yù)先定義合適的物體類別。而第二種方法則比較簡(jiǎn)單直接，但是較難學(xué)習(xí)到細(xì)粒度的視覺和語(yǔ)言對(duì)齊，例如：物體級(jí)別的對(duì)齊。這種細(xì)粒度的對(duì)齊關(guān)系被之前的工作證實(shí)對(duì)于視覺推理 (visual reasoning) 和視覺定位 (visual grounding) 任務(wù)很有幫助。

實(shí)際上，對(duì)于多模態(tài)預(yù)訓(xùn)練，有以下公開數(shù)據(jù)以供模型使用：1）圖片和圖片標(biāo)題；2）區(qū)域標(biāo)注，例如：圖1中的文本 “man crossing the street” 關(guān)聯(lián)到了圖片中的某個(gè)具體區(qū)域。然而，之前的工作卻粗略地將區(qū)域標(biāo)注與整張圖片對(duì)齊；3）物體標(biāo)簽，例如 “backpack”，這些標(biāo)注被之前的工作用來訓(xùn)練目標(biāo)檢測(cè)器。

與之前的做法不同，本文中作者提出X-VLM，以統(tǒng)一的方式利用上述數(shù)據(jù)高效地學(xué)習(xí)多粒度的視覺和語(yǔ)言對(duì)齊，能夠避免高開銷的目標(biāo)檢測(cè)過程，也不局限于學(xué)習(xí)圖像級(jí)別或物體級(jí)別的對(duì)齊。具體來說，作者提出可以使用基于 Vision Transformer 的 patch embeddings 來靈活表示各種粒度大小的視覺概念，如圖1(c)所示：例如，視覺概念 “backpack” 由2個(gè)patch組成，而視覺概念 “man crossing the street” 由更多的patch組成。

因此，X-VLM學(xué)習(xí)多粒度視覺和語(yǔ)言對(duì)齊的秘訣在于：

1）使用 patch embeddings 來靈活表示各種粒度的視覺概念，然后直接拉齊不同粒度的視覺概念和對(duì)應(yīng)文本，這一過程使用常用的對(duì)比學(xué)習(xí)損失、匹配損失、和MLM損失優(yōu)化；

2）更進(jìn)一步，在同一張圖片中，給出不同的文本，要求模型能預(yù)測(cè)出對(duì)應(yīng)粒度的視覺概念的坐標(biāo)，以邊界框坐標(biāo)的回歸損失和交并比損失優(yōu)化。實(shí)驗(yàn)證明，這種預(yù)訓(xùn)練方法十分高效，模型規(guī)模無需很大，預(yù)訓(xùn)練數(shù)據(jù)無需很多，X-VLM 就能在下游多種多模態(tài)理解/生成任務(wù)上獲得非常優(yōu)秀的表現(xiàn)。

方法

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

X-VLM 由一個(gè)圖像編碼器，一個(gè)文本編碼器，一個(gè)跨模態(tài)編碼器組成。

圖2左側(cè)給出了視覺概念（可以是物體/區(qū)域/圖片）的編碼過程：該圖像編碼器基于Vision Transformer，將輸入圖片分成patch編碼。然后，給出任意一個(gè)邊界框，靈活地通過取框中所有patch表示的平均值獲得區(qū)域的全局表示。再將該全局表示和原本框中所有的patch表示按照原本順序整理成序列，作為該邊界框所對(duì)應(yīng)的視覺概念的表示。通過這樣的方式獲得圖片本身(I)和圖片中視覺概念（V1，V2，V3）的編碼。與視覺概念對(duì)應(yīng)的文本，則通過文本編碼器一一編碼獲得，例如圖片標(biāo)題、區(qū)域描述、或物體標(biāo)簽。

X-VLM采用常見的模型結(jié)構(gòu)，其不同之處在于預(yù)訓(xùn)練的方法。作者通過以下兩類損失進(jìn)行優(yōu)化：

第一，在同一張圖片中，給出不同的文本，例如：T(text)、T1(text1)、T2(text2)、T3(text3)，要求模型預(yù)測(cè)圖片中對(duì)應(yīng)視覺概念的邊界框：

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

xjcls是跨模態(tài)編碼器在 [CLS] 位置的輸出向量。Sigmoid 函數(shù)是為了標(biāo)準(zhǔn)化預(yù)測(cè)的邊界框。Ground-truth bj對(duì)應(yīng)了，依次是標(biāo)準(zhǔn)化后的的中心橫坐標(biāo)、中心縱坐標(biāo)、寬、高。最后，該損失是邊界框坐標(biāo)的回歸損失（L1）和交并比損失（GIoU）之和。作者認(rèn)為在同一張圖片中，給不同文字，要求模型預(yù)測(cè)出對(duì)應(yīng)的視覺概念，能使模型更有效地學(xué)習(xí)到多粒度的視覺語(yǔ)言對(duì)齊。該損失也是首次被使用在多模態(tài)預(yù)訓(xùn)練中。

第二，使用patch embeddings來靈活表示各種粒度的視覺概念，然后直接優(yōu)化模型去拉齊不同粒度的文本和視覺概念，包括了物體/區(qū)域/圖片與文本的對(duì)齊。作者使用多模態(tài)預(yù)訓(xùn)練中常見的三個(gè)損失優(yōu)化，依次是：

1）對(duì)比學(xué)習(xí)損失：

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

yv2t，yt2v ∈ Rbsz x bsz是ground-truth相似度, 對(duì)角線為1，其余為0。

pv2t, pt2v ∈ Rbsz x bsz是模型基于文字編碼器輸出和圖像編碼器輸出所計(jì)算的相似度。

2）匹配損失：

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

pmatch是基于跨模態(tài)編碼器計(jì)算，預(yù)測(cè)所給對(duì)是否匹配（換句話說，0/1分類）。對(duì)于每對(duì)正例，作者采樣一對(duì)負(fù)例。

3）Masked Language Modeling損失：

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

T(估計(jì)值)中的一些詞已經(jīng)被隨機(jī)替換成了 [MASK]，pj(V, T(估計(jì)值))是跨模態(tài)編碼器在詞tj位置的輸出向量所計(jì)算的詞表概率分布。

實(shí)驗(yàn)

作者使用多模態(tài)預(yù)訓(xùn)練中常見的中等規(guī)模的4M和16M圖片數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，如下表所示：

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

其中，標(biāo)注（# Ann）是區(qū)域標(biāo)注和物體標(biāo)簽的總和?？梢钥闯?，有些數(shù)據(jù)集沒有圖片標(biāo)題，例如Visual Genome（VG），有些數(shù)據(jù)集沒有圖片標(biāo)注，例如CC-3M/12M。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

表2展示了在圖像文本檢索任務(wù) (MSCOCO和Flickr30K) 上的表現(xiàn)。即使，之前的方法在更大量的內(nèi)部數(shù)據(jù)上預(yù)訓(xùn)練或者模型規(guī)模更大，在4M圖片數(shù)據(jù)集下訓(xùn)練的X-VLM就已經(jīng)可以超過之前的方法。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型：X-VLM，學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊（字節(jié)跳動(dòng)lite模型）

表3展示了在視覺推理 (VQA2.0和NLVR2)、視覺定位 (RefCOCO ) 、圖片描述生成 (COCO Caption) 上的模型表現(xiàn)。為了公平的對(duì)比，X-VLM 沿用了之前工作的 fine-tune 方法，沒有進(jìn)行額外的調(diào)整。結(jié)合表2和表3，可以看出，相比之前的方法，X-VLM支持更多種類的下游任務(wù)，并且在這些常見的視覺語(yǔ)言任務(wù)上都取得了十分優(yōu)秀的表現(xiàn)。

總結(jié)和討論

在本文中，作者提出了X-VLM以學(xué)習(xí)多粒度的視覺和語(yǔ)言對(duì)齊，能夠避免高開銷的目標(biāo)檢測(cè)過程，也不局限于學(xué)習(xí)圖像級(jí)別或物體級(jí)別的對(duì)齊。X-VLM 的秘訣在于：

1）基于 patch embeddings 靈活表示各種粒度的視覺概念，然后直接拉齊不同粒度的視覺概念和對(duì)應(yīng)文本；

2）更進(jìn)一步，在同一張圖片中，給出不同的文本，要求模型能預(yù)測(cè)出對(duì)應(yīng)視覺概念的坐標(biāo)。實(shí)驗(yàn)證實(shí)這種預(yù)訓(xùn)練方法十分高效。

在實(shí)驗(yàn)部分，作者使用常用的4M和16M數(shù)據(jù)，訓(xùn)練總參數(shù)量216M的 X-VLM ，就能超過更大規(guī)模的模型或使用大量預(yù)訓(xùn)練數(shù)據(jù)的模型，在下游多種多模態(tài)理解/生成任務(wù)上取得非常優(yōu)秀的表現(xiàn)。并且，字節(jié)跳動(dòng)的工程師們也把 X-VLM 用在了真實(shí)的業(yè)務(wù)場(chǎng)景上，例如：為視障人群描述圖片內(nèi)容，小學(xué)生作業(yè)的自動(dòng)批改。實(shí)際上，X-VLM 還十分擅長(zhǎng)細(xì)粒度的 retrieval，visual grounding 等任務(wù)。