看看男人日女人,亚洲欧美日韩日本国产三,国产精品欧美日韩区二区,妓女影库妓女网在线视频

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

寫在前面

視覺語(yǔ)言預(yù)訓(xùn)練提高了許多下游視覺語(yǔ)言任務(wù)的性能,例如:圖文檢索、基于圖片的問答或推理。有朋友要問了,除了在公開的學(xué)術(shù)任務(wù)上使用更大的模型/更多的數(shù)據(jù)/技巧把指標(biāo)刷得很高,多模態(tài)預(yù)訓(xùn)練模型有什么實(shí)際應(yīng)用呢?

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

為此,字節(jié)跳動(dòng) AI Lab Research 團(tuán)隊(duì)提出了X-VLM,首次提出學(xué)習(xí)多粒度的視覺和語(yǔ)言對(duì)齊。實(shí)驗(yàn)證明,這種預(yù)訓(xùn)練方法十分高效,模型規(guī)模無需很大,預(yù)訓(xùn)練數(shù)據(jù)無需很多, 僅216M參數(shù)量的X-VLM就能在廣泛的多模態(tài)任務(wù)上獲得了十分優(yōu)秀的表現(xiàn),例如:圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。目前,X-VLM 在字節(jié)跳動(dòng)的真實(shí)應(yīng)用場(chǎng)景上超過了業(yè)界常用的多個(gè)模型,完成了上線,服務(wù)于如今日頭條等業(yè)務(wù)。相關(guān)論文已被ICML 2022接收。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

論文:https://arxiv.org/abs/2111.08276
代碼:https://github.com/zengyan-97/X-VLM

比如,X-VLM 學(xué)到了多粒度的視覺和語(yǔ)言對(duì)齊,能為圖片生成更正確的描述物體和物體間關(guān)系的句子,這項(xiàng)能力被應(yīng)用到了字節(jié)跳動(dòng)的公益項(xiàng)目上。有視覺障礙的趙先生常用今日頭條了解時(shí)事新聞,他一直有個(gè)期待:“希望和普通人一樣‘看’到全部資訊內(nèi)容?!?今日頭條上超過三分之二的資訊內(nèi)容帶有圖片,為了解決視障人士的讀圖難題,今日頭條App最近應(yīng)用了 X-VLM 的生成能力,可以自動(dòng)識(shí)別圖片并為它們配上描述。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

為了讓他們“看”見每張圖片,我們做了個(gè)小改進(jìn)。

此外,X-VLM的理解和生成能力還被使用在大力智能學(xué)習(xí)燈的自動(dòng)批改功能上。下圖展示了補(bǔ)全短語(yǔ)題型以及模型預(yù)測(cè)的結(jié)果:

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

搭配了自動(dòng)解題功能的大力智能學(xué)習(xí)燈廣受家長(zhǎng)好評(píng),這項(xiàng)能力還在持續(xù)優(yōu)化中。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

研究背景

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

現(xiàn)有的多模態(tài)預(yù)訓(xùn)練模型大致分為兩類:

1)依賴目標(biāo)檢測(cè)器提取基于物體(例如:車、人、樹、背包)的特征來表示圖片,這種方法可以學(xué)習(xí)到物體級(jí)別的視覺和語(yǔ)言對(duì)齊,如圖1中(a)所示。這些方法要么直接利用預(yù)先訓(xùn)練的目標(biāo)檢測(cè)器,要么將目標(biāo)檢測(cè)過程合并到多模態(tài)預(yù)訓(xùn)練中;

2)用 ResNet 或者 Vision Transformer 編碼整張圖片,只學(xué)習(xí)圖片和文本之間的對(duì)齊,如圖1(b)所示。

這兩種方法都存在一定的問題。首先,基于目標(biāo)檢測(cè)的方法會(huì)識(shí)別圖片中所有可能的物體,其中不乏一些與配對(duì)文本無關(guān)的。此外,這種方法所提取的基于物體的視覺特征可能會(huì)丟失物體之間的信息(可以認(rèn)為是一種上下文信息)。而且,這種方法只能識(shí)別有限種類的物體,我們很難預(yù)先定義合適的物體類別。而第二種方法則比較簡(jiǎn)單直接,但是較難學(xué)習(xí)到細(xì)粒度的視覺和語(yǔ)言對(duì)齊,例如:物體級(jí)別的對(duì)齊。這種細(xì)粒度的對(duì)齊關(guān)系被之前的工作證實(shí)對(duì)于視覺推理 (visual reasoning) 和視覺定位 (visual grounding) 任務(wù)很有幫助。

實(shí)際上,對(duì)于多模態(tài)預(yù)訓(xùn)練,有以下公開數(shù)據(jù)以供模型使用:1)圖片和圖片標(biāo)題;2)區(qū)域標(biāo)注,例如:圖1中的文本 “man crossing the street” 關(guān)聯(lián)到了圖片中的某個(gè)具體區(qū)域。然而,之前的工作卻粗略地將區(qū)域標(biāo)注與整張圖片對(duì)齊;3)物體標(biāo)簽,例如 “backpack”,這些標(biāo)注被之前的工作用來訓(xùn)練目標(biāo)檢測(cè)器。

與之前的做法不同,本文中作者提出X-VLM,以統(tǒng)一的方式利用上述數(shù)據(jù)高效地學(xué)習(xí)多粒度的視覺和語(yǔ)言對(duì)齊,能夠避免高開銷的目標(biāo)檢測(cè)過程,也不局限于學(xué)習(xí)圖像級(jí)別或物體級(jí)別的對(duì)齊。具體來說,作者提出可以使用基于 Vision Transformer 的 patch embeddings 來靈活表示各種粒度大小的視覺概念,如圖1(c)所示:例如,視覺概念 “backpack” 由2個(gè)patch組成,而視覺概念 “man crossing the street” 由更多的patch組成。

因此,X-VLM學(xué)習(xí)多粒度視覺和語(yǔ)言對(duì)齊的秘訣在于:

1)使用 patch embeddings 來靈活表示各種粒度的視覺概念,然后直接拉齊不同粒度的視覺概念和對(duì)應(yīng)文本,這一過程使用常用的對(duì)比學(xué)習(xí)損失、匹配損失、和MLM損失優(yōu)化;

2)更進(jìn)一步,在同一張圖片中,給出不同的文本,要求模型能預(yù)測(cè)出對(duì)應(yīng)粒度的視覺概念的坐標(biāo),以邊界框坐標(biāo)的回歸損失和交并比損失優(yōu)化。實(shí)驗(yàn)證明,這種預(yù)訓(xùn)練方法十分高效,模型規(guī)模無需很大,預(yù)訓(xùn)練數(shù)據(jù)無需很多,X-VLM 就能在下游多種多模態(tài)理解/生成任務(wù)上獲得非常優(yōu)秀的表現(xiàn)。

方法

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

X-VLM 由一個(gè)圖像編碼器,一個(gè)文本編碼器,一個(gè)跨模態(tài)編碼器組成。

圖2左側(cè)給出了視覺概念 (可以是物體/區(qū)域/圖片)的編碼過程:該圖像編碼器基于Vision Transformer,將輸入圖片分成patch編碼。然后,給出任意一個(gè)邊界框,靈活地通過取框中所有patch表示的平均值獲得區(qū)域的全局表示。再將該全局表示和原本框中所有的patch表示按照原本順序整理成序列,作為該邊界框所對(duì)應(yīng)的視覺概念的表示。通過這樣的方式獲得圖片本身(I)和圖片中視覺概念(V1,V2,V3)的編碼。與視覺概念對(duì)應(yīng)的文本,則通過文本編碼器一一編碼獲得,例如圖片標(biāo)題、區(qū)域描述、或物體標(biāo)簽。

X-VLM采用常見的模型結(jié)構(gòu),其不同之處在于預(yù)訓(xùn)練的方法。作者通過以下兩類損失進(jìn)行優(yōu)化:

第一,在同一張圖片中,給出不同的文本,例如:T(text)、T1(text1)、T2(text2)、T3(text3),要求模型預(yù)測(cè)圖片中對(duì)應(yīng)視覺概念的邊界框:

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

xjcls是跨模態(tài)編碼器在 [CLS] 位置的輸出向量。Sigmoid 函數(shù)是為了標(biāo)準(zhǔn)化預(yù)測(cè)的邊界框。Ground-truth bj對(duì)應(yīng)了 ,依次是標(biāo)準(zhǔn)化后的的中心橫坐標(biāo)、中心縱坐標(biāo)、寬、高。最后,該損失是邊界框坐標(biāo)的回歸損失(L1)和交并比損失(GIoU)之和。作者認(rèn)為在同一張圖片中,給不同文字,要求模型預(yù)測(cè)出對(duì)應(yīng)的視覺概念,能使模型更有效地學(xué)習(xí)到多粒度的視覺語(yǔ)言對(duì)齊。該損失也是首次被使用在多模態(tài)預(yù)訓(xùn)練中。

第二,使用patch embeddings來靈活表示各種粒度的視覺概念,然后直接優(yōu)化模型去拉齊不同粒度的文本和視覺概念,包括了物體/區(qū)域/圖片與文本的對(duì)齊。作者使用多模態(tài)預(yù)訓(xùn)練中常見的三個(gè)損失優(yōu)化,依次是:

1)對(duì)比學(xué)習(xí)損失:

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

yv2t,yt2v ∈ Rbsz x bsz是ground-truth相似度, 對(duì)角線為1,其余為0。

pv2t, pt2v ∈ Rbsz x bsz是模型基于文字編碼器輸出和圖像編碼器輸出所計(jì)算的相似度。

2)匹配損失:

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

pmatch是基于跨模態(tài)編碼器計(jì)算,預(yù)測(cè)所給 對(duì)是否匹配(換句話說,0/1分類)。對(duì)于每對(duì)正例,作者采樣一對(duì)負(fù)例。

3)Masked Language Modeling損失:

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

T(估計(jì)值)中的一些詞已經(jīng)被隨機(jī)替換成了 [MASK],pj(V, T(估計(jì)值))是跨模態(tài)編碼器在詞tj位置的輸出向量所計(jì)算的詞表概率分布。

實(shí)驗(yàn)

作者使用多模態(tài)預(yù)訓(xùn)練中常見的中等規(guī)模的4M和16M圖片數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),如下表所示:

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

其中,標(biāo)注(# Ann)是區(qū)域標(biāo)注和物體標(biāo)簽的總和??梢钥闯?,有些數(shù)據(jù)集沒有圖片標(biāo)題,例如Visual Genome(VG),有些數(shù)據(jù)集沒有圖片標(biāo)注,例如CC-3M/12M。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

表2展示了在圖像文本檢索任務(wù) (MSCOCO和Flickr30K) 上的表現(xiàn)。即使,之前的方法在更大量的內(nèi)部數(shù)據(jù)上預(yù)訓(xùn)練或者模型規(guī)模更大,在4M圖片數(shù)據(jù)集下訓(xùn)練的X-VLM就已經(jīng)可以超過之前的方法。

字節(jié)跳動(dòng) AI Lab 提出多模態(tài)模型:X-VLM,學(xué)習(xí)視覺和語(yǔ)言多粒度對(duì)齊(字節(jié)跳動(dòng)lite模型)

表3展示了在視覺推理 (VQA2.0和NLVR2)、視覺定位 (RefCOCO ) 、圖片描述生成 (COCO Caption) 上的模型表現(xiàn)。為了公平的對(duì)比,X-VLM 沿用了之前工作的 fine-tune 方法,沒有進(jìn)行額外的調(diào)整。結(jié)合表2和表3,可以看出,相比之前的方法,X-VLM支持更多種類的下游任務(wù),并且在這些常見的視覺語(yǔ)言任務(wù)上都取得了十分優(yōu)秀的表現(xiàn)。

總結(jié)和討論

在本文中,作者提出了X-VLM以學(xué)習(xí)多粒度的視覺和語(yǔ)言對(duì)齊,能夠避免高開銷的目標(biāo)檢測(cè)過程,也不局限于學(xué)習(xí)圖像級(jí)別或物體級(jí)別的對(duì)齊。X-VLM 的秘訣在于:

1)基于 patch embeddings 靈活表示各種粒度的視覺概念,然后直接拉齊不同粒度的視覺概念和對(duì)應(yīng)文本;

2)更進(jìn)一步,在同一張圖片中,給出不同的文本,要求模型能預(yù)測(cè)出對(duì)應(yīng)視覺概念的坐標(biāo)。實(shí)驗(yàn)證實(shí)這種預(yù)訓(xùn)練方法十分高效。

在實(shí)驗(yàn)部分,作者使用常用的4M和16M數(shù)據(jù),訓(xùn)練總參數(shù)量216M的 X-VLM ,就能超過更大規(guī)模的模型或使用大量預(yù)訓(xùn)練數(shù)據(jù)的模型,在下游多種多模態(tài)理解/生成任務(wù)上取得非常優(yōu)秀的表現(xiàn)。并且,字節(jié)跳動(dòng)的工程師們也把 X-VLM 用在了真實(shí)的業(yè)務(wù)場(chǎng)景上,例如:為視障人群描述圖片內(nèi)容,小學(xué)生作業(yè)的自動(dòng)批改。實(shí)際上,X-VLM 還十分擅長(zhǎng)細(xì)粒度的 retrieval,visual grounding 等任務(wù)。

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
在線咨詢
分享本頁(yè)
返回頂部
吉隆县| 湾仔区| 阳江市| 伊宁县| 牟定县| 广水市| 西吉县| 齐齐哈尔市| 尚义县| 建昌县| 灵璧县| 台州市| 平江县| 吴川市| 榆中县| 尉犁县| 会东县| 江门市| 来凤县| 巫溪县| 巢湖市| 柏乡县| 浦县| 调兵山市| 综艺| 长丰县| 美姑县| 平顺县| 望城县| 娄烦县| 闸北区| 西充县| 新和县| 河西区| 平顶山市| 吉木萨尔县| 依安县| 积石山| 怀远县| 罗城| 高雄县|