寫(xiě)在前面
今天給大家?guī)?lái)一篇ACL2022論文MVR,「面向開(kāi)放域檢索的多視角文檔表征」,主要解決同一個(gè)文檔向量與多個(gè)語(yǔ)義差異較大問(wèn)題向量語(yǔ)義不匹配的問(wèn)題。通過(guò)「插入多個(gè)特殊Token」實(shí)現(xiàn)多視角文檔向量表征的構(gòu)建,并為了防止多種視角間向量的趨同,引入了「退火溫度」的全局-局部損失,論文全稱(chēng)《Multi-View Document Representation Learning for Open-Domain Dense Retrieval》。
該篇論文與前兩天分享的DCSR-面向開(kāi)放域段落檢索的句子感知的對(duì)比學(xué)習(xí)一文有異曲同工之妙,都是在檢索排序不引入額外計(jì)算量的同時(shí),通過(guò)插入特殊Token構(gòu)建長(zhǎng)文檔的多語(yǔ)義向量表征,使得同一文檔可以與多種不同問(wèn)題的向量表征相似。
并且目前的檢索召回模型均存在一些缺陷:
Cross-encoder類(lèi)模型(BERT)由于計(jì)算量太大,無(wú)法在召回階段使用;
Bi-encoder類(lèi)模型(DPR)無(wú)法很好地表現(xiàn)長(zhǎng)文檔中的多主題要素;
Late Interaction類(lèi)模型(ColBERT)由于使用sum操作,無(wú)法直接使用ANN進(jìn)行排序;
Attention-based Aggregator類(lèi)模型(PolyEncoder)增加了額外運(yùn)算并且無(wú)法直接使用ANN進(jìn)行排序。
模型
通常向量表征時(shí),采用特殊字符[CLS]對(duì)應(yīng)的向量表征作為文本的向量表征。為了獲取文檔中更細(xì)粒度的語(yǔ)義信息,MVR引入多個(gè)特殊字符[VIE]替代[CLS]。
對(duì)于文檔來(lái)說(shuō),在文本前插入多個(gè)字符[],為了防止干擾原始文本的位置信息,我們將[]的所有位置信息設(shè)置為0,文檔語(yǔ)句位置信息從1開(kāi)始。
對(duì)于問(wèn)題來(lái)說(shuō),由于問(wèn)題較短且通常表示同一含義,因此僅使用一個(gè)特殊字符[VIE]。
模型采用雙編碼器作為骨干,分別對(duì)問(wèn)題和文檔進(jìn)行編碼,如下:
其中,表示鏈接符,[VIE]和[SEP]為BERT模型的特殊字符,和分別為問(wèn)題編碼器和文檔編碼器。
如上圖所示,首先計(jì)算問(wèn)題向量與每個(gè)視角的文檔向量進(jìn)行點(diǎn)積,獲取每一個(gè)視角的得分,然后通過(guò)max-pooler操作,獲取視角中分值最大的作為問(wèn)題向量與文檔向量的得分,如下:
為了防止多種視角間向量的趨同,引入了帶有退火溫度的Global-Local Loss,包括全局對(duì)比損失和局部均勻損失,如下:
其中,全局對(duì)比損失為傳統(tǒng)的對(duì)比損失函數(shù),給定一個(gè)問(wèn)題、一個(gè)正例文檔以及多個(gè)負(fù)例文檔,損失函數(shù)如下:
為了提高多視角向量的均勻性,提出局部均勻性損失,強(qiáng)制將選擇的查詢(xún)向量與視角向量更緊密,原理其他其視角向量,如下:
為了進(jìn)一步區(qū)分不同視角向量間的差異,采用了退火溫度,逐步調(diào)整不同視角向量的softmax分布,如下:
其中,為控制退火速度的超參,為模型訓(xùn)練輪數(shù),每訓(xùn)練一輪,溫度更新一次。注意:在全局對(duì)比損失和局部均勻損失中,均使用了退火溫度。
實(shí)驗(yàn)
如下表所示,MVR方法對(duì)比于其他模型,獲取了更好的效果。
并且,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)視角個(gè)數(shù)選擇8時(shí),MVR模型效果最佳。
針對(duì)Global-Local Loss進(jìn)行消融實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)沒(méi)有局部均勻損失和退火溫度時(shí),會(huì)使得效果下降;當(dāng)兩者都沒(méi)有時(shí),效果下降更加明顯;并且一個(gè)合適退火速度,對(duì)訓(xùn)練較為重要。
相比于其他模型來(lái)說(shuō),在文檔編碼階段和檢索召回階段的速度基本沒(méi)有影響,但由于需要存儲(chǔ)多個(gè)視角向量,因此造成存儲(chǔ)空間變大。
并且,對(duì)比了簡(jiǎn)單的句子切割或者等片段截?cái)喾椒ǐ@取一個(gè)文本的多個(gè)向量表征,發(fā)現(xiàn)其效果均不理想,與DCSR一文觀點(diǎn)一致。
總結(jié)
該論文為了對(duì)長(zhǎng)文檔更好地進(jìn)行向量表征,引入多個(gè)特殊字符,使其生成「多種不同視角的向量表征」,解決了同一個(gè)文檔向量與多個(gè)語(yǔ)義差異較大問(wèn)題向量語(yǔ)義不匹配的問(wèn)題。
審核編輯:郭婷
-
編碼器
+關(guān)注
關(guān)注
45文章
3595瀏覽量
134158
原文標(biāo)題:ACL2022 | MVR:面向開(kāi)放域檢索的多視角文檔表征
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論