散文網(wǎng) » 生活 »日常 » NLP 論文領(lǐng)讀｜無參數(shù)機器翻譯遇上對比學(xué)習(xí)：效率和性能我全都要！

NLP 論文領(lǐng)讀｜無參數(shù)機器翻譯遇上對比學(xué)習(xí)：效率和性能我全都要！

2022-08-05 14:08 作者:瀾舟孟子開源社區(qū) 0人讀過 | 我要投稿

歡迎關(guān)注「瀾舟論文領(lǐng)讀」專欄！關(guān)注“瀾舟科技”公眾號探索更多 NLP 前沿論文！

本期分享者：付宇

瀾舟科技算法研究實習(xí)生，天津大學(xué)碩士二年級，研究方向為檢索增強機器翻譯、文本摘要。郵箱：fuyu_1998@tju.edu.cn

寫在前面

檢索式增強在各種自然語言處理任務(wù)中被廣泛應(yīng)用，其主要目的是基于一定的檢索范式來利用現(xiàn)存數(shù)據(jù)，影響模型最終得到的結(jié)果，從而降低模型參數(shù)的負擔。之前瀾舟公眾號已經(jīng)發(fā)布了一篇相關(guān)的論文領(lǐng)讀《別再第四范式：看看新熱點檢索增強怎么做文本生成！》對檢索增強的任務(wù)進行了概述。本文我們聚焦在機器翻譯領(lǐng)域，介紹在機器翻譯中最新的利用檢索來進行增強的范式！

論文標題

Efficient Cluster-Based k-Nearset-Neighbor Machine Translation

論文作者

Dexin Wang, Kai Fan, Boxing Chen, Deyi Xiong

論文單位

天津大學(xué)，阿里巴巴達摩院

論文鏈接：

https://aclanthology.org/2022.acl-long.154/

KNN 背景介紹

?

基于 KNN 的檢索式增強首先在 Language Model 上被提出 [1]，在 2021 的 ICLR 文章 [2] 中，首先將 KNN 增強的方法應(yīng)用到了機器翻譯上，?通過 KNN 的詞級別的檢索和融合，能夠在不進行特定領(lǐng)域訓(xùn)練的前提下，有效提高模型在領(lǐng)域數(shù)據(jù)集上的效果。

其包含兩個主要的步驟：首先是創(chuàng)建數(shù)據(jù)庫（Datastore），也就是使用基礎(chǔ)模型來進行正向傳播，利用在解碼時候映射到詞表前的特征和對應(yīng)的目標詞作為鍵值對存儲在 Datastore 中，對應(yīng)圖 1 中 Datastore 的 Representation 和 Target。正式翻譯時，在每個具體的解碼步驟中，使用相同位置的特征，從 Datastore 中進行向量檢索，使用檢索的結(jié)果以及對應(yīng)的距離（Distances），結(jié)合溫度超參數(shù)來計算得到最終的概率（對應(yīng)公式 1），將得到的概率作為目標詞概率按照一定比例融合到原始模型輸出詞表的概率分布上（對應(yīng)公式 2）。

其中? $N$ ?表示在 Datastore 中進行向量檢索得到的 N 個鍵值對，? $T$ ?表示溫度超參數(shù)， $%5Cmathbb%7BI%7D_%7By_i%3Dv_i%7D$ 代表指示函數(shù)，表示只在對應(yīng)滿足條件的位置添加概率。

其中? $λ$ ?是比例超參數(shù)， $p_%7BkNN%7D$ 是上面介紹的 kNN 檢索過程計算得到的對應(yīng)概率，也就是對應(yīng)公式 1， $p_%7BMT%7D$ 表示基礎(chǔ)模型得到的詞表上的概率分布。

研究動機

雖然 2021 的 ICLR 文章 [2] 在實驗部分進行了不同領(lǐng)域的實驗，并且得到了良好的效果，展現(xiàn)出來了 KNN 無參數(shù)機器翻譯在實際應(yīng)用上的前景，但是在實際應(yīng)用中存在兩個主要的問題：

1. 存儲大小。?對于 KNN 無參數(shù)機器翻譯而言，在創(chuàng)建 Datastore 的時候，使用詞以及對應(yīng)的特征來作為存儲的鍵值對，最終的 Datastore 的大小跟詞的數(shù)量以及特征的維度是正相關(guān)的。

2. 時間延遲?。?因為 KNN 的向量檢索是在每個解碼步驟中進行的，隨著 Datastore 的增大，向量檢索的延遲會嚴重影響最終整體翻譯的速度。

因此，在《Efficient Cluster-Based k-Nearset-Neighbor Machine Translation》這篇論文中，作者首先給出了一個在領(lǐng)域數(shù)據(jù)集上原始的機器翻譯和 KNN 機器翻譯的速度對比，其中 MT 表示的是原始機器翻譯模型，AK-MT [3] 是 KNN-MT 的一個變種，也是該論文的 Base 模型。上述的兩個主要的問題都與 Datastore 的大小有著密切的關(guān)系，作者基于對特征的可視化分析，提出了兩個不同方向改進：

1. 特征維度。?使用一個額外的網(wǎng)絡(luò)（Compact Network）來對模型的特征進行降維。并且基于不同的語義單元應(yīng)該互相不重合的假設(shè)下，使用對比學(xué)習(xí)的方法來在降維的同時對不同的語義單元進行分割，增強向量檢索的準確度。

2. 詞數(shù)量。?使用一個剪枝策略來對 Datastore 中冗余的部分進行修剪從而降低 Datastore 的大小，進一步提升翻譯的速度。

下面詳細介紹該論文提出的兩個方法。

基于聚類的特征維度壓縮

在 KNN 機器翻譯研究中使用的原始模型的特征維度通常是 1024 維，并且是在通用的數(shù)據(jù)上訓(xùn)練得到的模型。因此模型是缺少領(lǐng)域相關(guān)的知識的，并且高維語義空間下，向量是稀疏的并且?guī)в性肼?。使用傳統(tǒng)的降維方法（比如 PCA），在相關(guān)的研究中 [4] 中被證明效果比較差，對于 1024 維而言，在保證性能的前提下，最多只能夠降低到 512 維。

?在這個部分，基于不同的語義單元以及對比學(xué)習(xí)的方法，作者不僅對特征維度進行進一步的壓縮（1024 維 -- 64 維），而且進一步提升了領(lǐng)域數(shù)據(jù)集上的性能。具體主要分為兩個步驟：

1. 形成基礎(chǔ)的語義單元。?在這里引入了一個概念——Cluster Family。其表示的就是在 Datastore 中所有相同的目標詞的鍵值對集合。對于一個 Cluster Family，使用傳統(tǒng)的聚類方法來形成若干個簇（Cluster），使用得到的簇來作為最終的語義單元，體現(xiàn)在圖 3 中的就是 Token A 和 Token B 分別形成了兩個不同的簇，也就是得到四個基礎(chǔ)語義單元。從圖 3 中也可以看到，不同的簇之間可能是會存在重疊的部分，因此就需要下面的第二個步驟。

2. 對比訓(xùn)練。?不同的語義單元應(yīng)該是互相不重合，因為重合會導(dǎo)致在檢索時候的不準確問題，從而影響最終的翻譯性能。具體的，在這里使用了兩種不同模式的對比學(xué)習(xí) loss，來對壓縮后的特征進行訓(xùn)練。分別為：Triplet Noise-Contrastive Estimation (NCE) 和 Trplet Distance Ranking（DR），其中前者是使用一個額外的線性層來轉(zhuǎn)成了一個分類任務(wù)，而后者是直接使用壓縮后的特征來計算 L2 距離進行排序。

在對比學(xué)習(xí)的訓(xùn)練中，錨點和正例是從同一個簇中獲得，而負例是從不同目標詞的簇中獲得。另外還有一個額外的 Word Prediction Loss（WP），是為了將語言學(xué)的信息融入到訓(xùn)練壓縮特征的網(wǎng)絡(luò)中。

從圖 3?中可以看到，Compact Network 主要分為兩個部分，也分別對應(yīng)兩個不同的作用，其中 $f(%5Calpha)$ 是特征壓縮層，用來對特征的維度進行壓縮。 $f(%5Ctheta)$ 是對比學(xué)習(xí)層，用來適應(yīng) NCE 的訓(xùn)練需要。特別的，訓(xùn)練 NCE 的? $f(%5Ctheta)$ ?的輸出維度是 1，訓(xùn)練 WP 的 $f(%5Ctheta)$ ??的輸出維度是目標語言的詞表大小，訓(xùn)練 DR 的時候不需要 $f(%5Ctheta)$ ???，因為它是直接對壓縮后的特征進行操作。

基于聚類的數(shù)據(jù)庫剪枝

除了特征以外，詞的數(shù)量是另一個影響 Datastore 大小，進而影響最終翻譯速度的重要因素。針對 KNN 的具體過程，一個直觀的動機就是：在具有相同目標詞的情況下，如果對應(yīng)特征之間的區(qū)分度足夠小，那么是可以視為冗余部分并且進行刪除的。作者從統(tǒng)計機器翻譯中短語級別的剪枝策略更有效這一結(jié)果得到啟發(fā)，設(shè)計了一種基于 N-Gram 的剪枝策略。

首先定義了一個具體的衡量標準——翻譯代價（Translation Cost）?。具體的，針對某一個目標詞，其翻譯代價就是在這個目標詞的來源語料中，以這個目標詞作為結(jié)束詞的 N-Gram 的困惑度，為了更好衡量翻譯代價，使用 1 到 N 的 N-Gram 中的最低困惑度作為最終的翻譯代價。

如圖 4 中，對于 Datastore 中的目標詞 “man”來說，第一句和第二句得到的鍵值對相對而言就是冗余。在得到 Datastore 中所有目標詞的翻譯代價以后，在目標詞的內(nèi)部根據(jù)翻譯代價來進行聚類，并且在剪枝的時候?qū)λ械玫降拇馗鶕?jù)預(yù)設(shè)的比例進行隨機采樣，最終得到剪枝以后的 Datastore。

實驗設(shè)置

論文中使用了 5 個不同的領(lǐng)域數(shù)據(jù)集分別為 IT、Koran、Medical、Law 和 Subtitles。其中前四個數(shù)據(jù)集是 Baseline 論文中使用的數(shù)據(jù)集，后者是包含了更多的數(shù)據(jù)用以表現(xiàn)剪枝的性能。對于特征維度也就是 $f(%5Calpha)$ 的輸出大小，實驗中使用 IT 數(shù)據(jù)集在 [16, 32, 64, 128] 中進行搜索，并且最終確定為 64。剪枝策略中的 N-Gram 中的 1-N 設(shè)置為 1-2。

特征維度壓縮性能

首先對論文中提出的不同損失和錨點選擇方法進行了組合，在 IT 數(shù)據(jù)集上進行實驗。其中 DY 代表隨機選擇簇中一個點，ST 表示選擇簇中心作為固定的錨點。CL 代表在不同的 Cluster 間選擇負例進行對比學(xué)習(xí)的訓(xùn)練，而不是把負例的選擇約束在不同 Cluster Family 上的簇中。

值得注意的是，傳統(tǒng)的降維方法（PCA & SVD）在性能上都有所降低。在三個 Loss 中，NCE 的效果表現(xiàn)最好，可能的原因是 NCE 的參數(shù)相較于 WP 來說更少，在使用少量驗證集訓(xùn)練的情況下，能夠得到更好的結(jié)果。而 DR 性能差在于本身得到的特征已經(jīng)是訓(xùn)練好模型上的結(jié)果，最小化距離的約束可能過于強硬。

在不同數(shù)據(jù)集上的實驗結(jié)果如圖 6 所示，基本的設(shè)置跟圖 5 中最優(yōu)設(shè)置一致。在不同數(shù)據(jù)集上均能夠得到更好效果。并且為了測試訓(xùn)練的 Compact Network 的泛化能力，作者使用了一個大規(guī)模的通用語料庫 Wikimatrix Corpus 來訓(xùn)練 Compact Network，然后直接在四個數(shù)據(jù)集上進行測試，可以看到在整體上得到的結(jié)果依舊是較好的。

對于 Compact Network 降維后的特征進行可視化，結(jié)果如圖 7 所示，隨機選擇 10 個目標詞來可視化，左邊是原始的特征，右邊是降維以后的特征?？梢钥吹接疫叢煌c之間的聚類效應(yīng)更加的明顯，證明了對比學(xué)習(xí)在降維的時候確實起到了將不同簇分割的效果，驗證了所提方法的有效性。

剪枝策略性能

在這個部分進行的是剪枝方法的實驗，圖 8 中給出了其他四種不同的簡單剪枝方法和本文提出的方法在四個領(lǐng)域數(shù)據(jù)集上的效果。其中 SP 表示根據(jù)與聚類中心的距離來進行剪枝，LTP 和 HTP 分別代表對翻譯中生成概率低和高的部分進行剪枝，RP 表示使用隨機均勻采樣的方法來進行剪枝。

從結(jié)果上看，本文提出的方法在總體上是優(yōu)于其他方法的，但是效果的提升比較有限，反而是隨機的方法依舊保持可比性。根據(jù)統(tǒng)計的 N-Gram 可以看到，出現(xiàn)這種情況的原因可能在于構(gòu)成 Datastore 的數(shù)據(jù)集中的 N-Gram 的冗余度是很低的，大部分 N-Gram 都是獨一無二的。

所以要體現(xiàn)剪枝算法的性能，需要一個更大的數(shù)據(jù)集來實驗。在這里作者使用了 Subtitles 數(shù)據(jù)集來進行實驗, 并且跟 RP 來進行對比，在 Subtitle 這個比較大的數(shù)據(jù)集上結(jié)果如圖 9，剪枝能夠起到更好的效果，并且相較于 RP 而言，本文提出的方法隨著剪枝比例提高，效果更加穩(wěn)定。

最后就是剪枝以后的速度和效果對比（圖 10），在 Subtitles 數(shù)據(jù)集上能夠進行更大比例的剪枝，并且模型性能得到了一定提升，證明了剪枝方法的有效性。從最終結(jié)果上，我們也可以看到，特征維度壓縮和剪枝都能夠起到提升翻譯速度的作用。

圖 10 Subtitles 性能和速度對比

（CKMT 表示添加了對比學(xué)習(xí)，PCKMT 表示在 CKMT 的基礎(chǔ)上添加剪枝策略）

總結(jié)

該論文針對 KNN 無參數(shù)機器翻譯中需要較大的存儲空間和速度慢的兩個主要問題，在創(chuàng)建的 Datastore 中引入語義單元的概念，并且基于不同語義單元不重合的假設(shè)，在特征維度進行壓縮的時候使用對比學(xué)習(xí)來進行訓(xùn)練，在保證性能的前提下將特征維度從 1024 維降低到了 64 維，緩解了要求較大存儲空間的問題。并且提出了基于 N-Gram 的剪枝策略，在大規(guī)模數(shù)據(jù)集上體現(xiàn)出來了較好的效果。兩個方法都能夠降低 KNN 所帶來的額外時間損耗。實驗表明，降維以后的特征中不同語義單元的聚集現(xiàn)象更加明顯，并且在所有數(shù)據(jù)集上都能夠取得 SOTA 的效果。

參考文獻

[1]Khandelwal U, Levy O, Jurafsky D, et al. Generalization through memorization: Nearest neighbor language models[J]. arXiv preprint arXiv:1911.00172, 2019.

[2] Urvashi Khandelwal, Angela Fan, Dan Jurafsky, Luke Zettlemoyer, and Mike Lewis. 2021. Nearest neighbor machine translation. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenRe- view.net.

[3] Xin Zheng, Zhirui Zhang, Junliang Guo, Shujian Huang, Boxing Chen, Weihua Luo, and Jiajun Chen. 2021a. Adaptive nearest neighbor machine translation. In Proceedings of the 59th Annual Meet- ing of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), pages 368–374, Online. Association for Computa- tional Linguistics.

[4] Junxian He, Graham Neubig, and Taylor Berg- Kirkpatrick. 2021. Efficient nearest neighbor language models. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 5703–5714, Online and Punta Cana, Dominican Republic. Association for Compu- tational Linguistics.

標簽：