散文網(wǎng) » 科技 »學(xué)習(xí) » 機器翻譯科普 | 如何評估機器翻譯和譯后編輯質(zhì)量？

機器翻譯科普 | 如何評估機器翻譯和譯后編輯質(zhì)量？

2022-03-23 11:59 作者:翻譯技術(shù)點津 0人讀過 | 我要投稿

本文來自RWS對高級解決方案架構(gòu)師Miklós Urbán的采訪。

一、機器翻譯質(zhì)量自動評估指標(biāo)

對機器翻譯進(jìn)行質(zhì)量評估是提高機器翻譯質(zhì)量的關(guān)鍵。但是，衡量機器翻譯(MT)質(zhì)量的最佳指標(biāo)是什么呢？

? ? ? ? 衡量機器翻譯(MT)質(zhì)量的方法有兩種類型：人工評估和自動評估。人工綜合評估往往是最有效的解決方案,但也主觀性強、耗時長、花費高昂。因此，行業(yè)學(xué)者引入了標(biāo)準(zhǔn)的、自動的指標(biāo)來衡量 MT 的表現(xiàn)。許多研究表明，這些指標(biāo)產(chǎn)出的結(jié)果甚至能和人工評估相差無幾。

? ? ? ??隨著神經(jīng)機器翻譯(NMT)的出現(xiàn)，對數(shù)據(jù)驅(qū)動的 MT 質(zhì)量量化方法的需求不斷增長。NMT 的輸出特性明顯不同于統(tǒng)計機器翻譯(SMT)，因此研究人員正在尋找新的指標(biāo)，以便更可靠地評估神經(jīng)機器翻譯的質(zhì)量。

指標(biāo)一：BLEU

? ? ? ??BLEU 評分是業(yè)內(nèi)第一個常用的評估指標(biāo)，其原理是比較機器翻譯和人工翻譯。假設(shè)一個文檔由人工翻譯一次，由機器翻譯一次，BLEU的值為同時出現(xiàn)在機器翻譯和人工翻譯中的單詞的比例。

? ? ? ??BLEU在10到15年前普及時，人們都認(rèn)為這種方法和人工的質(zhì)量評估最為相似。該方法廣為應(yīng)用，盡管有著眾所周知的局限性。例如，它不能很好地處理同義詞或語法上的單詞變化，而且也非常不平衡，因為只進(jìn)行從機器翻譯到人工翻譯一個方向的比較。

指標(biāo)二：METEOR

? ? ? ??METEOR 的算法更加細(xì)致，因為它不僅雙向比較了機器翻譯和人工翻譯，而且還考慮到了語言語法等因素。與BLEU不同， METEOR考慮到了語言的變化性。在英語中，ride 或 riding 在BLEU方法中算作不同的詞，但在 METEOR 中它們算作同一個單詞，因為詞根相同。

二、譯后編輯質(zhì)量自動評估指標(biāo)

? ? ? ??評估譯后編輯的重要部分是比較機器翻譯譯文和譯后編輯譯文的差異，用的指標(biāo)是改動的數(shù)量，其中改動包括刪減、替換和增加單詞。通過一個公式，計算改動的數(shù)量，并給出一個數(shù)值結(jié)果。

那么，常用的評估譯后編輯手段有哪些呢？

Levenshtein Distance 算法（編輯距離算法）

? ? ? ??Levenshtein Distance 算法（編輯距離算法）可計算機器翻譯譯文和譯后編輯譯文的差別。舉個例子，如果機器翻譯輸出是“the cat is barking”，譯后編輯將其修改為“the dog is barking”。那么差異值是6，因為從“cat”改到“dog”，刪掉了3個字母、增加了3個字母，然后用整個部分的字母數(shù)除以6，得到一個百分比的結(jié)果。

TER (Translation Edit Rate)

? ? ? ??TER方法與“編輯距離算法”的不同在于，“編輯距離算法”計算字符級別的變化數(shù)量（即字符的增刪、替換），而TER方法基于編輯的次數(shù)、而非基于字符變化的數(shù)量，計算譯文變化的類型。

? ? ? ??在“the cat is barking”與“the dog is barking”的例子中，“編輯距離算法”既計算了被刪的3個字符，也計入了增加的3個字符；而TER只識別出一處替換：也就是一個字符串被另一個字符串替換，這個字符串有三個長度。因此，它計入一次長度為三個字符的編輯。

? ? ? ??因此，在實際上只進(jìn)行了一次長編輯的情況下，Levenshtein 實際上可能高估譯后編輯的幅度——例如，如果你在長句的各處替換一兩個字符，Levenshtein 不能分辨出這種編輯與重寫整個句子之間的差異。在這種情況下， TER 更可靠，因為它的邏輯更符合實際的譯后編輯。

三、機器翻譯的質(zhì)量評估：人工評估還是自動評估？

? ? ? ??自動化評估的目的是模仿人工評估的結(jié)果。但最終，自動化評估只能顯示機器翻譯與人工翻譯或編輯后翻譯之間差異的百分比。

? ? ? ??相反，人工評估可以更加精細(xì)，人類可以給出更詳細(xì)的機器翻譯質(zhì)量概述。我們通常使用 TAUS DQF 基準(zhǔn)來指導(dǎo)人工評估，在此過程中，我們可以更好地了解語言質(zhì)量的不同方面，比如準(zhǔn)確性（信息傳遞的好壞）和流暢性（拼寫和語法），而自動化度量返回的單個數(shù)字更容易準(zhǔn)確性高。

? ? ? ??流暢度更難衡量，因為語言的流暢度是主觀的。但是，我們可以通過開發(fā)自動化的指標(biāo)，檢測同時出現(xiàn)的單詞詞組，即n-grams （其中“ n ”代表連續(xù)出現(xiàn)的單詞的數(shù)量）。理論上，機器翻譯和人類翻譯中出現(xiàn)的相同詞序的詞組越長，機器翻譯譯文就越流暢。

內(nèi)容來源：翻譯技術(shù)沙龍公眾號

本文轉(zhuǎn)載自：機器翻譯觀察公眾號

編輯：丁羽翔

關(guān)注微信公眾號“語言服務(wù)行業(yè)”，了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~

標(biāo)簽：