CAT操作丨如何在Déjà Vu X3中自定義斷句規(guī)則
以下文章來(lái)源于迪佳悟DejaVu?,作者金新
? ? ? ? 在使用計(jì)算機(jī)輔助翻譯軟件的過(guò)程中,我們往往會(huì)遇到一些斷句不當(dāng)?shù)那闆r,譬如,在源語(yǔ)言為英文的項(xiàng)目文件中,CAT工具有可能會(huì)在“1.”或“Mr.”中的“.”處斷句。
??? ? ??那么,為了避免這種情況的出現(xiàn),我們?cè)撊绾谓鉀Q呢?
??? ? ??那當(dāng)然是通過(guò)自定義斷句規(guī)則就可以解決此類問(wèn)題。今天讓我們一起來(lái)學(xué)習(xí)如何在Déjà Vu X3中自定義斷句規(guī)則吧!
理論知識(shí)
? ? ? ??先來(lái)了解一下Déjà Vu中斷句規(guī)則的工作原理:
? ? ? ? Déjà Vu通過(guò)瀏覽文本,找到與既定斷句規(guī)則匹配的文本時(shí),便在此處將句子拆分為單獨(dú)句段,從而實(shí)現(xiàn)自動(dòng)拆分句段。然而,在執(zhí)行拆分之前,Déjà Vu會(huì)檢查找到的文本是否符合設(shè)定的例外情況;如果符合,Déjà Vu便不會(huì)拆分該句段,會(huì)繼續(xù)瀏覽。若想自定義斷句規(guī)則,您可以使用任何實(shí)際的字母,加上一些Déjà Vu識(shí)別的符號(hào),而這些符號(hào)用于表示特殊字符或字符組。
一、符號(hào)

二、符號(hào)示例
1. 規(guī)則
? ? ? ??以下是DéjàVu在英語(yǔ)(美國(guó))中使用的默認(rèn)斷句規(guī)則:

? ? ? ??讓我們看看第一條規(guī)則“!^w”。字符“!”代表它本身,就是一個(gè)感嘆號(hào)。符號(hào)^w代表一個(gè)空格。這意味著,每當(dāng)Déjà Vu發(fā)現(xiàn)一個(gè)感嘆號(hào)后跟一個(gè)空格時(shí),就會(huì)在感嘆號(hào)和空格之后拆分句段。因此,例文:
Hello! World.
將拆分為:
Hello!
World.

? ? ? ??請(qǐng)注意,每個(gè)斷句規(guī)則有兩欄:“拆分點(diǎn)前”和“拆分點(diǎn)后"。在“拆分點(diǎn)前”一欄中,把Déjà Vu應(yīng)該查找的內(nèi)容放在拆分發(fā)生的地方之前,而在“拆分點(diǎn)后”一欄中,把DéjàVu應(yīng)該查找的內(nèi)容放在拆分發(fā)生的地方之后。
? ? ? ??為了說(shuō)明其工作原理,假設(shè)我們使用了這個(gè)斷句規(guī)則:

? ? ? ??在這種情況下,Déjà Vu會(huì)在如下位置拆分文本:拆分點(diǎn)前有一個(gè)感嘆號(hào)后跟一個(gè)空格,拆分點(diǎn)后有一個(gè)大寫字母A(請(qǐng)記住A和^A不是一碼事?。?。根據(jù)這條規(guī)則:
Hello! World.
不會(huì)拆分。

但是:
Hello! A World.
會(huì)被拆分。

將在大寫字母A之前拆分句段。
2.?例外情況
? ? ? ??例外情況在規(guī)則之后立即適用。如果Déjà Vu找到與其中一條規(guī)則匹配的文本,它將檢查是否也與例外情況匹配。如果有匹配,Déjà Vu將不會(huì)拆分,但若沒(méi)有匹配,將繼續(xù)拆分文本。
? ? ? ??讓我們看看第一條例外情況:

? ? ? ??其含義是:在拆分點(diǎn)之前有一個(gè)感嘆號(hào)后跟一個(gè)空格,并在拆分點(diǎn)之后有一個(gè)小寫字母,Déjà Vu必須破例,不予拆分。
? ? ? ??在沒(méi)有例外情況的前提下,文本如下:
Use the big! service.

? ? ? ??將在感嘆號(hào)和空格之后拆分,但由于存在例外情況,將不會(huì)拆分。如果“service”一詞以大寫字母S開(kāi)頭,文本將被拆分。

三、規(guī)則和例外情況的使用
避免在“P.O.Box”處拆分句子
? ? ? ??接下來(lái)一起看一個(gè)自定義的規(guī)則和例外情況的示例,讓我們考慮一下如果文本包含“P.O. Box”會(huì)出現(xiàn)什么情況,例如:
Acme can make deliveries to a P.O. Box as well as a physical address.
根據(jù)英語(yǔ)(美國(guó))的默認(rèn)規(guī)則,這將拆分為:
Acme can make deliveries to a P.O.
Box as well as a physical address.

? ? ? ??之所以會(huì)出現(xiàn)這種情況,是因?yàn)镈éjàVu找到了一個(gè)句號(hào)后跟一個(gè)空格(“P.O.”之后),這意味著將在句號(hào)之后拆分,而其后面的文本(“Box”)與任何例外情況都不匹配。
? ? ? ??如何避免這種情況?考慮以下例外情況:

? ? ? ??如果這一例外情況有效,當(dāng)Déjà Vu確定“P.O.”之后但“Box”之前的位置是拆分的候選位置時(shí),它會(huì)問(wèn):
? ? ? ??我將拆分的位置之前的文本是否包含字母“P.O.”后接空格?
? ? ? ??的確如此。
? ? ? ??我將拆分的位置后面的文本是否包含字母“Box”?
? ? ? ??是的,的確如此。因此,Déjà Vu不會(huì)在這里拆分文本。

實(shí)操步驟
? ? ? ??如果不想讓Déjà Vu X3在“1.”或“Mr.”中的“.”處斷句,我們?cè)撊绾尾僮髂兀?/p>
? ? ? ??首先,我們先看看Déjà Vu X3默認(rèn)斷句規(guī)則對(duì)“1.”或“Mr.”的處理結(jié)果:

? ? ? ??這樣的話,我們需要手動(dòng)對(duì)一些句段進(jìn)行合并,如果這種情況在項(xiàng)目中出現(xiàn)頻率較高,我們建議自定義斷句規(guī)則后再重新導(dǎo)入文件,具體操作如下:
1?梳理自定義斷句規(guī)則例外情況的表達(dá)式
Déjà Vu X3之所以會(huì)在“1. Examples of the symbols in use”、“2. Uses of rules and exceptions”和“Mr.”中的“.”處斷句,是因?yàn)闄z測(cè)到默認(rèn)斷句規(guī)則“.^w(半角句點(diǎn)后跟空格)”,而沒(méi)有檢測(cè)到匹配的例外情況,所以我們需要在默認(rèn)斷句規(guī)則的前提下再自定義例外情況的表達(dá)式,經(jīng)過(guò)觀察,不難發(fā)現(xiàn)“1.”或“Mr.”斷句之前的元素可用以下實(shí)際字母加上一些符號(hào)來(lái)表示:
“1. ”:數(shù)字+句點(diǎn)+空格,換成Déjà Vu X3能識(shí)別的規(guī)則就是:^#.^w
“Mr. ”:Mr+句點(diǎn)+空格,換成Déjà Vu X3能識(shí)別的規(guī)則就是:Mr.^w
2?添加自定義例外情況的表達(dá)式
1)?在打開(kāi)項(xiàng)目文件的界面下,點(diǎn)擊“文件”>“選項(xiàng)”,在彈出的窗口中,切換到“句段拆分”,并將例外情況的規(guī)則“^#.^w”和“Mr.^w”添加到“例外情況”列表中:


2)添加完例外情況規(guī)則后,在“項(xiàng)目瀏覽器”下重新導(dǎo)入源文件即可
轉(zhuǎn)載編輯:賀文惠 丁羽翔

關(guān)注微信公眾號(hào)“語(yǔ)言服務(wù)行業(yè)”“翻譯技術(shù)教育與研究”,了解更多語(yǔ)言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~