行業(yè)規(guī)范 | 語料庫通用技術(shù)規(guī)范
轉(zhuǎn)自中國翻譯協(xié)會

引言
? ? ? ? 中國翻譯協(xié)會是包括翻譯與本地化服務(wù)、語言教學(xué)與培訓(xùn)、語言技術(shù)工具開發(fā)、語言相關(guān)咨詢業(yè)務(wù)在內(nèi)的語言服務(wù)行業(yè)的全國性組織。制定語言服務(wù)規(guī)范,推動行業(yè)有序健康發(fā)展,是中國翻譯協(xié)會的工作內(nèi)容之一。
? ? ? ??隨著中國的外商投資和對外直接投資進(jìn)入新的階段,以及國家“一帶一路”倡議、經(jīng)濟文化“走出去”的進(jìn)一步實施,請言服務(wù)特別是翻譯成為了各項政策落地的關(guān)鍵點和瓶頸,傳統(tǒng)的方式已經(jīng)不能滿足語言服務(wù)需求的迅猛增長,而基于人工智能神經(jīng)網(wǎng)絡(luò)技術(shù)的機器翻譯正在快速發(fā)展,創(chuàng)新的人機融合語言服務(wù)模式正在悄然興起,而語料庫的研究、建設(shè)、交易和共享是其中的關(guān)鍵。建立一個既能服務(wù)于學(xué)術(shù)研究又能服務(wù)于語言服務(wù)和機器翻譯的語料庫通用技術(shù)規(guī)范將起到以下作用:
(1)響應(yīng)“一帶一路”倡議和經(jīng)濟文化“走出去”等國家大政方針,服務(wù)于國傳、外宣、文化、經(jīng)貿(mào)、安全等重大垂直領(lǐng)城,推進(jìn)國家話語權(quán)和語言軟實力建設(shè);
(2)制定和落實語料庫行業(yè)規(guī)范,可以在此基礎(chǔ)上建立自主、可控的以中文為核心的語料共享和交易平臺;
(3)倡導(dǎo)“安全語料大數(shù)據(jù)”,在充分尊重版權(quán)的前提下,以互聯(lián)網(wǎng)思維和人工智能助力語言服務(wù)模式的變革。
語料庫通用技術(shù)規(guī)范
1?適用范圍
? ? ? ??本規(guī)范描述并規(guī)定了語料庫的建設(shè)與加工、管理與維護(hù)、交易與共享。關(guān)于語料庫的其他規(guī)范將在之后以系列規(guī)范的形式予以發(fā)布。
? ? ? ??通過實施本規(guī)范,語料庫提供方可以證明其語料是否符合語料庫規(guī)范,是否能夠滿足基本的語料使用要求;語料庫使用方可以判斷語料庫是否能夠用于某特定用途。
2?規(guī)范性引用文件
? ? ? ??下列文件對本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件,凡是不注日期的引用文件,其最新版本(包括所有的修改)適用于本文件。
GB/T 19682—2005?翻譯服務(wù)譯文質(zhì)量要求
ISO 639?語種名稱代碼(Codes for the representation of names of languages)
ISO 3166?國家名稱用語公報(Terminology bulletin—Country names)
3?術(shù)語和定義
? ? ? ??下列術(shù)語和定義適用于本文件。
3.1?語料?text
? ? ? ??語言材料或語言應(yīng)用的樣本
3.2?語料庫?corpus
? ? ? ??由依據(jù)一定抽樣方法收集的自然出現(xiàn)的語料(3.1)所構(gòu)成的電子數(shù)據(jù)庫
? ? ? ??注:是按照一定目的和方法進(jìn)行選擇并有序排列的數(shù)據(jù)匯集。
3.3?形符?token
? ? ? ??語料庫(3.2)中出現(xiàn)的所有詞形
? ? ? ??示例:go、goes、went、going為?4?個英語詞形。
3.4?句對?sentence pair
? ? ? ??一個完整的語句和與之內(nèi)容對應(yīng)的譯文視為一個句對
? ? ? ??注:句對可以是?n?對?n?的,這里的?n?為非負(fù)整數(shù)。
3.5?庫容?size
? ? ? ??語料庫(3.2)的容量,即語料庫的大小
? ? ? ??注:面向?qū)W術(shù)研究的語料庫(3.2)通常以形符(3.3)總數(shù)為單位來計算庫容;面向人工智能和語言服務(wù)的語料庫(3.2)通省以句對(3.4)為單位來計算庫容。
3.6?語料采集?data capture
? ? ? ??將收集到的不同介質(zhì)語料(3.1)轉(zhuǎn)寫為可機讀的格式或直接利用語料(3.1)現(xiàn)有的電子文本。
3.7?語料清洗?data cleaning
? ? ? ??采用人工或計算機自動方式消除語料(3.1)中的亂碼、多余回車、空格、空行等雜質(zhì)的活動。
3.8?語料標(biāo)注?text annotation
? ? ? ??采用人工或計算機自動方式對語料(3.1)樣本的屬性或特征進(jìn)行描述。
3.9?語料查重?duplicate checking
? ? ? ??為避免重復(fù)加工,檢查所采集語料(3.1)與已有語料(3.1)是否重復(fù)。
3.10?脫敏?desensitization
? ? ? ??對語料(3.1)數(shù)據(jù)中某些敏感信息通過設(shè)定規(guī)則進(jìn)行數(shù)據(jù)變形,用以保護(hù)這些敏感數(shù)據(jù)
? ? ? ??注:當(dāng)涉及違反法律法規(guī)的數(shù)據(jù)、客戶安全數(shù)據(jù)或者一些商業(yè)性敏感數(shù)據(jù)時,在不違反系統(tǒng)規(guī)則的條件下,可對真實數(shù)據(jù)進(jìn)行脫敏改造。
? ? ? ??示例:身份證號、手機號、卡號、客戶名稱等信息都需要進(jìn)行數(shù)據(jù)脫敏。
3.11?語料預(yù)處理?text pre-processing
? ? ? ??在加工語料(3.1)之前進(jìn)行文件格式/編碼的轉(zhuǎn)換、語料清洗(3.7)、語料查重(3.9)和脫敏(3.10)等技術(shù)處理
3.12?分詞?word segmentation
? ? ? ??將連續(xù)的字符序列切分成一個個單獨的詞
3.13?標(biāo)注語言?annotated language
? ? ? ??將文本以及文本相關(guān)的信息結(jié)合起來,展現(xiàn)出關(guān)于文檔結(jié)構(gòu)和數(shù)據(jù)處理細(xì)節(jié)的計算機編碼
3.14?篇頭信息標(biāo)注?header marker-up
? ? ? ??整篇語料(3.1)樣本的屬性說明
? ? ? ??示例:語體、領(lǐng)城、標(biāo)題、作者、作者性別、出版時間、來源出處和出版社等
3.15?篇體信息標(biāo)注?body marker-up
? ? ? ??對文本內(nèi)部各種語言學(xué)屬性的標(biāo)注,包括詞性標(biāo)注、句法標(biāo)注、語義標(biāo)注、語用標(biāo)注和語音標(biāo)注等
3.16?語塊?chunk
? ? ? ??具有完整的意義且高頻出現(xiàn)的大于單個詞匯的語言現(xiàn)象
? ? ? ??注:語塊包括短語、詞語搭配、習(xí)語等。語塊不僅包括連續(xù)性短語結(jié)構(gòu),如“in the end”,也包括不連線的句子框架,如“不但……而且……”“not only…but also…”,還包括一些完整的句子,如“How do you do?”。
3.17?語料對齊?text alignment
? ? ? ??在源語文本和目的語文本具體單位之間建立的對應(yīng)關(guān)系,可分為詞匯、語塊、語句、段落和篇章等層面的對齊
3.18?正則表達(dá)式?regular expression
? ? ? ??對包括普通字符和特殊字符在內(nèi)的字符串進(jìn)行描述的一種邏輯公式
? ? ? ??注:用事先定義好的一些特定字符以及這些特定字符的組合,組成一個“規(guī)則字符串”,用來描述在搜索文本時要匹配的一個或多個字符串,可應(yīng)用手對語料(3.1)的加工、檢索等不同階段。
3.19?副語言特征?paralinguistic feature
? ? ? ??以視覺、聽覺、嗅覺、味覺、觸覺等感知為信息載體的符號系統(tǒng)
? ? ? ??示例:韻律特征(語調(diào)、重音等)、突發(fā)性特征(說話時的笑聲、哭泣聲等)、次要發(fā)音(圓唇化音、鼻化音等)以及面部表情、視覺接觸、體態(tài)、手勢、談話時雙方的距離等。
3.20?生語料?raw text
? ? ? ??未經(jīng)任何技術(shù)處理的自然語料(3.1)
3.21?粗加工語料?roughly processed text
? ? ? ??經(jīng)語料清洗(3.7)或語料預(yù)處理(3.11)后能夠進(jìn)行基本檢索和數(shù)據(jù)提取的語料(3.1)
3.22?精加工語料?finely processed text
? ? ? ??根據(jù)特定語料庫(3.2)建設(shè)目的,采用機器或人工手段進(jìn)行語料標(biāo)注(3.8)的語料(3.1)
? ? ? ??注:這些標(biāo)注包括語音標(biāo)注、詞性標(biāo)注、句法標(biāo)注、語義標(biāo)注以及錯誤標(biāo)注等篇體信息標(biāo)注(3.15)??谡Z語料的標(biāo)注還包括副語言特征(3.19)標(biāo)注。
3.23?歷時語料庫?diachronic corpus
? ? ? ??收錄不同時間周期語料(3.1)的語料庫(3.2)
3.24?共時語料庫?synchronic corpus
? ? ? ??收錄相同時間周期語料(3.1)的語料庫(3.2)
3.25?標(biāo)注語料庫?annotated?corpus
? ? ? ??經(jīng)過標(biāo)注處理的語料庫(3.2)
3.26?非標(biāo)注語料庫?non-annotated corpus
? ? ? ??未經(jīng)標(biāo)注處理的語料庫(3.2)
3.27?通用語料庫?general corpus
? ? ? ??收錄代表語言整體的語料(3.1)的語料庫(3.2)
3.28?專門語料庫?specialized corpus
? ? ? ??收錄代表某一語言的專門語體或?qū)iT領(lǐng)城語料(3.1)的語料庫(3.2)
3.29?口語語料庫?spoken corpus
? ? ? ??收錄口語語料(3.1)的語料庫(3.2)
3.30?書面語語料庫?written corpus
? ? ? ??收錄書面語語料(3.1)的語料庫(3.2)
3.31?平行語料庫?parallel corpus
? ? ? ??收錄某一語言文本和與之對應(yīng)的翻譯文本的語料庫(3.2)
3.32?單語語料庫?monolingual corpus
? ? ? ??收錄一種語言語料(3.1)的語料庫(3.2)
3.33?口譯語料庫?interpreting corpus
? ? ? ??根據(jù)口譯音、視頻材料制作的語料庫(3.2),包括單語語料庫(3.32)和平行語料庫(3.31)
3.34?筆譯語料庫?translational corpus
? ? ? ??收錄書面翻譯語料(3.1)的語料庫(3.2),包括單語語料庫(3.32)和平行語料庫(3.31)
3.35?多語語料庫?multilingual corpus
? ? ? ??收錄兩種或兩種以上具有翻譯關(guān)系的語料(3.1)的語料庫(3.2)
3.36?靜態(tài)語料庫?static corpus
? ? ? ??由所選語料(3.1)構(gòu)成的固定規(guī)模的語料庫(3.2)
3.37?動態(tài)語料庫?dynamic corpus
? ? ? ??為考察某些語言變化而建設(shè)的不斷更新的開放性語料庫(3.2)
3.38?本族語者語料庫?native-speaker's corpus
? ? ? ??收錄本族語者所產(chǎn)出語料(3.1)的語料庫(3.2)
3.39?學(xué)習(xí)者語料庫?learner's corpus
? ? ? ??收錄語言學(xué)習(xí)者所產(chǎn)出語料(3.1)的語料庫(3.2)
3.40?單模態(tài)語料庫?mono-modal corpus
? ? ? ??收錄音頻、視頻或文字材料之一種模態(tài)語料(3.1)的語料庫(3.2)
3.41?名模態(tài)語料庫?multi-modal corpus
? ? ? ??收錄音頻、視頻和文字材料等語料(3.1),并采用多模態(tài)方式加工、檢索和統(tǒng)計的語料庫(3.2)
4?建設(shè)與加工
4.1?語料庫建設(shè)流程
? ? ? ??語料庫建設(shè)流程一般應(yīng)包括話料庫設(shè)計,語料采集,語料預(yù)處理,語料分詞、標(biāo)注,語料對齊、語料庫生成、語料庫管理與維護(hù)等步驟。其中:語料庫設(shè)計、語料采集、語料預(yù)處理、語料庫生成、語料庫管理與維護(hù)為語料庫建設(shè)的基本流程,語料分詞、標(biāo)注和語料對齊為可以選擇進(jìn)行的流程,語料庫建設(shè)流程如圖?1?所示。

圖1 語料庫創(chuàng)建流程圖
4.2?語料庫設(shè)計
? ? ? ? 語料庫建設(shè)者對語料的規(guī)模、領(lǐng)域、體裁、語種、語料的加工程度以及語料的應(yīng)用領(lǐng)域等相關(guān)參數(shù)進(jìn)行設(shè)定。
4.3?語料采集
4.3.1?語料采集要求
? ? ? ??語料庫收錄的語料應(yīng)為真是語言環(huán)境下使用的語料,且應(yīng)最大限度代表具體語言的實際應(yīng)用。
4.3.2?語料采集方法
? ? ? ??書面語料的采集主要包括人工輸入、掃描輸入以及現(xiàn)有電子文本的利用??谡Z語料的采集包括音頻和視頻材料等的獲取和轉(zhuǎn)寫。
4.4?語料預(yù)處理
? ? ? ??在對所采集話料進(jìn)行加工之前,應(yīng)進(jìn)行語料清洗、語料查重和脫敏等方面的技術(shù)處理。
4.5?語料標(biāo)注
4.5.1?語料標(biāo)注內(nèi)容
? ? ? ??語料標(biāo)注包括篇頭信息標(biāo)注和篇體信息標(biāo)注。
4.5.2?標(biāo)注語言的原則
4.5.2.1?通用性
? ? ? ??語料庫應(yīng)采用適合于語料庫軟件的標(biāo)注語言,或適合于編程語言的應(yīng)用。
4.5.2.2?簡潔性
? ? ? ??語料庫應(yīng)功能完備、簡單易用,適用于軟件檢索和擴充增容。
4.5.2.3?兼容性
? ? ? ??語料庫應(yīng)適用于不同語料庫檢索軟件和平臺,允許跨平臺進(jìn)行語料的交換與共享。
4.6?語料對齊
? ? ? ??以源語文本為基準(zhǔn),實現(xiàn)雙語特定語言單位之間的對齊。語料對齊最常見的形式是句對齊,句對齊通常以句號、分號、問號和感嘆號等標(biāo)點符號作為語句的標(biāo)記。
4.7?語料庫生成
? ? ? ??生成后的語料庫應(yīng)滿足以下要求:
a)由加工后的語料構(gòu)成;
b)可直接用于語料檢索和數(shù)據(jù)分析;
c)提供關(guān)于語料庫用途和庫容以及語料的來源、領(lǐng)域和時間跨度等方面的信息;
d)語料版權(quán)必須清晰,不應(yīng)存在版權(quán)糾紛。
5?管理與維護(hù)
? ? ? ??語料庫的管理與維護(hù)應(yīng)根據(jù)設(shè)計要求,安排專人使用特定的工具定期進(jìn)行操作,且應(yīng)保留完整的管理、維護(hù)與更新文檔。
6?交易與分享
6.1?語料的分類
a)根據(jù)語料加工程度可分為:
——生語料;
——粗加工語料;
——精加工語料;
b)根據(jù)語料對齊單位,雙語語料可分為:
——篇章對齊語料:
——段落對齊語料:
——句對齊語料;
——語塊對齊語料;
——詞匯對齊語料。
6.2?語料庫的分類
a)按語料選取的時間,可分為:
——歷時語料庫;
——共時語料庫;
b)按語料的加工程度,可分為:
——標(biāo)注語料庫;
——非標(biāo)注語料庫;
c)按語料庫代表的領(lǐng)域,可分為:
——通用語料庫:
——專門語料庫;
d)按語言傳播媒介,可分為:
——口語語料庫;
——書面語語料庫;
e)按語言服務(wù)形式,可分為:
——筆譯語料庫;
——口譯語料庫;
f)按語料庫中的語種,可分為:
——單語語料庫;
——多語語料庫;
g)按語料庫的動態(tài)更新程度劃分,可分為:
——靜態(tài)語料庫;
——動態(tài)語料庫;
h)按語言產(chǎn)出者的身份,可分為:
——本族語者語料庫;
——學(xué)習(xí)者語料庫;
i)按語料保存的信息模態(tài),可分為:
——單模態(tài)語料庫;
——多模態(tài)語料庫。
6.3?語料庫描述
語料庫描述內(nèi)容見表?1。


6.4?語料庫評價
6.4.1?評價維度語料和語料庫的評價應(yīng)遵循以下維度:
a)整體評價:語料庫庫容、語料范圍、類型以及語料庫的應(yīng)用領(lǐng)域;
b)性能評價:語料庫的應(yīng)用效果以及對用戶需求的滿足程度;
c)語料評價:語料獲取難易度、語料加工程度、語料質(zhì)量和語料應(yīng)用前景;
注:關(guān)于雙語語料質(zhì)量的評價詳見附錄?A。
d)效益評價:語料庫為人工智能、語言服務(wù)和學(xué)術(shù)研究等方面提供服務(wù)所獲得的社會效益和經(jīng)濟效益。?
6.4.2?評價方法
6.4.2.1 概述
? ? ? ??對語料質(zhì)量的評價采用分類抽樣方法,包括自動評價和人工評價,其中人工評價又包含專家評價和用戶評價兩種評價方法。?
6.4.2.2?自動評價
? ? ? ??采用自動化評價方法進(jìn)行評價。?6.4.2.3?人工評價6.4.2.3.1?專家評價依據(jù)相關(guān)的技術(shù)指標(biāo),對語料庫的設(shè)計、建設(shè)過程以及語料庫類型、用途、性能和語料質(zhì)量等方面進(jìn)行評價。
6.4.2.3.2?用戶評價
? ? ? ??用戶對話料庫的功能、性能、可靠性和適用性等進(jìn)行測試與評價。?
6.4.3?評價流程
6.4.3.1?評價組織的建立
? ? ? ??評價組織應(yīng)由語料庫相關(guān)領(lǐng)域?qū)<液陀脩舸斫M成。
6.4.3.2?擬定評價計劃
? ? ? ??評價計劃包括評價的目的、方法、參評人員、評價流程以及評價結(jié)果的應(yīng)用等。
6.4.3.3?評價細(xì)則制定
? ? ? ??根據(jù)語料庫評價的原則和方法,制定評價標(biāo)準(zhǔn)和具體細(xì)則等文件。
6.4.3.4?評價的實施
? ? ? ??根據(jù)語料庫評價的標(biāo)準(zhǔn)和方法,組織專家和用戶對語料庫進(jìn)行抽樣、測試與評價。
6.4.3.5?評價報告的形成
? ? ? ??根據(jù)專家和用戶對語料庫質(zhì)量的評價結(jié)果,形成語料庫評價報告。
6.4.3.6?評價結(jié)果的應(yīng)用
? ? ? ??根據(jù)語料庫評價報告,語料庫建設(shè)人員可對語料庫進(jìn)行調(diào)整、改進(jìn)和補充,以提高其性能與效益。
6.5?語料庫的價格與交付
6.5.1?價格
? ? ? ??語料庫的價格由交易或共享雙方協(xié)商確定。建議根據(jù)以下因素進(jìn)行綜合考慮:
——語言對;
——領(lǐng)域;
——庫容;
——對齊單位;
——格式;
——數(shù)據(jù)來源;
——評價結(jié)果;
——版權(quán)類型;
——脫敏程度;
——購買方免責(zé)聲明;
——交付方式。?
6.5.2?交付方式
? ? ? ??語料庫提供方應(yīng)說明語料庫產(chǎn)品交付給購買方的方式,主要方式包括:
a)文件,即語料庫提供方將整個語料庫文件交付給購買方;
b)API,即語料提供方提供?API?接口供購買方調(diào)用。
7 附錄
附錄A(資料性附錄)雙語平行語料參考評價標(biāo)準(zhǔn)
A.1?語料質(zhì)量評價標(biāo)準(zhǔn)
? ? ? ??語料質(zhì)量由翻譯質(zhì)量、對齊質(zhì)量和數(shù)據(jù)質(zhì)量共同決定,其中翻譯質(zhì)量的權(quán)重f?(1)最高,可設(shè)置在0.7以上;對齊質(zhì)量權(quán)重f?(2)及數(shù)據(jù)質(zhì)量權(quán)重f?(3)可根據(jù)實際情況設(shè)置在0~0.3之間,設(shè)置權(quán)重時應(yīng)注意f?(1)+f?(2)+f?(3)三項之和為1,語料質(zhì)量計算:語料質(zhì)量得分=翻譯質(zhì)量×f?(1)+對齊質(zhì)量×f?(2)+數(shù)據(jù)質(zhì)量×f?(3)。
? ? ? ??語料質(zhì)量可劃分為以下?5?個等級,相應(yīng)得分見表?A.1。

A.2?語料翻譯質(zhì)量評價標(biāo)準(zhǔn)
? ? ? ??語料翻譯質(zhì)量按?GB/T 19682—2005?中的譯文綜合差錯率進(jìn)行評價。
? ? ? ??根據(jù)譯文綜合差錯率將翻譯質(zhì)量劃分為?5?個等級,不同等級對應(yīng)不同得分,詳見表?A.2。

A.3?語料對齊質(zhì)量評價標(biāo)準(zhǔn)
? ? ? ??語料對齊質(zhì)量由雙語句對的匹配程度(原文與譯文在語義上匹配)以及對齊單位一致性(語料實際對齊單位與“對齊單位”字段的描述一致)決定,可分為?5?個等級,不同等級對應(yīng)不同得分,詳見表?A.3。

A.4?語料數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn)
? ? ? ??語料數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn)由語料清洗程度及領(lǐng)域一致性(語料實際領(lǐng)域與“領(lǐng)域”字段的描述一致)決定,可分為?5?個等級。不同等級對應(yīng)不同得分,詳見表?A.4。

參考文獻(xiàn)
[1]?中華人民共和國著作權(quán)法.
[2] GB 13715?信息處理用現(xiàn)代漢話分詞規(guī)范.
[3]?胡開寶.?語料庫翻譯學(xué)概念[M].?上海:?上海交通大學(xué)出版社, 2011.
[4] Berne Convention forthe Protection of Literary and Artistic Works.
[5] BAKER P. Querying keywords; questions of difference. frequency and sense in keywords analysis[J]. Journal of English Linguistics,?2004, 32(4): 346-359.
[6] SINCLAIR J. The searchfor units of meaning [J]. TEXTUS. 1996, 9(1): 75-106.
[7] SINCLAIR J. Corpus,concordance. collocation [M]. Oxford: Oxford University Press. 1991.
[8] STUBBS M. Twoquantitative methods of studying phraseology in English [J]. InternationalJournal of Corpus Linguistics, 2002. 7(2): 215-244.
轉(zhuǎn)自中國翻譯協(xié)會公眾號
轉(zhuǎn)載編輯:丁羽翔

本文來源于微信公眾號“翻譯技術(shù)教育與研究”、微信公眾號“語言服務(wù)行業(yè)”,致力于語言服務(wù)行業(yè)資訊、洞察、洞見~ 關(guān)注我們,了解更多精彩內(nèi)容~