現(xiàn)有翻譯系統(tǒng)的技術(shù)瓶頸及發(fā)展趨勢

日期：2012-09-24 | 閱讀：翻譯系統(tǒng), 發(fā)展趨勢

從商業(yè)觀點來看，目前的機器翻譯確已可以達成一些經(jīng)濟效益，協(xié)助需要大量翻譯的機構(gòu)，迅速獲得外文資料。但從研究者的角度來看，許多機器翻譯的研究議題仍未有適當?shù)慕鉀Q之道

從商業(yè)觀點來看，目前的機器翻譯確已可以達成一些經(jīng)濟效益，協(xié)助需要大量翻譯的機構(gòu)，迅速獲得外文資料。但從研究者的角度來看，許多機器翻譯的研究議題仍未有適當?shù)慕鉀Q之道。加以大部份的機器翻譯研究人員，并沒有實際運轉(zhuǎn)機器翻譯系統(tǒng)的經(jīng)驗，因此，所研究的議題或方向難免偏向?qū)W院式的作法。而傳統(tǒng)的機器翻譯發(fā)展策略，大抵上是傳統(tǒng)語言學、形式語言學及少數(shù)人工智慧技術(shù)的綜合體。利用這些技術(shù)所發(fā)展的機器翻譯，在歷經(jīng)數(shù)十年的研究后，還是未能大量使用，顯示以往的作法有其先天上的限制。以我們多年發(fā)展及運轉(zhuǎn)機器翻譯系統(tǒng)的經(jīng)驗來看，傳統(tǒng)的機器翻譯架構(gòu)、發(fā)展模式及方法，主要的缺陷可以歸結(jié)為幾點：

1. 缺乏一致性的歧義解決方案

由前面的架構(gòu)及原理，大家可以發(fā)現(xiàn)機器翻譯系統(tǒng)所要處理的細節(jié)相當繁瑣。就技術(shù)層面來看，機器翻譯最大的問題，即在於每一個處理步驟都充滿了不確定性 (uncertainty)及歧義性(ambiguity)。例如，"bank"可能當動詞或名詞使用，這是詞類的歧義；當它做為名詞時，可能是"銀行"，也可能是"河岸"，這是字義 (word sense)上的歧義；"I saw a girl with a telescope."可能是"看到一個帶著望遠鏡的女孩"或者"用望遠鏡看到一個女孩"，這是修飾語修飾不同詞組所造成的語法歧義；"The police were ordered to stop drinking by midnight."句中的"police"可能是要阻止別人喝酒 (或其它飲料) 的人，也可能是被阻止繼續(xù)喝酒的對象，這是語意角色不同所造成的歧義；"She was elected the president of the United States bythe public."可以翻成被動式的"她被大眾推選為美國總統(tǒng)"或主動式的"大眾推選她為美國總統(tǒng)"，這是轉(zhuǎn)換及生成過程產(chǎn)生不同句法結(jié)構(gòu)所造成的歧義。

這些歧義現(xiàn)象涵蓋的層次，包括分析（詞匯分析、句法分析、語意分析）、轉(zhuǎn)換（詞匯轉(zhuǎn)換、結(jié)構(gòu)轉(zhuǎn)換）、合成（結(jié)構(gòu)合成、詞素合成）等各個階層。每一種歧義現(xiàn)象都需要其它的訊息來幫忙解決。傳統(tǒng)的機器翻譯系統(tǒng)，主要是依靠語言學家或電腦專家依現(xiàn)有的語言知識，構(gòu)建一條條的規(guī)則，來決定在何種情況下該採取什麼行動。這就是所謂的規(guī)則式機器翻譯 (rule-based MT)。遇有某一個層次不能解決的問題，就利用更多細瑣的知識，作更深一層的分析。無可否認的，這種作法可以直接利用一些現(xiàn)有的語言學理論及人工智慧的理論，來構(gòu)建基本的機器翻譯系統(tǒng)。但是，當系統(tǒng)由實驗室的雛形系統(tǒng)轉(zhuǎn)化到大型的實際系統(tǒng)，面對各式各樣的文章時，問題就來了。

首先遇到的問題是，不管加入多少知識，只要是沒有辦法把所需知識加全，不確定性及歧義現(xiàn)象就會存在。由於系統(tǒng)的整體績效直接與系統(tǒng)誤判的機率成正比，因此，降低系統(tǒng)誤判的機率，就成了首要的工作。在此情況下，系統(tǒng)必需利用一個評分的標準，來作最少風險的判斷。目前各系統(tǒng)主要是以規(guī)則式系統(tǒng)為主，故鮮少對不確定之情況予以評分；許多系統(tǒng)在實驗室發(fā)展時，一遇到問題就希望透過更深層的分析，或加入一些經(jīng)驗法則進去，來解決眼前所遇到的問題，使得這樣的規(guī)則式系統(tǒng)混亂異常。事實上，要想利用一些一般性的規(guī)則，來解決復雜的語言問題并不容易。而且，每加深一層分析時，又會引入另一個層次的歧義現(xiàn)象。因此，并無法真正解決歧義及不確定性的問題。

雖然有些規(guī)則式系統(tǒng)也採用評分的方式來處理不確定的情況，但所用的評分標準多數(shù)是缺乏學理根據(jù)的經(jīng)驗法則。這種經(jīng)驗式也許在實驗室裡能針對少數(shù)例子予以調(diào)整至最佳狀況，但整體而言，并不能推廣到其它文章及領(lǐng)域，達到最佳化的結(jié)果，也無法用一種有系統(tǒng)、可控制的方式持續(xù)地改進系統(tǒng)績效；當系統(tǒng)修正某些法則或參數(shù)來處理某些問題時，表面上解決了這些問題，實際上對其它問題及整個系統(tǒng)的影響卻無法評估，甚至於造成不良影響。因此，系統(tǒng)會一直在反覆修正這些經(jīng)驗法則的過程中打滾，很難擴充到大型系統(tǒng)。

要突破這種技術(shù)瓶頸，唯有發(fā)展出一套客觀的評分函數(shù)，利用有鑑別力的詞匯、語法及語意特徵作判斷，才能用最少的知識，作最不具風險的判斷，同時隨時保持系統(tǒng)整體的績效。目前BehaviorTran所使用的評分方法，是結(jié)合詞匯、語法及語意模式與貝式?jīng)Q策法 (Baysian Decision Rule)所發(fā)展出來的一套評分函數(shù)[Su 88, 91, Liu 90, Chan 92a, Lin 92]。由於是利用最佳化的決策法則在語言模式之上，因此，理論上可以達到最少決策成本的最佳化結(jié)果。

2. 知識抽取不易

另一個問題是，如何抽取這些繁瑣的知識 (knowledge acquisition)而達到相當?shù)暮w面，且在不斷更新的過程中，仍能維持這些知識的一致性。一般的機器翻譯系統(tǒng)最起碼要有一、二十萬個詞匯、一兩千條分析文法，及一兩千組轉(zhuǎn)換規(guī)則才足敷使用。如何用人工把這些詞典資料一一填齊，而使得這裡面的規(guī)則保持一致，不會互相衝突，是個相當耗時費力、高成本、高難度的工程問題。不要說這種工作需要透過一群人來作，就算一個人包辦整個工作，也很難保持資料及規(guī)則的一致性。事實上，即便是將同一個詞給予適當?shù)恼Z意分類，早上跟下午的想法都可能不一樣。更何況一套機器翻譯系統(tǒng)通常要歷經(jīng)數(shù)年的時間，由一群不同知識背景的人經(jīng)手呢。這種人工抽取知識的方式，對一個實驗式的系統(tǒng)也許已經(jīng)足夠，但對於實際運作的大型系統(tǒng)而言，其涵蓋面和一致性就值得懷疑。而要維護一個這樣的系統(tǒng)也極為困難。

目前的趨勢是利用大量的語料，透過一些自動或半自動的統(tǒng)計方式來抽取必要的知識。例如，利用相鄰詞類間共存的頻率或機率，可以很準確地由數(shù)百以至於數(shù)千種可能的詞類組合中，決定各個字的正確詞類。而以往使用規(guī)則來限制這種詞類共生現(xiàn)象時，并無法作很完善的處理。

然而，純粹使用統(tǒng)計方式而不顧及語言本身的規(guī)律，也容易造成參數(shù)數(shù)目過大，而必需用極為龐大的語料，才能學習到語言學上已熟知的現(xiàn)象。例如，最近有些學者企圖利用極為簡單的語言模式來表達翻譯的內(nèi)在行為，利用數(shù)百萬句的雙語語料(加拿大國會會議記錄)，來求取這種翻譯模式的參數(shù)。其結(jié)果雖然顯示部份的可行性，但由於所需的語料庫極為龐大，故受到學界相當多的質(zhì)疑與批評。

因此，比較好的方式應該是將一些已知的高層次語言學現(xiàn)象加以模式化，再利用統(tǒng)計的方式由語料中求得適當?shù)哪Ｊ絽?shù)。如此，既可發(fā)揮語言學家歸納一般性語言規(guī)則及建立語言學模式的長才，又可將繁瑣的知識抽取工作交給擅長處理大量資料的電腦來處理，獲取一致性的模式參數(shù)，避免人工抽取的問題，同時減輕人工成本，可謂一舉數(shù)得。這種以語料為基礎(chǔ)，架構(gòu)在高層語言知識上的統(tǒng)計方式，簡稱CBSO (Corpus-Based Statistics-Oriented)方式[Su 92a]，在最近一次召開的機器翻譯理論與技術(shù)會議(TMI-92, 1992)中，已被評為綜合傳統(tǒng)語言學與統(tǒng)計技術(shù)的一種最可能的未來趨勢。

3. 單向式的系統(tǒng)設計

機器翻譯的另一個重要問題，在於傳統(tǒng)的機器翻譯系統(tǒng)是一種單向式的設計。由於傳統(tǒng)的轉(zhuǎn)換式機器翻譯是遵循著『分析』、『轉(zhuǎn)換』及『生成』三個步驟一路作下來，使得『轉(zhuǎn)換』及『生成』帶有濃厚的原始語言色彩。因此，英中翻譯系統(tǒng)的輸出通常成了『英文式的中文』，日中翻譯系統(tǒng)通常產(chǎn)生的是『日文式的中文』，而非道地的『中文式中文』。換言之，用來產(chǎn)生中文的生成文法與一般用的中文 (分析) 文法并不相同，而是由英文或日文文法套過來的文法。這種輸出，自然需要相當?shù)男蘅槃幼?，才能達到使用者的期望。為了避免使用這種具有原始語言傾向的目標語生成文法，釜底抽薪的方式，乃是利用原始語言及目標語言兩套文法，來擔任分析及生成語法，并利用原始語言及目標語言所構(gòu)成的雙語語料庫(bilingual corpus)自動學習轉(zhuǎn)換動作及生成動作[Chan 92b]。

4. 忽略語言特徵的鑑別力及強健性

由於許多機器翻譯研究人員具有計算機科學的學識背景，而人工智慧又強調(diào)知識表達方式 (knowledge representation)的重要，因此，不少機器翻譯的研究人員都相信，良好的知識表達方式有助於機器翻譯品質(zhì)的提昇。同樣地，許多語言學家也不斷尋求較適當?shù)奈姆ㄐ褪?(grammar formalism)，企圖用比較適當?shù)恼Z法理論來表達或解釋同一種語言現(xiàn)象。這種作法并非沒有好處。但是，嚴格地說，知識表達方式只跟系統(tǒng)的表達能力(expressive power)有關(guān)，而與最重要的歧義解決能力無關(guān)。一個看似簡單的表達方式，就學理來看，可能與一個復雜的語法理論具有相同的表達能力 (例如，兩者可能都可以處理context-free型態(tài)的語言)；其主要差別通常只在於表達的適切性及剖析的效率 (linguistic felicity, expressiveness, computational effectiveness)，而非歧義解決能力。

一般而言，歧義解決能力主要視系統(tǒng)所採用的語言特徵(feature set)、這組語言特徵在實際語料中的行為或機率分佈(probabilistic distribution)，及系統(tǒng)所採用的決策模式(decision rules)而定。因此，改善系統(tǒng)績效可以由幾方面來進行。就語言特徵之選取而言，可以利用較有鑑別力的鑑別性特徵(discriminative features)，來作決策依據(jù)，而不一定是用很容易觀察到的特性式特徵(characteristic features)。採用良好的語言特徵及語言模式，有助於讓每一種不同的語言行為，在觀察空間中，都有個比較突出的機率分佈。如此，較容易判定某類行為應該採取何種特定行動。而良好的決策模式則可降低誤判所造成的風險。通常鑑別性的特徵可以由各種特性式特徵加權(quán)之后獲得，因此，使用具有增強鑑別力及強健性的學習策略，可在使用相同資料的情況下，改善系統(tǒng)的績效。

然而，一般的機器翻譯系統(tǒng)多數(shù)採用階層式的分析方法，詞匯分析無法解決的問題即推給語法分析，語法分析無法解決的即推給語意分析，再無法解決的，便寄望於所謂的一般性知識 (real world knowledge, common sense knowledge)，較少強調(diào)在使用同樣的資訊下，如何強化系統(tǒng)的鑑別力 (discrimination power)及強健性 (robustness)。

實際上，一般系統(tǒng)雖然可依詞匯、語法、語意等步驟逐一分析。然而，系統(tǒng)分析的深度并非一成不便；有些資料未必有用，有些資料則與其它資料帶有相同的訊息，而形成冗贅的資料。這種加深分析層次的作法大致相當於增加系統(tǒng)所用的語言特徵的維度(dimensionality)。依據(jù)語音處理及樣型識別等類似技術(shù)的經(jīng)驗，一味加深及加細系統(tǒng)分析深度，或增加系統(tǒng)據(jù)以制定決策的特徵，容易導致系統(tǒng)的知識庫過份偏向某些特定知識，使系統(tǒng)對測試用的例句顯得相當有效，但卻降低了系統(tǒng)對一般輸入的整體績效。

因此，目前新的作法是強調(diào)使用有鑑別力的語言特徵及語言模式，利用強健性的自動學習策略來調(diào)整系統(tǒng)參數(shù)；能在低層次分析中解決的問題，儘量利用提高系統(tǒng)鑑別力及強健性的方式，在低層次分析中加以解決，而不再一味地加深分析的層次。這種作法，不僅使得系統(tǒng)能對可用的語言特徵作最有效的運用，也因不過份使用深層的語言特徵，而減輕了知識抽取的負擔[Chia 92, Lin 92]。

5. 設計者與使用者的期望不同，系統(tǒng)改善的方向無法隨客戶需求變動

前面已經(jīng)說過，目前研究人員已經(jīng)比較能認清機器翻譯難以達成FAHQMT的事實，故在設計系統(tǒng)時，是以資訊抽取 (informationretrieval)等不需太高翻譯品質(zhì)的應用為目標，系統(tǒng)改善則主要是以增加輸出的可讀性為主，以期減少譯后修繕的工作。不幸的是：(1)要求高品質(zhì)翻譯的使用者還是佔絕大多數(shù)，這些使用者的基本要求是翻譯結(jié)果要能以出版品的型態(tài)出現(xiàn) (publishable)，而不只是可以讀得通 (readable, understandable)；(2)改善輸出的可讀性，一般是可以減少譯后修繕工作。但是，實際的實驗顯示，兩者并非直接相關(guān)；有時甚至於還會稍微增加修繕的成本。因為，修繕成本正比於修繕到客戶所能接受的成品所需的編輯指令 (editing stroke)個數(shù)，而不是無法具體衡量的『可讀性』。

要解決這樣的問題，首先要有客觀的方法，來衡量客戶可接受的標準與系統(tǒng)輸出的差距，并直接利用這樣的差距當作回饋，來調(diào)整系統(tǒng)的參數(shù)，以達到特定客戶所指定的詞匯及風格。所謂客戶可接受的標準，具體地說，就是客戶所提供的翻譯范例，或者以前為該特定客戶所翻譯的完稿稿件。根據(jù)這些客戶已接受的稿件，以及系統(tǒng)對這些稿件所產(chǎn)生的原始初稿，我們可以很客觀地計算出，兩者之間的差距到底要用多少個編輯指令才能修正過來，以及需修正部份到底是因何原因而導致錯誤。如此，即可將『客戶的期望』與『系統(tǒng)輸出』的差距，用具體的『修繕成本』表示出來，并以此修正系統(tǒng)的行為。

要能實現(xiàn)這種架構(gòu)，系統(tǒng)本身必需具有調(diào)適性 (adaptable)及可控制性 (controllable)，而且可以將使用者的需求利用一條回饋的路徑併入系統(tǒng)，隨使用者的需求調(diào)整系統(tǒng)的執(zhí)行行為，以達到整體的最佳化。因此，機器翻譯系統(tǒng)本身必需是一個可參數(shù)化的回饋系統(tǒng) (parameterized feedback control system)；系統(tǒng)核心重要的決策模組，如辭匯分析、句法分析、語意分析、轉(zhuǎn)換模組及生成模組，都要能夠參數(shù)化，才有可能將客戶的回饋納入系統(tǒng)，直接降低可能的修繕成本。

這種參數(shù)化的系統(tǒng)，其特性是容易利用系統(tǒng)的參數(shù)，以可預期的方式控制系統(tǒng)的執(zhí)行績效。而一般規(guī)則式系統(tǒng)，基本上很難掌握不同規(guī)則之間的互動關(guān)系及相互影響，無法預測增刪規(guī)則對整體績效可能造成的影響。因此，BehaviorTran 大約在開始研究后的第三年，即開始轉(zhuǎn)向這方面的研究。去 (1992)年，在全世界最大的計算語言學會議COLING-92上，提出參數(shù)化的回饋系統(tǒng)架構(gòu)時，也引起不少學者的興趣與討論[Su 92b]。這種融合使用者期望的系統(tǒng)架構(gòu)，勢將在未來的機器翻譯發(fā)展中，扮演一個重要的角色。

上一篇：機器翻譯與人工翻譯

上一篇：翻譯-機器翻譯與人工翻譯下一篇：德語翻譯-飲食類德語詞匯