2013年1月5日 星期六

台語聲調群剖析器簡介


台語聲調群剖析器簡介


 

語音輸出系統是和計算語言學相關的應用軟體。台語語音輸出系統由三個主要元件構成:台語聲調群剖析器、語音引擎及語音合成器。一般而言,語音引擎及語音合 成器的設計比較偏重程式技巧。聲調群剖析器則仰賴語言知識的轉換,也就是人工智能的展現方法。語言學家Elisabeth Selkirk 認為韻律結構(prosodic structure)被用來做為語音和語法的媒介。這種現象在台語尤其明顯。台灣人的小孩在學習母語的過程中,經由變調所形成的聲調群來習得語法結構方面 的知識,並且在腦海裡逐步建立一個高效率的語詞變調處理機制,也就是聲調群剖析器。因此在過去的十多年裡,我們一直試圖建立一個符號系統做為將語言專業知 識 (Language expertise) 和經驗( heuristic knowledge) 轉換為知識庫的重要工具。同時應用知識表徵方法 (Knowledge representation method) 來建構人工的聲調群剖析器。

符號系統的設計概念,是在早期制定或修改變調規則的過程中所衍生的創意。原則上符號系統必須能夠讓語言學家方便且有效地進行語詞標記,所以必須精確定義每 一組符號,並建立準則(criteria)和標記程序。然而在建構聲調群剖析器的過程中往往必須經由不斷地測試->修正->回饋->測 試(Testing->modify->feedback->testing)循環,才能提高語詞變調正確率。因此,在修正階段會新增 標記符號(token)或修改標記符號的定義來配合現有的規則,也可能新增或修改規則來配合標記符號。

目前我們所建立的符號系統是以預設調型default tone form)、預設詞類(default POS )和模式(mode)三種標記組成。知識庫內的每個語詞或詞組都賦予一組包含這三種語詞標記屬性(attribute)的符號。處理台語變調時,藉著這組 符號並協同以規則為基礎的變調處理器 (Rule-based sandhi processor),便能將句內語詞賦予正確的調值。即使像例句(1)和(2)的 ti7 和 be2 ,系統也能 針對相同語音,不同語義的語詞或多詞類(multiple-POS)語詞推論出正確的詞類,予以定調。
(1)Ti7 (筷子,名詞,讀本調) khng3 ti7 (在,介系詞,讀變調) uann2-na5-a2 lai7.
(2)Tsit tsiah be2 (馬,名詞,讀本調) be2 (買,動詞,讀變調) beh kah goo7-ban7.

然而符號系統也無法處理某些語詞定調的問題。例如,本調相同的 「ke(雞/加)」 在(3)和(4)裡,有不同的調型、詞類(POS)和語義。
(3)Tsit tsiah(變調)ke(本調,名詞)tsit8 kong kin.(這隻雞重一公斤。)
(4)Tsit tsiah(本調)ke(變調,動詞)tsit8 kong kin.(這隻雞多重一公斤。)
這個例句讓我們注意到人腦雖然可以就台語同音異形漢字「雞/加」 和語境來分析語義和句法結構,但是對電腦而言,(3)和(4)完全相同,只有自主語義(Autonomous semantic mapping)確定以後,才能決定「ke」的調型或進行句法分析。這部分屬於強人工智能(Strong AI)的範疇,也是對話系統必須面對的困境。

無論如何,這種應用語言學理論建構台語聲調群剖析器的方法,在實務上是以知識工程技術來模擬語言習得的實驗環境。不僅能驗證人工智慧發展工具可以協助我們了解語言習得的過程,也顯示人類的語言不但是溝通的工具,也是一種思考模式。從台語變調衍生的的聲調群不只是獨特的韻律單位,也是渾然天成的句法結構,可以說是人類語言的瑰寶。 我們誠摯地希望有更多人來參與台語聲調群的研究。這個開發中的台語聲調群剖析器包含知識庫和可在Windows XP/Win7 作業系統操作的程式(ZIP檔案)可從本網頁下載,提供學術研究者評估測試使用。

下載台語聲調群剖析器 

下載IJCLCLP相關論文