統(tǒng)計語言學(xué)
傳統(tǒng)的統(tǒng)計語言學(xué)研究領(lǐng)域主要包括幾個方面:①統(tǒng)計語言單位的出現(xiàn)頻率,如對詞匯和音位、語素出現(xiàn)的頻率進(jìn)行統(tǒng)計研究。②統(tǒng)計作家的用詞頻率、詞長分布和句長分布,以了解作家運用語言的風(fēng)格;用這種方法還可判定匿名文章的作者。③計算語言存在的絕對年代以及親屬語言從共同原始語分化出來的年代,這方面的研究稱語言年代學(xué),又稱詞源統(tǒng)計分析法。此外,還可對親屬語言的語法、語音體系進(jìn)行統(tǒng)計、比較。④采用信息論方法研究語言的熵和羨余度。語言的熵指在交際過程中語言符號出現(xiàn)的不定度,其大小與語言的熵的高低一致。當(dāng)語言的接收者收到語言符號后,不定度被消除,熵等于零,因而在交際過程中,語言接收者所得到的信息量等于被消除的熵。語言羨余度是指語言中超過傳遞最少需要量的信息量的比例,在一般情況下,為了保證對方能夠理解,會提供比實際需要更多的信息量,因此,不論在書面語還是口語中,語言都有羨余度。⑤探討語言的一般統(tǒng)計規(guī)律。例如,在按頻率遞減順序排列的頻率詞典中,詞的序號越大,詞的頻率越小,序號與頻率之間的關(guān)系可以用數(shù)學(xué)公式描述為一定的統(tǒng)計規(guī)律——齊夫定律。⑥運用隨機過程論研究語言,把語言看成彼此聯(lián)系的字母序列,前一個字母決定后一個字母的出現(xiàn),于是形成一條字母鏈,稱為“馬爾可夫鏈”。⑦研究文章中兩個詞之間、兩個語法范疇之間、兩個語義類型之間或兩個句法類型之間的間距,以揭示文章在句法或語義上的特征。⑧研究語言的詞匯與文章長度的關(guān)系,以揭示文章中詞匯的豐富程度和差異程度。
統(tǒng)計語言學(xué)在數(shù)理語言學(xué)中有比較悠久的歷史。古印度語法學(xué)家在研究《吠陀》時進(jìn)行過單詞和音節(jié)數(shù)目的統(tǒng)計。1851年,英國數(shù)學(xué)家A.de摩根(A. de Morgen)曾把詞長作為文章風(fēng)格的一個特征而加以統(tǒng)計研究。英國的L.坎貝爾(L. Campbell)于1867年、德國的W.迪丁貝爾格(W. Ditingberg)于1881年都曾采用統(tǒng)計方法確定柏拉圖著作的寫作時期。1887年,美國的T.C.門登霍爾(T. C. Mendenhauer)對英國文學(xué)作品、特別是莎士比亞的作品進(jìn)行過統(tǒng)計分析。1913年,俄羅斯的A.A.馬爾可夫(A. A. Markov)研究了俄語中字母序列的生成問題,提出了馬爾可夫隨機過程論。1935年,美國G.K.齊夫發(fā)表了齊夫定律。1944年,英國數(shù)學(xué)家G.U.尤勒(G. U. Yule)在《文學(xué)詞語的統(tǒng)計分析》一書中廣泛使用概率和統(tǒng)計方法研究語言。1950年,美國的M.斯瓦迪士(M. Swadesh)進(jìn)行了語言年代學(xué)的研究。1951年,美國數(shù)學(xué)家C.E.香農(nóng)(Claude Elwood Shannon,1916~2001)采用信息論的方法研究書面英語中的熵和羨余度,美國的V.英格維(V. Yngve)對句法現(xiàn)象進(jìn)行了間距分析。1954年,法國的P.基羅(P. Guiraud)根據(jù)文章中詞的頻率分布提出了詞匯豐富度的概念。1956年,英國的G.赫丹(G. Herdan)出版了《語言是選擇和機遇》一書,系統(tǒng)總結(jié)了統(tǒng)計語言學(xué)的研究成果。幾十年來,在語言統(tǒng)計中日益廣泛地使用計算機,逐漸改變了傳統(tǒng)的手工查頻的統(tǒng)計辦法,提高了統(tǒng)計的效率和精度。
統(tǒng)計語言學(xué)大致可分為語音統(tǒng)計學(xué)、詞匯統(tǒng)計學(xué)、語法統(tǒng)計學(xué)和語義統(tǒng)計學(xué),分別研究語言的語音、詞匯、語法和語義的統(tǒng)計特征。從描寫的角度出發(fā),詞匯統(tǒng)計學(xué)又可以分為年代統(tǒng)計學(xué)、風(fēng)格統(tǒng)計學(xué)和分類統(tǒng)計學(xué)三個分支,分別根據(jù)時代的變化、作者寫作風(fēng)格的不同和語言的類屬或起源對詞匯特征進(jìn)行統(tǒng)計分析。 語料庫語言學(xué)的發(fā)展使統(tǒng)計語言學(xué)得到了的重視。學(xué)者們采用統(tǒng)計方法從大規(guī)模真實文本語料庫中獲取語言知識,使用隱馬爾可夫模型、噪聲信道理論等從統(tǒng)計的角度研究語言,統(tǒng)計語言學(xué)得到進(jìn)一步的發(fā)展和應(yīng)用。 早在1947年,美國的W.韋弗在他的以《翻譯》為題的備忘錄中,提出了使用解讀密碼的方法來進(jìn)行機器翻譯,這種所謂“解讀密碼”的方法實質(zhì)上就是一種統(tǒng)計的方法,他是想用基于統(tǒng)計的方法來解決機器翻譯問題。但是,由于當(dāng)時缺乏高性能的計算機和聯(lián)機語料(corpus on line),采用基于統(tǒng)計的機器翻譯在技術(shù)上還不成熟,韋弗的這種方法在當(dāng)時是難以付諸實現(xiàn)的。直到20世紀(jì)90年代現(xiàn)隨著計算機在速度和容量等方面大幅度的提高,再加上出現(xiàn)了大量的聯(lián)機語料可供統(tǒng)計使用,因此,基于統(tǒng)計的機器翻譯又興盛起來。
在韋弗思想的基礎(chǔ)上,IBM公司的P.布朗(Peter Brown,美國)等人提出了統(tǒng)計機器翻譯的數(shù)學(xué)模型。越來越多的互聯(lián)網(wǎng)和軟件公司都推出了基于統(tǒng)計的在線的機器翻譯系統(tǒng)。例如,谷歌的多語言在線機器翻譯系統(tǒng)Google Translate、百度的在線英漢機器翻譯系統(tǒng)。在線統(tǒng)計機器翻譯系統(tǒng)不僅直接推動了機器翻譯研究的發(fā)展,而且方便了人們的生活與學(xué)習(xí),人類的語言障礙正在逐漸得到克服。這是信息時代自然語言處理研究的重大成果。 機器翻譯研究的大量事實證明,在機器翻譯中,對語言的分析并非越精確越好。目前,人們更加傾向于通過擴(kuò)大語言模型訓(xùn)練數(shù)據(jù)規(guī)模進(jìn)行機器深度學(xué)習(xí)的方法,從大規(guī)模真實的語料中獲取對于機器翻譯有用的語言知識,并適當(dāng)?shù)剡M(jìn)行一些淺層的語言分析,把基于統(tǒng)計的機器翻譯與基于規(guī)則的機器翻譯結(jié)合起來,爭取得到最好的機器翻譯結(jié)果,而這種最好的機器翻譯結(jié)果,可以是全自動的,但卻不一定是高質(zhì)量的,而只是具有較高參考性的譯文。 除了統(tǒng)計機器翻譯之外,統(tǒng)計語言學(xué)的許多研究成果,對于通信技術(shù)、語言教學(xué)和自然語言處理也很有價值。在統(tǒng)計語言學(xué)的基礎(chǔ)之上,對于語言現(xiàn)象進(jìn)行計量研究,探討語言本體的自組織、自適應(yīng)的統(tǒng)計規(guī)律性,產(chǎn)生了一門新的學(xué)科,稱為計量語言學(xué)。