使用关联法则为主之语言模型於撷取长距离中文文字关联性

使用关联法则为主之语言模型於撷取长距离中文文字关联性

ID:32359981

大小:435.98 KB

页数:21页

时间:2019-02-03

使用关联法则为主之语言模型於撷取长距离中文文字关联性_第1页
使用关联法则为主之语言模型於撷取长距离中文文字关联性_第2页
使用关联法则为主之语言模型於撷取长距离中文文字关联性_第3页
使用关联法则为主之语言模型於撷取长距离中文文字关联性_第4页
使用关联法则为主之语言模型於撷取长距离中文文字关联性_第5页
资源描述:

《使用关联法则为主之语言模型於撷取长距离中文文字关联性》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、使用關聯法則為主之語言模型於擷取長距離中文文字關聯性AssociationRuleBasedLanguageModelsforDiscoveringLongDistanceDependencyinChinese簡仁宗陳鴻儀國立成功大學資訊工程學系Email:jtchien@mail.ncku.edu.tw摘要本論文提出一種能擷取長距離資訊的語言模型,它可以擷取多詞彙之間的關聯性,擷取的方式是使用資料探勘中十分流行的Apriori演算法,傳統上n-gram語言模型只能在n-gram視窗內擷取到有限距離的資訊,較長距離的資訊也就因此而流失,然而這

2、些失去的長距離資訊對於語言模型是十分重要的,所以如何克服n-gram模型缺乏長距離資訊一直是非常熱門的研究課題,觸發序對就是其中一種有效的方法,其主要功能是在擷取長距離之詞序對資訊,也就是建立起詞與詞之間的關聯性,然而我們所提出的關聯法則技術能擷取多元詞組間的關聯性,可以說是進一步改良詞組數並建立更長距離資訊,而實驗結果也顯示本論文方法比起傳統觸發序對獲得較低的perplexity,此關聯法則技術也可以有效的與其他模型調整及模型平滑化的技術結合,在語言模型的效率改善方面能有更良好的效果,最後本論文也將提出的語言模型成功的應用在語音辨識與文件分

3、類上,並建立一套個人化之新聞瀏覽器之展示系統。1.簡介拜硬體技術不斷進步的貢獻之下,,一般人會很理所當然的使用自動櫃員機提款或是利用自動空調設備來控制室內的溫度,而這都是由於電腦的自動化管理讓生活變的如此便利,正所謂“科技始終來自人性”,推動科技進步的那隻幕後1的黑手就是建立在“使人便利”的基礎之上,但是電腦自從在發明之初就存在一個與人性背道而馳的缺點,與它們的溝通需要透過一個特定的按鍵裝置,比方說要與個人電腦溝通就必須透過鍵盤或滑鼠等裝置,事實上這是使許多人對電腦望之卻步的原因,要學習如何使用鍵盤與電腦做溝通就等於是強迫人去學習ㄧ種“電腦語

4、言”,這與“使人便利”的原則當然是互相違背的,但是反過來說如能讓電腦學習人類的語言,使電腦能更接近人類,也就能使其與人類生活的結合更加緊密,進一步如果電腦能透過語言的學習而具備了閱讀的能力,我們就可以讓電腦為我們過濾亦或分類每天所需閱讀的文件,比方說可以應用在於e-mail廣告過濾或是新聞文件分類等等,就可以讓電腦為我們省下更多的時間。要克服電腦與人在語言上的鴻溝,在語言技術的領域有了聲學模型(acousticmodel)與自然語言模型(naturallanguagemodel)的產生,而這兩項技術的發展在國外已經行之有年,台灣自西元一九八二

5、年起便開始有了中文聲學模型方面的研究,許多研究單位包括台清交成等大專院校,以及工研院、交通部、中研院、中華電信等都積極的投入研究的工作並且擁有了十分豐碩的研究成果,而在聲學模型已日益成熟的基礎下,自然語言模型的發展也備受矚目,誠如前文所述,語音技術發展的最終目的就是要將電腦與人類的溝通便利化,而要達到這個目的,將語音模型與自然語言模型做結合是必須的,我們的論文主要就是著墨於自然語言模型的探討,我們將會對自然語言模型中的一項十分成功且廣泛運用的技術n-gram語言模型做介紹,並且分析其在傳統上的缺點與改進技術,而本論文也將會針對n-gram模型

6、其中一項缺點-長距離資訊的缺乏,提出一套新的改進方法,並且結合其他改進方法,進而發展出一套較有效率的n-gram模型,我們將會將其應用在結合聲學模型做語音辨識和文件分類的領域之上,期望對其正確率有一定幅度的改善。而自然語言模型方面在現今有許多不同的發展,依其內容主要分為三個方向,一、根據語言學所發展出的文法(grammar)分析,二、以知識為基礎而發展的語言資料庫,三、著重於統計而發展出的n-gram模型。而我們主要是著墨於統計式的n-gram模型,在第二章中,我們將對n-gram模型做詳細的介紹,並對其缺點加以探討,第三章中將會介紹傳統上針

7、對n-gram模型的缺點所衍生出的改進方法,並且提出一種能擷取長距離資訊的語言模型,將它應用在語音辨識或2新聞文件分類的系統上有一定幅度的幫助。2.n-gram語言模型簡介目前n-gram[11]模型的探討於各相關學術會議及期刊論文上已有相當多的文獻發表,顯示各種研究機構對此一領域的發展有相當大的期許,故投身於其中,而在各方都致力於改進n-gram模型之下,n-gram模型在效能上已獲得相當不錯之成果,在本章中我們將會對n-gram模型的基本概念做一簡單之介紹。2.1n-gram模型之應用一般而言n-gram語言模型通常應用於貝式分類器(Ba

8、yesclassifier),扮演著事前機率(prioriprobability)或是可能性(likelihood)的角色,以語音辨識為例子而言,假設有一段聲學訊號

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。