语言模型训练与调适技术於

语言模型训练与调适技术於

ID:40011639

大小:115.50 KB

页数:22页

时间:2019-07-17

语言模型训练与调适技术於_第1页
语言模型训练与调适技术於_第2页
语言模型训练与调适技术於_第3页
语言模型训练与调适技术於_第4页
语言模型训练与调适技术於_第5页
资源描述:

《语言模型训练与调适技术於》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、語言模型訓練與調適技術於 中文大詞彙連續語音辨識之初步研究摘要語言模型(languagemodel,LM)是用來擷取自然語言中的特徵,諸如前後文的資訊(contextureinformation)、語意資訊(semanticinformation)、主題資訊(topicinformation)等,利用這些資訊用來判斷詞句發生的可能性。其用途可在語音辨識、手寫辨識、輸入法(inputmethodeditor,IME)、資訊檢索(informationretrieval,IR)等。語言模型訓練訓練語料(trainingcorpus),背景語言模

2、型(backgroundLM)統計式語言模型:N連語言模型(N-gramLM)語意資訊:潛藏語意分析(latentsemanticanalysis,LSA)主題資訊:主題混合模型(topicmixturemodel,TMM)摘要訓練語料與測試語料間的不一致性(mismatch)蒐集時間、領域(domain)、主題(topic)語言模型調適語言模型調適的目的利用與辨識任務相關的資訊來彌補上述的不一致性調適語料(adaptationcorpus)內容較訓練語料少同時期(contemporary)、同領域(in-domain)摘要語言模型調適方法

3、以最大事後機率為基礎詞頻數混合法(countmerging)、模型插補法(modelinterpolation)、動態快取模型法(dynamiccachingmodel)以限制為基礎最大熵值法(maximumentropy,ME)、最小鑑別資訊法(minimumdiscriminationinformation,MDI)主要研究成果主題混合模型最大熵值法大綱語言模型的訓練語言模型的調適實驗環境設定及實驗結果結論統計式語言模型統計式語言模型(statisticallanguagemodel,SLM)語言模型P產生長度n之詞序列(wordseq

4、uence)W的機率(量化接受度)參數量非常龐大(

5、V

6、i),必須作簡化N連語言模型三連語言模型統計式語言模型三連語言模型的估測最大相似度估測法(maximumlikelihoodestimation,MLE)語言模型平滑化(smoothing)資料稀疏性(datasparseness)本論文採用Katz模型平滑化技術N連語言模型所能擷取的資訊被N的值所限定語意資訊-觸發對觸發對(triggerpair)長距離詞與詞之間的語意相依資訊歷史詞序列hi中包含與詞wi相同語意的詞,如wj,則稱wj觸發wi估測觸發對平均交互資訊(averagemu

7、tualinformation,AMI)自我觸發(self-trigger)語意資訊-潛藏語意分析詞與文件矩陣(term-documentmatrix)奇異值分解(singularvaluedecomposition,SVD)詞向量與文件向量無法比較將詞與文件投影到較低維的潛藏語意空間加入新的文件(fold-in)潛藏語意分析應用於語言模型機率估測更新歷史詞序列所形成的向量餘弦估測(cosinemeasure)與N連語言模型合併主題資訊主題資訊(topicinformation)語意分類(semanticclassification)的應用

8、線性混合模型(linearmixturemodel)主題分類模型(topicclassificationmodel)主題混合模型主題混合模型(topicmixturemodel,TMM)每一個文章皆為一個混合模型主題一連語言模型(topicunigram)主題在各文章中的權重主題混合模型應用於語言模型機率估測與N連語言模型結合模型插補法機率調整(probabilityscaling)語言模型調適的架構訓練語料背景語言模型N連語言模型調適語料與測試語料同時期或領域相同大小較小不限定為N連語言模型最大事後機率法最大事後機率法(maximumap

9、osterior,MAP)詞頻數混合法模型插補法動態快取模型法模型插補法延伸最大熵值法每一個資訊來源都會引發一群限制(asetofconstraint),限制的交集區域代表滿足所有限制的機率分佈,其中擁有最大熵值的分佈為最大熵值法的解。滿足所有限制的機率分佈之集合IIS演算法實驗Set1:廣播新聞訓練語料:中央社2000年和2001年新聞(一億七千萬中文字character)調適語料:中央社2002年8月到10月新聞(五千萬中文字)測試語料:2002年9月之廣播新聞,3.7小時Set2:公視新聞(MATBN)訓練語料:中央社2001年和20

10、02年新聞(一億五千萬中文字)調適語料:公視新聞(MATBN)3528則新聞測試語料:20003年外場記者,1.5小時基礎實驗Set1Set2字錯誤率複雜度Baseline15.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。