字串圖形結構偵測方法 - 國立政治大學

字串圖形結構偵測方法 - 國立政治大學

ID:12368638

大小:1.88 MB

页数:132页

时间:2018-07-16

 字串圖形結構偵測方法 - 國立政治大學_第1页
 字串圖形結構偵測方法 - 國立政治大學_第2页
 字串圖形結構偵測方法 - 國立政治大學_第3页
 字串圖形結構偵測方法 - 國立政治大學_第4页
 字串圖形結構偵測方法 - 國立政治大學_第5页
资源描述:

《 字串圖形結構偵測方法 - 國立政治大學》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、國立政治大學資訊科學系DepartmentofComputerScienceNationalChengchiUniversity碩士論文Master’sThesis中文資訊擷取結果之錯誤偵測ErrorDetectiononChineseInformationExtractionResults研究生:鄭雍瑋指導教授:劉吉軒中華民國九十五年七月July2006122中文資訊擷取結果之錯誤偵測ErrorDetectiononChineseInformationExtractionResults研究生:鄭雍瑋Student:Yung-WeiCheng指導教授

2、:劉吉軒Advisors:Jyi-ShaneLiu國立政治大學資訊科學系碩士論文AThesisSubmittedtoDepartmentofComputerScienceNationalChengchiUniversityInpartialfulfillmentoftheRequirementsfortheDegreeofMasterinComputerScience中華民國九十五年七月July2006122中文資訊擷取結果之錯誤偵測摘要資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述,進而萃取出相關主題或事件元素中的對應資訊,再將其擷取之結果

3、彙整至資料庫中,便能將自然語言文件轉換成結構化的核心資訊。然而資訊擷取技術的結果會有錯誤情況發生,若單只依靠人工檢查及更正錯誤的方式進行,將會是耗費大量人力及時間的工作。在本研究論文中,我們提出字串圖形結構與字串特徵值兩種錯誤資料偵測方法。前者是透過圖形結構比對各資料內字元及字元間關聯,接著由公式計算出每筆資料的比對分數,藉由分數高低可判斷是否為錯誤資料;後者則是利用字串特徵值,來描述字串外表特徵,再透過SVM和C4.5機器學習分類方法歸納出決策樹,進而分類正確與錯誤二元資料。而此兩種偵測方法的差異在於前者隱含了圖學理論之節點位置與鄰點概念,直接比對

4、原始字串內容;後者則是將原始字串轉換成特徵數值,進行分類等動作。在實驗方面,我們以「總統府人事任免公報」之資訊擷取成果資料庫作為測試資料。實驗結果顯示,本研究所提出的錯誤偵測方法可以有效偵測出不合格的值組,不但能節省驗證資料所花費的成本,甚至可確保高資料品質的資訊擷取成果產出,促使資訊擷取技術更廣泛的實際應用。關鍵字:錯誤偵測、資訊擷取、文本資料描述122ErrorDetectiononChineseInformationExtractionResultsAbstractGivenatargetedsubjectandatextcollection,

5、informationextractiontechniquesprovidethecapabilitytopopulateadatabaseinwhicheachrecordentryisasubjectinstancedocumentedinthetextcollection.However,evenwiththestate-of-the-artIEtechniques,IEtaskresultsareexpectedtocontainerrors.Manualerrordetectionandcorrectionarelaborintensive

6、andtimeconsuming.ThisvalidationcostremainsamajorobstacletoactualdeploymentofpracticalIEapplicationswithhighvalidityrequirement.Inthispaper,weproposestringgraphstructureandstringfeature-basedmethods.Theformertakesadvantageofgraphstructuretocomparecharactersandtherelationbetweenc

7、haracters.Nextstep,wecountthecorrespondingscoreviaformula,andthenthescoresaretakestoestimatethedatacorrectness.Thelatterusesstringfeaturestodescribeacertaincharacteristicsofeachstring,afterthatdecisiontreeisgeneratedbytheC4.5andSVMmachinelearningalgorithms.Andthenclassifythedat

8、aisvalidornot.Thesetwodetectionmethodshavetheabilityto

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。