资讯硕 博士论文摘要 优等.docx

资讯硕 博士论文摘要 优等.docx

ID:51073780

大小:281.92 KB

页数:32页

时间:2020-03-18

资讯硕 博士论文摘要 优等.docx_第1页
资讯硕 博士论文摘要 优等.docx_第2页
资讯硕 博士论文摘要 优等.docx_第3页
资讯硕 博士论文摘要 优等.docx_第4页
资讯硕 博士论文摘要 优等.docx_第5页
资源描述:

《资讯硕 博士论文摘要 优等.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、資訊碩、博士論文摘要一優等學號:R86526010論文名稱:助理型軟體資訊播取技術:樹狀結構HTML文件樣板之自動產生法AutomaticGenerationofTree-StructuredTemplatesforInformationExtractionfromHTMLDocuments生授院所位度文數字究教校系學年語頁鍵硏導學關指莊水龍Shui-lungChuang許永真JaneYung-jenHsu國立臺灣大學資訊工程學硏究所碩士八十八英文樣板式資訊撷取樣板自動產生法文法推論序列對齊108templ

2、ate-basedinformationextractiontemplategenerationgrammaticalinferencesequencealignment[提耍]網際網路的快速成長已經改變了人們處理日常生活資訊的方法及習慣。有愈來愈豐富的資料是以HTML文件的格式呈現在Web上,爲了使這些大量的線上資料能夠被有效地利用,各式各樣的資訊攧取系統被發展出來。然而面對著日益龐大的資料量以及應用程式需求,過去以人工分析來手動建構所需之資訊撷取系統已無法滿足現階段大量的需求,因而許多的硏究人員止極力發

3、展各種可行的方法來自動建構所需之資訊撷取系統。我們採取的資訊拮頁取方法是樣板式資訊拮頁取法(Template-basedInformationExtraction)。一份HTML文件可以根據它的標籤而被表達成一棵文件樹,以期能表達出該文件的結構資訊。而相似的文件通常具有相同的文件結構'因此我們利用-•個樹狀結構樣板來表達這個相同的文件結構特性。透過…個樹狀配對法,我們可以決定樣板和文件之間的對應關係,進而從文件屮撷取出所要的資訊。撰寫所需的樹狀結構樣板需要相當的訓練和經驗,而且樣板設計者還需要深入去分析所要

4、處理的資訊源之文件結構爲何。這樣的工作不僅很無趣'而且費時,更糟糕的是所得到的樣板很可能容易出錯'爲了減少整個資訊撞取系統發展上的困難,本論文提出了一個自動化樣板產生法'使用者只需要提供少數幾篇相關文件及相對應之撷取目標,透過我們所提出來的方法,便可以自動地產生一個適當的樣板。我們將所發展出來的方法實際地應用在幾個知名的網路搜尋引擎及線上新聞網站上。實驗結果顯示了我們所捉出的方法確實可以很有效且快速地產生所需要的樣板,也更加確認了這套方法的可行性及實用性。結合了樣板式資訊撷取法和自動樣板產生法,我們使得發展

5、一個資訊撷取程序變成了只要提供幾篇同類的文件和相關的撷取資訊。很明顯地,這大人地減少了整個資訊搔取系統開發過程所需要的時間和精神。TherapidgrowthoftheWorldWideWebhaschangedthewayinwhichpeopleexchangeandshareinformation.AstheInternetservesasanimportantsourceofinformation,answerstoquestionsarcoftenscatteredoveramultitudeof

6、Webpages.Tomakehugeamountsofon-linedocumentsavailableandmanageable,thevariousinformationextractionsystemsareunexpendable.However,manuallyconstructingsuchinfoimalionextractionsystemsisalaborioustask.Automaticmethodshavethepotentialtohelpthisdevelopmentproce

7、ss.Thisthesisfollowsastiucture-basedapproachtoextractingtargetinfoiinationfromHTMLdocuments.Eachdocumentcanbetransformedintoaunique^documenttree,"whichcapturesthestructuralpropertiesdefinedbyitsHTMLtags.Ontheotherhand,aclassofdocumentscanbecharacterizedass

8、haringacommontrcc-structurcdtemplate.Throughanapproximatetreematchingapproach,themappingbetweenadocumenttreeandatemplatetreecanbeestablished.Accordingtothematchingresult,thetai*getinformationcanbedeterminedan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。