资讯硕、博士论文摘要-优等

资讯硕、博士论文摘要-优等

ID:7271795

大小:127.50 KB

页数:27页

时间:2018-02-10

资讯硕、博士论文摘要-优等_第1页
资讯硕、博士论文摘要-优等_第2页
资讯硕、博士论文摘要-优等_第3页
资讯硕、博士论文摘要-优等_第4页
资讯硕、博士论文摘要-优等_第5页
资源描述:

《资讯硕、博士论文摘要-优等》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、資訊碩、博士論文摘要-優等第1篇學號:R86526010論文名稱:助理型軟體資訊擷取技術:樹狀結構HTML文件樣板之自動產生法AutomaticGenerationofTree-StructuredTemplatesforInformationExtractionfromHTMLDocuments研究生:莊水龍Shui-lungChuang指導教授:許永真JaneYung-jenHsu校院:國立臺灣大學系所:資訊工程學研究所學位:碩士學年度:八十八語文:英文頁數:108關鍵字:樣板式資訊擷取template-basedinformationextraction樣板自動產生法templ

2、ategeneration文法推論grammaticalinference序列對齊sequencealignment[提要]網際網路的快速成長已經改變了人們處理日常生活資訊的方法及習慣。有愈來愈豐富的資料是以HTML文件的格式呈現在Web上,為了使這些大量的線上資料能夠被有效地利用,各式各樣的資訊擷取系統被發展出來。然而面對著日益龐大的資料量以及應用程式需求,過去以人工分析來手動建構所需之資訊擷取系統已無法滿足現階段大量的需求,因而許多的研究人員正極力發展各種可行的方法來自動建構所需之資訊擷取系統。我們採取的資訊擷取方法是樣板式資訊擷取法(Template-basedInformat

3、ionExtraction)。一份HTML文件可以根據它的標籤而被表達成一棵文件樹,以期能表達出該文件的結構資訊。而相似的文件通常具有相同的文件結構,因此我們利用一個樹狀結構樣板來表達這個相同的文件結構特性。透過一個樹狀配對法,我們可以決定樣板和文件之間的對應關係,進而從文件中擷取出所要的資訊。27撰寫所需的樹狀結構樣板需要相當的訓練和經驗,而且樣板設計者還需要深入去分析所要處理的資訊源之文件結構為何。這樣的工作不僅很無趣,而且費時,更糟糕的是所得到的樣板很可能容易出錯,為了減少整個資訊擷取系統發展上的困難,本論文提出了一個自動化樣板產生法,使用者只需要提供少數幾篇相關文件及相對應之

4、擷取目標,透過我們所提出來的方法,便可以自動地產生一個適當的樣板。我們將所發展出來的方法實際地應用在幾個知名的網路搜尋引擎及線上新聞網站上。實驗結果顯示了我們所提出的方法確實可以很有效且快速地產生所需要的樣板,也更加確認了這套方法的可行性及實用性。結合了樣板式資訊擷取法和自動樣板產生法,我們使得發展一個資訊擷取程序變成了只要提供幾篇同類的文件和相關的擷取資訊。很明顯地,這大大地減少了整個資訊擷取系統開發過程所需要的時間和精神。TherapidgrowthoftheWorldWideWebhaschangedthewayinwhichpeopleexchangeandshareinfo

5、rmation.AstheInternetservesasanimportantsourceofinformation,answerstoquestionsareoftenscatteredoveramultitudeofWebpages.Tomakehugeamountsofon-linedocumentsavailableandmanageable,thevariousinformationextractionsystemsareunexpendable.However,manuallyconstructingsuchinformationextractionsystemsisa

6、laborioustask.Automaticmethodshavethepotentialtohelpthisdevelopmentprocess.Thisthesisfollowsastructure-basedapproachtoextractingtargetinformationfromHTMLdocuments.Eachdocumentcanbetransformedintoaunique``documenttree,''whichcapturesthestructuralpropertiesdefinedbyitsHTMLtags.Ontheotherhand,acla

7、ssofdocumentscanbecharacterizedassharingacommontree-structuredtemplate.Throughanapproximatetreematchingapproach,themappingbetweenadocumenttreeandatemplatetreecanbeestablished.Accordingtothematchingresult,thetargetinformationcanbed

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。