应用于结构化文本的检索系统的设计和实现

应用于结构化文本的检索系统的设计和实现

ID:36862391

大小:256.21 KB

页数:6页

时间:2019-05-16

应用于结构化文本的检索系统的设计和实现_第1页
应用于结构化文本的检索系统的设计和实现_第2页
应用于结构化文本的检索系统的设计和实现_第3页
应用于结构化文本的检索系统的设计和实现_第4页
应用于结构化文本的检索系统的设计和实现_第5页
资源描述:

《应用于结构化文本的检索系统的设计和实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、应用于结构化文本的检索系统的设计和实现王剑周之英肖慧勇(清华大学计算机科学与技术系,北京%""",-)摘要该文介绍了一个应用于结构化文本的检索系统的设计和实现。根据结构化文本的自身特点,提出了文本层次划分的思想,通过层次划分,文本被切分成有结构信息和有独立思想内容的文本单元。在此基础上,对检索词实现结构化索引,同时采用层次匹配嵌套查询的方法来实现用户自然语言的提问查询。用户查询处理中还综合运用了查询结果优化、相似查询、二次查询及反馈评分的技术。关键词信息检索结构化文本文本层次划分结构化索引层次匹

2、配算法文章编号%""!),##%)(!""#)%&)"%##)"#文献标识码.中图分类号/0#%%$1!"#$#%&’()(*+,-.#,#(/)/&0(012/345/43#*!#6/7#/3).29%/#,:)(’;&)(<"04<"&9&(’=&)0>4&90(’(2345$678694:53;<=>3?=3@?A/3=B?6C6DE,/F>?DB:@G?>H3;F>5E,I3>J>?D%""",-)?@%/3)5/:/B3A3F>D?@?A>94C393?5@5>6?67<5;:=

3、5:;3A/3K5L35;>3H@CF>?5;6A:=3A>?5B>F4@43;$.==6;A>?D56F5;:=5:;3A53K5MF=B@;@=53;>F5>=,B>3;@;=B>=@CA>H>F>6?@44;6@=B>F4:576;N@;A>?53K5A>H>F>6?$.F@;3F:C5,53K5>FA>H>A3A>?5653K5:?>5N>5BF5;:=5:;3@?A93@?>?DF$/B3;@5>667@==:;@=E67O:3;E>F4;69653APE:F>?DF5;

4、:=5:;3A>?A3K>?D53=B?>O:3F@?AB>3;@;=B>=@C9@5=B>?D@CD6;>5B9,56D35B3;N>5B5B353=B?>O:3F:F3A>?O:3;E,F:=B@F;3F:C5645>9>Q@5>6?,F>9>C@;9@5=B,F3=6?AO:3;E@?A:F3;FM3H@C:@5>?D$A#9B03*%:R?76;9@5>6?L35;>3H@C,<5;:=5:;3A/3K5,/3K5<5;:=5:;32>H>F>6?,<5;:=5:;3AR?A3K>?D,

5、S>3;@;=B>=@CT@5=B>?D.CD6;>5B9%前言物理结构的层次划分可以直接利用结构化文本本身的结结构化文本是指:和表达的思想内容相对应,在物理形式构信息。对书来说,目录就体现了文档的物理结构,这种结构由上有明显的组织结构和层次关系的文本,比如书刊就是一种结章——节——小节——⋯⋯——段落这样的层次级别来体构化文本。传统的文本检索系统广泛适用于各种不同类型文本现。可以通过识别各级章节标题的文字和数字标记,进行文本的检索,这种追求大而全的思想决定了系统只能把文本作为平物理结构的层次划

6、分。面的、线性的一维文字的集合来处理,而忽略了结构化文本(!)文本逻辑结构的层次划分的特点。逻辑结构通过文本的思想内容和表达方式体现,因此逻辑鉴于此,在对结构化文本自身特点研究分析的基础上,该层次划分不像对物理结构的层次划分那样容易。段落是构成文文设计和实现了一个应用于结构化文本的检索系统。文章的第章的最小单位。一般情况下,一个层次由一个或几个连续的自二部分阐述了系统的设计思想和关键技术,第三部分介绍系统然段组成,它们集中说明了一个问题。同一层次的自然段,由于的实现。最后一部分为结论。共同支持该

7、层次所表达的主题思想,因此在选用词汇以及用词的频率上往往具有很大的相同之处,根据这一事实,笔者尝试!系统的设计思想和关键问题采用有序聚类的方式实现文本逻辑结构的层次划分。结构化文本的最重要特点是文本结构的层次性,通过分析设文本!具有"个自然段,#个层次,用$表示文本层和解读文本的层次,可以更准确地掌握文本所表达思想和信次,%表示自然段,则有如下组成关系:!&$%$!⋯$’’(%(%⋯%(!)%*息。该文的设计思想就是充分利用结构化文本的这种特点来进(%(⋯%()%*⋯(%(⋯%(*%*,其中:(

8、’%!(!⋯!(!()%&"(为!#’’)%%!’’)%行文本划分、关键词的索引和用户的查询。下面,对系统设计中了书写方便,%%,%!,⋯,%"简记为%,!,⋯,")的关键问题进行阐述。设文本!的特征项集为(+%,+!,⋯,+,*,则设%(’(!(%,!(!,⋯,!$%文本层次划分!(,)为第(段的特征向量。其中!(-是特征项+-在第(段中权重。文本层次划分是指按照文本自身的结构、层次和意义进行#*%将"个段落划分为#个层次,则所有可能的分发共有.文本的切分,划分出有结构信息和有独立思想内容的文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。