详解oracle数据库中文全文索引

详解oracle数据库中文全文索引

ID:14658546

大小:40.00 KB

页数:13页

时间:2018-07-29

详解oracle数据库中文全文索引_第1页
详解oracle数据库中文全文索引_第2页
详解oracle数据库中文全文索引_第3页
详解oracle数据库中文全文索引_第4页
详解oracle数据库中文全文索引_第5页
资源描述:

《详解oracle数据库中文全文索引》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、详解Oracle数据库中文全文索引Oracle数据库的全文检索技术已经非常完美,OracleText使Oracle9i具备了强大的文本检索能力和智能化的文本管理能力。OracleText是Oracle9i采用的新名称,在Oracle8/8i中它被称作OracleinterMediaText,在Oracle8以前它的名称是OracleConTextCartridge。二、OracleText索引文档时所使用的主要逻辑步骤如下:(1)数据存储逻辑搜索表的所有行,并读取列中的数据。通常,这只是列数据,但有些数据存储使用列数据作为文档数据的指针。(2)过滤器提取文

2、档数据并将其转换为文本表示方式。存储二进制文档(如Word或Acrobat文件)时需要这样做。过滤器的输出不必是纯文本格式--它可以是XML或HTML之类的文本格式。(3)分段器提取过滤器的输出信息,并将其转换为纯文本。包括XML和HTML在内的不同文本格式有不同的分段器。转换为纯文本涉及检测重要文档段标记、移去不可见的信息和文本重新格式化。(4)词法分析器提取分段器中的纯文本,并将其拆分为不连续的标记。既存在空白字符分隔语言使用的词法分析器,也存在分段复杂的亚洲语言使用的专门词法分析器。(5)索引引擎提取词法分析器中的所有标记、文档段在分段器中的偏移量以

3、及被称为非索引字的低信息含量字列表,并构建反向索引。倒排索引存储标记和含有这些标记的文档。三、需要的权限要使用OracleText,必须具有CTXAPP角色或者是CTXSYS用户。OracleText为系统管理员提供CTXSYS用户,为应用程序开发人员提供CTXAPP角色。具有CTXAPP角色的用户可执行以下任务:创建索引,管理OracleText数据字典,包括创建和删除首选项,进行OracleText查询,使用OracleTextPL/SQL程序包。如图所示:四、具体的实现文本装入文本列后,就可以创建OracleText索引。文档以许多不同方案、格式和语

4、言存储。因此,每个OracleText索引有许多需要设置的选项,以针对特定情况配置索引。创建索引时,OracleText可使用若干个默认值,但在大多数情况下要求用户通过指定首选项来配置索引。每个索引的许多选项组成功能组,称为"类",每个类集中体现配置的某一方面,可以认为这些类就是与文档数据库有关的一些问题。例如:数据存储、过滤器、词法分析器、相关词表、存储等。每个类具有许多预定义的行为,称之为对象。每个对象是类问题可能具有的答案,并且大多数对象都包含有属性。通过属性来定制对象,从而使对索引的配置更加多变以适应于不同的应用。(1)存储(Storage)类存储

5、类指定构成OracleText索引的数据库表和索引的表空间参数和创建参数。它仅有一个基本对象:BASIC_STORAGE,其属性包括:I_Index_Clause、I_Table_Clause、K_Table_Clause、N_Table_Clause、P_Table_Clause、R_Table_Clause。(2)数据存储(Datastore)类数据存储:关于列中存储文本的位置和其他信息。默认情况下,文本直接存储到列中,表中的每行都表示一个单独的完整文档。其他数据存储位置包括存储在单独文件中或以其URL标识的Web页上。七个基本对象包括:Default

6、_Datastore、Detail_Datastore、Direct_Datastore、File_Datastore、Multi_Column_Datastore、URL_Datastore、User_Datastore。(3)文档段组(SectionGroup)类文档段组是用于指定一组文档段的对象。必须先定义文档段,然后才能使用索引通过WITHIN运算符在文档段内进行查询。文档段定义为文档段组的一部分。包含七个基本对象:AUTO_SECTION_GROUP、BASIC_SECTION_GROUP、HTML_SECTION_GROUP、NEWS_SECT

7、ION_GROUP、NULL_SECTION_GROUP、XML_SECTION_GROUP、PATH_SECTION_GROUP。(4)相关词表(Wordlist)类相关词表标识用于索引的词干和模糊匹配查询选项的语言,只有一个基本对象BASIC_WORDLIST,其属性有:Fuzzy_Match、Fuzzy_Numresults、Fuzzy_Score、Stemmer、Substring_Index、Wildcard_Maxterms、Prefix_Index、Prefix_Max_Length、Prefix_Min_Length。(5)索引集(Inde

8、xSet)索引集是一个或多个Oracle索引(不是OracleTe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。