我的Lucene笔记

我的Lucene笔记

ID:38185072

大小:960.00 KB

页数:6页

时间:2019-05-24

我的Lucene笔记_第1页
我的Lucene笔记_第2页
我的Lucene笔记_第3页
我的Lucene笔记_第4页
我的Lucene笔记_第5页
资源描述:

《我的Lucene笔记》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、一、索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-textSearch)二、如何创建索引第一步:一些要索引的原文档(Document)。文件一:Studentsshouldbeallowedtogooutwiththeirfriends,butnotallowedtodrinkbeer.文件二:MyfriendJerrywenttoschooltoseehisstudentsbutfoundthemdrunkwhichisnotallowed.第二步:将原文档传给分词组件(To

2、kenizer)。分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize):1.将文档分成一个一个单独的单词。2.去除标点符号。3.去除停词(Stopword)。所谓停词(Stopword)就是一种语言中最普通的一些单词,由于没有特别的意义,因而大多数情况下不能成为搜索的关键词,因而创建索引时,这种词会被去掉而减少索引的大小。英语中停词(Stopword)如:“the”,“a”,“this”等。对于每一种语言的分词组件(Tokenizer),都有一个停词(stopword)集合。经过分词(Tokenizer)后得到的结果称为词元(Token)。在

3、我们的例子中,便得到以下词元(Token):“Students”,“allowed”,“go”,“their”,“friends”,“allowed”,“drink”,“beer”,“My”,“friend”,“Jerry”,“went”,“school”,“see”,“his”,“students”,“found”,“them”,“drunk”,“allowed”。第三步:将得到的词元(Token)传给语言处理组件(LinguisticProcessor)。语言处理组件(linguisticprocessor)主要是对得到的词元(Token)做一些同语言相关的处理

4、。对于英语,语言处理组件(LinguisticProcessor)一般做以下几点:1.变为小写(Lowercase)。2.将单词缩减为词根形式,如“cars”到“car”等。这种操作称为:stemming。3.将单词转变为词根形式,如“drove”到“drive”等。这种操作称为:lemmatization。语言处理组件(linguisticprocessor)的结果称为词(Term)。Stemming和lemmatization的异同:_相同之处:Stemming和lemmatization都要使词汇成为词根形式。_两者的方式不同:_Stemming采用的是“缩减

5、”的方式:“cars”到“car”,“driving”到“drive”。_Lemmatization采用的是“转变”的方式:“drove”到“drove”,“driving”到“drive”。_两者的算法不同:_Stemming主要是采取某种固定的算法来做这种缩减,如去除“s”,去除“ing”加“e”,将“ational”变为“ate”,将“tional”变为“tion”。_Lemmatization主要是采用保存某种字典的方式做这种转变。比如字典中有“driving”到“drive”,“drove”到“drive”,“am,is,are”到“be”的映射,做转变时

6、,只要查字典就可以了。_Stemming和lemmatization不是互斥关系,是有交集的,有的词利用这两种方式都能达到相同的转换。在我们的例子中,经过语言处理,得到的词(Term)如下:“student”,“allow”,“go”,“their”,“friend”,“allow”,“drink”,“beer”,“my”,“friend”,“jerry”,“go”,“school”,“see”,“his”,“student”,“find”,“them”,“drink”,“allow”。第四步:将得到的词(Term)传给索引组件(Indexer)。1.利用得到的词(

7、Term)创建一个字典。2.对字典按字母顺序进行排序。3.合并相同的词(Term)成为文档倒排(PostingList)链表。在此表中,有几个定义:_DocumentFrequency即文档频次,表示总共有多少文件包含此词(Term)。_Frequency即词频率,表示此文件中包含了几个此词(Term)。所以对词(Term)“allow”来讲,总共有两篇文档包含此词(Term),从而词(Term)后面的文档链表总共有两项,第一项表示包含“allow”的第一篇文档,即1号文档,此文档中,“allow”出现了2次,第二项表示包含“allow”的第二个文档,是2号文档

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。