谈搜索引擎中web页面标引关键词的确定new

谈搜索引擎中web页面标引关键词的确定new

ID:34611955

大小:366.99 KB

页数:5页

时间:2019-03-08

谈搜索引擎中web页面标引关键词的确定new_第1页
谈搜索引擎中web页面标引关键词的确定new_第2页
谈搜索引擎中web页面标引关键词的确定new_第3页
谈搜索引擎中web页面标引关键词的确定new_第4页
谈搜索引擎中web页面标引关键词的确定new_第5页
资源描述:

《谈搜索引擎中web页面标引关键词的确定new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据谈搜索引擎中Web页面标引关键词的确定熊化宇湘潭大学管理学院图书馆学系湘潭411105[摘要]论述搜索引擎在对网络信息进行关键词标引时,传统加权词频统计算法的应用和影响关键词权重的几种因素,指出使用后控制词表是改善关键词语言性能的有效措施,最后提出一种新型的、基于逻辑“非”运算的后控制词表,用以提高搜索引擎的检准率。[关键词)关键词加权主题标引搜索引擎网络信息后控制词表(分类号]G354G254.2KeywordIndexingtoWebPagesinSearchEnginesXiongHuayuManagementSchoolofXiangtanUniversity

2、,Xiangtan411105[Abstract]Theapplicationofkeywordindexinginsearchenginesisthemainapplicationofsubjectmethodinthenetworkinformationorganization.Thispaperdiscusesthetopicoftheapplicationofkeywordindexinginsearchengines,especiallythefactorsaffectingtheweightofkeywords.Finally,thepaperbringsforw

3、ardanewmethodtoimprovetheresultofsearchengines.[Keywords]keywordweightofwordsubjectindexingsearchenginenetworkinformationtableoflatercontrol主题法是网络信息组织所采用的主要方法,主题语言在网络信息组织中的应用目前主要表现在关键词语言在网络搜索引擎中的广泛应用⋯。搜索引擎利用robots或crawlers程序遍历Web采集信息后,必须对采集到的页面进行主题标引以建立索引。在对页面进行主题标引时,如何确定和选择能表达页面主题的关键词是标引必须

4、解决的关键问题。1网页文档的预处理搜索引擎在对网页进行标引前,必须对网页进行预处理。预处理主要是词法分析、词的切分、去除停用词和网页中广告等不相关的内容、HTML标签的处理等。搜索引擎一般通过停用词表去除没有实际检索意义的词,主要包括旧o:文献集合中使用过于频繁而失去检索意义的词、冠词、介词、感叹词、代词、连词、某些副词、某些形容词、某些名词(如“理论”、“报告”、“试验”、“学习”等)、某些动词(联系动词、情态动词、助动词)。2传统的加权词频统计算法在搜索引擎中的应用搜索引擎在对网页页面进行标引时,并不是对所有的关80收稿日期:2004—0l一12键词都进行标引,而是通过对

5、关键词采取某种加权策略,并根据一定的权重阈值和表达页面主题的关键词个数来选择标引词。最有影响、最成熟的加权策略是词频加权公式tftidf,即综合考虑~个词在文档中的词频ff以及它在整个文档集合中的逆文档词频idf。对信息检索来讲,文档中词的作用分为两类:区分能力和表示能力。Salton(1973年)将信息检索视为一个聚类问题,其中:文献集合表示一个对象集合c,用户查询表示一个对象集合A的详细说明,根据用户的查询请求来检索出文档的过程就转化为决定每个文档是否属于集合A。聚类涉及两点:①什么样的特征能够更好地描述集合A中的对象。②什么样的特征能更好地将集合A中的对象和集合c中的其

6、他对象更好地区分开来。第一个特征集合量化类内相似性,第二个特征集合量化类间不相似性。类内相似性表示词K;在文档Ki中的分布情况,即词频ff,用于计算该词描述文档内容的能力;类间不相似性表示一个词K;在整个文献集合中的分布情况,即逆文档词频idf,用于计算该词区分文档的能力。具体计算如下:设整个文献集合中共有N个文档,n;是索引词k。在该文献集合中出现的文档数,freq“是词k;在文档dj中出现的万方数据图书情报3-作-l_匦酮礓团匿图—■I第48卷第9期2004年9月次数频率,则有tfi,.=画frefreqi,iiidfi=logNn.则词k.在文档d.中的权重为:W。.J

7、=tfi.J$iaf,若k。不在文档d。中出现,因为tfi.,=o,故w。=0。应该指出的是,逆文档词频的计算只是针对搜索引擎的robots程序遍历了的信息而言的,而robots程序不可能访问每一个Web页面,因为:(至)robots客户端存储容量有限,不可能索引和分析所有页面。②遍历需要时间,而网页信息是不断产生,不断更新变化的。所以,逆文档词频只能是一个估计值。3位置信息对词的权重的影响在传统的信息检索中,在计算关键词权重时,可以通过挖掘文本结构信息,根据关键词的位置给不同的关键词以不同的权重,如对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。