一种基于关键特征的搜索引擎结果聚类算法

一种基于关键特征的搜索引擎结果聚类算法

ID:34600128

大小:415.83 KB

页数:6页

时间:2019-03-08

一种基于关键特征的搜索引擎结果聚类算法_第1页
一种基于关键特征的搜索引擎结果聚类算法_第2页
一种基于关键特征的搜索引擎结果聚类算法_第3页
一种基于关键特征的搜索引擎结果聚类算法_第4页
一种基于关键特征的搜索引擎结果聚类算法_第5页
资源描述:

《一种基于关键特征的搜索引擎结果聚类算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据2007年6月第33卷第6期北京航空航天大学学报JoumalofBeijingUnive鹅ityofAeronauticsandAstronauticsJune2007V01.33No.6一种基于关键特征的搜索引擎结果聚类算法张辉谢科庞斌吴辉(北京航空航天大学开发环境国家重点实验室,北京100083)摘要:为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的web文档,与向量空间模型方法不同,采用基于关键特征的聚类算,法(KFc).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分析特征间的关系对特征聚类,

2、最后基于特征聚类结果实现文档的聚类.通过对实验结果的测试表明了算法的有效性.关键词:搜索引擎;算法;特征提取;文档聚类;向量空问模型VsM;KFC算法中图分类号:TP302.1文献标识码:A文章编号:1001-5965(2007)06旬739旬4Key—feature—baSedclusteringaIgOrithmfOrSearchengineresuItsZhangHuiXieKePangBinWuHui(Nation&lL出omtoryofSoftwa陀DevelopmentEnvimnment。Be硝ingUnive礴ity0fAemn8uticBandA8

3、tmnautic8,Beijing100083,China)AbStraCt:Tosolvetheproblemthatusersofwebsearchenginesareoftenforcedtosiftthroughthelongorderedlistofdocument,anewkey—featureclustering(KFc)algorithmwaspresentedtohelplocatetheValu—ablesearchresultsthattheusersreallyneeded,whichwasdif亿rentfromVSM.Thealgorit

4、hmfirstlyextractedsomekeyfeaturesf而mthekeywordsinthesearchresults.Thentherelationshipsbetweenkeyfeatureswereanalyzedandfeatureswereclustered.Finally,thedocumentswereclusteredbasedontheseclustersofkeyfbatures.ThealgorithmwastestedandvalidatedbytheI℃sultsofexperiments.KeywOrds:searchengi

5、nes;algorithm;featureextraction;documentclustering;Vectorspacemodel;KFCalgorithm目前,搜索引擎结果聚类的研究主要有3种方法.第1种方法是利用Hits,PageRank算法,分析网页的出、人链接情况,对具有相似特征的网页进行聚类¨].此外,曾华军等人在文献[2]中把文本聚类"1的思想引入到搜索引擎结果聚类中,将搜索引擎的每个结果按照关键词进行切分,得到向量集合,再利用文本聚类的方法进行结果聚类.第3种方法是wangPo-Hsiang等人在文献[4]中提出的,利用用户行为对搜索引擎结果进行聚

6、类,根据用户对结果的选择情况,提取共性,对结果进行优化,将用户感兴趣的结果提前.目前文本聚类算法大都基于向量空间模型(VsM,VeetorspaceModel)”o,这类算法易于实现,但是算法并不能明确每个类所代表的主题,仅仅是将文档向量化以后,根据向量之间的相似度大小确定是否将它们归为一类.这类算法的聚类结果不太准确,且算法的速度比较慢,在实际搜索引擎中很少得到有效应用.本文在借鉴文本聚类的基础上,以文档的主题发现为算法核心,对结果进行聚类,使用户可以在聚成若干类的结果中方便选择所需信息.本文提出的结果聚类算法主要思想是:在保证一定聚类效果的前提下,保持较低的算法

7、复杂度.1算法思路本文选取搜索引擎结果中排在前面的若干结收稿日期:2006m8-23基金项目:国家科技基础条件平台建设资助项目(2005DKA63901)作者简介:张辉(1968一),男,浙江磐安人,副教授,hzhang@nlsde.bun.edu.cn.万方数据740北京航空航天大学学报2007年果项作为待聚类对象集.对这些结果项进行分词后,得到对应关键词集合,并从这些关键词中提取出作为聚类特征的词(以下简称特征).一般而言,这些特征往往是结果项中出现频率比较高、词性为名词或动词并且与主题紧密相关的一些关键词.若干特征就可代表一个结果项,利用这些特征进行聚类可

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。