基于大规模日志分析的搜索引擎用户行为分析_余慧佳.pdf

基于大规模日志分析的搜索引擎用户行为分析_余慧佳.pdf

ID:52459091

大小:215.20 KB

页数:6页

时间:2020-03-27

基于大规模日志分析的搜索引擎用户行为分析_余慧佳.pdf_第1页
基于大规模日志分析的搜索引擎用户行为分析_余慧佳.pdf_第2页
基于大规模日志分析的搜索引擎用户行为分析_余慧佳.pdf_第3页
基于大规模日志分析的搜索引擎用户行为分析_余慧佳.pdf_第4页
基于大规模日志分析的搜索引擎用户行为分析_余慧佳.pdf_第5页
资源描述:

《基于大规模日志分析的搜索引擎用户行为分析_余慧佳.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第21卷第1期中文信息学报Vol.21,No.12007年1月JOURNALOFCHINESEINFORMATIONPROCESSINGJan.,2007文章编号:1003-0077(2007)01-0109-06基于大规模日志分析的搜索引擎用户行为分析11121余慧佳,刘奕群,张敏,茹立云,马少平(1.清华大学智能技术与系统国家重点实验室,北京100084;2.搜狗公司研发中心,北京100084)摘要:用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理

2、解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。关键词:计算机应用;中文信息处理;网络信息检索;搜索引擎;用户行为分析;点击信息分析中图分类号:TP391文献标识码:AResearchinSearchEngineUserBehaviorBasedonLogAnalysis11121YUHu-ijia,

3、LIUY-iqun,ZHANGMin,RUL-iyun,MAShao-ping(1.DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084;2.SogouR&DCentre,Beijing100084)Abstract:UserloganalysisisimportantforbothWebinformationretrievaltechnologiesandcommercialsearchenginealgorithms.Inorder

4、tobetterunderstandsearchbehaviorofChineseWebsearchusers,wepresentsananalysisofSogouSearchEnginequerylogconsistingofapproximately50millionentriesforsearchrequestsoveraperiodofonemonth.Theanalysisincludessearchretrievalbehaviorinindividualqueriesdistribution,userreques

5、tcustomsinthesamesessionandwhetherusingadvancedsearchfunctions.ConclusionsmayhelpimproveWebinformationretrievalalgorithmsandsearchperformanceevaluationmethods.Keywords:computerapplication;Chineseinformationprocessing;webinformationretrieval;searchengine;userbehaviora

6、nalysis;clickthroughdataanalysis搜索引擎日志是网络搜索引擎用户行为的重要1引言载体,国内外的不少研究者都针对网络搜索引擎的用户日志进行了相关的研究。网络信息检索工具得随着网络与信息资源的飞速发展,网络搜索引到普及之后,面向网络信息检索的用户行为分析得擎已经成为人们获取网络信息的主要途径。但现在到了更多的关注,文献[1~3]就分别在90年代中人们通常只是简单地通过短短几个词的查询与检索期左右对Web用户的浏览行为进行了调研和分析;系统进行沟通,而在网络信息资源规模如此庞大的到1998年前后,部分研究

7、者如文献[4,5]等就开始情况下这种沟通是远远不够的,检索系统往往不能对商业搜索引擎的用户日志进行大规模的分析。但比较准确地返回用户所真正需求的信息。因此,进由于各方面条件的限制,这种研究,例如查询词频分行搜索引擎的用户行为分析是非常必要的。布规律的研究等,都很少集中在中文网络用户的行收稿日期:2006-07-26定稿日期:2006-10-11基金项目:国家重点基础研究(973)资助项目(2004CB318108);国家自然科学基金资助项目(60223004,60321002,60303005,60503064);教育部科学技术

8、研究重点资助项目(104236)作者简介:余慧佳(1985)),女,本科生,主要研究方向为信息检索。110中文信息学报2007年为分析上。模型中,查询任务决定了用户的查询需求,进而反映中文网络数据环境与英文的有较大的差异,除在查询词上。他在文献[10]中指出,用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。