计科1101武媚

计科1101武媚

ID:20367366

大小:49.50 KB

页数:5页

时间:2018-10-12

计科1101武媚_第1页
计科1101武媚_第2页
计科1101武媚_第3页
计科1101武媚_第4页
计科1101武媚_第5页
资源描述:

《计科1101武媚》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、西安邮电大学科研训练总结报告系部名称:计算机学院学生姓名:武媚专业名称:计算机科学与技术指导老师:刘军班级:计科1101学号:04111034时间:至2014年9月15日2014年12月16日题目:元搜索引擎的设计与实现一.系统主题互联网络的高速发展造成网络资源呈几何数增长,这使得用户在网络资源中快速、准确、有效地检索越来越难,为此,搜索引擎于90年代应运而生。搜索引擎将超文本、网络技术、多媒体技术融为一体,把一定的各种多媒体信息按照一定的规律组织起来,提供给用户查询,显示用户所需要的信息。21世纪是网络高速发展的时代,2014

2、年初,中国境内的网页数量约为1500亿个相比2012年增长22%左右,而由于传统搜索引擎搜索的页面多且杂,使得用户在网络资源中快速、准确、有效地检索越来越难。所以我想设计并实现一款元搜索引擎,从而可以综合各搜索引擎的搜索结果,并进行过滤,来精简搜索引擎的搜索结果,使用户更方便及时的找到自己想要访问的网页。搜索引擎是一种基于独立搜索引擎的搜索引擎,又称为多元搜索引擎或集合式搜索引擎。元搜索引擎为用户提供统一的检索界面,接收并处理用户的查询提问;然后根据一定的调度策略,选择调用一个或多个独立搜索引擎进行查询;最后将来自独立搜索引擎的

3、检结果收集起来,进行优化处理后,以一定的格式返回给用户。元搜索引擎没有自己独立的数据采集机制和相应的数据库,它的数据分析是建立在若干个成员搜索引擎返回的结果上的。这样,通过元搜索引擎,用户不必关心自己想检索的信息在哪个搜索引擎的文档数据库中,元搜索引擎会自动遍历其整合的独立搜索引擎来查询信息。同样,由于元搜索引擎的出现,也不需要把搜索引擎的负载设计得很大,这样不仅积累了资金,而且提高了搜索引擎的性能。在众多的搜索引擎中,如何选择贴近用户查询需求的成员搜索引擎进行组合,较小的资源耗费,帮助用户获得较高的查询质量,这就是元搜索引擎的

4、调度策略所研究的内容。元搜索引擎的调度策略是元搜索引擎的关键技术,也是元搜索引擎研究的重要领域。实现智能调度,可以根据成员搜索引擎的工作情况,动态地调度成员搜索引擎,对于提高元搜索引擎的性能有很大的影响。一.解决方案本课题重点研究的问题是对关键字的分词所涉及的分词算法,从用户的角度来看,搜索的过程是通过关键字在某种资源中寻找特定的内容的过程。而从计算机的角度来看,实现这个过程可以有两种办法。一是对所有资源逐个与关键字匹配,返回所有满足匹配的内容;二是如同字典一样事先建立一个对应表,把关键字与资源的内容对应起来,搜索时直接查找这个

5、表即可。显而易见,第二个办法效率要高得多。建立这个对应表事实上就是建立逆向索引(invertedindex)的过程。在词库设计中,我使用的是双字哈希分词词典机制,双字哈希词典机制是根据汉语中双字较多的语言特点提出的,词典采用前两字逐个Hash索引,剩余字串有序排列的结构,查询过程采用逐字匹配的方法,提高了分词速度。在候选搜索引擎的调度中,是根据分词结束后,提取到的关键字分类之后,通过这个分类对垂直搜索引擎进行选择调度。用户日志的记录与更新是根据用户点击的查询记录,通过调用记录用户点击事件判断用户的选择,并将原记录更新。做出的解决

6、方案:1.首先设计搜索引擎页面2.阅读相关论文,在网上搜索资料。3.设计分词词库,写分词算法。4.在老师的指导下,对一些细节进行调整和深入制作,使得搜素引擎更加完善一.系统框图二.工作总结主要工作包括以下几个方面:(1)对元搜索引擎的定义与基本构成,元搜索引擎的分类与关键技术,元搜索引擎的评价指标和未来发展趋势等分别作了分析和阐述。元搜索引擎的关键技术有三个:成员搜索引擎的调度技术、检索条件的转化技术和检索结果的融合技术。成员搜索引擎的调度技术研究的是如何选择合适的搜索引擎组合,以较小的资源耗费,帮助用户获得较高的查询质量;检索

7、条件的转化对查询关键字进行处理,根据各个成员搜索引擎的特点将查询请求翻译成成员搜索引擎可以识别的样式,然后调度相应的成员搜索引擎;检索结果的融合技术将负责所有成员搜索引擎检索结果进行筛选与整合等优化处理后,以统一的格式在同一界面集中显示。(2)重点对元搜索引擎的调度策略进行了研究。研究国内外现有的元搜索引擎调度策略的过程中,发现一些调度策略在查询新术语或者不常见术语时尚有所欠缺另外元搜索引擎对于成员搜索引擎的评价也不明确。针对这些不足,提出了一种新的基于分类的成员搜索引擎查询性能评价方法,用到了分类相对查全率、分类相对查准率和平

8、均响应时间。将这种评价方式与基于以往查询经验的评价方式结合起来,提出了一种基于学习的元搜索引擎调度策略,该调度策略既考虑到了各成员搜索引擎在以往查询中的表现,也考虑到了它们当前的表现,从而弥补了其他调度策略的不足。(1)为了验证基于学习的调度策略的优劣,设计并实

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。