基于云计算平台的知识库构建方案.pdf

基于云计算平台的知识库构建方案.pdf

ID:52351960

大小:994.40 KB

页数:3页

时间:2020-03-26

基于云计算平台的知识库构建方案.pdf_第1页
基于云计算平台的知识库构建方案.pdf_第2页
基于云计算平台的知识库构建方案.pdf_第3页
资源描述:

《基于云计算平台的知识库构建方案.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、学术探讨∙应用技术与研究基于云计算平台的知识库构建方案刘利(泸州职业技术学院信息工程系,四川泸州646005)[摘要]当今互联网已成为一个巨大的开放式知识库,其中包含着许多有价值的信息。互联网信息呈现形式多样性的特点,如何初步筛选出有价值的网页,是信息抽取的第一要务,也是构建知识库的基础。本文在建立互联网模型基础上,利用Hadoop平台下的Pagerank算法,旨在研究如何在节省时间和空间基础上筛选出有价值的网页,为从互联网抽取有价值信息构建知识库提供解决方案。[关键字]Hadoop;Pagerank;知识库;信息抽取中图分类号:TP391.1文献标识码:A

2、文章编号:1008-6609(2016)08-0077-02会占用用户查询时间,因此从用户体验时间来说其远比1引言HITS要短。互联网像是一个巨大的知识库,具有信息规模庞大、信3PageRank算法息资源多样、信息分散等特点。网页被视为知识库中的单位PageRank算法有单机模式和并行运算模式。单机模式信息,但这些信息有很强的独立性和自治性。搜索引擎好比运算规模较小,对内存空间要求较大,而本文面向的是上亿是在这个知识库中建立索引,方便用户搜索。用户用主流的的URL链接,鉴于此,选择并行运算模式。通过PageRank算搜索引擎比如google和百度搜索某个关键

3、字时,会反馈许多法算出每个网页的等级,等级越高说明网页质量和可信度就已排序好的网址,排序过程是根据复杂的文本匹配算法和链越高。决定网页等级的主要因素有:链入数量、链入网页的接分析算法相结合的技术实现的。在用户搜索之前,网页间等级、链出数量。的等级划分就已通过链接分析算法初步确定,链接分析算法计算网页的等级就等价于计算网页的PR值。网页的成为评判网页等级和重要性的标准之一。PR值定义为:链入网页(比如A网页)的所有页面的PR值除2链接分析算法以各自页面里面链出数量之和。算法如公式1所示:由互联网信息所具有的特征可知,在扩展网页和超链接PR(A)=(1-d)+d

4、(PR(T1)/C(T1)+⋯+PR(Tn)/C(Tn))规模时,需判断它们的重要性,选取质量和信誉度好的网nPR(T)(1)=(1-d)+d∑i页。本文采用链接分析方法作为网页重要性的评判标准。i=1C(Ti)影响搜索引擎的链接排名的一个很重要的因素是链接其中,PR(A)表示A页面的等级,PR(Ti)表示Ti页面的等分析算法。常见的链接分析算法主要有PageRank、HITS、级,Ti页面指向A页面(即Ti链出到A),C(Ti)表示Ti页面的链SALSA、Hilltop等等,这些算法的核心是PageRank[1]和HITS出总数,d是0到1间的常数,称为阻

5、尼系数。根据Lawrence[2]Page等人给出的值,应用中一般设置为0.85。PR(T,而后面的其他算法都是以它们为基础延伸的。i)/C(Ti)HITS算法对待排序的网页数量规模要求较小,网页数表示页面Ti链到A页面的概率,随着i值的变化,即可算出模量规模要求一般为1000至5000个,但由于需要从文本的搜型中达到A页面的总概率。根据上述公式进行迭代计算,当索引擎中获得中心类网页集并以此扩充权威类网页集,这个算出相邻两次页面的PR值收敛时计算结束,得到的PR值为过程消耗时间较长,而PageRank算法处理的数据数量规模每个页面最终的PR值。上远远超过了H

6、ITS算法。据Google官方介绍[3],目前已经收本文以网页质量好、可信度高为原则对网页为基础,采录了1万亿以上的网页并且规模还在不断扩大,而且PageR-用网络爬虫的思想,最终收集并整理8亿多的URL,这对整ank算法是在用户查询前就已经在服务器端独立完成的,不个互联网来说是很小的,若利用现有的方式计算各个URL对——————————————作者简介:刘利,男,四川泸州人,硕士,讲师,研究方向:人工智能、数据挖掘。-77-学术探讨∙应用技术与研究应网页的PR值将导致两级分化,究其原因在于计算过程中,在计算网页PageRank时,输出格式是:checksu

7、mPR1有的网页只有链接入没有链出,这将导致有的PR值将特别PR2,如图2所示:大,而有的PR值将特别小,也会导致计算结果的不准确,这有悖于互联网闭环的特点。因此,在计算之前建立互联网模型很有必要,将没有链出的网页,让它的链出指向包括自身在内的每一个网页。PageRank迭代计算并致收敛后,有些网页的PR值大于1,就可认为该网页等级比平均网页等级高,可视为质量好的网页。4实验过程和结果分析4.1相关准备以戴尔PowerEdgeR8201的硬件服务器搭建的Hadoop平台,1台master和2台slave。软件安装:JDK版本为jdk-6u31-linux-i

8、586.bin[5];Hadoop版本是hadoop

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。