基于 google 搜索路径的课程信息垂直搜索引擎

基于 google 搜索路径的课程信息垂直搜索引擎

ID:21828526

大小:60.00 KB

页数:5页

时间:2018-10-25

基于 google 搜索路径的课程信息垂直搜索引擎_第1页
基于 google 搜索路径的课程信息垂直搜索引擎_第2页
基于 google 搜索路径的课程信息垂直搜索引擎_第3页
基于 google 搜索路径的课程信息垂直搜索引擎_第4页
基于 google 搜索路径的课程信息垂直搜索引擎_第5页
资源描述:

《基于 google 搜索路径的课程信息垂直搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Google搜索路径的课程信息垂直搜索引擎】课程信息垂直搜索引擎,即在课程信息这个特定的领域里,让用户能搜索到最精准最全面的结果。本文利用Google发现“学校-学院-教师-课程”路径,利用Parser进行基于UC[5]、CoNLL[6]、ACE[7]、SIGHAN[8]等。就本文而言,实体“课程”包括以下属性:课程名称、学院、学校、教师、教师主页URL,课程链接以及课程简介。本文的NE识别方法为基于soNormalstyle="MARGIN:0cm-1pt0pt5.4pt;LINE-HEIGHT:11.

2、2pt;TEXT-ALIGN:left;mso-line-height-rule:exactly;mso-layout-grid-align:none"align=left>1.初始化teacherList,数据,类型为ArrayList2.根据soNormalstyle="MARGIN:0.45pt-1pt0pt18.9pt;TEXT-ALIGN:left;mso-layout-grid-align:none"align=left>属性的TagNameFilterfilter=neeFilter("stro

3、ng")3.NodeListnodelist=过滤得到的所有<strong>节点4.foreach(节点)Stringtemp=<strong>节点的firstChildif(temp是教师名字,要过滤掉不以字母开头的节点){if(有教师主页信息){teacher=temp;//提取教师姓名元数据teacherHome=prefix+firstname+后缀.htm;//提取教师主页地址元数据}else(没有教师主页信息){教师主页地址默认为prefix,不为teacherHome赋值

4、teacher=temp;//提取教师姓名元数据}将提取到的该名教师的信息加入到teacherList中去图3getTeachers()函数伪代码Fig3pseudocodeoffunctiongetTeachers()(2)getCourses(Stringpage,Stringsuffix),通过分析page的页面结构获得课程名称以及教授该门课程的教师的FirstName,然后在teacherList中查找教师的全名及教师主页。对每一个课程,调用基类的getDescription()获得课程简介。当课程的

5、所有信息都取到值后,调用基类的insert()函数,将该课程插入到索引中去。算法伪代码见图4:2.2.3索引维护类抽取U根据卡耐基梅隆大学课程编号的统一形式,用正则匹配[0-9]{2}-[0-9]{3},(即判断索引中的name域的值是否以“两个数字”+“-”+“三个数字”开头),如果不是,说明不是卡耐基梅隆大学课程的索引项,删除该项。1.调用setInfor()函数,设置了每一门课程的公共信息,本例为学校和学院2.初始化Parser的分析器parser,并设置编码方式3.分析soNormalstyle="M

6、ARGIN:3.45pt-1pt0pt29.95pt;TEXT-ALIGN:left;mso-layout-grid-align:none"align=left>StringFiltercourseFilter=nealstyle="MARGIN:0cm-1pt0pt5.4pt;LINE-HEIGHT:13.75pt;TEXT-ALIGN:left;mso-line-height-rule:exactly;mso-layout-grid-align:none"align=left>4.NodeListnode

7、list=过滤得到的所有课程编号节点;5.foreach(课程编号节点)提取元数据课程名称=课程编号节点+“”+课程名节点;提取元数据教师firstname=课程编号节点之后的nextSlibing节点,即教师firstname节点;教师名=根据firstname在teacherList中查找得到的教师全名;教师主页=根据firstname在teacherList中查找得到的教师主页;提取元数据课程链接=prefix+课程编号(不带“-”)+suffix;提取元数据课程简介=getDescription(课程

8、链接);调用基类中的函数将抓取到的课程信息插入Lucene的索引图4getCourses()函数伪代码Fig4pseudocodeoffunctiongetCourses()3.算法性能以卡耐基-梅隆大学的三个学院为例,来分析本系统算法的查全率P(Precision),F度量(F-measure)。F度量让用户在查全率和查准率上求得平衡。我们认为垂直搜索应该给用户提供准确的信息,因此查准率的重要性大

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。