基于gpu的多模式网页精确匹配系统_用户使用手册

基于gpu的多模式网页精确匹配系统_用户使用手册

ID:8485636

大小:1.20 MB

页数:12页

时间:2018-03-29

基于gpu的多模式网页精确匹配系统_用户使用手册_第1页
基于gpu的多模式网页精确匹配系统_用户使用手册_第2页
基于gpu的多模式网页精确匹配系统_用户使用手册_第3页
基于gpu的多模式网页精确匹配系统_用户使用手册_第4页
基于gpu的多模式网页精确匹配系统_用户使用手册_第5页
资源描述:

《基于gpu的多模式网页精确匹配系统_用户使用手册》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于GPU的多关键字网页精确匹配系统用户使用手册作者:彭江锋、施少怀、漆舒汉、杨植群指导教师:陈虎华南理工大学2009年7月20日12文档目录一、系统概述31.1系统运行流程31.2运行光盘说明3二、爬虫程序的使用52.1python-2.54的安装52.2修改脚本程序62.3运行网络爬虫6三、关键字预处理程序8四、并行匹配程序1012一、系统概述1.1系统运行流程基于GPU的多关键字网页精确匹配系统包括:网页爬虫程序、关键字预处理程序和基于GPU的匹配程序等三个部分。系统运行的基本流程如图1-1所示。图1-1系统运行的基本流程整个系统的运行过程分为四个步

2、骤:1、运行爬虫程序,从Internet上获取网页,并存储在html目录中。2、准备好待匹配关键字列表文件,运行关键字预处理程序,并将预处理的结果存储在特定文件中。3、运行并行匹配程序,结果将存储在特定的result.html文件中。4、用户使用浏览器浏览result.html,查阅匹配结果。1.2运行光盘说明运行光盘中包含三个目录和三份文档,如图1-2所示:(注意:由于执行程序有写入操作,执行程序前请先将光盘内容拷贝至硬盘文件夹下,如D:submit)12图1-2运行光盘信息1)“bin”目录:为“基于GPU的多关键字网页精确匹配系统”可执行程序和so

3、urce,包含“source”、“爬虫程序”、“关键字预处理程序”和“并行匹配程序”。如图1-3所示:图1-3“bin”目录信息2)“src”目录:为“基于GPU的多关键字网页精确匹配系统”所有源程序和资源文件source(包含pattern文件和html文件等)。源程序包括:“爬虫程序”、“关键字预处理程序”和“并行匹配程序”。如图1-4所示:图1-4“src”目录信息3)“CPU_测试用例”目录:包含CPU串行字符串匹配软件nrgrep、nrgrep使用说明及其测试用例。4)doc文档:a)“基于GPU的多模式网页精确匹配系统_设计和测试报告.doc”

4、,该文档详细说明该系统的设计实现方法和测试结果以及性能分析等内容。b)“基于GPU的多模式网页精确匹配系统_用户使用手册.doc”,该文档详细说明该系统的使用方法。c)“intro.doc”,该文档为CUDA比赛官方要求填写文档。12二、爬虫程序的使用爬虫程序是基于Python的脚本程序。整个运行过程包括以下步骤:1、安装光盘中“爬虫”目录中的python-2.54安装程序,将此目录中的spider.py文件拷贝到python的目录中;2、根据需要修改spider.py中的关键代码以指明要搜索的URL和存储的目录;3、运行spider.py收集网页内容。2

5、.1python-2.54的安装爬虫目录下有三个文件:python-2.54安装程序、说明文本Readme.txt和爬虫脚本程序spider.py。如图2-1所示。图2-1爬虫目录下的文件双击python-2.54,进入安装界面,并设置安装目录(这里设置为d:Python25),如图2-2所示。图2-2设置python的安装目录Python安装过程的其他对话框按缺省配置即可。在安装完成后,将“爬虫”目录下的spider.py拷贝到安装目录中(这里为d:Python25)。完成后的目录内容如图2-3所示。12图2-3Python安装后的目录内容(图中

6、红圈标识为spider.py脚本程序)2.2修改脚本程序使用任意文本编辑器修改spider.py程序中的第72和73行。如图2-4所示。图2-4修改spider.py程序其中第72行为网页收集后的存储目录(这里设置为D:worktext_GPUtest_sample1html目录),第73行为需要收集的网页URL(这里设置为http://news.163.com/)。修改后保存,并退出文本编辑器。2.3运行网络爬虫在命令行模式下,进入d:Python25目录,并运行spider.py程序,如图2-5所示。图2-5运行网络爬虫12图2-6网络爬虫

7、程序运行的典型输出【注意】该网络爬虫程序不能自动停止,需要通过点击窗口关闭按钮方式停止。在爬虫程序运行结束后,可以发现网页存储目录下(这里为D:worktext_GPUtest_sample1html)已经收集了大量的html文件。如图2-7所示。图2-7网络爬虫收集到的页面12三、关键字预处理程序在“关键字预处理”目录中包含的preprocPatterns_win.exe文件为关键字预处理程序。双击运行该程序,将提示输入关键字集合文本,输入关键字文件路径和文件名。如图3-1:图3-1其中pattern_location_100.txt为关键字集合

8、文本文件,执行结果将输出文件pattern_location_10

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。