hadoop倒排索引实验报告.doc

hadoop倒排索引实验报告.doc

ID:55550460

大小:201.00 KB

页数:21页

时间:2020-05-16

hadoop倒排索引实验报告.doc_第1页
hadoop倒排索引实验报告.doc_第2页
hadoop倒排索引实验报告.doc_第3页
hadoop倒排索引实验报告.doc_第4页
hadoop倒排索引实验报告.doc_第5页
资源描述:

《hadoop倒排索引实验报告.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据技术概论实验报告作业三姓名:郭利强专业:工程管理专业学号:2015E目录1.实验要求32.环境说明42.1系统硬件42.2系统软件42.3集群配置43.实验设计43.1第一部分设计43.2第二部分设计64.程序代码114.1第一部分代码114.2第二部分代码175.实验输入和结果21实验输入输出结果见压缩包中对应目录211.实验要求第一部分:采用辅助排序的设计方法,对于输入的N个IP网络流量文件,计算得到文件中的各个源IP地址连接的不同目的IP地址个数,即对各个源IP地址连接的目的IP地址去重并计数举例如下:第二部

2、分:输入N个文件,生成带详细信息的倒排索引举例如下,有4个输入文件:–d1.txt:catdogcatfox–d2.txt:catbearcatcatfox–d3.txt:foxwolfdog–d4.txt:wolfhenrabbitcatsheep要求建立如下格式的倒排索引:–cat—>3:4:{(d1.txt,2,4),(d2.txt,3,5),(d4.txt,1,5)}–单词—>出现该单词的文件个数:总文件个数:{(出现该单词的文件名,单词在该文件中的出现次数,该文件的总单词数),……}1.环境说明1.1系统硬件处

3、理器:IntelCorei3-2350MCPU@2.3GHz×4内存:2GB磁盘:60GB1.2系统软件操作系统:Ubuntu14.04LTS操作系统类型:32位Java版本:1.7.0_85Eclipse版本:3.8Hadoop插件:hadoop-eclipse-plugin-2.6.0.jarHadoop:2.6.11.3集群配置集群配置为伪分布模式,节点数量一个1.实验设计1.1第一部分设计利用两个Map/Reduce过程,在第一个MR中,读取记录并去除重复记录,第二个MR按照辅助排序设计方法,根据源地址进行分组,

4、统计目的地址数量。第一个MR设计:自定义StringPair{源地址,目的地址}类型,实现WritableComparable,在map过程读取文件,输出,reduce过程去除重复记录输出。在第二个MR设计:1.在Map过程读取第一个MR的输出,对value值进行拆分,并以拆分得到的源地址和目的地址初始化StringPair对象作为输出键,输出值为1。publicvoidmap(Objectkey,Tex

5、tvalue,Contextcontext)throwsIOException,InterruptedException{String[]records=value.toString().split("t");Stringsourceip=records[0];Stringdesip=records[1];context.write(newStringPair(sourceip,desip),one);}2.定义GroupComparator类,继承WritableComparator类,并重载compare方法,对M

6、ap过程输出按照StringPair.first排序,完成按照源地址分组。publicstaticclassGroupComparatorextendsWritableComparator{protectedGroupComparator(){super(StringPair.class,true);}@Overridepublicintcompare(WritableComparablew1,WritableComparablew2){StringPairip1=(StringPair)w1;StringPairip2

7、=(StringPair)w2;returnip1.getFirst().compareTo(ip2.getFirst());}}3.在Reduce过程统计分组中的所有值,得到源地址连接不同目的地址数量。publicvoidreduce(StringPairkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableval:values){sum+=val.get

8、();}statistic.set(sum);context.write(key.getFirst(),statistic);}}1.1第二部分设计利用两个Map/Reduce过程,第一个MR统计各个文件中的所有单词的出现次数,以及各个文件单词总数,第二个MR根据统计结果处理加工得到单词倒排索引。第一个MR设计:1.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。