hadoop倒排索引实验报告.doc

ID：55550460

大小：201.00 KB

页数：21页

时间：2020-05-16

资源描述：

《hadoop倒排索引实验报告.doc》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、大数据技术概论实验报告作业三姓名：郭利强专业：工程管理专业学号：2015E目录1.实验要求32.环境说明42.1系统硬件42.2系统软件42.3集群配置43.实验设计43.1第一部分设计43.2第二部分设计64.程序代码114.1第一部分代码114.2第二部分代码175.实验输入和结果21实验输入输出结果见压缩包中对应目录211.实验要求第一部分：采用辅助排序的设计方法，对于输入的N个IP网络流量文件，计算得到文件中的各个源IP地址连接的不同目的IP地址个数，即对各个源IP地址连接的目的IP地址去重并计数举例如下：第二部

2、分：输入N个文件，生成带详细信息的倒排索引举例如下，有4个输入文件：–d1.txt:catdogcatfox–d2.txt:catbearcatcatfox–d3.txt:foxwolfdog–d4.txt:wolfhenrabbitcatsheep要求建立如下格式的倒排索引：–cat—>3:4:{(d1.txt,2,4),(d2.txt,3,5),(d4.txt,1,5)}–单词—>出现该单词的文件个数:总文件个数：{(出现该单词的文件名，单词在该文件中的出现次数，该文件的总单词数),……}1.环境说明1.1系统硬件处

3、理器：IntelCorei3-2350MCPU@2.3GHz×4内存：2GB磁盘：60GB1.2系统软件操作系统：Ubuntu14.04LTS操作系统类型：32位Java版本：1.7.0_85Eclipse版本：3.8Hadoop插件：hadoop-eclipse-plugin-2.6.0.jarHadoop：2.6.11.3集群配置集群配置为伪分布模式，节点数量一个1.实验设计1.1第一部分设计利用两个Map/Reduce过程，在第一个MR中，读取记录并去除重复记录，第二个MR按照辅助排序设计方法，根据源地址进行分组，

4、统计目的地址数量。第一个MR设计：自定义StringPair{源地址，目的地址}类型，实现WritableComparable，在map过程读取文件，输出,reduce过程去除重复记录输出。在第二个MR设计：1.在Map过程读取第一个MR的输出，对value值进行拆分，并以拆分得到的源地址和目的地址初始化StringPair对象作为输出键，输出值为1。publicvoidmap(Objectkey,Tex

5、tvalue,Contextcontext)throwsIOException,InterruptedException{String[]records=value.toString().split("t");Stringsourceip=records[0];Stringdesip=records[1];context.write(newStringPair(sourceip,desip),one);}2.定义GroupComparator类，继承WritableComparator类，并重载compare方法，对M

6、ap过程输出按照StringPair.first排序，完成按照源地址分组。publicstaticclassGroupComparatorextendsWritableComparator{protectedGroupComparator(){super(StringPair.class,true);}@Overridepublicintcompare(WritableComparablew1,WritableComparablew2){StringPairip1=(StringPair)w1;StringPairip2

7、=(StringPair)w2;returnip1.getFirst().compareTo(ip2.getFirst());}}3.在Reduce过程统计分组中的所有值，得到源地址连接不同目的地址数量。publicvoidreduce(StringPairkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableval:values){sum+=val.get

8、();}statistic.set(sum);context.write(key.getFirst(),statistic);}}1.1第二部分设计利用两个Map/Reduce过程，第一个MR统计各个文件中的所有单词的出现次数，以及各个文件单词总数，第二个MR根据统计结果处理加工得到单词倒排索引。第一个MR设计：1.

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 21



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

hadoop倒排索引实验报告.doc

hadoop倒排索引实验报告.doc

相关文章

相关标签