基于hadoop的大规模数据排序算法

基于hadoop的大规模数据排序算法

ID:29471282

大小:101.04 KB

页数:10页

时间:2018-12-20

基于hadoop的大规模数据排序算法_第1页
基于hadoop的大规模数据排序算法_第2页
基于hadoop的大规模数据排序算法_第3页
基于hadoop的大规模数据排序算法_第4页
基于hadoop的大规模数据排序算法_第5页
资源描述:

《基于hadoop的大规模数据排序算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、http://www.docin.com/sundae_meng基于hadoop的大规模数据排序算法——HadoopTeraSort基准测试实验组长:万虎成员:牛庆亚、宋思梦、文滔、胡海绅时间:2011年11月6日23:14:21关于HadoopTerasort的分析会在另外一篇文章中单独分析,或等韩旭红组分析。我们为了能够更好的理解HadoopExample里面的排序程序,在Hadoop环境下对Terasort进行了测试实验。由于是在虚拟机环境中,生成的测试数据大小选择为100M,我们开始时选择对1G的数据进行测试,实验了两次,但是每次

2、在排序的时候机器都会死掉。第一次排序在我们吃饭回来后还没有完成,机器卡死了。最终选择对100M数据进行排序,运行成功。参考资料:HadoopTeraSort基准测试实验http://blog.csdn.net/zklth/article/details/6295517测试眼里的Hadoop系列之Terasorthttp://blog.csdn.net/leafy1980/article/details/6633828相关资料[没有具体看]:HadoopMapReduce扩展性的测试:http://cloud.csdn.net/a/2010

3、0901/278934.html用MPI实现Hadoop:Map/Reduce的TeraSorthttp://emonkey.blog.sohu.com/166546157.htmlHadoop中TeraSort算法分析:http://dongxicheng.org/mapreduce/hadoop-terasort-analyse/hadoop的1TB排序terasort:http://hi.baidu.com/dtzw/blog/item/cffc8e1830f908b94bedbc12.htmlSortBenchmark:http:

4、//sortbenchmark.org/Trir树:http://www.cnblogs.com/cherish_yimi/archive/2009/10/12/1581666.html运行环境:VMware虚拟机ubuntu10.10javaversion"1.7.0"Java(TM)SERuntimeEnvironment(build1.7.0-b147)JavaHotSpot(TM)ClientVM(build21.0-b17,mixedmode)hadoop-0.20.203.0Hadoop安装目录为/home/apple/had

5、oop-0.20.203.0/下面是整个运行Terasort过程中的输入命令及输出。(注:橙色为终端的提示符及输入命令,蓝色为解释性文字,默认颜色为Hadoop输出。)整个过程运行了如下命令://////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////cdhadoop-0.20.203.0/bin/stop-all.s

6、h-10-http://www.docin.com/sundae_mengbin/hadoopnamenode-formatbin/start-all.shbin/hadoopjarhadoop-examples-0.20.203.0.jarteragen100000terasort/100000-inputbin/hadoopfs-ls/user/apple/terasort/100000-inputbin/hadoopjarhadoop-examples-0.20.203.0.jarteragen10terasort/100000-i

7、nput2bin/hadoopjarhadoop-examples-0.20.203.0.jarteragen1000000terasort/100M-inputbin/hadoopjarhadoop-examples-0.20.203.0.jarterasortterasort/100M-inputterasort/100M-outputbin/hadoopfs-lsterasort/100M-outputbin/hadoopjarhadoop-examples-0.20.203.0.jarteravalidateterasort/10

8、0M-outputterasort/100M-validate/////////////////////////////////////////////////////////////////

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。