Cluster Benchmark - HiBench - All About Free

我们主要利用HiBench测试wordcount一项项目。

wordcount

通过conf中的99-user_defined_properties.conf,我们配置了hibench.scale.profilegigantic,也就是测试数据量为300gb左右。

通过编辑conf目录下的benchmarks.lst文件,只保留wordcount单独一项,并且运行bin/run-all.sh即可。

执行过程中,mapreduce保持了固有的稳定性,全程没有出现任何异常,只是执行时间过长。而Spark方面,Scala和Java都比较稳定,但是Python遇到了多次由于executor占用内存达到YARN的限制上限而被YARN shutdown的情况,导致多个stage的计算失败,从而让整体运算效率下降。

Free /
Published under (CC) BY-NC-SA in categories technology