我们主要利用HiBench测试wordcount
一项项目。
wordcount
通过conf
中的99-user_defined_properties.conf
,我们配置了hibench.scale.profile
为gigantic
,也就是测试数据量为300gb
左右。
通过编辑conf
目录下的benchmarks.lst
文件,只保留wordcount
单独一项,并且运行bin/run-all.sh
即可。
执行过程中,mapreduce保持了固有的稳定性,全程没有出现任何异常,只是执行时间过长。而Spark方面,Scala和Java都比较稳定,但是Python遇到了多次由于executor占用内存达到YARN的限制上限而被YARN shutdown的情况,导致多个stage的计算失败,从而让整体运算效率下降。