hadoop、hive和spark

  • A+
所属分类:Notes

1)HDFS分布式文件系统;
2)MapReduce计算引擎(基于进程,效率低);
3)YARN任务调度和集群资源管理工具;

1)MapReduce编程复杂;
2)HDFS上的文件缺少Schema,不方便操作;

1)使用类SQL(HQL)的方式操作海量结构化、分布式大数据,简单、方便水平扩展(解决MapReduce编程复杂问题);
2)Hive适合处理离线非实时数据(默认底层采用MapReduce);
3)现在,Hive的底层执行引擎已经支持Spark(Hive on Spark);
4)Hive支持不同的压缩格式、存储格式以及自定义函数;
5)Hive是一个数据仓库工具;
6)统一的元数据管理(Hive本身需要一个数据库,存储大数据的基本信息)。

1)Spark是一个分布式大数据计算框架;
2)解决MapReduce效率低的问题,适用于实时性要求或者速度要求较高的场所;
3)基于线程模型,速度快;
4)易于使用,支持java、scala、python、R进行API开发,比MapReduce简单很多;
5)通用,一站式解决多个场景业务,降低学习成本和运营成本;
解决框架多样化的问题:
批处理(离线):MapReduce、Hive、Pig  ==> Spark SQL(Hive on Spark = Spark SQL)
流式处理(实时):Storm ==> Spark Streaming
交互式计算:Impala  ==> Spark GraphX
6)Spark的数据来源非常广泛,可以处理来自HDFS、HBase、 Hive、Cassandra、Tachyon上的各种类型的数据。
7)sparksql和hive on spark时间差不多,但都比hive on mapreduce快很多。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:1   其中:访客  1   博主  0

    • ag

      hadoop + spark是趋势。