hadoop、hive和spark

1)HDFS分布式文件系统;
2)MapReduce计算引擎(基于进程,效率低);
3)YARN任务调度和集群资源管理工具;

1)MapReduce编程复杂;
2)HDFS上的文件缺少Schema,不方便操作;

1)使用类SQL(HQL)的方式操作海量结构化、分布式大数据,简单、方便水平扩展(解决MapReduce编程复杂问题);
2)Hive适合处理离线非实时数据(默认底层采用MapReduce);
3)现在,Hive的底层执行引擎已经支持Spark(Hive on Spark);
4)Hive支持不同的压缩格式、存储格式以及自定义函数;
5)Hive是一个数据仓库工具;
6)统一的元数据管理(Hive本身需要一个数据库,存储大数据的基本信息)。

1)Spark是一个分布式大数据计算框架;
2)解决MapReduce效率低的问题,适用于实时性要求或者速度要求较高的场所;
3)基于线程模型,速度快;
4)易于使用,支持java、scala、python、R进行API开发,比MapReduce简单很多;
5)通用,一站式解决多个场景业务,降低学习成本和运营成本;
解决框架多样化的问题:
批处理(离线):MapReduce、Hive、Pig  ==> Spark SQL(Hive on Spark = Spark SQL)
流式处理(实时):Storm ==> Spark Streaming
交互式计算:Impala  ==> Spark GraphX
6)Spark的数据来源非常广泛,可以处理来自HDFS、HBase、 Hive、Cassandra、Tachyon上的各种类型的数据。
7)sparksql和hive on spark时间差不多,但都比hive on mapreduce快很多。

本文作者: GavinDong

版权属于: GavinDong博客

文章链接: https://gavindong.com/2688.html

如果使用过程中遇到问题,可 **点击此处** 交流沟通。

版权所有,转载时必须以链接形式注明作者和原始出处及本声明。

(0)

发表回复

登录后才能评论

评论列表(1条)

  • ag的头像
    ag 2018.12.23 11:28

    hadoop + spark是趋势。