hadoop、hive和spark

Hadoop三特性：

1	Hadoop三特性：

1）HDFS分布式文件系统；

2）MapReduce计算引擎（基于进程，效率低）；

3）YARN任务调度和集群资源管理工具；

Hive产生的背景：

1	Hive产生的背景：

1）MapReduce编程复杂；

2）HDFS上的文件缺少Schema，不方便操作；

Hive的特性：

Hive的特性：

1）使用类SQL（HQL）的方式操作海量结构化、分布式大数据，简单、方便水平扩展（解决MapReduce编程复杂问题）；

2）Hive适合处理离线非实时数据（默认底层采用MapReduce）；

3）现在，Hive的底层执行引擎已经支持Spark（Hive on Spark）；

4）Hive支持不同的压缩格式、存储格式以及自定义函数；

5）Hive是一个数据仓库工具；

6）统一的元数据管理（Hive本身需要一个数据库，存储大数据的基本信息）。

Spark的特性：

Spark的特性：

1）Spark是一个分布式大数据计算框架；

2）解决MapReduce效率低的问题，适用于实时性要求或者速度要求较高的场所；

3）基于线程模型，速度快；

4）易于使用，支持java、scala、python、R进行API开发，比MapReduce简单很多；

5）通用，一站式解决多个场景业务，降低学习成本和运营成本；

解决框架多样化的问题：

批处理（离线）：MapReduce、Hive、Pig ==> Spark SQL(Hive on Spark = Spark SQL)

流式处理（实时）：Storm ==> Spark Streaming

交互式计算：Impala ==> Spark GraphX

6）Spark的数据来源非常广泛，可以处理来自HDFS、HBase、 Hive、Cassandra、Tachyon上的各种类型的数据。

7）sparksql和hive on spark时间差不多，但都比hive on mapreduce快很多。

本文作者: GavinDong

如果使用过程中遇到问题，可 **点击此处** 交流沟通。