1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理;(2)选用spark的原因1) 应用于流式计算的Spark Streaming; 2) 应用于即席查询(Ad-hoc)的Spark SQL; 3) 应用于机器学习(数据挖掘)的MLlib; 4)应用于图处理的GraphX; 5)将R扩展成并行计算的SparkR; 6)还有权衡精度和速度的查询引擎BlinkDB; 7)基于内存计算(从表象来看); 8)DAG(从深层次来看):把执行过程做成一张图,再来优化; 9)开发速度快;(3)Spark和MapReduce对比1)调度:启动map和reduce任务需要时间; 2)数据共享:从HDFS上读取数据执行,每次迭代均要重写将结果写回到HDFS上,后续的迭代如果需要前面运行的结果数据时需要再去HDFS上读取,以此类推; 3)输出结果数据多副本:数据需要额外的复制、序列化、磁盘/IO的开销; Spark和MapReduce的区别:迭代时数据写入内存,而不是HDFS上,进而减少大量的磁盘IO开销; 2. Spark已打造出结构一体化、功能多样化的大数据生态系统,请简述Spark生态系统。 Spark生态系统:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算; Spark不仅支持Scala编写应用程序,而且支持Java和Python等语言进行编写,特别是Scala是一种高效、可拓展的语言,能够用简洁的代码处理较为复杂的处理工作。 Spark生态圈即BDAS===》 Spark具有很强的适应性,能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据,能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job,来完成Spark应用程序的计算。 spark跟hadoop的比较: Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷,具体如下: 首先,Spark把中间数据放到内存中,迭代运算效率高。MapReduce中计算结果需要落地,保存到磁盘上,这样势必会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 其次,Spark容错性高。Spark引进了弹性分布式数据集RDD (Resilient Distributed Dataset) 的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”(即充许基于数据衍生过程)对它们进行重建。另外在RDD计算时可以通过CheckPoint来实现容错,而CheckPoint有两种方式:CheckPoint Data,和Logging The Updates,用户可以控制采用哪种方式来实现容错。 最后,Spark更加通用。不像Hadoop只提供了Map和Reduce两种操作,Spark提供的数据集操作类型有很多种,大致分为:Transformations和Actions两大类。Transformations包括Map、Filter、FlatMap、Sample、GroupByKey、ReduceByKey、Union、Join、Cogroup、MapValues、Sort和PartionBy等多种操作类型,同时还提供Count, Actions包括Collect、Reduce、Lookup和Save等操作。另外各个处理节点之间的通信模型不再像Hadoop只有Shuffle一种模式,用户可以命名、物化,控制中间结果的存储、分区等。 Spark支持多种分布式存储系统:HDFS和S3。 3. 用图文描述你所理解的Spark运行架构,运行流程。 (1)Spark运行架构: 基本概念: Application:用户编写的Spark应用程序。 Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行Task。 当执行一个Application时,Driver会向集群管理器申请资源,启动Executor,并向Executor发送应用程序代码和文件,然后在Executor上执行Task,运行结束后,执行结果会返回给Driver,或者写到HDFS或者其它数据库中。 与Hadoop MapReduce计算框架相比,Spark所采用的Executor有两个优点:
(2)Spark运行流程:
(3)Spark运行架构特点: 每个Application都有自己专属的Executor进程,并且该进程在Application运行期间一直驻留。Executor进程以多线程的方式运行Task。 |
|