搭建本地模式的Spark环境
作为当下最流行的开源大数据处理框架,Apache Spark(下文简称Spark)被广泛应用于分布式、大规模的数据处理(ETL)、分析、机器学习和图处理等方面。
从架构上讲,Spark采用的是主从(Master-Salve)架构。对于一个Spark应用,它会创建一个主进程
(Master process)和若干个从属进程
(Slave processes)。用Spark的专业术语来讲,主进程也被称为驱动器
(Driver),而从属进程则被称作执行器
(Executors)。驱动器
负责分析、分配、调度和监控整个执行,同时负责维护应用在整个生命周期内所有的信息。而执行器
则只要负责执行驱动器
分配给他们的代码和向驱动器
报告执行的状态。