搭建本地模式的Spark环境

作为当下最流行的开源大数据处理框架,Apache Spark(下文简称Spark)被广泛应用于分布式、大规模的数据处理(ETL)、分析、机器学习和图处理等方面。

从架构上讲,Spark采用的是主从(Master-Salve)架构。对于一个Spark应用,它会创建一个主进程(Master process)和若干个从属进程(Slave processes)。用Spark的专业术语来讲,主进程也被称为驱动器(Driver),而从属进程则被称作执行器(Executors)。驱动器负责分析、分配、调度和监控整个执行,同时负责维护应用在整个生命周期内所有的信息。而执行器则只要负责执行驱动器分配给他们的代码和向驱动器报告执行的状态。

加载中,最新评论有1分钟缓存...