数据分析工具推荐—Spark计算背后的秘密

节点介绍:

  1. Cluster Manager:在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器负责分配资源,有点像YARN中ResourceManager那个角色,大管家握有所有的干活的资源,属于乙方的总包。
  2. WorkerNode:可以干活的节点,听大管家ClusterManager差遣,是真正有资源干活的主。从节点,负责控制计算节点,启动Executor或者Driver。
  3. Executor:在WorkerNode上起的一个进程,相当于一个包工头,负责准备Task环境和执行。
  4. Task:负责内存和磁盘的使用。Task是施工项目里的每一个具体的任务。
  5. Driver:统管Task的产生与发送给Executor的,运行Application 的main()函数,是甲方的司令员。
  6. SparkContext:与ClusterManager打交道的,负责给钱申请资源的,是甲方的接口人。

整个互动流程是这样的:

  1. 甲方来了个项目,创建了SparkContext,SparkContext去找ClusterManager申请资源同时给出报价,需要多少CPU和内存等资源。ClusterManager去找WorkerNode并启动Excutor,并介绍Excutor给Driver认识;
  2. Driver根据施工图拆分一批批的Task,将Task送给Executor去执行;
  3. Executor接收到Task后准备Task运行时依赖并执行,并将执行结果返回给Driver;
  4. Driver会根据返回回来的Task状态不断的指挥下一步工作,直到所有Task执行结束;
  • Sparkcontext的作用:一是分发task,申请资源等功能外,更重要的一个功能是将RDD拆分成task,即绘制DAG图。

借用上图我们再来了解一下spark的运算过程:

  1. 构建Spark Application的运行环境,启动SparkContext;
  2. SparkContext向资源管理器(可以是Standalone,Mesos,Yarn)申请运行Executor资源,并启动StandaloneExecutorbackend;
  3. Executor向SparkContext申请Task;
  4. SparkContext将应用程序分发给Executor;
  5. SparkContext构建成DAG图,将DAG图分解成Stage、将Taskset发送给Task Scheduler,最后由Task Scheduler将Task发送给Executor运行;
  6. Task在Executor上运行,运行完释放所有资源;

RDD计算案例

我们用一个案例来分析RDD的计算过程:

【声明】:芜湖站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章