突击pyspark:数据挖掘的力量倍增器(第五期) 突击pyspark:数据挖掘的力量倍增器(第五期)
所属分类:编程技术
  课程名 : 突击pyspark:数据挖掘的力量倍增器(第五期)【开课中】 总学费/人 : ¥400 (固定学费:¥100, 逆向学费:¥300) 开课时间 : 2018-08-18 09:00:00 
开课老师 : dasheng


课程简介:
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。Apache Spark 作为MapReduce的新一代继承者。 是对map reduce从性能,易用性和复杂分析优化的强大的开源数据处理引擎。Spark框架支持流式数据处理, 复杂迭代算法,比传统Hadoop MapReduce 程序快100倍。
Python语言时当下数据领域的瑞士军刀,但是作为一门脚本语言python先天只能在一台机器上发展,不适合分析大数据,因此需要其他大数据软件来处理,Spark虽然是由Scala编写,但也提供了Pyspark,让熟悉Python者能够轻易熟悉操作大数据。

本课程将为大家全面而又深入的介绍Spark1.x,2.x 、Hadoop、pyspark平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构, pySpark、Hadoop的实战技巧,Spark、Hadoop经典案例等。

通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握pySpark、Hadoop等初中级应用开发技能,让你的python水平更上层楼。

课程大纲:
第一课.spark介绍
hadoop、spark集群环境搭建
pyspark开发环境搭建
spark 1.x和2.x的对比

第二课.pySpark核心编程模型
RDD、transformation、action

第三课.pySpark核心编程实战
lineage、容错处理、宽依赖与窄依赖

第四课.Spark内核详解剖析
Spark术语解释、集群概览、核心组件、数据本地性

第五课.spark任务调度详解
RDD任务调度(DAGScheduler ,TaskScheduler)、Task细节、广播变量、累加器

第六课.spark工程经验和性能调优 

第七课.spark sql 详解

DataFrame、外部数据源API、与Spark其他组件的交互、


第八课.spark sql编程实战
Catalyst查询优化器 、Tungsten 优化

第九课.spark streaming 开发
Dstream、数据源、 容错 

第十课.spark运维技能


 

GMT+8, 2018-10-23 12:25 , Processed in 0.115241 second(s), 27 queries .