炼数成金 门户 培训 查看内容

Spark大数据分析平台

2015-11-13 14:26| 发布者: 岸岸| 查看: 510363| 评论: 0|原作者: 岸岸

快速报名入口
2015年, Spark只用了一年多时间,已实现开源到火爆 ,亦逐渐显露出与通用大数据平台Hadoop的分庭抗争之势。在这个大背景下,在大数据领域时代,谁将是独领风骚?Spark无疑是较大的竞争者,无论是 2015 Spark技术峰会 ,还是国内的大数据大会,可以看到中国力量正在崛起,Spark较大的集群来自腾讯——8000个节点,单个Job较大分别是阿里巴巴和Databricks——1PB,震撼人心!同时,截止2015年6月,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。

然而作为一个高速发展中的开源项目,其部署过程中存在的门槛和挑战亦不可谓不大,本课程将主要介绍Spark1.4.0,引领大家进入大数据Spark入门。

课程大纲:
第一课:Spark生态和安装部署
Spark概述
Spark现状
安装部署
   Spark安装简介
   Spark的源码编译
   Spark Standalone安装
   Spark Standalone HA安装  
Spark工具
   Spark交互式工具spark-shell
   Spark应用程序部署工具spark-submit

第二课:Spark编程模型和解析

Spark的编程模型  
   RDD的特点、操作、依赖关系
   缓存策略
   广播变量和累加器
Spark编程环境搭建
Spark编程实例

第三课:Spark运行架构和解析
Spark的运行架构
   基本术语
   运行架构(DAGScheduler、TaskSeduler、Task、容错性、推测机制、数据本地性)
   Spark on Standalone运行过程
   Spark on YARN 运行过程

第四课:hive入门
hive的运行架构
hive的安装
hive的实例演示

第五课:SparkSQL原理和实践
Spark的运行架构
   Catalyst
   sqlontext
   hiveContext
ThriftServer和CLI
   ThriftServer
   CLI
SparkSQL的实例演示和编程
   spark-shell实例演示
   spark-sql实例演示
   SparkSQL的编程

第六课:SparkStreaming原理和实践
SparkStreaming原理
   SparkStreaming的原理
   SparkStreaming的运行方式  
   DStream的特点和操作
SparkStreaming实例演示
   网络数据演示
   文本实例演示
   Window操作演示  

第七课:MLlib入门
什么是机器学习
MLlib的架构
Mllib实例演示
   聚类算法演示
   推荐系统演示   

第八课:GraphX入门
图论基础
GraphX的架构
GraphX实例演示
   图的基本操作
   PageRank演示

第九课:Spark运维
Spark On YARN
history server
job server
Spark的监控
Spark UI监控

第十课:Scala on Spark

spark常用的scala基础
如何阅读spark源代码
如何构建spark项目

第十一课:Spark编程
RDD的编程
Spark综合实例(SparkSQL+sparkMlib+R)

第十二课:Spark源码研读
Spark源码总体介绍
SparkCore源码细解  
Spark Examples介绍

第十三课:杂谈
Spark相关项目
   BlinkDB简介
   SparkR的安装和实例
   Techyon

授课时间:
开课时间2017年5月22日,课程预计持续时间为15周。

授课对象:
Java开发经验或Scala开发经验,较好了解Hadoop,Hive等使用经验。课程对于Spark初学者,Spark开发人员及Spark运维人员都具有比较大的学习价值。

收获预期:
深入理解Spark的运行原理
学会搭建Spark,hadoop集群环境
完全掌握Spark编程基础,了解Spark运维的基础知识
完成大数据入门,可逐渐转岗大数据相关职位。

课程环境:
Spark版本:Spark1.4
准备环境:CentOS,eclipse或IntelliJ IDEA, Scala,JDK,Maven,sbt,Hadoop,hive,建议三台虚拟机。

授课讲师:
冰风影,超过12年的软件研发经验,曾在ERP,医学,互联网行业企业担任高级软件工程师、架构师,技术总监。具备软件产品设计和开发经验,丰富的大型项目架构设计和编码经验。目前主要的研究方向是大数据,分布式技术,Hadoop和spark。国内知名的开源分布式数据库中间件Mycat的核心开发成员,在Mycat中主要的贡献是NoSQL(mongodb,SequoiaDB)支持,Spark的引入,目前此项目已经有超过10名活跃志愿者在参与和推进,是当下热门的移动互联网和云计算项目的必备基础中间件之一。        

课程试听:
            
新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取100元固定收费+300元暂存学费,学习圆满则全额奖励返还给学员!

本门课程本来打算完全免费,某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动,为了防止一些朋友在学习途中半途而废,浪费了讲师的付出,为此我们计划模仿某些健身课程,使用“逆向收费”的方法。
在报名时每位报名者收取400元,其中100元为固定 收费,另外300是暂存学费,即如果学员能完成全部课程要求,包括完成全部的书面和互动作业,则300元全款退回。如果学员未能坚持到完全所有的学习计划任务,则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力!

课程授课方式:
1、 学习方式:老师发布教学资料、教材,幻灯片和视频,学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。
2、 学习作业:老师每周布置书面及互动作业,学员需按时按质完成作业。
3、 老师辅导:根据作业批改中发现的问题,针对性给予辅导,帮助大家掌握知识。
4、 结业测验:通过测验,完成学业。

您是否对此课程还有疑问,那么请 点击进入 FAQ,您的问题将基本得到解答
全国统一咨询热线 4008-010-006

课程现开始接受报名,报名方式
网上报名 请点击:
Spark大数据分析平台
咨询Email :edu01@dataguru.cnedu02@dataguru.cn
课程入门讨论咨询群:
303917420(群内有培训公开课视频供大家免费观看)
咨询QQ: 2222010006 (上班时间在线)


技术热点、 行业资讯,培训课程信息,尽在炼数成金官方微信,低成本传递高端知识!技术成就梦想!欢迎关注!
打开微信,使用扫一扫功能,即刻关注炼数成金官方微信账户,不容错过的精彩,期待您的体验!!!


快速报名入口

即将开课

热门文章

     

    GMT+8, 2024-11-23 07:44 , Processed in 0.096894 second(s), 34 queries .