北京上海广州Cloudera Hadoop大数据培训:CCAH(管理员)、CCA(Spark and Hadoop)

2016年08月08日 16:28    发布者:IRENE2007
北京8月16-19日Cloudera Developer training for Spark and Hadoop(CCA-175)上海8月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175)广州9月5-8日Cloudera Developer training for Spark and Hadoop(CCA-175)北京9月20-23日Cloudera Aaminisrrator Training for Apache Hadoop(CCAH)上海9月27-30日Cloudera Aaminisrrator Training for Apache Hadoop(CCAH)【其他课程安排请咨询】400-679-6113Cloudera大数据 478790619 课程内容:【Cloudera Apache Hadoop管理员课程】    课时:4天    学习系统管理的概念和Apache Hadoop的最佳实践,    从安装和配置到负载均衡和调优。    这个4天的的课程通过动手时间来赋予你部署的经验,    以及更多的安全方面的经验和故障排除。    课程结束后,学员被鼓励去参加Cloudera和Apache Hadoop管理员(CCAH)考试。     【课程内容】    1、Hadoop分布式文件系统(HDFS)    2、YARN/MapReduce的工作原理    3、如何优化Hadoop机群所需要的硬件配置    4、搭建Hadoop机群所需要考虑的网络因素    5、Hadoop机群维护和控制    6、如何利用Hadoop配置选项进行系统性能调优    7、如何利用FairScheduler为多用户提供服务级别保障    8、Hadoop机群维护和监控    9、如何使用Flume从动态生成的文件加载到Hadoop    10、如何使用Sqoop从关系型数据加载数据    11、Hadoop生态系统工具(如Hive、Impala、Pig和Base)     【学员基础】    具备基本Linux系统管理经验。不需要事先掌握Hadoop相关知识。     【授课形式】案例教学+上机实践 【Cloudera Apache Hadoop开发者课程】  课时:4天  【课程内容】    什么是Spark?    回顾:从Hadoop MapReduce到Spark    回顾:HDFS    回顾:YARN    spark概述     spark Shell的使用    RDDS(弹性分布式数据集)    Spark中的函数式编程     创建RDDs    其它通用RDD操作     键值对RDD(Pair RDDs)    Map-Reduce    其它键值对RDD(Pair RDDS)操作     Spark应用程序vs. Spark Shell    创建SparkContext    建立Spark应用程序(Scala和java)    运行Spark应用程序     Spark应用程序网页用户界面(Web UI)    配置Spark属性    日志记录     回顾:集群上的Spark    RDD分区    基于文件RDDs的分区    HDFS和数据本地性    执行并行操作    阶段和任务     RDD沿袭    RDD持久化概述    分布式持久化     Spark Streaming概述    实例:流请求计数    DStreams    开发Spark Streaming应用程序     多批处理操作    状态操作    滑动窗口操作    高级数据源     通用的Spark使用案例    Spark中的迭代算法    图处理与分析    机器学习    实例:K-means     共享变量:广播变量(Broadcast Variables)    共享变量:累加器(Accumulators)    常见性能问题    诊断性能问题     SparkSQL和SQL Context    创建DataFrames    DataFrames转化和查询    保存DataFrames    DataFrames和RDDSSparkSQL,Impala和Hive-on-Spark的比较    【学员基础】    具备项目经验;熟悉Python与Scala;熟悉MySQL会有帮助     【授课形式】案例教学+上机实践