提供Cloudera Hadoop大数据运维、开发、数据分析方面的培训

2017年09月05日 14:31 发布者：IRENE2007

线下北京、上海、深圳、成都、重庆定期开课（线上不定期开课）每门课课时：28h/4天Q1438118790Cloudera Developer Training for Sparkand Hadoop(CCA-175)课程介绍 Hadoop 及生态系统介绍
•  ApacheHadoop 概述 •  数据存储和摄取 •  数据处理 •  数据分析和探索 •  其他生态系统工具 •  练习环境及分析应用场景介绍
Apache Hadoop 文件存储
•  传统大规模系统的问题 •  HDFS 体系结构 •  使用 HDFS •  ApacheHadoop 文件格式
Apache Hadoop 机群上的数据处理
•  YARN 体系结构 •  使用 YARN
使用 Apache Sqoop 导入关系数据
•  Sqoop 简介 •  数据导入 •  导入的文件选项 •  数据导出
Apache Spark 基础
•  什么是 Apache Spark•  使用 Spark Shell •  RDDs( 可恢复的分布式数据集） •  Spark 里的函数式编程
Spark RDD
•  创建 RDD •  其他一般性 RDD 操作
使用键值对 RDD
•  键值对 RDD •  MapReduce •  其他键值对 RDD 操作
编写和运行 Apache Spark 应用
•  Spark 应用对比 Spark Shell•  创建 SparkContext •  创建 Spark 应用（Scala 和 Java） •  运行 Spark 应用•  Spark 应用 WebUI
配置 Apache Spark 应用
•  配置 Spark 属性•  运行日志
Apache Spark 的并行处理
•  回顾：机群环境里的 Spark •  RDD 分区 •  基于文件 RDD 的分区•  HDFS 和本地化数据 •  执行并行操作 •  执行阶段及任务
Spark 持久化
•  RDD 演变族谱 •  RDD 持久化简介 •  分布式持久化
Apache Spark 数据处理的常见模式
•  常见 Spark 应用案例•  迭代式算法 •  机器学习 •  例子：K － Means
DataFrames 和 Spark SQL
•  Apache SparkSQL 和 SQL Context •  创建 DataFrames •  变更及查询 DataFrames•  保存 DataFrames •  DataFrames 和 RDD •  Spark SQL 对比 Impala 和Hive-on-Spark •  Spark 2.x 版本上的 ApacheSpark SQL
Apache Kafka
•  什么是 Apache Kafka•  Apache Kafka 概述 •  如何扩展 ApacheKafka •  Apache Kafka 机群架构 •  Apache Kafka命令行工具
使用 Apache Flume 采集实时数据
•  什么是 Apache Flume•  Flume 基本体系结构 •  Flume 源 •  Flume 槽 •  Flume 通道 •  Flume 配置集成 Apache Flume 和 Apache Kafka
•  概要 •  应用案例 •  配置Apache Spark Streaming：DStreams 介绍
•  Apache SparkStreaming 概述 •  例子：Streaming 访问计数 •  DStreams •  开发 Streaming 应用
Apache Spark Streaming：批处理
•  批处理操作 •  时间分片 •  状态操作 •  滑动窗口操作Apache Spark Streaming：数据源
•  Streaming 数据源概述 •  Apache Flume和Apache Kafka 数据源 •  例子：使用 Direct 模式连接 Kafka • 数据源 ClouderaAdministrator Training for Apache Hadoop(CCA131)  课程介绍Apache Hadoop 介绍：Hadoop 动机、基本概念、Hadoop 核心部件 Hadoop 机群安装： 机群管理方案、Cloudera Manager 特性、Cloudera manager 安装、Hadoop (CDH) 安装 Hadoop 分布式文件系统 (HDFS)： HDFS 特性、读写文件、NameNode 内存考虑、HDFS 安全简介、HDFS Web UI、使用 HDFS Shell YARN 上的 MapReduce 和 Spark： 计算平台在 Hadoop 里扮演的角色、YARN：机群资源管理器、MapReduce 概念、Apache Spark 概念、Yarn 上的计算平台、YARN Web UI 及 Shell、YARN应用运行日志Hadoop 配置及服务运行日志： Cloudera Manager 配置管理机制、定位配置参数及进行配置变更、管理角色实例及添加服务、配置HDFS 服务务、配置 Hadoop 服务运行日志、配置YARN 服务 向 HDFS 导入数据： 使用 Flume 从外部数据源实时导入数据、使用 Sqoop 从关系数据库导入数据、REST 接口、导入数据的最佳实践 Hadoop 机群规划： 规划考虑因素、硬件选择、虚拟化选项、网络因素、节点配置 Hive，Impala 及 Pig 的安装及配置： Hive、Impala、Pig Hadoop 客户端及 Hue： 什么是 Hadoop 客户端、安装及配置 Hadoop 客户端、安装及配置 Hue、使用 Hue 进行身份验证及授权机群高级配置： 高级配置参数、Hadoop 端口配置、HDFS 机柜感知配置、HDFS 高可靠性配置 Hadoop 安全： Hadoop 安全的重要性、Hadoop 安全性概念、Kerberos 简介、使用 Kerberos 保护 Hadoop 机群、其他安全特性 资源管理： 使用静态服务池配置 Linux cgroup、公平调度器、配置动态资源池、YARN 内存及 CPU 设置、Impala查询调度 机群维护： 检查 HDFS 状态、机群间复制数据、添加／移除机群节点、机群数据负载平衡、目录快照、机群升级机群监控及排错： Cloudera Manager 监控特性、监控 Hadoop 机群、Hadoop 机群排错、常见配置不当问题