推廣 熱搜： 2022 財務微信法律張網(wǎng)格化管理營銷總裁班安全

首頁 > 內訓課 > 綜合管理 > Hadoop大數(shù)據(jù)解決方案平臺技術培訓

Hadoop大數(shù)據(jù)解決方案平臺技術培訓

【課程目標】

Hadoop作為開源的云計算平臺，為大數(shù)據(jù)處理提供了一整套解決方案，應用非常廣泛。Hadoop作為一個平臺框架，包括了如何存儲海量數(shù)據(jù)，如何處理海量數(shù)據(jù)，以及相應的數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)流處理、數(shù)據(jù)分析和挖掘算法庫，等等。本課程主要介紹Hadoop的思想、原理，以及重要技術等相關知識。

通過本課程的學習，達到如下目的：

1、全面了解大數(shù)據(jù)處理技術的相關知識。

2、學習Hadoop的核心技術以及應用。

3、深入掌握Hadoop的相關工具在大數(shù)據(jù)中的使用。

4、掌握Hadoop的常用模塊的工作原理及開發(fā)應用技術。

5、掌握傳統(tǒng)數(shù)據(jù)中心向大數(shù)據(jù)中心轉換的關鍵技術。

6、掌握海量數(shù)據(jù)處理的性能優(yōu)化及維護技巧。

【授課時間】

2天時間

【授課對象】

網(wǎng)絡部、大數(shù)據(jù)系統(tǒng)開發(fā)部、大數(shù)據(jù)中心、網(wǎng)絡運維部等相關技術人員。

【授課方式】

原理精講+案例演練+開發(fā)實踐+系統(tǒng)優(yōu)化

【課程大綱】

第一部分： Hadoop的基本框架

1、大數(shù)據(jù)時代面臨的問題

2、當前解決大數(shù)據(jù)的技術方案

3、 Hadoop架構和云計算

4、 Hadoop簡史及安裝部署

5、 Hadoop設計理念和生態(tài)系統(tǒng)

第二部分： HDFS分布式文件系統(tǒng)--海量數(shù)據(jù)存儲的搖籃

1、 HDFS的設計目標

2、 HDFS的基本架構

? NameNode名稱節(jié)點

? SecondaryNameNode第二名稱節(jié)點

? DataNode數(shù)據(jù)節(jié)點

3、 HDFS的存儲模型

? 數(shù)據(jù)塊存儲

? 元數(shù)據(jù)存儲（空間鏡像與編輯日志）

? 多副本存儲

4、多副本放置策略

5、多數(shù)據(jù)節(jié)點管理機制與交互過程

6、文件系統(tǒng)操作與管理

? 讀文件過程

? 寫文件過程（數(shù)據(jù)流管道）

7、數(shù)據(jù)完整性機制

? 數(shù)據(jù)校驗和

? 數(shù)據(jù)完整性掃描線程

? 元數(shù)據(jù)備份與合并

8、數(shù)據(jù)可靠性設計

? 安全模式（數(shù)據(jù)塊與節(jié)點映射關系管理）

? 心跳檢測機制（節(jié)點失效管理）

? 租約機制（多線程并發(fā)控制）

9、其它

? HDFS的安全機制

? 負載均衡

? 文件壓縮

10、操作接口與編程接口

? HDFS Shell

? HDFS Commands

? WebHDFS REST API

? HDFS Java API

演練：HDFS文件操作命令

演練：HDFS編程示例

第三部分： MapReduce分布式計算系統(tǒng)--海量數(shù)據(jù)處理的利器

1、 MapReduce的三層設計理念

? 分布治之的設計思想（Map與Reduce）

? 數(shù)據(jù)處理引擎（編程模型）

? 運行時環(huán)境（任務調度與執(zhí)行）

2、 MapReduce的基本架構

? JobTracker作業(yè)跟蹤器

? TaskTracker任務跟蹤器

? MapReduce與HDFS的部署關系

3、 MapReduce編程模型概述

? 編程接口介紹

? Hadoop工作流實現(xiàn)原理

4、 MapReduce作業(yè)調度機制

? MapReduce作業(yè)生命周期

? 作業(yè)調度策略

? 靜態(tài)資源管理方案

5、數(shù)據(jù)并行處理機制（五步驟）

? Input階段實現(xiàn)

? Map階段實現(xiàn)

? Shuffle階段實現(xiàn)

? Reduce階段實現(xiàn)

? Output階段

6、 MapReduce容錯機制

? 任務失敗與重新嘗試

? 節(jié)點失效與重調度

? 單點故障

7、 MapReduce性能優(yōu)化

? 優(yōu)化方向與思路

? 磁盤IO性能優(yōu)化

? 分片優(yōu)化

? 線程數(shù)量優(yōu)化

? 內存優(yōu)化

? 壓縮優(yōu)化

8、 MapReduce操作接口

? Job Shell

? Web UI

案例演練：MapReduce編程示例

9、 YARN：下一代通用資源管理系統(tǒng)

? MRv1的局限性

? YARN基本框架

? NN HA：解決單點故障

? HDFS Federation：解決擴展性問題

第四部分： Hbase非關系型數(shù)據(jù)庫--海量數(shù)據(jù)的黎明

1、 Hbase的使用場景

2、 Hbase的基本架構

? Zookeeper分布式協(xié)調服務器

? Master主控服務器

? Region Server區(qū)域服務器

3、 Hbase的數(shù)據(jù)模型

? Hbase的表結構

? 行鍵、列鍵、時間戳

4、 Hbase的存儲模型

? 基本單位Region

? 存儲格式HFile

5、數(shù)據(jù)分裂機制Split

6、數(shù)據(jù)合并機制Compaction

? minor compaction

? major compaction

7、 HLog寫前日志

8、數(shù)據(jù)庫讀寫操作

? 數(shù)據(jù)庫寫入

? 數(shù)據(jù)庫讀取

? 三次尋址

9、 Hbase操作接口

? Native Java API

? Hbase Shell

? 批量加載工具

? HiveQL操作

10、 Hbase性能優(yōu)化

? 寫速度優(yōu)化

? 讀速度優(yōu)化

11、 Hbase集群監(jiān)控與管理

案例演練：HBase命令操作實例

第五部分： Hive分布式數(shù)據(jù)倉庫--高級的編程語言

1、 Hive是什么

2、 Hive與關系數(shù)據(jù)庫的區(qū)別

3、 Hive系統(tǒng)架構

? 用戶接口層

? 元數(shù)據(jù)存儲層

? 驅動層

4、 Hive常用服務

5、 Hive元數(shù)據(jù)的三種部署模式

6、 Hive的命名空間

7、 Hive數(shù)據(jù)類型與存儲格式

? 數(shù)據(jù)類型

? TextFile/SequenceFile/RCFile

8、 Hive的數(shù)據(jù)模型

? 管理表

? 外部表

? 分區(qū)表

? 桶表

9、 HQL語言命令實例

? DDL數(shù)據(jù)定義語言

? DML數(shù)據(jù)操作語言

? QUERY數(shù)據(jù)查詢語言

10、 Hive自定義函數(shù)

? 基本函數(shù)（UDF）

? 聚合函數(shù)（UDAF）

? 表生成函數(shù)（UDTF）

11、 Hive性能優(yōu)化

? 動態(tài)分區(qū)

? 壓縮

? 索引

? JVM重用

案例演練：Hive命令操作實例

第六部分： Sqoop數(shù)據(jù)交互工具--與傳統(tǒng)數(shù)據(jù)庫的橋梁

1、 Sqoop是什么

2、 Sqoop的架構和功能

? Sqoop1架構

? Sqoop2架構

3、數(shù)據(jù)雙向交換

? 數(shù)據(jù)導入過程

? 數(shù)據(jù)導出過程

4、數(shù)據(jù)導入工具與命令介紹

案例演練：Sqoop數(shù)據(jù)導入/導出實際操作

第七部分： Pig數(shù)據(jù)流處理引擎--數(shù)據(jù)腳本語言

1、 Pig介紹

2、命令行交互工具Grunt

3、 Pig數(shù)據(jù)類型

4、 Pig Latin腳本語言介紹

? 基礎知識

? 輸入和輸出

? 關系操作

? 調用靜態(tài)Java函數(shù)

5、 Pig Latin高級應用

6、開發(fā)與測試Pig Latin腳本

? 開發(fā)工具

? 任務狀態(tài)監(jiān)控

? 調試技巧

7、腳本性能優(yōu)化

8、用戶自定義函數(shù)UDF

案例演練：Pig Latin腳本編寫、測試與運行操作

結束：課程總結與問題答疑。

下一課程：Python開發(fā)語言基礎實戰(zhàn)培訓
上一課程：大數(shù)據(jù)挖掘工具: SPSS Statistics入門與提高

點贊 0反對 0舉報 0 收藏 0

更多>與Hadoop大數(shù)據(jù)解決方案平臺技術培訓相關內訓課

企業(yè)家經(jīng)營哲學與企業(yè)

高效執(zhí) 行

教練式經(jīng)銷商管理

商業(yè)模式創(chuàng)新

創(chuàng)新思維管理應用訓練

創(chuàng)新思維和有效執(zhí)行

微課的設計與制作

高效能主管風暴訓練營

傅一航老師介紹>傅一航老師其它課程

大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀及應用創(chuàng)新

大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀及應用

大數(shù)據(jù)挖掘工具:SPSS

大數(shù)據(jù)挖掘工具: SPSS

大數(shù)據(jù)建模與模型優(yōu)化

金融行業(yè)風險預測模型

數(shù)說營銷——大數(shù)據(jù)營

大數(shù)據(jù)分析與挖掘綜合

助力市場營銷與服務的

京公網(wǎng)安備 11011502001314號

主講老師：	傅一航	主講師資：傅一航
課時安排：	1天/6小時
學習費用：	面議
課程預約：	隋老師 (微信同號)
課程簡介：	本課程主要介紹Hadoop的思想、原理，以及重要技術等相關知識。
內訓課程分類：	綜合管理 \| 人力資源 \| 市場營銷 \| 財務稅務 \| 基層管理 \| 中層管理 \| 領導力 \| 管理溝通 \| 薪酬績效 \| 企業(yè)文化 \| 團隊管理 \| 行政辦公 \| 公司治理 \| 股權激勵 \| 生產(chǎn)管理 \| 采購物流 \| 項目管理 \| 安全管理 \| 質量管理 \| 員工管理 \| 班組管理 \| 職業(yè)技能 \| 互聯(lián)網(wǎng)+ \| 新媒體 \| TTT培訓 \| 禮儀服務 \| 商務談判 \| 演講培訓 \| 宏觀經(jīng)濟 \| 趨勢發(fā)展 \| 金融資本 \| 商業(yè)模式 \| 戰(zhàn)略運營 \| 法律風險 \| 沙盤模擬 \| 國企改革 \| 鄉(xiāng)村振興 \| 黨建培訓 \| 保險培訓 \| 銀行培訓 \| 電信領域 \| 房地產(chǎn) \| 國學智慧 \| 心理學 \| 情緒管理 \| 時間管理 \| 目標管理 \| 客戶管理 \| 店長培訓 \| 新能源 \| 數(shù)字化轉型 \| 工業(yè)4.0 \| 電力行業(yè) \|
更新時間：	2023-09-01 11:18