无码任你躁久久久久久久,亚洲av网站,熟妇人妻久久中文字幕,久久精品国产亚洲av麻豆网站

全國 [城市選擇] [會(huì)員登錄] [講師注冊(cè)] [機(jī)構(gòu)注冊(cè)] [助教注冊(cè)]  
中國企業(yè)培訓(xùn)講師
0000關(guān)于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓(xùn)班的通知
 
講師:張老師 瀏覽次數(shù):2

課程描述INTRODUCTION

全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資培訓(xùn)

· 中層領(lǐng)導(dǎo)

培訓(xùn)講師:張老師    課程價(jià)格:¥元/人    培訓(xùn)天數(shù):9天   

日程安排SCHEDULE

課程大綱Syllabus

全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資培訓(xùn)

一、課程介紹
Hadoop板塊

1.需求理解
Hadoop設(shè)計(jì)之初的目標(biāo)就定位于高可靠性、高可拓展性、高容錯(cuò)性和高效性,正是這些設(shè)計(jì)上與生俱來的優(yōu)點(diǎn),才使得Hadoop一出現(xiàn)就受到眾多大公司的青睞,同時(shí)也引起了研究界的普遍關(guān)注。
對(duì)電信運(yùn)營商而言,用戶上網(wǎng)日志包含了大量用戶個(gè)性化需求、喜好信息,對(duì)其進(jìn)行分析和挖掘,能更好地了解客戶需求。傳統(tǒng)經(jīng)營分析系統(tǒng)小型機(jī)加關(guān)系型數(shù)據(jù)庫的架構(gòu)無法滿足對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)的處理需求,搭建基于X86的Hadoop平臺(tái),引入大數(shù)據(jù)處理技術(shù)的方式,實(shí)現(xiàn)高效率、低成本、易擴(kuò)展的經(jīng)營分析系統(tǒng)混搭架構(gòu)成為電信運(yùn)營商最為傾向的選擇。本課程將全面介紹Hadoop平臺(tái)開發(fā)和運(yùn)維的各項(xiàng)技術(shù),對(duì)學(xué)員使用該項(xiàng)技術(shù)具有很高的應(yīng)用價(jià)值。

2.培訓(xùn)課程架構(gòu)與設(shè)計(jì)思路
(1)培訓(xùn)架構(gòu):
本課程分為三個(gè)主要部分:
第一部分:重點(diǎn)講述大數(shù)據(jù)技術(shù)在的應(yīng)用,使學(xué)員對(duì)大數(shù)據(jù)技術(shù)的廣泛應(yīng)用有清晰的認(rèn)識(shí),在這環(huán)節(jié)當(dāng)中會(huì)重點(diǎn)介紹Hadoop技術(shù)在整個(gè)大數(shù)據(jù)技術(shù)應(yīng)用中的重要地位和應(yīng)用情況。
第二部分:具體對(duì)hadoop技術(shù)進(jìn)行模塊化分拆,從大數(shù)據(jù)文件存儲(chǔ)系統(tǒng)技術(shù)和分布式文件系統(tǒng)平臺(tái)及其應(yīng)用談起,介紹Hadoop技術(shù)各主要應(yīng)用工具和方法,以及在運(yùn)維維護(hù)當(dāng)中的主流做法,使學(xué)員全面了解和掌握Hadoop技術(shù)的精華。

第三部分:重點(diǎn)剖析大數(shù)據(jù)的應(yīng)用案例,使學(xué)員在案例當(dāng)中對(duì)該項(xiàng)技術(shù)有更深入的感觀印象
(2)設(shè)計(jì)思路:
本課程采用模塊化教學(xué)方法,以案例分析為主線,由淺入深、循序漸進(jìn)、由理論到實(shí)踐操作進(jìn)行設(shè)計(jì)。
(3)與企業(yè)的貼合點(diǎn):
本課程結(jié)合企業(yè)轉(zhuǎn)型發(fā)展及大數(shù)據(jù)發(fā)展戰(zhàn)略,圍繞企業(yè)大數(shù)據(jù)業(yè)務(wù)及行業(yè)應(yīng)用市場(chǎng)拓展發(fā)展目標(biāo),重點(diǎn)講授Hadoop的應(yīng)用技術(shù),提升企業(yè)IT技術(shù)人員的開發(fā)和運(yùn)維能力,有很強(qiáng)的貼合度。
大數(shù)據(jù)建模與挖掘板塊

本次課程面向有一定的數(shù)據(jù)分析挖掘算法基礎(chǔ)的工程師,帶大家實(shí)踐大數(shù)據(jù)分析挖掘平臺(tái)的項(xiàng)目訓(xùn)練,系統(tǒng)地講解數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、挖掘模型建立、大數(shù)據(jù)分析與挖掘算法應(yīng)用在業(yè)務(wù)模型中,結(jié)合主流的Hadoop與Spark大數(shù)據(jù)分析平臺(tái)架構(gòu),實(shí)現(xiàn)項(xiàng)目訓(xùn)練。
結(jié)合業(yè)界使用最廣泛的主流大數(shù)據(jù)平臺(tái)技術(shù),重點(diǎn)剖析基于大數(shù)據(jù)分析算法與BI技術(shù)應(yīng)用,包括分類算法、聚類算法、預(yù)測(cè)分析算法、推薦分析模型等在業(yè)務(wù)中的實(shí)踐應(yīng)用,并根據(jù)講師給定的數(shù)據(jù)集,實(shí)現(xiàn)兩個(gè)基本的日志數(shù)據(jù)分析挖掘系統(tǒng),以及電商(或內(nèi)容)推薦系統(tǒng)引擎。
本課程基本的實(shí)踐環(huán)境是Linux集群,JDK1.8,Hadoop2.7.*,Spark2.1.*。
學(xué)員需要準(zhǔn)備的電腦最好是i5及以上CPU,4GB及以上內(nèi)存,硬盤空間預(yù)留50GB(可用移動(dòng)硬盤),基本的大數(shù)據(jù)分析平臺(tái)所依賴的軟件包和依賴庫等,講師已經(jīng)提前部署在虛擬機(jī)鏡像(VMware鏡像),學(xué)員根據(jù)講師的操作任務(wù)進(jìn)行實(shí)踐。

本課程采用技術(shù)原理與項(xiàng)目實(shí)戰(zhàn)相結(jié)合的方式進(jìn)行教學(xué),在講授原理的過程中,穿插實(shí)際的系統(tǒng)操作,本課程講師也精心準(zhǔn)備的實(shí)際的應(yīng)用案例供學(xué)員動(dòng)手訓(xùn)練。
Python機(jī)器學(xué)習(xí)板塊
1.每個(gè)算法模塊按照“原理講解→分析數(shù)據(jù)→自己動(dòng)手實(shí)現(xiàn)→特征與調(diào)參”的順序。
2.“Python數(shù)據(jù)清洗和特征提取”,提升學(xué)習(xí)深度、降低學(xué)習(xí)坡度。
3.增加網(wǎng)絡(luò)爬蟲的原理和編寫,從獲取數(shù)據(jù)開始,重視將實(shí)踐問題轉(zhuǎn)換成實(shí)際模型的能力,分享工作中的實(shí)際案例或Kaggle案例:廣告銷量分析、環(huán)境數(shù)據(jù)異常檢測(cè)和分析、數(shù)字圖像手寫體識(shí)別、Titanic乘客存活率預(yù)測(cè)、用戶-電影推薦、真實(shí)新聞組數(shù)據(jù)主題分析、中文分詞、股票數(shù)據(jù)特征分析等。
4.強(qiáng)化矩陣運(yùn)算、概率論、數(shù)理統(tǒng)計(jì)的知識(shí)運(yùn)用,掌握機(jī)器學(xué)習(xí)根本。
5.闡述機(jī)器學(xué)習(xí)原理,提供配套源碼和數(shù)據(jù)。
6.以直觀解釋,增強(qiáng)感性理解。
7.對(duì)比不同的特征選擇帶來的預(yù)測(cè)效果差異。
8.重視項(xiàng)目實(shí)踐,重視落地。思考不同算法之間的區(qū)別和聯(lián)系,提高在實(shí)際工作中選擇算法的能力。
9.涉及和講解的部分Python庫有:Numpy、Scipy、matplotlib、Pandas、scikit-learn、XGBoost、libSVM、LDA、Gensim、NLTK、HMMLearn。

二、培訓(xùn)對(duì)象:各地高校大數(shù)據(jù)產(chǎn)業(yè)相關(guān)講師,信息中心相關(guān)人員、系主任、院長或?qū)Υ髷?shù)據(jù)感興趣的相關(guān)人員。
三、培訓(xùn)目標(biāo)
掌握大數(shù)據(jù)處理平臺(tái)(Hadoop、Spark、Storm)技術(shù)架構(gòu)、以及平臺(tái)的安裝部署、運(yùn)維配置、應(yīng)用開發(fā);掌握主流大數(shù)據(jù)Hadoop平臺(tái)和Spark實(shí)時(shí)處理平臺(tái)的技術(shù)架構(gòu)和實(shí)際應(yīng)用;利用Hadoop+Spark對(duì)行業(yè)大數(shù)據(jù)進(jìn)行存儲(chǔ)管理和分析挖掘的技術(shù)應(yīng)用;講解Hadoop生態(tài)系統(tǒng)組件,包括Storm,HDFS,MapReduce,HIVE,Hbase,Spark,GraphX,MLib,Shark,ElasticSearch等大數(shù)據(jù)存儲(chǔ)管理、分布式數(shù)據(jù)庫、大型數(shù)據(jù)倉庫、大數(shù)據(jù)查詢與搜索、大數(shù)據(jù)分析挖掘與分布式處理技術(shù)
讓學(xué)員充分掌握大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)、大數(shù)據(jù)分析的基本理論、機(jī)器學(xué)習(xí)的常用算法、國內(nèi)外主流的大數(shù)據(jù)分析與BI商業(yè)智能分析解決方案、以及大數(shù)據(jù)分析在搜索引擎、廣告服務(wù)推薦、電商數(shù)據(jù)分析、金融客戶分析方面的應(yīng)用案例。

強(qiáng)調(diào)主流的大數(shù)據(jù)分析挖掘算法技術(shù)的應(yīng)用和分析平臺(tái)的實(shí)施,讓學(xué)員掌握主流的基于大數(shù)據(jù)Hadoop和Spark、R的大數(shù)據(jù)分析平臺(tái)架構(gòu)和實(shí)際應(yīng)用,并用結(jié)合實(shí)際的生產(chǎn)系統(tǒng)案例進(jìn)行教學(xué),掌握基于Hadoop大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘和數(shù)據(jù)倉庫分布式系統(tǒng)平臺(tái)應(yīng)用,以及商業(yè)和開源的數(shù)據(jù)分析產(chǎn)品加上Hadoop平臺(tái)形成大數(shù)據(jù)分析平臺(tái)的應(yīng)用剖析。
讓學(xué)員掌握常見的機(jī)器學(xué)習(xí)算法,深入講解業(yè)界成熟的大數(shù)據(jù)分析挖掘與BI平臺(tái)的實(shí)踐應(yīng)用,并以客戶分析系統(tǒng)、日志分析和電商推薦系統(tǒng)為案例,串聯(lián)常用的數(shù)據(jù)挖掘技術(shù)進(jìn)行應(yīng)用教學(xué)。
從數(shù)學(xué)層面推導(dǎo)最經(jīng)典的機(jī)器學(xué)習(xí)算法,以及每種算法的示例和代碼實(shí)現(xiàn)(Python)、如何做算法的參數(shù)調(diào)試、以實(shí)際應(yīng)用案例分析各種算法的選擇等。

四、培訓(xùn)大綱
模塊一:移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算相關(guān)技術(shù)介紹
1、數(shù)據(jù)中心與云計(jì)算技術(shù)應(yīng)用
2、智慧城市與云計(jì)算技術(shù)應(yīng)用
3、移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)與云計(jì)算關(guān)聯(lián)技術(shù)
4、移動(dòng)云計(jì)算的生態(tài)系統(tǒng)及產(chǎn)業(yè)鏈
5、大數(shù)據(jù)技術(shù)在運(yùn)營商、金融業(yè)、銀行業(yè)、電子商務(wù)行業(yè)、零售業(yè)、制造業(yè)、政務(wù)信息化、互聯(lián)網(wǎng)、教育信息化等行業(yè)中的應(yīng)用實(shí)踐
6、國內(nèi)外主流的大數(shù)據(jù)解決方案介紹
7、當(dāng)前大數(shù)據(jù)解決方案與傳統(tǒng)數(shù)據(jù)庫方案的剖析比較8、ClouderaHadoop大數(shù)據(jù)平臺(tái)方案剖析9、開源的大數(shù)據(jù)生態(tài)系統(tǒng)平臺(tái)剖析

模塊二:大數(shù)據(jù)的挑戰(zhàn)和發(fā)展方向
1、大數(shù)據(jù)時(shí)代的挑戰(zhàn)
.戰(zhàn)略決策能力
.技術(shù)開發(fā)和數(shù)據(jù)處理能力
.組織和運(yùn)營能力
2、大數(shù)據(jù)時(shí)代的發(fā)展方向
.云計(jì)算是基礎(chǔ)設(shè)施架構(gòu)
.大數(shù)據(jù)是靈魂資產(chǎn)
.分析、挖掘是手段
.發(fā)現(xiàn)和預(yù)測(cè)是最終目標(biāo)
3、大數(shù)據(jù)挖掘在各行業(yè)應(yīng)用情況
.電信行業(yè)應(yīng)用及案例分析
.互聯(lián)網(wǎng)行業(yè)應(yīng)用及案例分析
.金融行業(yè)應(yīng)用及案例研究
.銷售行業(yè)應(yīng)用案例分析

模塊三:大數(shù)據(jù)文件存儲(chǔ)系統(tǒng)技術(shù)和分布式文件系統(tǒng)平臺(tái)及其應(yīng)用
1、Hadoop的發(fā)展歷程
.Hadoop大數(shù)據(jù)平臺(tái)架構(gòu)
.基于Hadoop平臺(tái)的PB級(jí)大數(shù)據(jù)存儲(chǔ)管理與分析處理的工作原理與機(jī)制
.Hadoop的核心組件剖析
2、分布式文件系統(tǒng)HDFS
.概述、功能、作用、優(yōu)勢(shì)
.應(yīng)用范疇、應(yīng)用現(xiàn)狀
.發(fā)展趨勢(shì)
3、分布式文件系統(tǒng)HDFS架構(gòu)及原理
.核心關(guān)鍵技術(shù)
.設(shè)計(jì)精髓
.基本工作原理
.系統(tǒng)架構(gòu)
.文件存儲(chǔ)模式
.工作機(jī)制
.存儲(chǔ)擴(kuò)容與吞吐性能擴(kuò)展
4、分布式文件系統(tǒng)HDFS操作
.SHELL命令操作
.I/O流式操作
.文件數(shù)據(jù)讀取、寫入、追加、刪除
.文件狀態(tài)查詢
.數(shù)據(jù)塊分布機(jī)制
.數(shù)據(jù)同步與一致性
.元數(shù)據(jù)管理技術(shù)
.主節(jié)點(diǎn)與從節(jié)點(diǎn)工作機(jī)制
.大數(shù)據(jù)負(fù)載均衡技術(shù)
.HDFS大數(shù)據(jù)存儲(chǔ)集群管理技術(shù)
5、Hadoop生態(tài)系統(tǒng)組件
.Storm
.HDFS
.MapReduce
.HIVE.Hbase
.Spark
.GraphX
.MLib
.Shark

模塊四:Hadoop文件系統(tǒng)HDFS*實(shí)戰(zhàn)
1、HDFS的設(shè)計(jì)
2、HDFS的概念
.數(shù)據(jù)塊
.namenode和datanode
.聯(lián)邦HDFS.HDFS的高可用性
3、命令行接口
4、Hadoop文件系統(tǒng)
5、Java接口
.從HadoopURL讀取數(shù)據(jù)
.通過FileSystemAPI讀取數(shù)據(jù)
.寫入數(shù)據(jù)
.目錄
.查詢文件系統(tǒng)
.刪除數(shù)據(jù)
6、數(shù)據(jù)流
.剖析文件讀取
.剖析文件寫入
.一致模型
7、通過Flume和Sqoop導(dǎo)入數(shù)據(jù)
8、通過distcp并行復(fù)制
9、Hadoop存檔
.使用Hadoop存檔工具
.不足

模塊五:Hadoop運(yùn)維管理與性能調(diào)優(yōu)
1、第二代大數(shù)據(jù)處理框架
.Yarn的工作原理及
.DAG并行執(zhí)行機(jī)制
.Yarn大數(shù)據(jù)分析處理案例分析
.Yarn框架并行應(yīng)用程序?qū)嵺`
2、集群配置管理
.Hadoop集群配置
.Hadoop性能調(diào)優(yōu)與參數(shù)配置
.Hadoop機(jī)架感知策略與配置
.Hadoop壓縮機(jī)制
.Hadoop任務(wù)負(fù)載均衡
.Hadoop集群維護(hù)
.Hadoop監(jiān)控管理
3、HDFS的靜態(tài)調(diào)優(yōu)技巧
.HDFS的高吞吐量I/O性能調(diào)優(yōu)技巧
.MapReduce/Yarn的并行處理性能調(diào)優(yōu)技巧
.Hadoop集群的運(yùn)行故障剖析,以及解決方案
.基于Hadoop大數(shù)據(jù)應(yīng)用程序的性能瓶頸剖析與提
.Hadoop大數(shù)據(jù)運(yùn)維監(jiān)控管理系統(tǒng)HUE平臺(tái)的安裝部署與應(yīng)用配置
.Hadoop運(yùn)維管理監(jiān)控系統(tǒng)Ambari平臺(tái)的安裝部配置
.Hadoop集群運(yùn)維系統(tǒng)Ganglia,Nagios的安裝部署與應(yīng)用配置

模塊六:*SQL數(shù)據(jù)庫Hbase與Redis
1、*SQL基礎(chǔ)
.CAP理論
.base與ACID
.*SQL數(shù)據(jù)庫存儲(chǔ)類型鍵值存儲(chǔ)列存儲(chǔ)文檔存儲(chǔ)圖形存儲(chǔ)
2、Hbase分布式數(shù)據(jù)基礎(chǔ)
3、安裝Hbase
4、Hbase應(yīng)用
.Hbase的邏輯數(shù)據(jù)模型,Hbase的表、行、列族、列、單元格、版本、rowkey排序
.Hbase的物理模型,命名空間(表空間)、表模式(Schema)的設(shè)計(jì)法則
.Hbase主節(jié)點(diǎn)HMaster的工作原理,HMaster的高可用配置,以及性能調(diào)優(yōu)
.Hbase從節(jié)點(diǎn)RegionServer(分區(qū)服務(wù)節(jié)點(diǎn))的工作原理,表分區(qū)及存儲(chǔ)I/O高并發(fā)配置,以及性能調(diào)優(yōu)
.Hbase的存儲(chǔ)引擎工作原理,以及Hbase表數(shù)據(jù)的鍵值存儲(chǔ)結(jié)構(gòu),以及HFile存儲(chǔ)結(jié)構(gòu)剖析
.Hbase表設(shè)計(jì)與數(shù)據(jù)操作以及數(shù)據(jù)庫管理操作
.Hbase集群的安裝部署、參數(shù)配置和性能優(yōu)化
5、Hbase分布式數(shù)據(jù)庫簡介、發(fā)展歷程、應(yīng)用場(chǎng)景、工作原理、以及應(yīng)用優(yōu)勢(shì)與不足之處
.Hbase分布式數(shù)據(jù)庫集群的主從式平臺(tái)架構(gòu)和關(guān)鍵技術(shù)剖析
.Hbase偽分布式和物理集群分布式的控制與運(yùn)行配置
.Hbase從節(jié)點(diǎn)RegionServer(分區(qū)服務(wù)節(jié)點(diǎn))的工作原理,表分區(qū)及存儲(chǔ)I/O高并發(fā)配置,以及性能調(diào)優(yōu)
.Hbase的存儲(chǔ)引擎工作原理,以及Hbase表數(shù)據(jù)的鍵值存儲(chǔ)結(jié)構(gòu),以及HFile存儲(chǔ)結(jié)構(gòu)剖析
.Hbase表設(shè)計(jì)與數(shù)據(jù)操作以及數(shù)據(jù)庫管理操作
.Hbase集群的安裝部署、參數(shù)配置和性能優(yōu)化
.ZooKeeper分布式協(xié)調(diào)服務(wù)系統(tǒng)的工作原理、平臺(tái)架構(gòu)、集群部署應(yīng)用實(shí)戰(zhàn)
.ZooKeeper集群的原理架構(gòu),以及應(yīng)用配置
6、Redis內(nèi)存數(shù)據(jù)庫介紹,以及業(yè)界應(yīng)用案例
.Redis內(nèi)存數(shù)據(jù)庫集群架構(gòu)以及核心技術(shù)剖析
.Redis集群的安裝部署與應(yīng)用開發(fā)實(shí)戰(zhàn)

模塊七:類SQL語句工具——Hive
1、安裝Hive
2、示例
3、運(yùn)行Hive
.配置Hive
.Hive服務(wù)
.metastore
4、Hive與傳統(tǒng)數(shù)據(jù)庫相比
.讀時(shí)模式vs.寫時(shí)模式
.更新、事務(wù)和索引
5、HiveQL
.數(shù)據(jù)類型
.操作與函數(shù)
6、表
.托管表和外部表
.分區(qū)和桶
.存儲(chǔ)格式
.導(dǎo)入數(shù)據(jù)
.表的修改
.表的丟棄
7、查詢數(shù)據(jù)
.排序和聚集
.MapReduce腳本
.連接
.子查詢
.視圖
8、用戶定義函數(shù)
.寫UDF
.寫UDAF

模塊八:數(shù)據(jù)挖掘SPARK建模基礎(chǔ)介紹
1、Spark簡介
.Spark是什么
.Spark生態(tài)系統(tǒng)BDAS
2、Spark架構(gòu)
.Spark分布式架構(gòu)與單機(jī)多核架構(gòu)的異同
3、Spark集群的安裝與部署
.Spark的安裝與部署
.Spark集群初試
4、Spark硬件配置
.Spark硬件
.Spark硬件配置流程

模塊九:Kafka基礎(chǔ)介紹
1、Kafka介紹
2、kafka體系結(jié)構(gòu)
3、kafka設(shè)計(jì)理念簡介
4、kafka通信協(xié)議
5、kafka的偽分布安裝、集群安裝
6、kafka的shell操作、java操作
7、kafka設(shè)計(jì)理念*
8、kafkaproducer和consumer開發(fā)
9、Kafka分布式消息訂閱系統(tǒng)的應(yīng)用介紹、平臺(tái)架構(gòu)、集群部署與配置應(yīng)用實(shí)戰(zhàn)
10、Flume-NG數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)流模型、平臺(tái)架構(gòu)、集群部署與配置應(yīng)用實(shí)戰(zhàn)
11、Hadoop與DBMS之間數(shù)據(jù)交互工具Sqoop的應(yīng)用實(shí)踐,
12、Sqoop導(dǎo)入導(dǎo)出數(shù)據(jù)以及Sqoop集群部署與配置
13、Kettle集群的平臺(tái)架構(gòu)、核心技術(shù)、部署配置和應(yīng)用實(shí)戰(zhàn)
14、利用Sqoop實(shí)現(xiàn)MySQL與Hadoop集群之間

模塊十:大數(shù)據(jù)典型應(yīng)用與開發(fā)案例分析:互聯(lián)網(wǎng)數(shù)據(jù)運(yùn)營
1、案例1:貴州數(shù)據(jù)交易中心
.交易所交易形式:電子交易
.交易所服務(wù):大數(shù)據(jù)交易、大數(shù)據(jù)清洗建模分析、大數(shù)據(jù)定向采購、大數(shù)據(jù)平臺(tái)技術(shù)開發(fā)
.大數(shù)據(jù)交易安全性探討分析
.數(shù)據(jù)交易中心商業(yè)模式探討分析
2、案例2:大數(shù)據(jù)應(yīng)用案例:公共交通線路的智能規(guī)劃
.UrbanInsights:為公交公司提供基于訂閱訪問的大數(shù)據(jù)工具以及大數(shù)據(jù)咨詢服務(wù)
.UrbanInsights數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)倉庫、數(shù)據(jù)分析——設(shè)計(jì)運(yùn)營線路
.UrbanInsights通過互聯(lián)網(wǎng)數(shù)據(jù)的運(yùn)營
3、討論:浙江移動(dòng)大數(shù)據(jù)應(yīng)用與開發(fā)方向

模塊十一:當(dāng)前數(shù)據(jù)中心的改造和轉(zhuǎn)換分析-以國內(nèi)外運(yùn)營商、互聯(lián)網(wǎng)公司為例
1、流商業(yè)大數(shù)據(jù)解決方案比較
2、主流開源云計(jì)算系統(tǒng)比較.
3、國內(nèi)外代表性大數(shù)據(jù)平臺(tái)比較.
4、各廠商*的大數(shù)據(jù)產(chǎn)品介紹
5、案例分析
.Facebook的SNS平臺(tái)應(yīng)用
.Google的搜索引擎應(yīng)用
.Rackspace的日志處理
.Verizon成立精準(zhǔn)市場(chǎng)營銷部
.TelefonicaDynamicInsights推出的名為“智慧足跡”的商業(yè)服務(wù)
.中國聯(lián)通的“移動(dòng)通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)”

大數(shù)據(jù)建模與分析挖掘培訓(xùn)內(nèi)容
內(nèi)容提要授課詳細(xì)內(nèi)容實(shí)踐訓(xùn)練
業(yè)界主流的數(shù)據(jù)倉庫工具和大數(shù)據(jù)分析挖掘工具
1.業(yè)界主流的基于Hadoop和Spark的大數(shù)據(jù)分析挖掘項(xiàng)目解決方案
2.業(yè)界數(shù)據(jù)倉庫與數(shù)據(jù)分析挖掘平臺(tái)軟件工具
3.Hadoop數(shù)據(jù)倉庫工具Hive
4.Spark實(shí)時(shí)數(shù)據(jù)倉庫工具SparkSQL
5.Hadoop數(shù)據(jù)分析挖掘工具M(jìn)ahout
6.Spark機(jī)器學(xué)習(xí)與數(shù)據(jù)分析挖掘工具M(jìn)Llib
7.大數(shù)據(jù)分析挖掘項(xiàng)目的實(shí)施步驟配置數(shù)據(jù)倉庫工具HadoopHive和SparkSQL部署數(shù)據(jù)分析挖掘工具HadoopMahout和SparkMLlib

大數(shù)據(jù)分析挖掘項(xiàng)目的數(shù)據(jù)集成操作訓(xùn)練
1.日志數(shù)據(jù)解析和導(dǎo)入導(dǎo)出到數(shù)據(jù)倉庫的操作訓(xùn)練
2.從原始搜索數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理后形成規(guī)范的數(shù)據(jù)倉庫
3.數(shù)據(jù)分析挖掘模塊從大型的集中式數(shù)據(jù)倉庫中訪問數(shù)據(jù),一個(gè)數(shù)據(jù)倉庫面向一個(gè)主題,構(gòu)建兩個(gè)數(shù)據(jù)倉庫
4.同一個(gè)數(shù)據(jù)倉庫中的事實(shí)表數(shù)據(jù),可以給多個(gè)不同類型的分析挖掘任務(wù)調(diào)用
5.去除噪聲項(xiàng)目數(shù)據(jù)集加載ETL到HadoopHive數(shù)據(jù)倉庫并建立多維模型基于Hadoop的大型數(shù)據(jù)倉庫管理平臺(tái)—HIVE數(shù)據(jù)倉庫集群的多維分析建模應(yīng)用實(shí)踐
6.基于Hadoop的大型分布式數(shù)據(jù)倉庫在行業(yè)中的數(shù)據(jù)倉庫應(yīng)用案例
7.Hive數(shù)據(jù)倉庫集群的平臺(tái)體系結(jié)構(gòu)、核心技術(shù)剖析
8.HiveServer的工作原理、機(jī)制與應(yīng)用
9.Hive數(shù)據(jù)倉庫集群的安裝部署與配置優(yōu)化
10.Hive應(yīng)用開發(fā)技巧

11.HiveSQL剖析與應(yīng)用實(shí)踐
12.Hive數(shù)據(jù)倉庫表與表分區(qū)、表操作、數(shù)據(jù)導(dǎo)入導(dǎo)出、客戶端操作技巧
13.Hive數(shù)據(jù)倉庫報(bào)表設(shè)計(jì)
14.將原始的日志數(shù)據(jù)集,經(jīng)過整理后,加載至Hadoop+Hive數(shù)據(jù)倉庫集群中,用于共享訪問利用HIVE構(gòu)建大型數(shù)據(jù)倉庫項(xiàng)目的操作訓(xùn)練實(shí)踐
Spark大數(shù)據(jù)分析挖掘平臺(tái)實(shí)踐操作訓(xùn)練
15.Spark大數(shù)據(jù)分析挖掘平臺(tái)的部署配置
16.Spark數(shù)據(jù)分析庫MLlib的開發(fā)部署
17.Spark數(shù)據(jù)分析挖掘示例操作,從Hive表中讀取數(shù)據(jù)并在分布式內(nèi)存中運(yùn)行
聚類分析建模與挖掘算法的實(shí)現(xiàn)原理和技術(shù)應(yīng)用

18.聚類分析建模與算法原理及其在SparkMLlib中的實(shí)現(xiàn)與應(yīng)用,包括:a)Canopy聚類(canopyclustering)b)K均值算法(K-meansclustering)c)模糊K均值(FuzzyK-meansclustering)d)EM聚類,即期望*化聚類(ExpectationMaximization)e)以上算法在SparkMLib中的實(shí)現(xiàn)原理和實(shí)際場(chǎng)景中的應(yīng)用案例。
19.Spark聚類分析算法程序示例基于SparkMLlib的聚類分析算法,實(shí)現(xiàn)日志數(shù)據(jù)集中的用戶聚類
分類分析建模與挖掘算法的實(shí)現(xiàn)原理和技術(shù)應(yīng)用
20.分類分析建模與算法原理及其在SparkMLlib中的實(shí)現(xiàn)與應(yīng)用,包括:f)Spark決策樹算法實(shí)現(xiàn)g)邏輯回歸算法(logisticsregression)h)貝葉斯算法(Bayesian與Cbeyes)i)支持向量機(jī)(Supportvectormachine)j)以上算法在SparkMLlib中的實(shí)現(xiàn)原理和實(shí)際場(chǎng)景中的應(yīng)用案例。

21.Spark客戶資料分析與給用戶貼標(biāo)簽的程序示例
22.Spark實(shí)現(xiàn)給商品貼標(biāo)簽的程序示例
23.Spark實(shí)現(xiàn)用戶行為的自動(dòng)標(biāo)簽和深度技術(shù)基于SparkMLlib的分類分析算法模型與應(yīng)用操作
關(guān)聯(lián)分析建模與挖掘算法的實(shí)現(xiàn)原理和技術(shù)應(yīng)用
24.預(yù)測(cè)、推薦分析建模與算法原理及其在SparkMLlib中的實(shí)現(xiàn)與應(yīng)用,包括:k)Spark頻繁模式挖掘算法(parallelFPGrowthAlgorithm)應(yīng)用l)Spark關(guān)聯(lián)規(guī)則挖掘(Apriori)算法及其應(yīng)用m)以上算法在SparkMLib中的實(shí)現(xiàn)原理和實(shí)際場(chǎng)景中的應(yīng)用案例。
25.Spark關(guān)聯(lián)分析程序示例基于SparkMLlib的關(guān)聯(lián)分析操作
推薦分析挖掘模型與算法技術(shù)應(yīng)用

26.推薦算法原理及其在SparkMLlib中的實(shí)現(xiàn)與應(yīng)用,包括:a)Spark協(xié)同過濾算法程序示例b)Item-based協(xié)同過濾與推薦c)User-based協(xié)同過濾與推薦d)交叉銷售推薦模型及其實(shí)現(xiàn)推薦分析實(shí)現(xiàn)步驟與操作(重點(diǎn))
回歸分析模型與預(yù)測(cè)算法
27.利用線性回歸(多元回歸)實(shí)現(xiàn)訪問量預(yù)測(cè)
28.利用非線性回歸預(yù)測(cè)成交量和訪問量的關(guān)系
29.基于R+Spark實(shí)現(xiàn)回歸分析模型及其應(yīng)用操作
30.Spark回歸程序?qū)崿F(xiàn)異常點(diǎn)檢測(cè)的程序示例回歸分析預(yù)測(cè)操作例子
圖關(guān)系建模與分析挖掘及其鏈接分析和社交分析操作

31.利用SparkGraphX實(shí)現(xiàn)網(wǎng)頁鏈接分析,計(jì)算網(wǎng)頁重要性排名
32.實(shí)現(xiàn)信息傳播的社交關(guān)系傳遞分析,互聯(lián)網(wǎng)用戶的行為關(guān)系分析任務(wù)的操作訓(xùn)練圖數(shù)據(jù)的分析挖掘操作,實(shí)現(xiàn)微博數(shù)據(jù)集的社交網(wǎng)絡(luò)建模與關(guān)系分析
神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)算法模型及其應(yīng)用實(shí)踐
33.神經(jīng)網(wǎng)絡(luò)算法NeuralNetwork的實(shí)現(xiàn)方法和挖掘模型應(yīng)用
34.基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的訓(xùn)練過程a)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法b)DeepLearning的訓(xùn)練方法
35.深度學(xué)習(xí)的常用模型和方法a)CNN(ConvolutionalNeuralNetwork)卷積神經(jīng)網(wǎng)絡(luò)b)RNN(RecurrentNeuralNetwork)循環(huán)神經(jīng)網(wǎng)絡(luò)模型c)RestrictedBoltzmannMachine(RBM)限制波爾茲曼機(jī)
36.基于Spark的深度學(xué)習(xí)算法模型庫的應(yīng)用程序示例基于Spark或TensorFlow神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)庫實(shí)現(xiàn)文本與圖片數(shù)據(jù)挖掘
項(xiàng)目實(shí)踐

37.日志分析系統(tǒng)與日志挖掘項(xiàng)目實(shí)踐a)Hadoop,Spark,ELK技術(shù)構(gòu)建日志數(shù)據(jù)倉庫b)互聯(lián)網(wǎng)微博日志分析系統(tǒng)項(xiàng)目
38.推薦系統(tǒng)項(xiàng)目實(shí)踐a)電影數(shù)據(jù)分析與個(gè)性化推薦關(guān)聯(lián)分析項(xiàng)目項(xiàng)目數(shù)據(jù)集和詳細(xì)的實(shí)驗(yàn)指導(dǎo)手冊(cè)由講師提供培訓(xùn)總結(jié)
39.項(xiàng)目方案的課堂討論,討論實(shí)際業(yè)務(wù)中的分析需求,剖析各個(gè)環(huán)節(jié)的難點(diǎn)、痛點(diǎn)、瓶頸,啟發(fā)出解決之道;完成講師布置的項(xiàng)目案例,鞏固學(xué)過的大數(shù)據(jù)分析挖掘處理平臺(tái)技術(shù)知識(shí)以及應(yīng)用技能討論交流

Python機(jī)器學(xué)習(xí)培訓(xùn)內(nèi)容
模塊一機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)1-數(shù)學(xué)分析

1.機(jī)器學(xué)習(xí)的一般方法和橫向比較
2.數(shù)學(xué)是有用的:以SVD為例
3.機(jī)器學(xué)習(xí)的角度看數(shù)學(xué)
4.復(fù)習(xí)數(shù)學(xué)分析
5.直觀解釋常數(shù)e
6.導(dǎo)數(shù)/梯度
7.隨機(jī)梯度下降
8.Taylor展式的落地應(yīng)用
9.gini系數(shù)
10.凸函數(shù)
11.Jensen不等式
12.組合數(shù)與信息熵的關(guān)系

模塊二:機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)2-概率論與貝葉斯先驗(yàn)
1.概率論基礎(chǔ)
2.古典概型
3.貝葉斯公式
4.先驗(yàn)分布/后驗(yàn)分布/共軛分布
5.常見概率分布
6.泊松分布和指數(shù)分布的物理意義
7.協(xié)方差(矩陣)和相關(guān)系數(shù)
8.獨(dú)立和不相關(guān)
9.大數(shù)定律和中心極限定理的實(shí)踐意義
10.深刻理解*似然估計(jì)MLE和*后驗(yàn)估計(jì)MAP
11.過擬合的數(shù)學(xué)原理與解決方案

模塊三:機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)3-矩陣和線性代數(shù)
1.線性代數(shù)在數(shù)學(xué)科學(xué)中的地位
2.馬爾科夫模型
3.矩陣乘法的直觀表達(dá)
4.狀態(tài)轉(zhuǎn)移矩陣
5.矩陣和向量組
6.特征向量的思考和實(shí)踐計(jì)算
7.QR分解
8.對(duì)稱陣、正交陣、正定陣
9.數(shù)據(jù)白化及其應(yīng)用
10.向量對(duì)向量求導(dǎo)
11.標(biāo)量對(duì)向量求導(dǎo)
12.標(biāo)量對(duì)矩陣求導(dǎo)工作機(jī)制

模塊四:Python基礎(chǔ)1-Python及其數(shù)學(xué)庫
1.解釋器Python2.7與IDE:Anaconda/Pycharm
2.Python基礎(chǔ):列表/元組/字典/類/文件
3.Taylor展式的代碼實(shí)現(xiàn)
4.numpy/scipy/matplotlib/panda的介紹和典型使用
5.多元高斯分布
6.泊松分布、冪律分布
7.典型圖像處理
8.蝴蝶效應(yīng)
9.分形與可視化

模塊五:Python基礎(chǔ)2-機(jī)器學(xué)習(xí)庫
1.scikit-learn的介紹和典型使用
2.損失函數(shù)的繪制
3.多種數(shù)學(xué)曲線
4.多項(xiàng)式擬合
5.快速傅里葉變換FFT
6.奇異值分解SVD
7.Soble/Prewitt/Laplacian算子與卷積網(wǎng)絡(luò)
8.卷積與(指數(shù))移動(dòng)平均線
9.股票數(shù)據(jù)分析

模塊六:Python基礎(chǔ)3-數(shù)據(jù)清洗和特征選擇
1.實(shí)際生產(chǎn)問題中算法和特征的關(guān)系
2.股票數(shù)據(jù)的特征提取和應(yīng)用
3.一致性檢驗(yàn)
4.缺失數(shù)據(jù)的處理
5.環(huán)境數(shù)據(jù)異常檢測(cè)和分析
6.模糊數(shù)據(jù)查詢和數(shù)據(jù)校正方法、算法、應(yīng)用
7.樸素貝葉斯用于鳶尾花數(shù)據(jù)
8.GaussianNB/MultinomialNB/BernoulliNB
9.樸素貝葉斯用于18000+篇/Sogou新聞文本的分類

模塊七:回歸
1.線性回歸
2.Logistic/Softmax回歸
3.廣義線性回歸
4.L1/L2正則化
5.Ridge與LASSO
6.ElasticNet
7.梯度下降算法:BGD與SGD
8.特征選擇與過擬合

模塊八:Logistic回歸
1.Sigmoid函數(shù)的直觀解釋
2.Softmax回歸的概念源頭
3.Logistic/Softmax回歸
4.*熵模型
5.K-L散度
6.損失函數(shù)
7.Softmax回歸的實(shí)現(xiàn)與調(diào)參

模塊九:回歸實(shí)踐
1.機(jī)器學(xué)習(xí)sklearn庫介紹
2.線性回歸代碼實(shí)現(xiàn)和調(diào)參
3.Softmax回歸代碼實(shí)現(xiàn)和調(diào)參
4.Ridge回歸/LASSO/ElasticNet
5.Logistic/Softmax回歸
6.廣告投入與銷售額回歸分析
7.鳶尾花數(shù)據(jù)集的分類
8.交叉驗(yàn)證
9.數(shù)據(jù)可視化

模塊十:決策樹和隨機(jī)森林
1.熵、聯(lián)合熵、條件熵、KL散度、互信息
2.*似然估計(jì)與*熵模型
3.ID3、C4.5、CART詳解
4.決策樹的正則化
5.預(yù)剪枝和后剪枝
6.Bagging
7.隨機(jī)森林
8.不平衡數(shù)據(jù)集的處理
9.利用隨機(jī)森林做特征選擇
10.使用隨機(jī)森林計(jì)算樣本相似度
11.數(shù)據(jù)異常值檢測(cè)

模塊十一:隨機(jī)森林實(shí)踐
1.隨機(jī)森林與特征選擇
2.決策樹應(yīng)用于回歸
3.多標(biāo)記的決策樹回歸
4.決策樹和隨機(jī)森林的可視化
5.葡萄酒數(shù)據(jù)集的決策樹/隨機(jī)森林分類
6.波士頓房價(jià)預(yù)測(cè)

模塊十二:提升
1.提升為什么有效
2.梯度提升決策樹GBDT
3.XGBoost算法詳解
4.Adaboost算法
5.加法模型與指數(shù)損失

模塊十三:提升實(shí)踐
1.Adaboost用于蘑菇數(shù)據(jù)分類
2.Adaboost與隨機(jī)森林的比較
3.XGBoost庫介紹
4.Taylor展式與學(xué)習(xí)算法
5.KAGGLE簡介
6.泰坦尼克乘客存活率估計(jì)

模塊十四SVM
1.線性可分支持向量機(jī)
2.軟間隔的改進(jìn)
3.損失函數(shù)的理解
4.核函數(shù)的原理和選擇
5.SMO算法
6.支持向量回歸SVR

模塊十五:SVM實(shí)踐
1.libSVM代碼庫介紹
2.原始數(shù)據(jù)和特征提取
3.葡萄酒數(shù)據(jù)分類
4.數(shù)字圖像的手寫體識(shí)別
5.SVR用于時(shí)間序列曲線預(yù)測(cè)
6.SVM、Logistic回歸、隨機(jī)森林三者的橫向比較

模塊十六:聚類(一)
1.各種相似度度量及其相互關(guān)系
2.Jaccard相似度和準(zhǔn)確率、召回率
3.Pearson相關(guān)系數(shù)與余弦相似度
4.K-means與K-Medoids及變種
5.AP算法(Sci07)/LPA算法及其應(yīng)用

模塊十七:聚類(二)
1.密度聚類DBSCAN/DensityPeak(Sci14)
2.DensityPeak(Sci14)
3.譜聚類SC
4.聚類評(píng)價(jià)AMI/ARI/Silhouette
5.LPA算法及其應(yīng)用

模塊十八:聚類實(shí)踐
1.K-Means++算法原理和實(shí)現(xiàn)
2.向量量化VQ及圖像近似
3.并查集的實(shí)踐應(yīng)用
4.密度聚類的代碼實(shí)現(xiàn)
5.譜聚類用于圖片分割

模塊十九:EM算法
1.*似然估計(jì)
2.Jensen不等式
3.樸素理解EM算法
4.*推導(dǎo)EM算法
5.EM算法的深入理解
6.混合高斯分布
7.主題模型pLSA

模塊二十:EM算法實(shí)踐
1.多元高斯分布的EM實(shí)現(xiàn)
2.分類結(jié)果的數(shù)據(jù)可視化
3.EM與聚類的比較
4.Dirichlet過程EM
5.三維及等高線等圖件的繪制
6.主題模型pLSA與EM算法

模塊二十一:主題模型LDA
1.貝葉斯學(xué)派的模型認(rèn)識(shí)
2.Beta分布與二項(xiàng)分布
3.共軛先驗(yàn)分布
4.Dirichlet分布
5.Laplace平滑
6.Gibbs采樣詳解

模塊二十二LDA實(shí)踐
1.網(wǎng)絡(luò)爬蟲的原理和代碼實(shí)現(xiàn)
2.停止詞和高頻詞
3.動(dòng)手自己實(shí)現(xiàn)LDA
4.LDA開源包的使用和過程分析
5.Metropolis-Hastings算法
6.MCMC
7.LDA與word2vec的比較
8.TextRank算法與實(shí)踐

模塊二十三:隱馬爾科夫模型HMM
1.概率計(jì)算問題
2.前向/后向算法
3.HMM的參數(shù)學(xué)習(xí)
4.Baum-Welch算法詳解
5.Viterbi算法詳解
6.隱馬爾科夫模型的應(yīng)用優(yōu)劣比較

模塊二十四:HMM實(shí)踐
1.動(dòng)手自己實(shí)現(xiàn)HMM用于中文分詞
2.多個(gè)語言分詞開源包的使用和過程分析
3.文件數(shù)據(jù)格式UFT-8、Unicode
4.停止詞和標(biāo)點(diǎn)符號(hào)對(duì)分詞的影響
5.前向后向算法計(jì)算概率溢出的解決方案
6.發(fā)現(xiàn)新詞和分詞效果分析
7.高斯混合模型HMM
8.GMM-HMM用于股票數(shù)據(jù)特征提取

模塊二十五:課堂提問與互動(dòng)討論

五、師資介紹
張老師:阿里大數(shù)據(jù)高級(jí)專家,國內(nèi)資深的Spark、Hadoop技術(shù)專家、虛擬化專家,對(duì)HDFS、MapReduce、Hbase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術(shù)進(jìn)行了多年的深入的研究,更主要的是這些技術(shù)在大量的實(shí)際項(xiàng)目中得到廣泛的應(yīng)用,因此在Hadoop開發(fā)和運(yùn)維方面積累了豐富的項(xiàng)目實(shí)施經(jīng)驗(yàn)。近年主要典型的項(xiàng)目有:某電信集團(tuán)網(wǎng)絡(luò)優(yōu)化、中國移動(dòng)某省移動(dòng)公司請(qǐng)賬單系統(tǒng)和某省移動(dòng)詳單實(shí)時(shí)查詢系統(tǒng)、中國銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺(tái)、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運(yùn)營商全國用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項(xiàng)目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(WebGameDaas)平臺(tái)項(xiàng)目等。

六、頒發(fā)證書
參加相關(guān)培訓(xùn)并通過考試的學(xué)員,可以獲得:
工業(yè)和信息化部頒發(fā)的-《大數(shù)據(jù)工程師證書》。該證書可作為專業(yè)技術(shù)人員職業(yè)能力考核的證明,以及專業(yè)技術(shù)人員崗位聘用、任職、定級(jí)和晉升職務(wù)的重要依據(jù)。注:請(qǐng)學(xué)員帶一寸彩照2張(背面注明姓名)、身份證復(fù)印件一張。

全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資培訓(xùn)


轉(zhuǎn)載:http://santuchuan.cn/gkk_detail/65318.html

已開課時(shí)間Have start time

在線報(bào)名Online registration

    參加課程:0000關(guān)于舉辦“全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資 ”培訓(xùn)班的通知

    單位名稱:

  • 參加日期:
  • 聯(lián)系人:
  • 手機(jī)號(hào)碼:
  • 座機(jī)電話:
  • QQ或微信:
  • 參加人數(shù):
  • 開票信息:
  • 輸入驗(yàn)證:  看不清楚?點(diǎn)擊驗(yàn)證碼刷新
付款信息:
開戶名:上海投智企業(yè)管理咨詢有限公司
開戶行:中國銀行股份有限公司上海市長壽支行
帳號(hào):454 665 731 584