課程描述INTRODUCTION
· 高層管理者· 中層領(lǐng)導(dǎo)· 其他人員
日程安排SCHEDULE
課程大綱Syllabus
數(shù)據(jù)挖掘處理課程
一、數(shù)據(jù)挖掘?qū)д?br />
數(shù)據(jù)挖掘的基本任務(wù)與步驟:目標(biāo)、數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、建模、模型評價
有監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)算法模型
Sklean 數(shù)據(jù)挖掘和機器學(xué)習(xí)算法庫介紹
大數(shù)據(jù)建模常見問題
問題引出:客戶行為分析-用戶用電異常的識別
二、Python 編程快速入門
Python 編程環(huán)境與語法快速入門
基礎(chǔ)數(shù)據(jù)結(jié)構(gòu):字符串處理及應(yīng)用
數(shù)據(jù)結(jié)構(gòu):列表、元組、集合、字典
Python 控制流:IF 與 while、for 循環(huán)
函數(shù)與模塊定義
Python 文件讀寫
Python 面向?qū)ο缶幊趟枷?br />
Python 異常處理
實驗:
—— 讀寫 CSV 文件
—— 處理 Excel 文件
三、Python 數(shù)據(jù)分析進階
Python 并行編程:多線程與多進程實現(xiàn)
—— 進程與線程概念
—— 進程同步機制
—— 多進程實現(xiàn)
—— 多線程實現(xiàn)
輕松訪問數(shù)據(jù)庫
—— 連接訪問 Sqlite
—— 操縱 MySQL
—— Python 的對象關(guān)系映射模型
實驗:
—— 多進程讀取超大文件
—— SQLite 讀寫練習(xí)南京?杭州?上海
四、Scikit-learn 數(shù)據(jù)預(yù)處理實踐
數(shù)據(jù)統(tǒng)計量:期望/方差/偏度/峰度
協(xié)方差和相關(guān)系數(shù)、方差與標(biāo)準(zhǔn)差
數(shù)據(jù)描述:集中趨勢、離散程度、分位數(shù)
數(shù)據(jù)可視化:直方圖、盒圖、散點圖
數(shù)據(jù)預(yù)處理基本方法
數(shù)據(jù)歸一化方法
對數(shù)據(jù)進行降維,主成分分析 PCA
實驗:
—— 利用隨機森林做特征篩選
—— 數(shù)據(jù)預(yù)處理:歸一化、缺失值處理
—— 降維 PCA 實現(xiàn)
—— 找出較好的特征組合:PCA 與 LDA 效果對比
—— 隨機森林評估特征重要性
五、Python 數(shù)據(jù)分析進階
高性能矩陣計算工具 Numpy:
—— Numpy 數(shù)組與元素索引
—— 矩陣計算
—— 通用函數(shù)、計算統(tǒng)計量
以表格處理數(shù)據(jù)——高級數(shù)據(jù)分析包
—— Pandas:數(shù)據(jù)框架 Dataframe
—— 快速索引數(shù)據(jù)
—— 常用函數(shù)
—— 快速可視化分析
—— 匯總與統(tǒng)計
實驗:基于 Pandas 的數(shù)據(jù)預(yù)處理
六、數(shù)據(jù)可視化分析
Matplotlib 繪圖庫介紹
快速繪圖
常見繪圖函數(shù):散點圖、柱狀圖、盒圖
圖片處理
三維繪圖演示
Pandas 快速繪圖南京?杭州?上海
實驗:
—— 繪制常見統(tǒng)計圖
—— 利用 Pandas 獲取數(shù)據(jù)并繪圖
七、Scikit-Learn 數(shù)據(jù)挖掘?qū)嵺`
數(shù)值預(yù)測:Logistic/Softmax 回歸/隨機森林
梯度下降算法:BGD 與 SGD 介紹
Sklean 決策樹算法實現(xiàn): ID3、C4.5、CART 決策樹算法
用 Bagging 改善分類性能
隨機森林方法
決策樹用于分析挖掘的建模實現(xiàn)和決策樹的評估
Sklean 決策樹算法應(yīng)用編程
實驗:
—— 用隨機森林預(yù)測數(shù)值
—— 決策樹編程演示
—— 決策樹分析客戶數(shù)據(jù)
八、 Scikit-Learn 數(shù)據(jù)挖掘?qū)嵺`
支持向量機 SVM
線性可分軟間隔 SVM
損失函數(shù)的理解
支持向量回歸 SVR
不平衡數(shù)據(jù)集的處理
分類器性能評價
支持向量機的參數(shù)調(diào)優(yōu)
分類器性能評價
實驗:
—— 銀行信貸客戶分類
—— Grid 法調(diào)參
—— 不平衡分布對性能的影響
—— 交叉驗證
—— 多分類器性能比較:ROC 曲線
—— 問題討論:用電異常行為識別
九、無監(jiān)督學(xué)習(xí):Scikit-Learn 聚類分析
Jaccard 相似度
Pearson 相關(guān)系數(shù)與余弦相似度南京?杭州?上海
層次聚類
K-means 聚類
半監(jiān)督 AP 聚類算法及其應(yīng)用
密度聚類 DBSCAN
聚類評價和結(jié)果指標(biāo)
實驗:
—— K-Means 算法原理和實現(xiàn)
—— 密度聚類
—— 比較不同的聚類算法
—— 問題討論:客戶分級
十、神經(jīng)網(wǎng)絡(luò)實踐
神經(jīng)網(wǎng)絡(luò)基本原理
淺層神經(jīng)網(wǎng)絡(luò)與深層網(wǎng)絡(luò)分析
神經(jīng)網(wǎng)絡(luò)用于數(shù)值預(yù)測
神經(jīng)網(wǎng)絡(luò)用于分類
Scikit-Learn 神經(jīng)網(wǎng)絡(luò)實現(xiàn)
案例分享:阿里云天池賽電力 AI:預(yù)測用電量
十一、Python 數(shù)據(jù)挖掘項目實踐
根據(jù)客戶數(shù)據(jù)集特點,完成數(shù)據(jù)的預(yù)處理、特征篩選
客戶流失問題建模與分類
客戶分級建模
解決方案討論
大數(shù)據(jù)挖掘技術(shù)的發(fā)展
案例分享:用戶畫像
需新增重點內(nèi)容:
基于阿里MAXCOMPUTE的相關(guān)PYTHON函數(shù)學(xué)習(xí)
多增加PYTHON機器學(xué)習(xí)的實驗課
大數(shù)據(jù)應(yīng)用解決實踐方法及案例
數(shù)據(jù)挖掘處理課程
轉(zhuǎn)載:http://santuchuan.cn/gkk_detail/273039.html
已開課時間Have start time
- 尹傳亮
大數(shù)據(jù)營銷內(nèi)訓(xùn)
- 《大數(shù)據(jù)精益化營銷思維與運 喻國慶
- 《銀行--網(wǎng)絡(luò)消費行為與網(wǎng) 武建偉
- 《流量神器,銷量升級:如何 武建偉
- 數(shù)據(jù)驅(qū)動價值 ——基于Ex 張曉如
- 建材門店--微信獲客與運營 武建偉
- 能源電力企業(yè)數(shù)字化轉(zhuǎn)型探索 李開東
- 數(shù)據(jù)創(chuàng)造價值——大數(shù)據(jù)分析 張曉如
- 《精細運營——京東/天貓平 武建偉
- 大數(shù)據(jù)提升:用戶體驗提升與 武建偉
- 大數(shù)據(jù)項目解決方案及應(yīng)用 胡國慶
- 《大數(shù)據(jù)分析與客戶開發(fā)》 喻國慶
- 互聯(lián)網(wǎng)大數(shù)據(jù)分析管理 孫平