課程描述INTRODUCTION
· 高層管理者· 中層領(lǐng)導(dǎo)· 其他人員
日程安排SCHEDULE
課程大綱Syllabus
業(yè)務(wù)數(shù)據(jù)分析師
培訓(xùn)背景
「CDA 數(shù)據(jù)分析師人才行業(yè)標(biāo)準(zhǔn)」是面向全行業(yè)數(shù)據(jù)分析及大數(shù)據(jù)相關(guān)崗位的一套科
學(xué)化、專業(yè)化、正規(guī)化、系統(tǒng)化的人才技能準(zhǔn)則。CDA數(shù)據(jù)分析師認(rèn)證考試是評判「標(biāo)準(zhǔn)化人才」的*考核路徑。CDA考試大綱規(guī)定并明確了數(shù)據(jù)分析師認(rèn)證考試的具體范圍、內(nèi)容和知識點,考生可按照大綱要求進(jìn)行相關(guān)知識的學(xué)習(xí),獲取技能,成為專業(yè)人才。
知識要求
針對不同知識,掌握程度的要求分為【領(lǐng)會】、【熟知】、【應(yīng)用】三個級別,考生應(yīng)按照
不同知識要求進(jìn)行學(xué)習(xí)。
1.領(lǐng)會:考生能夠領(lǐng)會了解規(guī)定的知識點,并能夠了解規(guī)定知識點的內(nèi)涵與外延,了
解其內(nèi)容要點和它們之間的區(qū)別與聯(lián)系,并能做出正確的闡述、解釋和說明。
2.熟知:考生須掌握知識的要點,并能夠正確理解和記憶相關(guān)理論方法,能夠根據(jù)不
同要求,做出邏輯嚴(yán)密的解釋、說明和闡述。此部分為考試的重點部分。
3.應(yīng)用:考生須學(xué)會將知識點落地實踐,并能夠結(jié)合相關(guān)工具進(jìn)行商業(yè)應(yīng)用,能夠根
據(jù)具體要求,給出問題的具體實施流程和策略。
考試范圍
PART 1 數(shù)據(jù)分析概念與統(tǒng)計學(xué)基礎(chǔ) (占比 30%)
a. 數(shù)據(jù)分析概念、方法論、流程(占比 5%)
b. 描述性統(tǒng)計分析(占比 12%)
c. 推斷性統(tǒng)計分析(占比 8%)
d. 方差分析(占比 2%)
e. 一元線性回歸分析(占比 3%)
PART 2 SQL 數(shù)據(jù)庫基礎(chǔ) (占比 15%)
a. SQL 及關(guān)系型數(shù)據(jù)庫基本概念(占比 1%)
b. SQL 數(shù)據(jù)類型、運算符、函數(shù)(占比 3%)
c. SQL 查詢語句(占比 5%)
d. SQL 連接語句(占比 5%)
e. SQL 其它語句(占比 1%)
PART 3 數(shù)據(jù)采集與處理 (占比 15%)
a. 數(shù)據(jù)采集方法(占比 5%)
b. 市場調(diào)研(占比 2%)
c. 數(shù)據(jù)預(yù)處理方法(占比 8%)
PART 4 數(shù)據(jù)建模分析 (占比 40%)
a. 主成分分析法(占比 4%)、因子分析法(占比 2%)
b. 系統(tǒng)聚類法(占比 2%)、K-Means 聚類法(占比 3%)
c. 對應(yīng)分析(占比 2%)、多維尺度分析(占比 2%)
d. 多元回歸分析法
多元線性回歸(占比 10%)
邏輯回歸(占比 10%)
e. 時間序列(占比 5%).
考試形式與試卷結(jié)構(gòu)
考試方式:VUE線上考試,隨約隨考
考試題型:客觀題(單選+多選)
考試時間:120 分鐘
考試成績:分為 A、B、C、D 四個層次,A、B、C 為通過考試,D 為不通過.
注:考試未通過者可進(jìn)行一次補考,補考費用為六折優(yōu)惠。每個等級科目補考各限一次。
課程大綱
PART 1
數(shù)據(jù)分析概念與統(tǒng)計學(xué)基礎(chǔ)
1、數(shù)據(jù)分析概述
【領(lǐng)會】
數(shù)據(jù)分析和數(shù)據(jù)挖掘的概念
強調(diào)商業(yè)數(shù)據(jù)分析中對業(yè)務(wù)的理解
商業(yè)數(shù)據(jù)分析和預(yù)測的本質(zhì)
數(shù)據(jù)分析的8個層次
大數(shù)據(jù)對傳統(tǒng)小數(shù)據(jù)分析的拓展
【熟知】
明確數(shù)據(jù)分析目標(biāo)及意義
數(shù)據(jù)分析的過程
數(shù)據(jù)分析與數(shù)據(jù)挖掘的常用方法
CRISP-DM、SEMMA 方法論
數(shù)據(jù)分析中不同人員的角色與職責(zé)
2、描述性統(tǒng)計分析
【領(lǐng)會】
數(shù)據(jù)的計量尺度
數(shù)據(jù)的集中趨勢、離中趨勢和數(shù)據(jù)分布的概念
統(tǒng)計圖的概念
各種統(tǒng)計圖的含義和畫法
【熟知】
衡量數(shù)據(jù)集中趨勢、離中趨勢和數(shù)據(jù)分布的常用指標(biāo)及計算方法統(tǒng)計圖形的繪制、圖形元素的調(diào)整、可視化效果,主要涉及條形圖、線圖、直方圖、盒須圖、散點圖、氣泡圖、馬賽克圖、玫瑰圖及其多種圖形整合。明確統(tǒng)計圖形對統(tǒng)計指標(biāo)表達(dá)上的對應(yīng)關(guān)系
【應(yīng)用】
根據(jù)不同數(shù)據(jù)類型選用不同的統(tǒng)計指標(biāo)來進(jìn)行數(shù)據(jù)的集中趨勢、離中趨勢和數(shù)據(jù)分布的衡量,不同統(tǒng)計圖的使用場景。會寫數(shù)據(jù)分析報告和結(jié)合業(yè)務(wù)需求對報告進(jìn)行合理解釋,對業(yè)務(wù)?出建設(shè)性意見建議。
3、抽樣估計
【領(lǐng)會】
隨機試驗、隨機事件、隨機變量的概念
總體與樣本的概念
抽樣估計的理論基礎(chǔ)
正態(tài)分布及三大分布的函數(shù)形式和圖像形式
抽樣的多種組織形式
確定必要樣本容量的原因
【熟知】
隨機事件的概率
抽樣平均誤差的概念與數(shù)學(xué)性質(zhì)
點估計與區(qū)間估計方法的特點與優(yōu)缺點
全體總體與樣本總體
參數(shù)和統(tǒng)計量
重復(fù)抽樣與不重復(fù)抽樣
抽樣誤差的概念對總體平均數(shù)和總體成數(shù)的區(qū)間估計方法
必要樣本容量的影響因素
中心極限定理的意義與應(yīng)用
【應(yīng)用】
隨機變量及其概率分布
全部可能的樣本單位數(shù)目的概念及其在不同抽樣方法下的確定
抽樣平均誤差在實際數(shù)據(jù)分析中的計算方法
4、假設(shè)檢驗
【領(lǐng)會】
假設(shè)檢驗的基本概念
其基本思想在數(shù)據(jù)分析中的作用
假設(shè)檢驗的基本步驟
假設(shè)檢驗與區(qū)間估計的聯(lián)系
假設(shè)檢驗中的兩類錯誤
【熟知】
P值的含義及計算
如何利用P值進(jìn)行檢驗
z檢驗統(tǒng)計量
t檢驗統(tǒng)計量
F檢驗統(tǒng)計量
c2檢驗統(tǒng)計量的函數(shù)形式和檢驗步驟
【應(yīng)用】
實現(xiàn)單樣本t檢驗
兩獨立樣本t檢驗的步驟和檢驗中使用的統(tǒng)計量與原假設(shè)
兩種檢驗應(yīng)用的數(shù)據(jù)分析場景。
5、方差分析
【領(lǐng)會】
方差分析的相關(guān)概念
單因素方差分析的原理
統(tǒng)計量構(gòu)造過程
【熟知】
單因素方差分析的基本步驟
總離差平方和(SST)的含義及計算
組間離差平方和(SSA)的含義及計算
組內(nèi)離差平方和(SSE)的含義及計算
單因素方差分析的原假設(shè)
【應(yīng)用】
實現(xiàn)單因素方差分析的步驟
對方差分析表的分析以及多重比較表的分析
6、簡單線性回歸分析
【領(lǐng)會】
相關(guān)圖的繪制與作用
相關(guān)表的編制與作用
相關(guān)系數(shù)定義公式的字母含義
估計標(biāo)準(zhǔn)誤差與相關(guān)系數(shù)的關(guān)系
【熟知】
相關(guān)關(guān)系的概念與特點
相關(guān)關(guān)系與函數(shù)關(guān)系的區(qū)別與聯(lián)系
相關(guān)關(guān)系的種類
相關(guān)系數(shù)的意義以及利用相關(guān)系數(shù)的具體數(shù)值對現(xiàn)象相關(guān)等級的劃分
回歸分析的概念
回歸分析的主要內(nèi)容和特點
建立一元線性回歸方程的條件
應(yīng)用回歸分析應(yīng)注意的問題
估計標(biāo)準(zhǔn)誤差的意義及計算
【應(yīng)用】
運用簡捷法公式計算相關(guān)系數(shù)
相關(guān)分析分析中應(yīng)注意的問題
回歸分析與相關(guān)分析的區(qū)別與聯(lián)系
PART 2
SQL數(shù)據(jù)庫基礎(chǔ)
1、SQL 基礎(chǔ)概念
【領(lǐng)會】
關(guān)系型數(shù)據(jù)庫基本概念、屬性
主鍵
外鍵
E-R 圖
ANSI-SQL 以及不同的數(shù)據(jù)庫實現(xiàn)的關(guān)系
【熟知】
邏輯運算符
比較運算符
算術(shù)運算符
通配符
2、SQL 查詢語句
【應(yīng)用】
select 語句
包括查詢單列
多列,去重,前 N 列
from 語句、where 語句、group by 語句、having 語句、order by 語句、子查詢
SQL 聚合函數(shù),包括 count、sum、avg、max、min 等
3、SQL 連接語句
【領(lǐng)會】
表的連接類型,包括內(nèi)連接(等值、不等值)、外連接(左、右、全)、交叉連接(笛卡
爾連接)
查詢的集合操作,只包括并集操作
【應(yīng)用】
inner join 的用法
left/right/full join 的用法
cross join 的用法
union 的用法
4、其它 SQL 語句
【領(lǐng)會】
表的創(chuàng)建
視圖及索引的概念及創(chuàng)建
數(shù)據(jù)插入、更新、刪除
【領(lǐng)會】
高級函數(shù),如 Oracle 或 Hive 中的 row number over partition by、正則匹配等
PART 3
數(shù)據(jù)采集與處理
1、數(shù)據(jù)采集方法
【領(lǐng)會】
一手?jǐn)?shù)據(jù)與二手?jǐn)?shù)據(jù)來源渠道
優(yōu)劣勢分析
使用注意事項
【熟知】
一手?jǐn)?shù)據(jù)采集中的概率抽樣與非概率抽樣的區(qū)別與優(yōu)缺點
【運用】
概率抽樣方法,包括簡單隨機抽樣、分層抽樣、系統(tǒng)抽樣、分段抽樣
明確每種抽樣的優(yōu)缺點
根據(jù)給定條件選擇最可行的抽樣方式
計算簡單隨機抽樣所需的樣本量
市場調(diào)研
【熟知】
市場調(diào)研的基本步驟(?出問題、調(diào)查收集材料、分析預(yù)測問題)
單選題及多項選擇題的設(shè)置
數(shù)據(jù)編碼及錄入
數(shù)據(jù)預(yù)處理方法
【熟知】
數(shù)據(jù)預(yù)處理的基本步驟,包括數(shù)據(jù)集成(不同數(shù)據(jù)源的整合)、數(shù)據(jù)探索、數(shù)據(jù)變換(標(biāo)
準(zhǔn)化)、數(shù)據(jù)歸約(維度歸約技術(shù)、數(shù)值歸約技術(shù)),這部分內(nèi)容不需要涉及計算,只需要根
據(jù)需求明確可選的處理技術(shù)即可。
【應(yīng)用】
數(shù)據(jù)清洗,包括填補遺漏的數(shù)據(jù)值(根據(jù)業(yè)務(wù)場景使用常數(shù)、中位數(shù)、眾數(shù)等方法,不
涉及多重查補的方法)、平滑有噪聲數(shù)據(jù)(移動平均)、識別或除去異常值(單變量根據(jù)中心
標(biāo)準(zhǔn)化值,多變量使用快速聚類),以及解決不一致問題(熟知概念即可),查重(只考核
SQL 的語句,不涉及 R、SAS 等其它語言)。
PART 4
數(shù)據(jù)建模分析
總體要求
領(lǐng)會模型基本原理,數(shù)值模型操作流程,懂得模型應(yīng)用場景,能夠完成數(shù)據(jù)建模分析報告。1、描述性數(shù)據(jù)分析/挖掘方法——主成分分析
【領(lǐng)會】
主成分分析的計算步驟
主成分分析中對變量自身分布和多變量之間關(guān)系的假設(shè)以及模型設(shè)置
【熟知】
適用于主成分分析的變量度量類型。通過分析結(jié)果,選取合適的保留主成分的個數(shù),注意區(qū)分兩種不同的分析目的(盡量壓縮變量、避免共線性情況下保留更多信息)保留主成分
個數(shù)的評判標(biāo)準(zhǔn)的差異。
【應(yīng)用】
在深入理解主成分的意義的基礎(chǔ)之上,在遇到業(yè)務(wù)問題時,有能力決定是否使用主成分分析方法;有能力決定何時采用相關(guān)系數(shù)計算方法和協(xié)方差矩陣計算方法;有能力解釋主成分得分的結(jié)果;根據(jù)變量分布情況進(jìn)行函數(shù)轉(zhuǎn)換。
2、描述性數(shù)據(jù)分析/挖掘方法——因子分析
【領(lǐng)會】
了解因子分析模型設(shè)置,只需要關(guān)注主成分法的計算步驟
【熟知】
適用于因子分析的變量度量類型。通過分析結(jié)果,選取合適的因子個數(shù);
知道最常用的因子旋轉(zhuǎn)的方法。
【應(yīng)用】
在遇到業(yè)務(wù)問題時,有能力決定是否使用因子分析,還是使用主成分分析方法就可以了;有能力根據(jù)原始變量在各因子上的權(quán)重明確每個因子的意義;有能力對大量變量進(jìn)行維度分析,分維度打分,并比較與專家打分(德爾菲法)的區(qū)別;在聚類前對數(shù)據(jù)進(jìn)行描述,發(fā)現(xiàn)理想的聚類方式和數(shù)量。
3、描述性數(shù)據(jù)分析/挖掘方法——聚類分析
【領(lǐng)會】
多種聚類算法的特點
【熟知】
聚類方法的基本邏輯
系統(tǒng)聚類和 K-Means 聚類的基本算法和優(yōu)缺點
系統(tǒng)聚類的計算步驟,包括兩點距離、兩類合并的計算方法
系統(tǒng)聚類法中選擇最優(yōu)聚類數(shù)量的方法
K-Means 聚類的基本算法
聚類分析變量標(biāo)準(zhǔn)化的原因和計算方法
變量需要進(jìn)行主成分分析的原因
變量進(jìn)行函數(shù)轉(zhuǎn)化的原因和計算方法
【應(yīng)用】
結(jié)合客戶畫像、客戶細(xì)分、商品聚類、離群值檢驗(欺詐、反洗錢)等業(yè)務(wù)運用場景,選取合適的聚類方法與步驟
聚類事后分析,根據(jù)聚類后變量分布情況獲取每類的特征
4、描述性數(shù)據(jù)分析/挖掘方法——對應(yīng)分析
【領(lǐng)會】
對應(yīng)分析的算法
【熟知】
適用于對應(yīng)分析的變量度量類型
對應(yīng)分析與列聯(lián)表分析、主成分分析的關(guān)系
這種方法優(yōu)缺點及如何與其它模型結(jié)合使用
【應(yīng)用】
對應(yīng)分析使用的指標(biāo)如何量化及其常見的量化方式
在客戶滿意度分析、市場績效及產(chǎn)品細(xì)分等場景下的運用
雙標(biāo)圖的可視化、解釋與意義擴展
5、描述性數(shù)據(jù)分析/挖掘方法——多維尺度分析
【領(lǐng)會】
多維尺度分析的算法。
【熟知】
適用于多維尺度分析的變量度量類型
該分析方法和主成分分析、因子分析、對應(yīng)分析的異同點,尤其是和因子分析的區(qū)別
【應(yīng)用】
多維尺度分析在客戶產(chǎn)品感知圖等方面的運用
6、預(yù)測性數(shù)據(jù)分析方法——線性回歸與模型診斷及優(yōu)化
【領(lǐng)會】
線性回歸系數(shù)的計算公式
【熟知】
明確線性回歸的 6 個經(jīng)典假設(shè)(線性模型、不存在共線性、殘差期望為 0、同方差、正態(tài)性、隨機抽樣
明確違反前 5 個假設(shè)后出現(xiàn)的問題
模型是否違反前 5 個經(jīng)典假設(shè)的檢驗方法與模型糾正的方法
變量篩選方法
離群值、指標(biāo)計算方法
明晰橫截面和時間序列數(shù)據(jù)在回歸建模上的差異
【應(yīng)用】
結(jié)合業(yè)務(wù)構(gòu)建回歸模型并且解釋回歸系數(shù)
根據(jù)業(yè)務(wù)場景與變量分布情況進(jìn)行函數(shù)轉(zhuǎn)換
解釋變量為分類變量時的處理方法
區(qū)分預(yù)測性建模與解釋性建模的關(guān)系
使用結(jié)果進(jìn)行新樣本預(yù)測
進(jìn)行客戶價值分析的基本步驟與注意事項
7、預(yù)測性數(shù)據(jù)分析方法——構(gòu)造對二分類變量的預(yù)測模型
【領(lǐng)會】
卡方檢驗計算公式
二分類邏輯回歸的計算公式
【熟知】
分類變量是否存在相關(guān)關(guān)系的描述方法和檢驗方法,涉及列聯(lián)表分析、卡方檢驗
似然比與 Logit 轉(zhuǎn)換
二分類邏輯回歸模型構(gòu)建與變量篩選
模型評估的方法,涉及混淆矩陣、ROC 曲線
【應(yīng)用】
結(jié)合業(yè)務(wù)構(gòu)建回歸模型并且解釋回歸系數(shù)
根據(jù)業(yè)務(wù)場景與變量分布情況進(jìn)行函數(shù)轉(zhuǎn)換
使用結(jié)果進(jìn)行新樣本預(yù)測
進(jìn)行客戶流失預(yù)測、信用評級、精準(zhǔn)營銷等模型的基本步驟與注意事項
8、時間序列
【領(lǐng)會】
明確趨勢分解法、ARIMA 方法、時間序列回歸方法的差異和適用場景
明確每種方法的計算方法
【熟知】
趨勢分解法,涉及乘法模型、加法模型
ARIMA 方法的具體步驟;時間序列回歸的方法
【應(yīng)用】
結(jié)合業(yè)務(wù)(業(yè)績預(yù)測、預(yù)警),選取合適的分析方法
進(jìn)行業(yè)務(wù)時間序列預(yù)測等模型的基本步驟與注意事項
業(yè)務(wù)數(shù)據(jù)分析師
轉(zhuǎn)載:http://santuchuan.cn/gkk_detail/282772.html