課程描述INTRODUCTION
自然語言處理(簡稱 NLP)是計算機科學(xué)和人工智能研究的一個重要方向,研究計算機和理解和運用人類語言進行交互的問題,它是集語言學(xué)、機器學(xué)習(xí)、統(tǒng)計學(xué)、大數(shù)據(jù)于一體的綜合學(xué)科。 本課程主要介紹了NLP中的常用知識點:分詞、詞法分析、句法分析、向量化方法、經(jīng)典的NLP機器學(xué)習(xí)算法,還重點介紹了NLP中最近兩年來基于大規(guī)模語料預(yù)訓(xùn)練的詞嵌入模型及應(yīng)用。同時本課程偏重于實戰(zhàn),不僅系統(tǒng)地介紹了 NLP的知識點,還講解如何實際應(yīng)用和開發(fā),每章節(jié)都有相應(yīng)的實戰(zhàn)代碼。
日程安排SCHEDULE
課程大綱Syllabus
NLP實戰(zhàn)
第一天:傳統(tǒng)的NLP
一、NLP基礎(chǔ)知識
1、自然語言處理簡介
2、中文NLP的主要任務(wù)
3、常見的NLP系統(tǒng)
4、NLP的研究機構(gòu)與資源
二、中文分詞
1、基于字符串匹配的分詞
2、統(tǒng)計分詞法與分詞中的消歧
3、命名實體識別
4、常用分詞工具:JIEBA
三、文本的相似性
1、VSM
2、TF-IDF
3、初步情感分析
四、隱馬爾科夫模型
1、形式化定義
2、三個問題
3、評估問題與向前向后算法
4、解碼問題:維特比算法
5、學(xué)習(xí)問題:Baum-Welch算法
五、條件隨機場
1、*熵原理
2、無向圖模型
3、*團上的勢函數(shù)
4、工具:CRF++
第二天:從傳統(tǒng)到現(xiàn)代
一、從LSA到LDA
1、LSA與SVD分解
2、pLSA
3、LDA
二、神經(jīng)網(wǎng)絡(luò)語言模型
1、維數(shù)的詛咒
2、n-gram語言模型
3、NNLM的具體實現(xiàn)
4、改進的思路
三、word2vec
1、one-hot與Distributed
2、CBOW
3、skip-gram
4、Hierachical Softmax
5、Negative Sampling
四、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
1、RNN的基礎(chǔ)架構(gòu)
2、RNN的示例
3、LSTM
4、GRU
第三天:預(yù)訓(xùn)練模型之一(變形金剛、芝麻街、獨角獸及其他)
一、GloVe
1、與word2vec的區(qū)別
2、統(tǒng)計共現(xiàn)矩陣
3、用GloVe訓(xùn)練詞向量
二、Transformer
1、所有你需要的僅僅是“注意力”
2、Transformer中的block
3、自注意力與多頭注意力
4、位置編碼(為什么可以拋棄RNN)
三、三大特征抽取器的比較
1、CNN、RNN與Transformer的比較
2、融合各種模型
四、Elmo
1、雙向語言模型
2、工作原理
3、Elmo的應(yīng)用場景
五、GPT
1、“一定會有人用它干壞事”
2、GPT的內(nèi)部架構(gòu)
3、Transformer的演示
4、自注意力機制的改進
5、GPT的應(yīng)用場景
第四天:預(yù)訓(xùn)練模型之二(站上BERT的肩頭)
一、BERT的前世今生
1、之前介紹的模型回顧
2、現(xiàn)代NLP的*應(yīng)用場景
3、條條大路通BERT
二、BERT詳解
1、原理與方法
2、BERT的應(yīng)用場景
3、BERT源碼簡介
三、站在BERT肩膀上的新秀們
1、ERNIE
2、XLnet
NLP實戰(zhàn)
轉(zhuǎn)載:http://santuchuan.cn/gkk_detail/244789.html