提示:
1、本課程面向高年級在校學生,以及有短期工作經驗,希望通過學習進入數據行業的人員。
2、使用Python作為數據分析和挖掘的語言和環境。
課程名稱:
《數據分析和數據挖掘》第一期
主講老師:
郭鵬程 小象學院簽約講師
課程大綱
第一課. “一天理解數據、數據分析和數據挖掘“。
基本概念:數據是什么;通過一個數據實例了解數據分析和數據挖掘的任務和過程;
理論知識點1:統計初步。(課時1-3)
第二課. “必先利其器”。
使用Python搭建初步的數據分析環境;數據結構;數據生成,載入和存儲,數據庫知識;
理論知識點2:概率和矩陣運算。(課時4-6)
第三課. “了解你的數據”。
數學建模:從實際業務到抽象模型的轉換,變量的提取;對數據質量進行初步檢驗;數據預處理:數據清洗,數據變換,異常值處理,粒度變換,維度變換,離散化等。(課時7-9)
第四課. “理解你的數據”。
數據分析初步:描述性分析;數據分析初步:研究變量之間的關系;數據分析初步:圖形和數據可視化,使用可視化進行探索式分析;再說數據質量:抽樣;完善Python環境。(課時10-12)
第五課. “深入理解你的數據”。
數據分析進階:基于假設檢驗的數據分析,相關、卡方、方差分析;對數據進行降維處理,PCA和SVD;
理論知識點3:假設檢驗,經典數據分析的框架。(課時13-15)
第六課. “解釋與預測”。
回歸分析--線性回歸,用線性回歸模型進行預測,實例-銷售量預測;數據分析進階:廣義線性回歸,當應變量的分布非正態分布時,實例-用戶訪問量的預測;
理論知識點4:模型選擇。(課時16-18)
第七課. “發現數據蘊含的新模式1”。
數據挖掘初步:定義數據點之間的距離;實例,如何根據興趣判斷兩個用戶的契合度;構造新變量;KNN;
理論知識點5:模式識別初步。(課時19-21)
第八課. “新模式:數據之間蘊含的關聯關系”。
事務型數據挖掘:挖掘頻繁項集-電影、購物、圖書數據,關聯分析-Apriori算法,相關分析。(課時22-24)
第九課. “使用數據輔助決策”。
分類分析:決策樹,案例-信用評級;樸素貝葉斯進行分類分析:案例-信用評級;貝葉斯信念網絡、支持向量機等其他分類方法;
理論知識點6:再說模型選擇(課時25-27)
第十課. “發現新模式2”。
聚類分析:基本概念、方法、和評價;基于劃分的方法,案例-尋找客戶類型;基于相關的方法,基于密度的方法;
理論知識點7:信息學初步(課時28-30)
第十一課. “不可二次踏入的河流”。
時間序列:金融、天氣等數據的分析和挖掘;
理論知識點8:時間序列分析(課時31-33)
第十二課. “一個大招放倒自己”。
數據分析和挖掘綜合案例(課時34-36)
聯系方式:
手機:15611440609
郵件:admin@epicabrazil.com
小象學院:http://epicabrazil.com