本書面向所有對機器學習與數據挖掘的實踐及競賽感興趣的讀者,從零開始,以Python編程語言為基礎,在不涉及大量數學模型與復雜編程知識的前提下,逐步帶領讀者熟悉并且掌握當下流行的機器學習、數據挖掘與自然語言處理工具,如Scikitlearn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。
全書共分4章。章簡介篇,介紹機器學習概念與Python編程知識;第2章基礎篇,講述如何使用Scikitlearn作為基礎機器學習工具;第3章進階篇,涉及怎樣借助高級技術或者模型進一步提升既有機器學習系統的性能;第4章競賽篇,以Kaggle平臺為對象,幫助讀者一步步使用本書介紹過的模型和技巧,完成三項具有代表性的競賽任務。
范淼,清華大學計算機系人工智能研究所博士,研究方向涉及機器學習與自然語言處理技術。2015年3月受國家留學基金委公派至美國紐約大學計算機系聯合培養。攻讀博士期間,于所在研究領域內多個重要國際會議與期刊上近20篇。先后在Hulu、MSRA(微軟亞洲研究院)、百度自然語言處理部、Bosch(博世)北美硅谷研究院等多個公司的研發部門實習,并承擔機器學習與自然語言處理相關的研究任務。
李超,工學博士,清華大學副研究員,信息技術研究院Web與軟件技術研究中心副主任。中國計算機學會信息存儲技術專委會委員、中國計算機學會高級會員、全國文獻影像技術標準化技術委員會(SAC/TC86/SC6)委員、IEEE會員。研究領域包括海量數據存儲、組織與管理、分析,及其在數字圖書館/檔案館/教育/醫療/金融等領域的應用。主持及參與多項國家973、863、科技支撐、自然基金等縱向項目及橫向合作項目。已發表學術論文50余篇、獲得授權發明專利10余項。
第1章簡介篇
1.1機器學習綜述
1.1.1任務
1.1.2經驗
1.1.3性能
1.2Python編程庫
1.2.1為什么使?
1.2.2Python機器學習的優勢
1.2.3NumPy&SciPy
1.2.4Matplotlib
1.2.5Scikit-learn
1.2.6
1.2.7An
1.3Python環境配置
1.3.1Windows系統環境
1.3.2MacOS系統環境
1.4Python編程基
1.4.1Python基本語法
1.4.2Python數據類型
1.4.3Python數據運算
1.4.4Python流程控制
1.4.5Python函數(模塊)設計
1.4.6Python編程庫(包)的導入.
1.4.7Python基礎綜合實踐.
1.5章末小結
第2章基礎篇
2.1監督學習經典模型
2.1.1分類學習
2.1.1.1線性分類器
2.1.1.2支持向量機(分類)
2.1.1.3樸素貝葉斯
2.1.1.4K近鄰(分類)
2.1.1.5決策樹
2.1.1.6集成模型(分類)
2.1.2回歸預測
2.1.2.1線性回歸器
2.1.2.2支持向量機(回歸)
2.1.2.3K近鄰(回歸)
2.1.2.4回歸樹
2.1.2.5集成模型(回歸)
2.2無監督學習經典模型
2.2.1數據聚類
2.2.1.1K均值算法
2.2.2特征降維
2.2.2.1主成分分析
2.3章末小結
第3章進階篇
3.1模型實用技巧
3.1.1特征提升
3.1.2模型正則化
3.1.3模型檢驗
3.1.4超參數搜索
3.2流行庫/模型實踐
3.2.1自然語言處理包(NLTK)
3.2.2詞向量(Word2Vec)技術
3.2.3XGBoost模型
3.2.4Tensorflow框架
3.3章末小結
第4章實戰篇
4.1Kaggle平臺簡介
4.2Titanic罹難乘客預測
4.3IMDB影評得分估計
4.4MNIST手寫體數字圖片識別.
4.5章末小結.
后記
參考文獻