日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
Python機器學習及實踐: 從零開始通往Kaggle競賽之路圖書
人氣:66

Python機器學習及實踐: 從零開始通往Kaggle競賽之路

該書的編寫旨在幫助大量對機器學習和數據挖掘應用感興趣的讀者朋友,整合并實踐時下流行的基于Python語言的程序庫:如Scikit-learn、NLTK、gensim、XGBoost、TensorFlow等;而且針對現實中的科研問題,甚至是Ka...
  • 所屬分類:圖書 >計算機/網絡>人工智能  
  • 作者:[范淼]、[李超]
  • 產品參數:
  • 叢書名:中國高校創意創新創業教育系列叢書
  • 國際刊號:9787302442875
  • 出版社:清華大學出版社
  • 出版時間:2016-10
  • 印刷時間:2016-09-01
  • 版次:1
  • 開本:16開
  • 頁數:--
  • 紙張:膠版紙
  • 包裝:平裝-膠訂
  • 套裝:

內容簡介

本書面向所有對機器學習與數據挖掘的實踐及競賽感興趣的讀者,從零開始,以Python編程語言為基礎,在不涉及大量數學模型與復雜編程知識的前提下,逐步帶領讀者熟悉并且掌握當下流行的機器學習、數據挖掘與自然語言處理工具,如Scikitlearn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。 全書共分4章。第1章簡介篇,介紹機器學習概念與Python編程知識;第2章基礎篇,講述如何使用Scikitlearn作為基礎機器學習工具;第3章進階篇,涉及怎樣借助高級技術或者模型進一步提升既有機器學習系統的性能;第4章競賽篇,以Kaggle平臺為對象,幫助讀者一步步使用本書介紹過的模型和技巧,完成三項具有代表性的競賽任務。

編輯推薦

該書幫助對機器學習、數據挖掘感興趣的讀者整合時下流行的基于Python語言的程序庫。如Scikit-learn,Pandas, NLTK,Gensim, XGBoost,TensorFlow等,并且針對現實中遇到的數據,甚至是Kaggle競賽中的分析任務,快速搭建有效的機器學習系統。 同時,作者盡力減少讀者為了理解本書,而對編程技能、數學背景的過分依賴,進而降低機器學習模型的實踐門檻,讓更多的興趣愛好者體會到使用經典模型以及新的高效方法解決實際問題的樂趣。

作者簡介

范淼 :清華大學計算機系人工智能研究所博士,研究方向涉及機器學習與自然語言處理技術。2015年3月受國家留學基金委公派至美國紐約大學計算機系聯合培養。攻讀博士期間,于所在研究領域內多個重要國際會議與期刊上近20篇。先后在Hulu、MSRA(微軟亞洲研究院)、百度自然語言處理部、Bosch(博世)北美硅谷研究院等多個公司的研發部門實習,并承擔機器學習與自然語言處理相關的研究任務。

李超: 工學博士,清華大學副研究員,信息技術研究院Web 與軟件技術研究中心副主任。中國計算機學會信息存儲技術專委會委員、中國計算機學會高級會員、全國文獻影像技術標準化技術委員會(SAC/TC86/SC6)委員、IEEE 會員。研究領域包括海量數據存儲、組織與管理、分析,及其在數字圖書館/檔案館/教育/醫療/金融等領域的應用。主持及參與多項國家973、863、科技支撐、自然基金等縱向項目及橫向合作項目。已發表學術論文50 余篇、獲得授權發明專利10 余項。

目錄

●第1章簡介篇1

1.1機器學習綜述1

1.1.1任務3

1.1.2經驗5

1.1.3性能5

1.2Python編程庫8

1.2.1為什么使用Python8

1.2.2Python機器學習的優勢9

1.2.3NumPy & SciPy10

1.2.4Matplotlib11

1.2.5Scikitlearn11

1.2.6Pandas11

1.2.7Anaconda12

1.3Python環境配置12

1.3.1Windows系統環境12

1.3.2Mac OS 系統環境17

1.4Python編程基礎18

1.4.1Python基本語法19

1.4.2Python 數據類型20

1.4.3Python 數據運算22

1.4.4Python 流程控制26

1.4.5Python 函數(模塊)設計28

1.4.6Python 編程庫(包)的導入29

1.4.7Python 基礎綜合實踐30

1.5章末小結33[1]Python機器學習及實踐[1]目錄●第2章基礎篇34

2.1監督學習經典模型34

2.1.1分類學習35

2.1.2回歸預測64

2.2無監督學習經典模型81

2.2.1數據聚類81

2.2.2特征降維91

2.3章末小結97

●第3章進階篇98

3.1模型實用技巧98

3.1.1特征提升99

3.1.2模型正則化111

3.1.3模型檢驗121

3.1.4超參數搜索122

3.2流行庫/模型實踐129

3.2.1自然語言處理包(NLTK)131

3.2.2詞向量(Word2Vec)技術133

3.2.3XGBoost模型138

3.2.4Tensorflow框架140

3.3章末小結152

●第4章實戰篇153

4.1Kaggle平臺簡介153

4.2Titanic罹難乘客預測157

4.3IMDB影評得分估計165

4.4MNIST手寫體數字圖片識別174

4.5章末小結180

●后記181

●參考文獻182

在線預覽

第3章 進階篇 在第2章中,我們向讀者介紹了大量經典的機器學習模型,并且使用Python編程語言分析這些模型在許多不同現實數據上的性能表現。然而,細心的讀者在深入研究這些數據或者查閱Scikit-learn的文檔之后就會發現: 所有我們在第2章中使用過的數據幾乎都經過了規范化處理,而且模型也大多只是采用了默認的初始化配置。換言之,盡管我們可以使用經過處理之后的數據,在默認配置下學習到一套用以擬合這些數據的參數,并且使用這些參數和默認配置取得一些看似良好的性能表現;但是我們仍然無法回答幾個最為關鍵的問題: 實際研究和工作中接觸到的數據都是這樣規整的嗎?難道這些默認配置就是的么?我們的模型性能是否還有提升的空間?本章“3.1模型使用技巧”節將會幫助讀者朋友解答上述疑問。閱讀完這一節,相信各位讀者朋友就會掌握如何通過抽取或者篩選數據特征、優化模型配置,進一步提升經典模型的性能表現。 然而,隨著近些年機器學習研究與應用的快速發展,經典模型漸漸無法滿足日益增長的數據量和復雜的數據分析需求。因此,越來越多更加高效而且強力的學習模型以及對應的程序庫正逐漸被設計和編寫,并慢慢被科研圈和工業界所廣泛接受與采用。這些模型和程序庫包括: 用于自然語言處理的NLTK程序包;詞向量技術Word2Vec;能夠提供強大預測能力的XGBoost模型,以及Google的用于深度學習的Tensorflow框架等等。更加令人振奮的是,上述這些最為流行的程序庫和模型, 不但提供了Python的編程接口API,而且有些成為Python編程語言的工具包,更是方便了我們后續的學習和使用。因此,在“3.2流行庫/模型實踐”節將會帶領各位讀者一同領略這些時下最為流行的程序庫和新模型的奧妙。

3.1模型實用及技巧 這一節將向讀者朋友傳授一系列更加偏向于實戰的模型使用技巧。相信各位讀者在第2章中品味了多個經典的機器學習模型之后,就會發現: 一旦我們確定使用某個模型,本書所提供的程序庫就可以幫助我們從標準的訓練數據中,依靠默認的配置學習到模型所需要的參數(Parameters);接下來,我們便可以利用這組得來的參數指導模型在測試數據集上進行預測,進而對模型的表現性能進行評價。 但是,這套方案并不能保障: (1) 所有用于訓練的數據特征都是好的;(2) 學習得到的參數一定是的;(3) 默認配置下的模型總是的。也就是說,我們可以從多個角度對在前面所使用過的模型進行性能提升。本節將向大家介紹多種提升模型性能的方式,包括如何預處理數據、控制參數訓練以及優化模型配置等方法。 3.1.1特征提升 早期機器學習的研究與應用,受模型種類和運算能力的限制。因此,大部分研發人員把更多的精力放在對數據的預處理上。他們期望通過對數據特征的抽取或者篩選來達到提升模型性能的目的。所謂特征抽取,就是逐條將原始數據轉化為特征向量的形式,這個過程同時涉及對數據特征的量化表示;而特征篩選則更進一步,在高維度、已量化的特征向量中選擇對指定任務更有效的特征組合,進一步提升模型性能。 3.1.1.1特征抽取 原始數據的種類有很多種,除了數字化的信號數據(聲紋、圖像),還有大量符號化的文本。然而,我們無法直接將符號化的文字本身用于計算任務,而是需要通過某些處理手段,預先將文本量化為特征向量。 有些用符號表示的數據特征已經相對結構化,并且以字典這種數據結構進行存儲。這時,我們使用DictVectorizer對特征進行抽取和向量化。比如下面的代碼55。

代碼55: DictVectorizer對使用字典存儲的數據進行特征抽取與向量化 >>> # 定義一組字典列表,用來表示多個數據樣本(每個字典代表一個數據樣本)。 >>>measurements= [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}] >>> # 從sklearn.feature_extraction 導入 DictVectorizer >>>from sklearn.feature_extraction import DictVectorizer >>> # 初始化DictVectorizer特征抽取器 >>>vec=DictVectorizer() >>> # 輸出轉化之后的特征矩陣。 >>>print vec.fit_transform(measurements).toarray() >>> # 輸出各個維度的特征含義。 >>>print vec.get_feature_names()[[1. 0 0.33] [0. 1. 0.12.] [0. 0. 1.18.]] ['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature']

從代碼55的輸出可以看到: 在特征向量化的過程中,DictVectorizer對于類別型(Categorical)與數值型(Numerical)特征的處理方式有很大差異。由于類別型特征無法直接數字化表示,因此需要借助原特征的名稱,組合產生新的特征,并采用0/1二值方式進行量化;而數值型特征的轉化則相對方便,一般情況下只需要維持原始特征值即可。 另外一些文本數據則表現得更為原始,幾乎沒有使用特殊的數據結構進行存儲,只是一系列字符串。我們處理這些數據,比較常用的文本特征表示方法為詞袋法(Bag of Words): 顧名思義,不考慮詞語出現的順序,只是將訓練文本中的每個出現過的詞匯單獨視作一列特征。我們稱這些不重復的詞匯集合為詞表(Vocabulary),于是每條訓練文本都可以在高維度的詞表上映射出一個特征向量。而特征數值的常見計算方式有兩種,分別是: CountVectorizer和TfidfVectorizer。對于每一條訓練文本,CountVectorizer只考慮每種詞匯(Term)在該條訓練文本中出現的頻率(Term Frequency)。而TfidfVectorizer除了考量某一詞匯在當前文本中出現的頻率(Term Frequency)之外,同時關注包含這個詞匯的文本條數的倒數(Inverse Document Frequency)。相比之下,訓練文本的條目越多,TfidfVectorizer這種特征量化方式就更有優勢。因為我們計算詞頻(Term Frequency)的目的在于找出對所在文本的含義更有貢獻的重要詞匯。然而,如果一個詞匯幾乎在每篇文本中出現,說明這是一個常用詞匯,反而不會幫助模型對文本的分類;在訓練文本量較多的時候,利用TfidfVectorizer壓制這些常用詞匯的對分類決策的干擾,往往可以起到提升模型性能的作用。 我們通常稱這些在每條文本中都出現的常用詞匯為停用詞(Stop Words),如英文中的the、a等。這些停用詞在文本特征抽取中經常以黑名單的方式過濾掉,并且用來提高模型的性能表現。下面的代碼讓我們重新對“20類新聞文本分類”問題進行分析處理,這一次的重點在于列舉上述兩種文本特征量化模型的使用方法,并比較他們的性能差異。 ……

媒體評論

《Python機器學習及實踐》很契合實際,從零開始介紹簡單的Python語法以及如何用Python語言來寫機器學習的模型。每一個章節環環相扣,配合代碼樣例,非常適合希望了解機器學習領域的初學者,甚至沒有編程基礎的學生。希望看到這本新書能推動普及機器學習。 今日頭條實驗室科學家,前百度美國深度學習實驗室少帥科學家 李磊 這是一本面向機器學習實踐的具有很強實用性的好書,適合于想使用機器學習方法求解實際問題的博士生、碩士生、高年級本科生,以及在企業工作的工程技術人員閱讀,是一本快速掌握機器學習方法求解實際問題的入門讀物,相信讀者將從本書中獲益匪淺。清華大學計算機系教授 馬少平 盡管目前市場上關于機器學習的書籍很多,但很少具有能夠將開發語言及機器學習理論緊密結合,利用開源技術,采用類似“實訓”方式的實踐教學書籍。該書的作者把自己學習的經驗充分融入到全書,深入淺出,是一本適合在校學生以及工程技術人員在機器學習方面快速入門的指導書。 北京郵電大學軟件學院教授,教研中心主任 吳國仕 不同于多數專業性的書籍,該書擁有更低的閱讀門檻。即便不是計算機科學技術專業出身的讀者,也可以跟隨本書借助基本的Python編程,快速上手并且有效的機器學習模型。香港科技大學計算機與工程系講座教授,系主任,IEEE、AAAI Fellow, 國際人工智能協會(IJCAI,AAAI)常務理事,中國人工智能協會副理事,ACM KDD China (ACM數據挖掘委員會 中國分會)主席 楊強 該書的作者從初學者的視角,一步步帶領讀者從零基礎快速成長為一位能夠獨立進行數據分析并且參與機器學習競賽的興趣愛好者。全書深入淺出,特別是對有意了解機器學習,又不想被復雜的數學理論困擾的讀者,會從此書中獲益。 蘇州大學計算機科學與技術學院副院長、人類語言技術研究所所長、特聘教授、國家杰出青年科學基金獲得者 張民 如果說機器學習會主導信息產業的下一波浪潮,那么在這波浪潮來臨之前,我們是否有必要對其一窺究竟。我很高興有這樣一本零基礎實戰的好書服務廣大讀者,為普及這一潮流盡綿薄之力。就像過去幾十年間我們不懈普及計算機與互聯網一樣,人工智能,特別是機器學習的核心思想也應該走出象牙塔,擁抱普羅大眾,盡可能讓更多的興趣愛好者參與到實踐當中。清華大學語音和語言技術中心主任、教授 鄭方 這是一本講解利用Python進行機器學習實戰的入門級好書。該書引領剛入門的讀者,從零開始學習數據分析并掌握機器學習競賽技能,適合于從事機器學習研究和應用的在校生和科研工作者。 微軟研究院首席研究員,自然語言處理博學專家 周明

網友評論(不代表本站觀點)

免責聲明

更多出版社