在學(xué)習(xí)和研究機(jī)器學(xué)習(xí)的時(shí)候,面臨令人眼花繚亂的算法,機(jī)器學(xué)習(xí)新手往往會(huì)不知 所措。本書(shū)從算法和Python 語(yǔ)言實(shí)現(xiàn)的角度,幫助讀者認(rèn)識(shí)機(jī)器學(xué)習(xí)。 本書(shū)專注于兩類核心的“算法族”,即懲罰線性回歸和集成方法,并通過(guò)代碼實(shí)例來(lái) 展示所討論的算法的使用原則。全書(shū)共分為7 章,詳細(xì)討論了預(yù)測(cè)模型的兩類核心算法、預(yù)測(cè)模型的構(gòu)建、懲罰線性回歸和集成方法的具體應(yīng)用和實(shí)現(xiàn)。 本書(shū)主要針對(duì)想提高機(jī)器學(xué)習(xí)技能的Python 開(kāi)發(fā)人員,幫助他們解決某一特定的項(xiàng) 目或是提升相關(guān)的技能。
機(jī)器學(xué)習(xí)關(guān)注于預(yù)測(cè),其核心是一種基于數(shù)學(xué)和算法的技術(shù),要掌握該技術(shù),需要對(duì)數(shù)學(xué)及統(tǒng)計(jì)概念有深入理解,能夠熟練使用R 語(yǔ)言或者其他編程語(yǔ)言。 本書(shū)通過(guò)集中介紹兩類可以進(jìn)行有效預(yù)測(cè)的機(jī)器學(xué)習(xí)算法,展示了如何使用Python 編程語(yǔ)言完成機(jī)器學(xué)習(xí)任務(wù),從而降低機(jī)器學(xué)習(xí)難度,使機(jī)器學(xué)習(xí)能夠被更廣泛的人群掌握。 作者利用多年的機(jī)器學(xué)習(xí)經(jīng)驗(yàn)帶領(lǐng)讀者設(shè)計(jì)、構(gòu)建并實(shí)現(xiàn)自己的機(jī)器學(xué)習(xí)方案。本書(shū)盡可能地用簡(jiǎn)單的術(shù)語(yǔ)來(lái)介紹算法,避免復(fù)雜的數(shù)學(xué)推導(dǎo),同時(shí)提供了示例代碼幫助讀者迅速上手。讀者會(huì)很快深入了解模型構(gòu)建背后的原理,不論簡(jiǎn)單問(wèn)題還是復(fù)雜問(wèn)題,讀者都可以學(xué)會(huì)如何找到問(wèn)題的解決算法。書(shū)中詳細(xì)的示例,給出了具體的可修改的代碼,展示了機(jī)器學(xué)習(xí)機(jī)理,涵蓋了線性回歸和集成方法,幫助理解使用機(jī)器學(xué)習(xí)方法的基本流程。 本書(shū)為不具備數(shù)學(xué)或統(tǒng)計(jì)背景的讀者量身打造,詳細(xì)介紹了如何: ● 針對(duì)任務(wù)選擇合適算法; ● 對(duì)不同目的應(yīng)用訓(xùn)練好的模型; ● 學(xué)習(xí)數(shù)據(jù)處理機(jī)制,準(zhǔn)備數(shù)據(jù); ● 評(píng)估模型性能以保障應(yīng)用效果; ● 掌握Python 機(jī)器學(xué)算法包; ● 使用示例代碼設(shè)計(jì)和構(gòu)建你自己的模型; ● 構(gòu)建實(shí)用的多功能預(yù)測(cè)模型。
Michael Bowles 在硅谷黑客道場(chǎng)教授機(jī)器學(xué)習(xí),提供機(jī)器學(xué)習(xí)項(xiàng)目咨詢,同時(shí)參與了多家創(chuàng)業(yè)公司,涉及的領(lǐng)域包括生物信息學(xué)、金融高頻交易等。他在麻省理工學(xué)院獲得助理教授教職后,創(chuàng)建并運(yùn)營(yíng)了兩家硅谷創(chuàng)業(yè)公司,這兩家公司都已成功上市。他在黑客道場(chǎng)的課程往往聽(tīng)者云集并且好評(píng)頗多。
目錄
第1章 關(guān)于預(yù)測(cè)的兩類核心
算法 ................................................1
1.1為什么這兩類算法如此有用 .......1
1.2什么是懲罰回歸方法.....................6
1.3什么是集成方法 .............................8
1.4算法的選擇 ......................................9
1.5構(gòu)建預(yù)測(cè)模型的流程...................11
1.5.1構(gòu)造一個(gè)機(jī)器學(xué)習(xí)問(wèn)題 ......12
1.5.2特征提取和特征工程 ..........14
1.5.3確定訓(xùn)練后的模型的性能 .....15
1.6各章內(nèi)容及其依賴關(guān)系 ..............15
1.7小結(jié) .................................................17
1.8參考文獻(xiàn) ........................................17
第2章 通過(guò)理解數(shù)據(jù)來(lái)了解
問(wèn)題 ..............................................19
2.1“解剖”一個(gè)新問(wèn)題 .....................19
2.1.1屬性和標(biāo)簽的不同類型
決定模型的選擇..................21
2.1.2新數(shù)據(jù)集的注意事項(xiàng) ..........22
2.2分類問(wèn)題:用聲納發(fā)現(xiàn)未
爆炸的水雷....................................23
2.2.1“ 巖石vs 水雷”數(shù)據(jù)集的
物理特性..............................23
2.2.2“ 巖石vs 水雷”數(shù)據(jù)集統(tǒng)計(jì)
特征......................................27
2.2.3用分位數(shù)圖展示異常點(diǎn) ......30
2.2.4類別屬性的統(tǒng)計(jì)特征 ..........32
2.2.5利用Python Pandas 對(duì)“巖石
vs水雷”數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)
分析......................................32
2.3對(duì)“巖石vs 水雷數(shù)據(jù)集”屬性的
可視化展示....................................35
2.3.1利用平行坐標(biāo)圖進(jìn)行可視化
展示......................................35
2.3.2屬性和標(biāo)簽的關(guān)系可視化 .....37
2.3.3用熱圖(heat map)展示
屬性和標(biāo)簽的相關(guān)性..........44
2.3.4對(duì)“巖石vs. 水雷”數(shù)據(jù)集
探究過(guò)程小結(jié)......................45
2.4基于因素變量的實(shí)數(shù)值預(yù)測(cè)-
鮑魚(yú)的年齡....................................45
2.4.1回歸問(wèn)題的平行坐標(biāo)圖- 鮑魚(yú)
問(wèn)題的變量關(guān)系可視化......51
2.4.2回歸問(wèn)題如何使用關(guān)聯(lián)熱
圖-鮑魚(yú)問(wèn)題的屬性對(duì)關(guān)
系的可視化..........................55
2.5用實(shí)數(shù)值屬性預(yù)測(cè)實(shí)數(shù)值目標(biāo):
評(píng)估紅酒口感................................57
2.6多類別分類問(wèn)題:它屬于哪種
玻璃.................................................63
小結(jié)............................................................68
參考文獻(xiàn)...................................................69
第3章 預(yù)測(cè)模型的構(gòu)建:平衡性
能、復(fù)雜性以及大數(shù)據(jù)....71
3.1基本問(wèn)題:理解函數(shù)逼近..........71
3.1.1使用訓(xùn)練數(shù)據(jù) ......................72
3.1.2評(píng)估預(yù)測(cè)模型的性能 ..........73
3.2影響算法選擇及性能的因素——
復(fù)雜度以及數(shù)據(jù)...........................74
3.2.1簡(jiǎn)單問(wèn)題和復(fù)雜問(wèn)題的
對(duì)比......................................74
3.2.2一個(gè)簡(jiǎn)單模型與復(fù)雜模型的
對(duì)比......................................77
3.2.3影響預(yù)測(cè)算法性能的因素 ....80
3.2.4選擇一個(gè)算法:線性或者
非線性..................................81
3.3度量預(yù)測(cè)模型性能 .......................81
3.3.1不同類型問(wèn)題的性能評(píng)價(jià)
指標(biāo)......................................82
3.3.2部署模型的性能模擬 ..........92
3.4模型與數(shù)據(jù)的均衡 .......................94
3.4.1通過(guò)權(quán)衡問(wèn)題復(fù)雜度、模型
復(fù)雜度以及數(shù)據(jù)集規(guī)模來(lái)選
擇模型..................................94
3.4.2使用前向逐步回歸來(lái)控制過(guò)
擬合......................................95
3.4.3評(píng)估并理解你的預(yù)測(cè)模型....101
3.4.4通過(guò)懲罰回歸系數(shù)來(lái)控制
過(guò)擬合——嶺回歸............103
小結(jié)..........................................................112
參考文獻(xiàn).................................................112
第4章 懲罰線性回歸模型 ..........113
4.1為什么懲罰線性回歸方法如此
有效...............................................113
4.1.1足夠快速地估計(jì)系數(shù) ........114
4.1.2變量的重要性信息 ............114
4.1.3部署時(shí)的預(yù)測(cè)足夠快速 ....114
4.1.4性能 ............................114
4.1.5稀疏解 ................................115
4.1.6問(wèn)題本身可能需要線性
模型....................................115
4.1.7什么時(shí)候使用集成方法 ....115
4.2懲罰線性回歸:對(duì)線性回歸進(jìn)行
正則化以獲得性能............115
4.2.1訓(xùn)練線性模型:最小化錯(cuò)誤
以及更多............................117
4.2.2向OLS 公式中添加一個(gè)
系數(shù)懲罰項(xiàng)........................118
4.2.3其他有用的系數(shù)懲罰項(xiàng):
Manhattan以及ElasticNet .....118
4.2.4為什么套索懲罰會(huì)導(dǎo)致稀疏的
系數(shù)向量............................119
4.2.5ElasticNet 懲罰項(xiàng)包含套索
懲罰項(xiàng)以及嶺懲罰項(xiàng)........120
4.3求解懲罰線性回歸問(wèn)題 ............121
4.3.1理解最小角度回歸與前向逐步
回歸的關(guān)系........................121
4.3.2LARS 如何生成數(shù)百個(gè)不同
復(fù)雜度的模型....................125
4.3.3從數(shù)百個(gè)LARS 生成結(jié)果中
選擇模型....................127
4.3.4使用Glmnet :非常快速
并且通用............................133
4.4基于數(shù)值輸入的線性回歸方法的
擴(kuò)展...............................................140
4.4.1使用懲罰回歸求解分類
問(wèn)題....................................140
4.4.2求解超過(guò)2 種輸出的分類
問(wèn)題....................................145
4.4.3理解基擴(kuò)展:使用線性方法來(lái)
解決非線性問(wèn)題................145
4.4.4向線性方法中引入非數(shù)值
屬性....................................148
小結(jié)..........................................................152
參考文獻(xiàn).................................................153
第5章 使用懲罰線性方法來(lái)
構(gòu)建預(yù)測(cè)模型.....................155
5.1懲罰線性回歸的Python 包 .....155
5.2多變量回歸:預(yù)測(cè)紅酒口感 ...156
5.2.1構(gòu)建并測(cè)試模型以預(yù)測(cè)紅酒
口感....................................157
5.2.2部署前在整個(gè)數(shù)據(jù)集上進(jìn)行
訓(xùn)練....................................162
5.2.3基擴(kuò)展:基于原始屬性擴(kuò)展
新屬性來(lái)改進(jìn)性能............168
5.3二分類:使用懲罰線性回歸來(lái)
檢測(cè)未爆炸的水雷.....................172
5.3.1構(gòu)建部署用的巖石水雷
分類器................................183
5.4多類別分類- 分類犯罪現(xiàn)場(chǎng)的
玻璃樣本......................................196
小結(jié)..........................................................201
參考文獻(xiàn).................................................202
第6章 集成方法 .................................203
6.1二元決策樹(shù) ..................................203
6.1.1如何利用二元決策樹(shù)進(jìn)行
預(yù)測(cè)....................................205
6.1.2如何訓(xùn)練一個(gè)二元決策樹(shù)....207
6.1.3決策樹(shù)的訓(xùn)練等同于
分割點(diǎn)的選擇....................211
6.1.4二元決策樹(shù)的過(guò)擬合 ........214
6.1.5針對(duì)分類問(wèn)題和類別特征
所做的修改........................218
6.2自舉集成:Bagging 算法 .........219
6.2.1Bagging 算法是如何
工作的................................219
6.2.2Bagging 算法小結(jié) .............230
6.3梯度提升法(Gradient
Boosting).....................................230
6.3.1梯度提升法的基本原理 ....230
6.3.2獲取梯度提升法的
性能....................................234
6.3.3針對(duì)多變量問(wèn)題的梯度
提升法................................237
6.3.4梯度提升方法的小結(jié) ........241
6.4隨機(jī)森林 ......................................241
6.4.1隨機(jī)森林:Bagging 加上隨機(jī)
屬性子集............................246
6.4.2隨機(jī)森林的性能 ................246
6.4.3隨機(jī)森林小結(jié) ....................247
6.5小結(jié) ...............................................248
6.6參考文獻(xiàn) ......................................248
第7章 用Python 構(gòu)建集成
模型............................................251
7.1用Python 集成方法工具包解決
回歸問(wèn)題......................................251
7.1.1構(gòu)建隨機(jī)森林模型來(lái)預(yù)測(cè)
紅酒口感............................251
7.1.2用梯度提升預(yù)測(cè)紅酒品質(zhì) ....258
7.2用Bagging 來(lái)預(yù)測(cè)紅酒口感 ....266
7.3Python 集成方法引入非數(shù)值
屬性...............................................271
7.3.1對(duì)鮑魚(yú)性別屬性編碼引入
Python隨機(jī)森林回歸
方法....................................271
7.3.2評(píng)估性能以及變量編碼的
重要性................................274
7.3.3在梯度提升回歸方法中引入
鮑魚(yú)性別屬性....................276
7.3.4梯度提升法的性能評(píng)價(jià)以及
變量編碼的重要性............279
7.4用Python 集成方法解決二分類
問(wèn)題...............................................282
7.4.1用Python 隨機(jī)森林方法探測(cè)
未爆炸的水雷....................282
7.4.2構(gòu)建隨機(jī)森林模型探測(cè)未
爆炸水雷............................283
7.4.3隨機(jī)森林分類器的性能 ....288
7.4.4用Python 梯度提升法探測(cè)
未爆炸水雷........................289
7.4.5梯度提升法分類器的性能....296
7.5用Python 集成方法解決多類別
分類問(wèn)題......................................300
7.5.1用隨機(jī)森林對(duì)玻璃進(jìn)行
分類....................................300
7.5.2處理類不均衡問(wèn)題 ............304
7.5.3用梯度提升法對(duì)玻璃進(jìn)行
分類....................................306
7.5.4評(píng)估在梯度提升法中使用隨機(jī)
森林基學(xué)習(xí)器的好處........311
7.6算法比較 ......................................313
小結(jié)..........................................................315
參考文獻(xiàn).................................................315
很好!很好!很好!
包裝不錯(cuò),紙箱結(jié)實(shí)。快遞員服務(wù)很好,送到小區(qū)門(mén)口,很耐心。就是有兩本門(mén)缺貨,沒(méi)有送。
上手很快,概念和代碼均有詳細(xì)介紹,而且介紹的幾種算法都是主流的,挺適合新手和實(shí)戰(zhàn)學(xué)習(xí)的
很快,很好,很開(kāi)心。正版包裝,外有塑料膜。
總體來(lái)說(shuō)不錯(cuò)的,物流很快,質(zhì)量很好
這本書(shū)還沒(méi)有時(shí)間讀,默認(rèn)給好評(píng)
書(shū)籍還行,比國(guó)內(nèi)同類型的書(shū)還是要好的多
ting不錯(cuò)de,挺詳細(xì)的~贊
書(shū)不錯(cuò),包裝也好,有時(shí)間好好看。
還沒(méi)看,應(yīng)該還行
還好吧。。。有空學(xué)習(xí)一下。
很好的一本書(shū)
還沒(méi)讀,不過(guò)感覺(jué)不錯(cuò)
買(mǎi)來(lái)學(xué)習(xí)機(jī)器學(xué)習(xí)的,有空就翻翻,發(fā)貨速度很快,第二天就到貨。
書(shū)中太多代碼了,而且代碼里面還沒(méi)有注解,覺(jué)得寫(xiě)得不太認(rèn)真,不值得這個(gè)價(jià)錢(qián)
1分給印刷,1分給紙張,1分給還算詳細(xì)的介紹;遺留的不少機(jī)器翻譯扣1分,不少縮進(jìn)、代碼的符號(hào)錯(cuò)誤扣1分
有點(diǎn)買(mǎi)錯(cuò)了,暫時(shí)好像還用不到。還需要繼續(xù)學(xué)習(xí)。
這是目前機(jī)器學(xué)習(xí)介紹比較清楚的書(shū)。很多書(shū)十分?jǐn)?shù)學(xué)化,我想大部分用戶還是更關(guān)心利用機(jī)器學(xué)習(xí)可以解決什么問(wèn)題。該書(shū)中介紹的眾多分類案例,可以為讀者模型選型作參考
數(shù)學(xué)公式推導(dǎo)下,代碼動(dòng)手敲,基本知識(shí)就全懂了
應(yīng)用類,可以參考學(xué)習(xí),和其他機(jī)器學(xué)習(xí)一樣都是淺
滿二百減一百時(shí)候買(mǎi)的,很不錯(cuò),書(shū)的內(nèi)容正在學(xué)習(xí)
關(guān)于機(jī)器學(xué)習(xí)方法選擇的書(shū),有源代碼,很不錯(cuò),需要有python基礎(chǔ)
挺好的 比較滿意挺好的 比較滿意挺好的 比較滿意
這個(gè)商品( ^_^ )不錯(cuò)嘛,當(dāng)當(dāng)活動(dòng),有減滿。搞機(jī)器學(xué)習(xí)的,python還需要好好學(xué)學(xué)。
其實(shí)就是現(xiàn)代版周易,研究大數(shù)據(jù)周期性變化規(guī)律
挺好,個(gè)人覺(jué)得比較適合入門(mén)的,但是盡信書(shū)不如無(wú)書(shū),里面有些文字錯(cuò)誤和翻譯錯(cuò)誤的,得自己辨別
翻譯生硬,文字排版錯(cuò)誤很多,一直以為人民郵電出版社的書(shū)都是精品,可惜這本書(shū)顛覆了我的印象。買(mǎi)了那么多年書(shū)而從不評(píng)價(jià)的我都忍不住吐槽,不建議購(gòu)買(mǎi)
紙質(zhì)可以,有點(diǎn)光滑,粗略看了一下內(nèi)容還可以,但有些和機(jī)器學(xué)習(xí)實(shí)戰(zhàn)重復(fù)的!代碼是在ubuntu系統(tǒng)下運(yùn)行,要是window下要適當(dāng)修改!