本書注重實用性,是一本而細致的R指南,高度概括了該軟件和它的強大功能,展示了使用的統(tǒng)計示例,且對于難以用傳統(tǒng)方法處理的凌亂、不完整和非正態(tài)的數(shù)據(jù)給出了優(yōu)雅的處理方法。作者不僅僅探討統(tǒng)計分析,還闡述了大量探索和展示數(shù)據(jù)的圖形功能。新版做了大量更新和修正,新增了近200頁內(nèi)容,介紹數(shù)據(jù)挖掘、預(yù)測性分析和高級編程。本書適合數(shù)據(jù)分析人員及R用戶學習參考。
大數(shù)據(jù)時代已經(jīng)到來,在商業(yè)、經(jīng)濟及其他領(lǐng)域中基于數(shù)據(jù)和分析去發(fā)現(xiàn)問題并作出科學、客觀的決策越來越重要。開源軟件R是世界上流行的數(shù)據(jù)分析、統(tǒng)計計算及制圖語言,幾乎能夠完成任何數(shù)據(jù)處理任務(wù),可安裝并運行于所有主流平臺,為我們提供了成千上萬的專業(yè)模塊和實用工具,是從大數(shù)據(jù)中獲取有用信息的絕佳工具,是數(shù)據(jù)挖掘、數(shù)據(jù)分析人才的必備技能。
本書從解決實際問題入手,盡量跳脫統(tǒng)計學的理論闡述來討論R語言及其應(yīng)用,講解清晰透澈,具有實用性。作者不僅高度概括了R語言的強大功能,展示了各種實用的統(tǒng)計示例,而且對于難以用傳統(tǒng)方法分析的凌亂、不完整和非正態(tài)的數(shù)據(jù)也給出了完備的處理方法。第2版新增6章內(nèi)容,涵蓋時間序列、聚類分析、分類、高級編程、創(chuàng)建包和創(chuàng)建動態(tài)報告等,并分別詳細介紹了如何使用ggplot2和lattice進行高級繪圖。通讀本書,你將掌握使用R語言進行數(shù)據(jù)分析、數(shù)據(jù)挖掘的技巧,領(lǐng)略大量探索和展示數(shù)據(jù)的圖形功能,并學會如何撰寫動態(tài)報告,從而更加高效地進行分析與溝通。
想要成為備受高科技企業(yè)追捧的數(shù)據(jù)分析師嗎?想要科學分析數(shù)據(jù)并正確決策嗎?不妨從本書開始,挑戰(zhàn)大數(shù)據(jù),用R開始炫酷地統(tǒng)計與分析數(shù)據(jù)吧!
Robert I. Kabacoff
R語言社區(qū)著名學習網(wǎng)站Quick-R的維護者,現(xiàn)為全球化開發(fā)與咨詢公司Management研究集團研發(fā)副總裁。此前,Kabacoff博士是佛羅里達諾瓦東南大學的教授,講授定量方法和統(tǒng)計編程的研究生課程。Kabacoff還是臨床心理學博士、統(tǒng)計顧問,擅長數(shù)據(jù)分析,在健康、金融服務(wù)、制造業(yè)、行為科學、政府和學術(shù)界有20余年的研究和統(tǒng)計咨詢經(jīng)驗。
譯者簡介:
王小寧
中國人民大學統(tǒng)計學院14級碩士,16級博士,統(tǒng)計之都副主編,中國人民大學數(shù)據(jù)挖掘中心分布式計算負責人,研究興趣包括統(tǒng)計機器學習和缺失數(shù)據(jù)。
劉擷芯
中國人民大學統(tǒng)計學院13級碩士,愛荷華大學商學院16級博士,中國人民大學數(shù)據(jù)挖掘中心核心成員之一,研究興趣包括統(tǒng)計機器學習和文本分析。
黃俊文
2014年畢業(yè)于中山大學數(shù)學系,2016年畢業(yè)于加州大學圣地亞哥分校統(tǒng)計學專業(yè),統(tǒng)計之都成員,易易網(wǎng)創(chuàng)始人之一,目前關(guān)注計算機科學和統(tǒng)計學的結(jié)合與應(yīng)用,包括機器學習方法等。他致力于成為一個有趣的人。
及時部分 入門
第1章R語言介紹3
1.1為何要使用R4
1.2R的獲取和安裝6
1.3R的使用6
1.3.1新手上路7
1.3.2獲取幫助10
1.3.3工作空間10
1.3.4輸入和輸出12
1.4包13
1.4.1什么是包14
1.4.2包的安裝14
1.4.3包的載入14
1.4.4包的使用方法14
1.5批處理15
1.6將輸出用為輸入:結(jié)果的重用16
1.7處理大數(shù)據(jù)集16
1.8示例實踐16
1.9小結(jié)18
第2章創(chuàng)建數(shù)據(jù)集19
2.1數(shù)據(jù)集的概念19
2.2數(shù)據(jù)結(jié)構(gòu)20
2.2.1向量21
2.2.2矩陣22
2.2.3數(shù)組23
2.2.4數(shù)據(jù)框24
2.2.5因子27
2.2.6列表28
2.3數(shù)據(jù)的輸入30
2.3.1使用鍵盤輸入數(shù)據(jù)31
2.3.2從帶分隔符的文本文件導入數(shù)據(jù)32
2.3.3導入Excel數(shù)據(jù)35
2.3.4導入XML數(shù)據(jù)36
2.3.5從網(wǎng)頁抓取數(shù)據(jù)36
2.3.6導入SPSS數(shù)據(jù)36
2.3.7導入SAS數(shù)據(jù)37
2.3.8導入Stata數(shù)據(jù)37
2.3.9導入NetCDF數(shù)據(jù)38
2.3.10導入HDF5數(shù)據(jù)38
2.3.11訪問數(shù)據(jù)庫管理系統(tǒng)38
2.3.12通過Stat/Transfer導入數(shù)據(jù)40
2.4數(shù)據(jù)集的標注40
2.4.1變量標簽40
2.4.2值標簽41
2.5處理數(shù)據(jù)對象的實用函數(shù)41
2.6小結(jié)42
第3章圖形初階 43
3.1使用圖形43
3.2一個簡單的例子45
3.3圖形參數(shù)46
3.3.1符號和線條47
3.3.2顏色 49
3.3.3文本屬性50
3.3.4圖形尺寸與邊界尺寸51
3.4添加文本、自定義坐標軸和圖例53
3.4.1標題 54
3.4.2坐標軸54
3.4.3參考線56
3.4.4圖例57
3.4.5文本標注58
3.4.6數(shù)學標注60
3.5圖形的組合61
3.6小結(jié)67
第4章基本數(shù)據(jù)管理68
4.1一個示例68
4.2創(chuàng)建新變量70
4.3變量的重編碼71
4.4變量的重命名72
4.5缺失值74
4.5.1重編碼某些值為缺失值74
4.5.2在分析中排除缺失值75
4.6日期值76
4.6.1將日期轉(zhuǎn)換為字符型變量77
4.6.2更進一步78
4.7類型轉(zhuǎn)換78
4.8數(shù)據(jù)排序79
4.9數(shù)據(jù)集的合并79
4.9.1向數(shù)據(jù)框添加列79
4.9.2向數(shù)據(jù)框添加行80
4.10數(shù)據(jù)集取子集80
4.10.1選入(保留)變量80
4.10.2剔除(丟棄)變量81
4.10.3選入觀測82
4.10.4subset()函數(shù)82
4.10.5隨機抽樣83
4.11使用SQL語句操作數(shù)據(jù)框83
4.12小結(jié)84
第5章高級數(shù)據(jù)管理85
5.1一個數(shù)據(jù)處理難題85
5.2數(shù)值和字符處理函數(shù)86
5.2.1數(shù)學函數(shù)86
5.2.2統(tǒng)計函數(shù)87
5.2.3概率函數(shù)90
5.2.4字符處理函數(shù)92
5.2.5其他實用函數(shù)94
5.2.6將函數(shù)應(yīng)用于矩陣和數(shù)據(jù)框95
5.3數(shù)據(jù)處理難題的一套解決方案96
5.4控制流100
5.4.1重復和循環(huán)100
5.4.2條件執(zhí)行101
5.5用戶自編函數(shù)102
5.6整合與重構(gòu)104
5.6.1轉(zhuǎn)置104
5.6.2整合數(shù)據(jù)105
5.6.3reshape2包106
5.7小結(jié)108
第二部分 基本方法
第6章基本圖形110
6.1條形圖110
6.1.1簡單的條形圖111
6.1.2堆砌條形圖和分組條形圖112
6.1.3均值條形圖113
6.1.4條形圖的微調(diào)114
6.1.5棘狀圖115
6.2餅圖116
6.3直方圖118
6.4核密度圖120
6.5箱線圖122
6.5.1使用并列箱線圖進行跨組比較123
6.5.2小提琴圖125
6.6點圖127
6.7小結(jié)129
第7章基本統(tǒng)計分析130
7.1描述性統(tǒng)計分析131
7.1.1方法云集131
7.1.2更多方法132
7.1.3分組計算描述性統(tǒng)計量134
7.1.4分組計算的擴展135
7.1.5結(jié)果的可視化137
7.2頻數(shù)表和列聯(lián)表137
7.2.1生成頻數(shù)表137
7.2.2獨立性檢驗143
7.2.3相關(guān)性的度量144
7.2.4結(jié)果的可視化145
7.3相關(guān)145
7.3.1相關(guān)的類型145
7.3.2相關(guān)性的顯著性檢驗147
7.3.3相關(guān)關(guān)系的可視化149
7.4t 檢驗 149
7.4.1獨立樣本的t 檢驗150
7.4.2非獨立樣本的t檢驗151
7.4.3多于兩組的情況151
7.5組間差異的非參數(shù)檢驗152
7.5.1兩組的比較152
7.5.2多于兩組的比較153
7.6組間差異的可視化155
7.7小結(jié)155
第三部分 中級方法
第8章回歸158
8.1回歸的多面性159
8.1.1OLS回歸的適用情境159
8.1.2基礎(chǔ)回顧160
8.2OLS回歸160
8.2.1用lm()擬合回歸模型161
8.2.2簡單線性回歸163
8.2.3多項式回歸164
8.2.4多元線性回歸167
8.2.5有交互項的多元線性回歸169
8.3回歸診斷171
8.3.1標準方法172
8.3.2改進的方法175
8.3.3線性模型假設(shè)的綜合驗證181
8.3.4多重共線性181
8.4異常觀測值182
8.4.1離群點182
8.4.2高杠桿值點182
8.4.3強影響點184
8.5改進措施186
8.5.1刪除觀測點186
8.5.2變量變換187
8.5.3增刪變量188
8.5.4嘗試其他方法188
8.6選擇“”的回歸模型189
8.6.1模型比較189
8.6.2變量選擇190
8.7深層次分析193
8.7.1交叉驗證193
8.7.2相對重要性195
8.8小結(jié)197
第9章方差分析 198
9.1術(shù)語速成198
9.2ANOVA模型擬合201
9.2.1aov()函數(shù)201
9.2.2表達式中各項的順序202
9.3單因素方差分析203
9.3.1多重比較204
9.3.2評估檢驗的假設(shè)條件206
9.4單因素協(xié)方差分析208
9.4.1評估檢驗的假設(shè)條件209
9.4.2結(jié)果可視化210
9.5雙因素方差分析211
9.6重復測量方差分析214
9.7多元方差分析217
9.7.1評估假設(shè)檢驗218
9.7.2穩(wěn)健多元方差分析220
9.8用回歸來做ANOVA220
9.9小結(jié)222
第10章功效分析223
10.1假設(shè)檢驗速覽223
10.2用pwr包做功效分析225
10.2.1t檢驗226
10.2.2方差分析228
10.2.3相關(guān)性228
10.2.4線性模型229
10.2.5比例檢驗230
10.2.6卡方檢驗231
10.2.7在新情況中選擇合適的效應(yīng)值232
10.3繪制功效分析圖形233
10.4其他軟件包235
10.5小結(jié)236
第11章中級繪圖237
11.1散點圖238
11.1.1散點圖矩陣240
11.1.2高密度散點圖242
11.1.3三維散點圖244
11.1.4旋轉(zhuǎn)三維散點圖247
11.1.5氣泡圖248
11.2折線圖250
11.3相關(guān)圖253
11.4馬賽克圖258
11.5小結(jié)260
第12章重抽樣與自助法261
12.1置換檢驗261
12.2用coin包做置換檢驗263
12.2.1獨立兩樣本和K 樣本檢驗264
12.2.2列聯(lián)表中的獨立性266
12.2.3數(shù)值變量間的獨立性266
12.2.4兩樣本和K 樣本相關(guān)性檢驗267
12.2.5深入探究267
12.3lmPerm包的置換檢驗267
12.3.1簡單回歸和多項式回歸268
12.3.2多元回歸269
12.3.3單因素方差分析和協(xié)方差分析270
12.3.4雙因素方差分析271
12.4置換檢驗點評271
12.5自助法272
12.6boot包中的自助法272
12.6.1對單個統(tǒng)計量使用自助法274
12.6.2多個統(tǒng)計量的自助法276
12.7小結(jié)278
第四部分 高級方法
第13章廣義線性模型280
13.1廣義線性模型和glm()函數(shù)281
13.1.1glm()函數(shù)281
13.1.2連用的函數(shù)282
13.1.3模型擬合和回歸診斷283
13.2Logistic回歸284
13.2.1解釋模型參數(shù)286
13.2.2評價預(yù)測變量對結(jié)果概率的影響287
13.2.3過度離勢288
13.2.4擴展289
13.3泊松回歸289
13.3.1解釋模型參數(shù)291
13.3.2過度離勢292
13.3.3擴展294
13.4小結(jié)295
第14章主成分分析和因子分析296
14.1R 中的主成分和因子分析297
14.2主成分分析 298
14.2.1判斷主成分的個數(shù)298
14.2.2提取主成分300
14.2.3主成分旋轉(zhuǎn)303
14.2.4獲取主成分得分304
14.3探索性因子分析305
14.3.1判斷需提取的公共因子數(shù)306
14.3.2提取公共因子307
14.3.3因子旋轉(zhuǎn)308
14.3.4因子得分312
14.3.5其他與EFA相關(guān)的包312
14.4其他潛變量模型312
14.5小結(jié)313
第15章時間序列315
15.1在R中生成時序?qū)ο?17
15.2時序的平滑化和季節(jié)性分解319
15.2.1通過簡單移動平均進行平滑處理319
15.2.2季節(jié)性分解321
15.3指數(shù)預(yù)測模型326
15.3.1單指數(shù)平滑326
15.3.2Holt指數(shù)平滑和Holt-Winters指數(shù)平滑 329
15.3.3ets()函數(shù)和自動預(yù)測331
15.4ARIMA 預(yù)測模型333
15.4.1概念介紹333
15.4.2ARMA和ARIMA模型334
15.4.3ARIMA的自動預(yù)測339
15.5延伸閱讀340
15.6小結(jié)340
第16章聚類分析342
16.1聚類分析的一般步驟343
16.2計算距離344
16.3層次聚類分析345
16.4劃分聚類分析350
16.4.1K均值聚類350
16.4.2圍繞中心點的劃分354
16.5避免不存在的類356
16.6小結(jié)359
第17章分類360
17.1數(shù)據(jù)準備361
17.2邏輯回歸362
17.3決策樹363
17.3.1經(jīng)典決策樹364
17.3.2條件推斷樹366
17.4隨機森林368
17.5支持向量機370
17.6選擇預(yù)測效果好的解374
17.7用rattle包進行數(shù)據(jù)挖掘376
17.8小結(jié)381
第18章處理缺失數(shù)據(jù)的高級方法382
18.1處理缺失值的步驟383
18.2識別缺失值384
18.3探索缺失值模式385
18.3.1列表顯示缺失值385
18.3.2圖形探究缺失數(shù)據(jù)386
18.3.3用相關(guān)性探索缺失值389
18.4理解缺失數(shù)據(jù)的來由和影響391
18.5理性處理不完整數(shù)據(jù) 391
18.6完整實例分析(行刪除)392
18.7多重插補394
18.8處理缺失值的其他方法397
18.8.1成對刪除398
18.8.2簡單(非隨機)插補398
18.9小結(jié)399
第五部分 技能拓展
第19章使用ggplot2進行高級繪圖402
19.1R 中的四種圖形系統(tǒng)402
19.2ggplot2包介紹403
19.3用幾何函數(shù)指定圖的類型407
19.4分組411
19.5刻面413
19.6添加光滑曲線416
19.7修改ggplot2圖形的外觀418
19.7.1坐標軸419
19.7.2圖例420
19.7.3標尺421
19.7.4主題423
19.7.5多重圖425
19.8保存圖形426
19.9小結(jié)426
第20章高級編程427
20.1R 語言回顧427
20.1.1數(shù)據(jù)類型427
20.1.2控制結(jié)構(gòu)433
20.1.3創(chuàng)建函數(shù)436
20.2環(huán)境437
20.3面向?qū)ο蟮木幊?39
20.3.1泛型函數(shù)439
20.3.2S3模型的限制441
20.4編寫有效的代碼442
20.5調(diào)試445
20.5.1常見的錯誤來源445
20.5.2調(diào)試工具446
20.5.3支持調(diào)試的會話選項448
20.6深入學習451
20.7小結(jié)451
第21章創(chuàng)建包452
21.1非參分析和npar包453
21.2開發(fā)包457
21.2.1計算統(tǒng)計量457
21.2.2打印結(jié)果460
21.2.3匯總結(jié)果461
21.2.4繪制結(jié)果463
21.2.5添加樣本數(shù)據(jù)到包464
21.3創(chuàng)建包的文檔466
21.4建立包467
21.5深入學習471
21.6小結(jié)471
第22章創(chuàng)建動態(tài)報告472
22.1用模版生成報告474
22.2用R和Markdown創(chuàng)建動態(tài)報告475
22.3用R和LaTeX創(chuàng)建動態(tài)報告480
22.4用R和Open Document創(chuàng)建動態(tài)報告483
22.5用R和Microsoft Word創(chuàng)建動態(tài)報告485
22.6小結(jié)489
第23章使用lattice進行高級繪圖490
23.1lattice包490
23.2調(diào)節(jié)變量494
23.3面板函數(shù)495
23.4分組變量498
23.5圖形參數(shù)502
23.6自定義圖形條帶503
23.7頁面布局504
23.8深入學習507
附錄A圖形用戶界面508
附錄B自定義啟動環(huán)境511
附錄C從R中導出數(shù)據(jù)513
附錄DR中的矩陣運算515
附錄E本書中用到的擴展包517
附錄F處理大數(shù)據(jù)集522
附錄G更新R526
后記:探索R的世界528
參考文獻530
“對于所有使用R語言進行數(shù)據(jù)分析的人來講,本書都是必不可少的,不論用于業(yè)內(nèi)實踐還是學術(shù)研究。”——Cristofer Weber,NeoGrid軟件架構(gòu)師
“一般R語言問題與許多統(tǒng)計學問題的參考。”——George Gaines,KYOS Systems公司首席運營官
“語言易懂,示例真實,代碼清晰。”——Samuel D. McQuillin,休斯頓大學心理學院助理教授
“為R語言初學者提供了柔和的學習曲線。”——Indrajit Sen Gupta, 就職于Mu Sigma數(shù)據(jù)分析公司
這本書非常詳細,是新手小白最適合的書,我感覺很好用,而且這本書的編寫者非常有名,寫的非常認真。我推薦大家購買,很適合新手,也很適合R語言有一定基礎(chǔ)的人。
權(quán)威性毋庸置疑,學習軟件的同時還可以學習統(tǒng)計思想,何樂而不為呢~
封膜到手就已經(jīng)破了,書的中間有一個很深的類似指甲蓋的印,封面左上角已經(jīng)起皺了。。。書不錯,內(nèi)容非常好。就是書本質(zhì)量不行
這次購物給滿分,物流速度快,書的人包裝也很給力。贊一個!
今天剛收到還沒有使用,是別人推薦的據(jù)說很不錯,期待
剛收到,物流包裝都很好, 應(yīng)該是正版的 ,看后再評吧
有第一版的電子版,第二版直接買了,還需要好好研讀,很好的一本書!
之前只有第一版的電子版,一直想買紙質(zhì)版,沒貨。看到第二版比第一版厚實了些,接下來就是好好學習了!!!
書的紙質(zhì)沒有第一版好,偏黃,但書的內(nèi)容比較好
不錯啊,唯一的缺點就是書中的圖都是黑白的,講得特別細致,極力推薦哦
昨天晚上下的單,今天中午左右到了,蠻快的。書的質(zhì)量和內(nèi)容目前沒發(fā)現(xiàn)什么大問題
想學數(shù)據(jù)分析,買來一本看,我先學完SPSS后,準備攻讀
作為初學者完全沒什么可借鑒性,不實用理論性太強,已經(jīng)轉(zhuǎn)為視頻學習了,好很多
服務(wù)很到位,書的質(zhì)量很好,不過我有一個小請求,能不能重新寄一張發(fā)票呀,我弄錯了,發(fā)票抬頭應(yīng)該是我的單位,好尷尬呀!
絕對經(jīng)典,看起來專業(yè)性極強,以后得下功夫加倍努力了。
看了前兩章,作者寫得挺好的,特別是介紹的一些補充內(nèi)容對初學者很有用
表揚一下快遞小哥,現(xiàn)在很少送樓下了,搞的每次去門口大媽拿,欠著人家似的。當當自營,還是放心,推薦
學習R都推薦這本書,已經(jīng)在學習了,跟著書一起敲敲代碼,書很實用。
適合有一定統(tǒng)計和r語言基礎(chǔ)的人 內(nèi)容很不錯 難度適中
很好的一本書,對R語言介紹的很詳細,值得一看
物流很快,書的紙質(zhì)很好,沒有什么缺頁之類的問題存在,包裝也很好,這本書內(nèi)容豐富,適合學習
R語言基礎(chǔ),可以讓你對R語言學習有較為全面的認知,畢竟是圖靈出版
R語言入門經(jīng)典書,在學校圖書館看過第一版,第二版出來以后果斷購買作為工具書。
很好很好,字體清晰,內(nèi)容豐富系統(tǒng)。早點開始學習這本書就好了
整體而言,書的內(nèi)容還可以,就是發(fā)貨速度,很讓人無語,當當網(wǎng)曾經(jīng)的當日達,隔日達實現(xiàn)不了了。業(yè)績下滑不是沒有理由。
實用 難度適中 把前面基礎(chǔ)章學完后 基本可以在網(wǎng)上照著教程自學 但是想玩好的話還是得有數(shù)學和編程基礎(chǔ)
這是一本好書,我非常喜歡,對我計算機網(wǎng)絡(luò)和數(shù)學算法的幫助極大。R需要很牛叉
很經(jīng)典的一本書,淺顯易懂,適合初學者學習簡單的統(tǒng)計分析之用。
這本書是學R語言的經(jīng)典教材,講的很直白。但是對于我這種電腦小白還有點小難度。要網(wǎng)絡(luò)上找相關(guān)視頻,與此書結(jié)合學習。
一直想學習一下R語言,這本書據(jù)說是學R語言必備的一本書,深入淺出,非常通俗易懂。如果做統(tǒng)計分析,R語言是一門可以讓你提高效率的程序語言。
十分好用啊啊啊!!上金融建模買的那本統(tǒng)計建模與r軟件,但是作為一個對r一無所知的上課還老不聽講的人來說,我還是適合這本書……。大作業(yè)終于做完了_(:3」∠?)_。書挺大的挺厚的。與mini的對比圖_(:з」∠)_