日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
Python數據處理圖書
人氣:72

Python數據處理

本書采用基于項目的方法,介紹用Python完成數據獲取、數據清洗、數據探索、數據呈現、數據規模化和自動化的過程。
  • 所屬分類:圖書 >計算機/網絡>程序設計>其他  
  • 作者:[美] [杰奎琳·凱澤爾]([Jacqueline] [Kazil])[凱瑟琳]?[賈繆爾]([Katharine] [Jarmul])
  • 產品參數:
  • 叢書名:--
  • 國際刊號:9787115459190
  • 出版社:人民郵電出版社
  • 出版時間:2017-06
  • 印刷時間:2017-06-01
  • 版次:1
  • 開本:16開
  • 頁數:--
  • 紙張:膠版紙
  • 包裝:平裝-膠訂
  • 套裝:

內容簡介

本書采用基于項目的方法,介紹用Python完成數據獲取、數據清洗、數據探索、數據呈現、數據規模化和自動化的過程。主要內容包括:Python基礎知識,如何從CSV、Excel、XML、JSON和PDF文件中提取數據,如何獲取與存儲數據,各種數據清洗與分析技術,數據可視化方法,如何從網站和API中提取數據。

編輯推薦

用傳統的電子表格來處理數據不僅效率低下,而且無法處理某些格式的數據,對于混亂或龐大的數據集更是束手無策。本書將教你如何利用語法簡單、容易上手的Python輕松處理數據。作者通過循序漸進的練習,詳細介紹如何有效地獲取、清洗、分析與呈現數據,如何將數據處理過程自動化,如何安排文件編輯與清洗任務,如何處理更大的數據集,以及如何利用獲取的數據來創作引人入勝的故事。學完本書,你的數據處理和分析能力將更上一層樓。 快速了解Python基本語法、數據類型和語言概念 概述數據的獲取與存儲方式 清洗數據并格式化,以消除數據集中的重復值與錯誤 學習何時對數據進行標準化,何時對數據清理進行測試并將其腳本化 使用Scrapy寫網絡爬蟲 利用新的Python庫和技術對數據集進行探索與分析 使用Python解決方案將整個數據處理過程自動化

作者簡介

Jacqueline Kazil,數據科學家,zi深軟件開發者。活躍于Python軟件基金會、PyLadies等社區。曾參與美國總統創新伙伴項目,是美國政府技術組織18F的聯合創始人。曾擔任《華盛頓郵報》數據記者。 Katharine Jarmul,zi深Python開發者,PyLadies聯合創始人。喜歡數據分析和獲取、網頁抓取、教人學習Python以及Unix,期望通過教育和培訓來促進Python和其他開源語言的多元化。

目錄

前言 xiii

第1 章 Python 簡介 1

1.1 為什么選擇Python 4

1.2 開始使用Python 4

1.2.1 Python 版本選擇 5

1.2.2 安裝Python 6

1.2.3 測試Python 9

1.2.4 安裝pip 11

1.2.5 安裝代碼編輯器 12

1.2.6 安裝IPython(可選) 13

1.3 小結 13

第2 章 Python 基礎 14

2.1 基本數據類型 15

2.1.1 字符串 15

2.1.2 整數和浮點數 15

2.2 數據容器 18

2.2.1 變量 18

2.2.2 列表 21

2.2.3 字典 22

2.3 各種數據類型的用途 23

2.3.1 字符串方法:字符串能做什么 24

2.3.2 數值方法:數字能做什么 25

2.3.3 列表方法:列表能做什么 26

2.3.4 字典方法:字典能做什么 27

2.4 有用的工具:type、dir 和help 28

2.4.1 type 28

2.4.2 dir 28

2.4.3 help 30

2.5 綜合運用 31

2.6 代碼的含義 32

2.7 小結 33

第3 章 供機器讀取的數據 34

3.1 CSV 數據 35

3.1.1 如何導入CSV 數據 36

3.1.2 將代碼保存到文件中并在命令行中運行 39

3.2 JSON 數據 41

3.3 XML 數據 44

3.4 小結 56

第4 章 處理Excel 文件 58

4.1 安裝Python 包 58

4.2 解析Excel 文件 59

4.3 開始解析 60

4.4 小結 71

第5 章 處理PDF 文件,以及用Python 解決問題 73

5.1 盡量不要用PDF 73

5.2 解析PDF 的編程方法 74

5.2.1 利用slate 庫打開并讀取PDF 75

5.2.2 將PDF 轉換成文本 77

5.3 利用pdfminer 解析PDF 78

5.4 學習解決問題的方法 92

5.4.1 練習:使用表格提取,換用另一個庫 94

5.4.2 練習:手動清洗數據 98

5.4.3 練習:試用另一種工具 98

5.5 不常見的文件類型 101

5.6 小結 101

第6 章 數據獲取與存儲 103

6.1 并非所有數據生而平等 103

6.2 真實性核查 104

6.3 數據可讀性、數據清潔度和數據壽命 105

6.4 尋找數據 105

6.4.1 打電話 105

6.4.2 美國政府數據 106

6.4.3 全球政府和城市開放數據 107

6.4.4 組織數據和非政府組織數據 109

6.4.5 教育數據和大學數據 109

6.4.6 醫學數據和科學數據 109

6.4.7 眾包數據和API 110

6.5 案例研究:數據調查實例 111

6.5.1 埃博拉病毒危機 111

6.5.2 列車安全 111

6.5.3 足球運動員的薪水 112

6.5.4 童工 112

6.6 數據存儲 113

6.7 數據庫簡介 113

6.7.1 關系型數據庫:MySQL 和PostgreSQL 114

6.7.2 非關系型數據庫:NoSQL 116

6.7.3 用Python 創建本地數據庫 117

6.8 使用簡單文件 118

6.8.1 云存儲和Python 118

6.8.2 本地存儲和Python 119

6.9 其他數據存儲方式 119

6.10 小結 119

第7 章 數據清洗:研究、匹配與格式化 121

7.1 為什么要清洗數據 121

7.2 數據清洗基礎知識 122

7.2.1 找出需要清洗的數據 123

7.2.2 數據格式化 131

7.2.3 找出離群值和不良數據 135

7.2.4 找出重復值 140

7.2.5 模糊匹配 143

7.2.6 正則表達式匹配 146

7.2.7 如何處理重復記錄 150

7.3 小結 151

第8 章 數據清洗:標準化和腳本化 153

8.1 數據歸一化和標準化 153

8.2 數據存儲 154

8.3 找到適合項目的數據清洗方法 156

8.4 數據清洗腳本化 157

8.5 用新數據測試 170

8.6 小結 172

第9 章 數據探索和分析 173

9.1 探索數據 173

9.1.1 導入數據 174

9.1.2 探索表函數 179

9.1.3 聯結多個數據集 182

9.1.4 識別相關性 186

9.1.5 找出離群值 187

9.1.6 創建分組 189

9.1.7 深入探索 192

9.2 分析數據 193

9.2.1 分離和聚焦數據 194

9.2.2 你的數據在講什么 196

9.2.3 描述結論 196

9.2.4 將結論寫成文檔 197

9.3 小結 197

第10 章 展示數據 199

10.1 避免講故事陷阱 199

10.1.1 怎樣講故事 200

10.1.2 了解聽眾 200

10.2 可視化數據 201

10.2.1 圖表 201

10.2.2 時間相關數據 207

10.2.3 地圖 208

10.2.4 交互式元素 211

10.2.5 文字 212

10.2.6 圖片、視頻和插畫 212

10.3 展示工具 213

10.4 數據 213

10.4.1 使用可用站點 213

10.4.2 開源平臺:創建一個新網站 215

10.4.3 Jupyter(曾名IPython notebook) 216

10.5 小結 219

第11 章 網頁抓取:獲取并存儲網絡數據 221

11.1 抓取什么和如何抓取 221

11.2 分析網頁 223

11.2.1 檢視:標記結構 224

11.2.2 網絡 時間線:頁面是如何加載的 230

11.2.3 控制臺:同JavaScript 交互 232

11.2.4 頁面的深入分析 236

11.3 得到頁面:如何通過互聯網發出請求 237

11.4 使用Beautiful Soup 讀取網頁 238

11.5 使用lxml 讀取網頁 241

11.6 小結 249

第12 章 高級網頁抓取:屏幕抓取器與爬蟲 251

12.1 基于瀏覽器的解析 251

12.1.1 使用Selenium 進行屏幕讀取 252

12.1.2 使用Ghost.py 進行屏幕讀取 260

12.2 爬取網頁 266

12.2.1 使用Scrapy 創建一個爬蟲 266

12.2.2 使用Scrapy 爬取整個網站 273

12.3 網絡:互聯網的工作原理,以及為什么它會讓腳本崩潰 281

12.4 變化的互聯網(或腳本為什么崩潰) 283

12.5 幾句忠告 284

12.6 小結 284

第13 章 應用編程接口 286

13.1 API 特性 287

13.1.1 REST API 與流式API 287

13.1.2 頻率限制 287

13.1.3 分級數據卷 288

13.1.4 API key 和token 289

13.2 一次簡單的Twitter REST API 數據拉取 290

13.3 使用Twitter REST API 進行高級數據收集 292

13.4 使用Twitter 流式API 進行高級數據收集 295

13.5 小結 297

第14 章 自動化和規模化 298

14.1 為什么要自動化 298

14.2 自動化步驟 299

14.3 什么會出錯 301

14.4 在哪里自動化 302

14.5 自動化的特殊工具 303

14.5.1 使用本地文件、參數及配置文件 303

14.5.2 在數據處理中使用云 308

14.5.3 使用并行處理 310

14.5.4 使用分布式處理 312

14.6 簡單的自動化 313

14.6.1 CronJobs 314

14.6.2 Web 接口 316

14.6.3 Jupyter notebook 316

14.7 大規模自動化 317

14.7.1 Celery:基于隊列的自動化 317

14.7.2 Ansible:操作自動化 318

14.8 監控自動化程序 319

14.8.1 Python 日志 320

14.8.2 添加自動化信息 322

14.8.3 上傳和其他報告 326

14.8.4 日志和監控服務 327

14.9 沒有萬無一失的系統 328

14.10 小結 328

第15 章 結論 330

15.1 數據處理者的職責 330

15.2 數據處理之上 331

15.2.1 成為一名更的數據分析師 331

15.2.2 成為一名更的開發者 331

15.2.3 成為一名更的視覺化講故事者 332

15.2.4 成為一名更的系統架構師 332

15.3 下一步做什么 332

附錄A 編程語言對比 334

附錄B 初學者的Python 學習資源 336

附錄C 學習命令行 338

附錄D 高級Python 設置 349

附錄E Python 陷阱 361

附錄F IPython 指南 370

附錄G 使用亞馬遜網絡服務 374

關于作者 378

關于封面 378

媒體評論

“如果你一直感覺電子表格(甚至關系型數據庫)無法回答你想要提出的問題,或者除這些工具之外你準備進一步學習,那么這本書非常適合你。我一直在等待這本書的出現。” ——Derek Willis,ProPublica新聞應用開發者,OpenElections聯合創始人 “所有新手數據科學家、數據工程師或其他技術方面的數據專家都應該讀一讀這本實踐指南。數據處理領域正需要這樣一本書,真希望我第1次開始用Python處理數據時就能有它指導。” ——Tyrone Grandison博士,Pro

網友評論(不代表本站觀點)

來自林***泉**的評論:

內容還不錯

2017-07-23 13:01:49
來自匿名用**的評論:

比另一本數據分析比較下 還是很不錯的

2017-07-25 10:08:34
來自molead**的評論:

質量不錯,不算厚,書要慢慢學慢慢看

2017-08-16 09:21:33
來自無昵稱**的評論:

書不錯!python數據處理的好書

2017-08-21 21:39:18
來自無昵稱**的評論:

一般 書中沒用pandas庫 紫薯紫薯

2017-08-25 09:38:57
來自b***8(**的評論:

周五下單,選擇周末送達,結果快遞未按時送達,無法接受,快遞人員送晚了,打電話,態度超差,就沖你們這樣的服務,以后不再當當買書,當當的服務真書越來越差。

2017-09-17 17:36:18
來自無昵稱**的評論:

請將翻譯者介紹也寫到詳情中,其技術和英語水平直接影響書的質量

2017-10-12 23:33:29
來自coldxy1**的評論:

這本書真的很好,推薦大家購買

2017-10-26 08:38:28
來自無昵稱**的評論:

好評,值得一看

2017-10-30 20:33:48
來自匿名用**的評論:

至少應該介紹下譯者,翻譯者的技術,英語水平與書的質量有很大關系。

2017-10-12 23:30:42

免責聲明

更多出版社