日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
用Python寫網絡爬蟲圖書
人氣:135

用Python寫網絡爬蟲

用Python進行數據處理和數據挖掘的代表著作 剖析網絡爬蟲技術的實現原理 精通Python網絡爬蟲實戰
  • 所屬分類:圖書 >計算機/網絡>程序設計>其他  
  • 作者:[澳][理查德] [勞森]([Richard] [Lawson])
  • 產品參數:
  • 叢書名:--
  • 國際刊號:9787115431790
  • 出版社:人民郵電出版社
  • 出版時間:2016-08
  • 印刷時間:2016-08-01
  • 版次:1
  • 開本:128開
  • 頁數:--
  • 紙張:膠版紙
  • 包裝:平裝
  • 套裝:

內容簡介

《用Python寫網絡爬蟲》講解了如何使用Python來編寫網絡爬蟲程序,內容包括網絡爬蟲簡介,從頁面中抓取數據的三種方法,提取緩存中的數據,使用多個線程和進程來進行并發抓取,如何抓取動態頁面中的內容,與表單進行交互,處理頁面中的驗證碼問題,以及使用Scarpy和Portia來進行數據抓取,使用本書介紹的數據抓取技術對幾個真實的網站進行了抓取,旨在幫助讀者活學活用書中介紹的技術。 《用Python寫網絡爬蟲》適合有一定Python編程經驗,而且對爬蟲技術感興趣的讀者閱讀。

編輯推薦

作為一種便捷地收集網上信息并從中抽取出可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取復雜的網站。 《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的杰出指南,講解了從靜態頁面爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹了如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的復雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,并對一些真實的網站進行了爬取。 《用Python寫網絡爬蟲》介紹了如下內容: 通過跟蹤鏈接來爬取網站; 使用lxml從頁面中抽取數據; 構建線程爬蟲來并行爬取頁面; 將下載的內容進行緩存,以降低帶寬消耗; 解析依賴于JavaScript的網站; 與表單和會話進行交互; 解決受保護頁面的驗證碼問題; 對AJAX調用進行逆向工程; 使用Scrapy創建高級爬蟲。 本書讀者對象 本書是為想要構建的數據爬取解決方案的開發人員寫作的,本書假定讀者具有一定的Python編程經驗。當然,具備其他編程語言開發經驗的讀者也可以閱讀本書,并理解書中涉及的概念和原理。

作者簡介

Richard Lawson來自澳大利亞,畢業于墨爾本大學計算機科學專業。畢業后,他創辦了一家專注于網絡爬蟲的公司,為超過50個國家的業務提供遠程工作。他精通于世界語,可以使用漢語和韓語對話,并且積極投身于開源軟件。他目前在牛津大學攻讀研究生學位,并利用業余時間研發自主無人機。

目錄

目錄

第1章 網絡爬蟲簡介 1

1.1網絡爬蟲何時有用1

1.2網絡爬蟲是否合法2

1.3背景調研3

1.3.1檢查robots.txt3

1.3.2檢查網站地圖4

1.3.3估算網站大小5

1.3.4識別網站所用技術7

1.3.5尋找網站所有者7

1.4編寫及時個網絡爬蟲8

1.4.1下載網頁9

1.4.2網站地圖爬蟲12

1.4.3ID遍歷爬蟲13

1.4.4鏈接爬蟲15

1.5本章小結22

第2章數據抓取23

2.1分析網頁23

2.2三種網頁抓取方法26

2.2.1正則表達式26

2.2.2Beautiful Soup28

2.2.3Lxml30

2.2.4性能對比32

2.2.5結論35

2.2.6為鏈接爬蟲添加抓取回調35

2.3本章小結38

第3章下載緩存39

3.1為鏈接爬蟲添加緩存支持39

3.2磁盤緩存42

3.2.1實現44

3.2.2緩存測試46

3.2.3節省磁盤空間46

3.2.4清理過期數據47

3.2.5缺點48

3.3數據庫緩存49

3.3.1NoSQL是什么50

3.3.2安裝MongoDB50

3.3.3MongoDB概述50

3.3.4MongoDB緩存實現52

3.3.5壓縮54

3.3.6緩存測試54

3.4本章小結55

第4章并發下載57

4.1100萬個網頁57

4.2串行爬蟲60

4.3多線程爬蟲60

4.3.1線程和進程如何工作61

4.3.2實現61

4.3.3多進程爬蟲63

4.4性能67

4.5本章小結68

第5章動態內容69

5.1動態網頁示例69

5.2對動態網頁進行逆向工程72

5.3渲染動態網頁77

5.3.1PyQt還是PySide78

5.3.2執行JavaScript78

5.3.3使用WebKit與網站交互80

5.3.4Selenium85

5.4本章小結88

第6章表單交互89

6.1登錄表單90

6.2

網友評論(不代表本站觀點)

來自yingyul**的評論:

~~~~~

2017-11-14 22:59:24
來自無昵稱**的評論:

好還好還好哈

2017-11-16 08:59:21
來自無昵稱**的評論:

不如看些開源代碼

2017-11-18 13:15:46
來自無昵稱**的評論:

值得一讀。

2017-11-13 09:19:11
來自無昵稱**的評論:

休閑書目,發貨快,很方便。

2017-11-13 15:29:36
來自無昵稱**的評論:

需要有一定網絡基礎看,不然有點吃力。

2017-11-11 17:50:04
來自匿名用**的評論:

那么薄一本。。。

2017-11-09 16:38:48
來自dlllwlw**的評論:

很不錯的書,實用

2017-11-09 21:39:14
來自daizhig**的評論:

書內容還是不錯的,就是有點薄

2017-11-10 08:04:01
來自無昵稱**的評論:

還可以,就是內容比較少

2017-11-11 11:05:57
來自無昵稱**的評論:

緊跟技術發展 對工作幫助大 實用性強 專業性強

2017-11-01 10:07:03
來自亂七八**的評論:

還沒看,不過應該可以

2017-11-02 20:02:12
來自qpkhl62**的評論:

Satisfied

2017-11-03 20:13:13
來自無昵稱**的評論:

以python2.7版寫的,怎么玩?

2017-11-06 10:02:51
來自阿修羅**的評論:

python很適合用來寫爬蟲,這本書挺好的,只是有些小貴。

2016-11-04 20:22:45
來自無昵稱**的評論:

必須給差評,送貨速度太慢了,快遞員電話還是空號,拿到手時,書已經破損,這體驗我還能說啥,以后不再當當買書了,心好累。

2016-11-14 09:33:36
來自無昵稱**的評論:

沒看內容,但感覺很虧,只有157頁,而且書里面的字體很大行距很大,就像給老年人看的。

2016-11-04 11:07:34
來自清風云**的評論:

新手是看不大懂的每看一節需要查閱很多基礎知識

2016-11-06 18:35:29
來自匿名用**的評論:

盡管是搞活動買的,但是還是覺得買的很虧,內容很少,只是些例子

2017-06-09 15:17:29
來自楚云襄**的評論:

很好的一本書,講的是python網絡爬蟲的。書比較薄,但是很基礎,適合初級入門人員觀看。

2016-11-19 15:34:38
來自匿名用**的評論:

書本有點薄,內容還沒細看,應該還不錯,開始爬蟲之路吧

2017-07-09 18:19:50
來自kvyao**的評論:

內容差了一點,應該是新手寫的書,面面俱到的說相當沒說,書沒有深度

2017-08-16 14:30:11
來自匿名用**的評論:

還沒有看,最近對python有興趣,看評論不錯就入手了。

2017-08-12 09:51:58
來自匿名用**的評論:

本來應該是一本好書,可惜書中提及的示例網站卻出了問題了,不僅一些路徑變了,甚至一些文件訪問不了!!!這意味著第一章給出的所謂到后面還能繼續使用的第一個完整爬蟲,到了后面勢必出問題。剛拿到書就看了一章,示例中的路徑用不了,只能嘗試使用別的網站做實驗。剛剛上到書中提及的網站代碼托管的網站,看到里面有許多網友也在反饋部分文件無法訪問的問題,但是好像并沒有人在維護沒有人解決問題的。無語...

2017-09-28 00:54:21
來自匿名用**的評論:

有點受不了的快遞,5月31號早上買的,現在(6月6號15:59)到的,想聯系快遞員,給我留個12位的手機號,見鬼了

2017-06-06 16:03:01
來自夢想家g**的評論:

這本書好薄。。這本書還沒看,希望是一本不錯的書!

2016-12-19 12:17:44
來自f***r(**的評論:

還沒有看,但是書比較薄,內容卻很難,得把python學好

2017-01-18 13:36:22
來自gengjt**的評論:

趁雙十一前買的,怕快遞太慢,但還是耽誤了,好在滿二百減一百活動,還是比較超值的,太薄了

2016-11-15 10:03:40
來自匿名用**的評論:

書本身有層塑料薄膜包裝,快遞過程中比較耐摔。

2017-02-11 08:23:05
來自匿名用**的評論:

書薄薄的,感覺一天可以看完的樣子。先把python裝起來先

2017-03-21 22:01:01
來自無昵稱**的評論:

書是塑料袋裝的,快遞就把書扔到地上等簽收,書的封皮被地上的小石子扎得坑坑洼洼的,新書變舊書,好心疼!

2016-11-16 12:59:29
來自匿名用**的評論:

趁618活動買的 五折優惠很實惠 書很薄 內容還沒看

2017-06-19 17:33:12
來自西紅柿**的評論:

哈哈,默認好評的。對于這本書,需要有些Python 的語法基礎,和網絡基礎。書有點薄

2016-12-09 13:02:16
來自i***n(**的評論:

一直想學怎么寫爬蟲,找不到好的教材。希望這本書能起到作用吧

2017-06-02 20:15:52
來自無昵稱**的評論:

剛到貨,還沒看,看起來很不錯的樣子。不過書比較薄。

2016-12-16 17:02:52
來自匿名用**的評論:

適合初學者,但是需要一定的python基礎

2017-06-30 12:26:54
來自無昵稱**的評論:

這個爬蟲比較火啊!對這個好奇就買了,希望今后多看看,有用的。今后得多看看,好好學習這個方向的知識!

2017-03-02 17:55:08
來自匿名用**的評論:

本書半年前買的,陸陸續續在看,寫得總體不錯~~不過前段時間開始書中的示例網站已經無法訪問,讀者已經沒辦法使用本書進行訓練了~~而且書中沒有提供作者的聯系方式,也無法讓作者對網站進行修復~~總體而言,本書當前已無法使用,慎買~~!

2017-06-01 10:30:00

免責聲明

更多出版社