本書共17章。第1章是概述,闡述數據挖掘的意義與實際應用。第2~8章介紹網絡和數據技術基礎知識。這一部分內容涉及互聯網上通信、交換、保存和顯示信息的基礎技術(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解用于查詢網絡文檔和數據集的基本技術(XPath和正則表達式)。第9~11章介紹網絡抓取和文本挖掘的實用工具箱。這一部分由三個核心章節組成:第9章講解多種網絡抓取技術,涉及正則表達式的使用、XPath、各類API接口、其他數據類型以及開源社區相關的技術;第10章深入介紹用于統計性文本處理的技術;第11章給出關于用R管理數據的項目中常見問題的一些見解。第12~17章介紹實際案例分析,涉及美國參議院里的合作網絡、從半結構化文檔解析信息、利用Twitter預測2014年奧斯卡獎、繪制姓氏地理分布圖、采集關于手機的數據、分析產品評論里的情緒等。這些案例分析針對日常的數據抓取和文本處理的工作流程、真實環境數據中的陷阱以及規避它們的方法等問題提供一些實用的見解。
譯者序
前 言
第1章概述
1.1案例研究:瀕危世界遺產地
1.2有關網絡數據質量的一些討論
1.3傳播、提取和保存網絡數據的技術
1.3.1在網絡上傳播內容的技術
1.3.2從Web文檔中提取信息的
技術
1.3.3 數據保存的技術
1.4本書的結構
及時部分網絡和數據技術入門
第2章HTML
2.1瀏覽器顯示及源代碼
2.2語法規則
2.2.1標簽、元素和屬性
2.2.2樹形結構
2.2.3注釋
2.2.4保留字符和特殊字符
2.2.5文檔類型定義
2.2.6 空格和換行
2.3標簽和屬性
2.3.1 錨標簽
2.3.2 元數據標簽
2.3.3 外部引用標簽
2.3.4 強調標簽、和
2.3.5段落標簽
2.3.6 標題標簽、、
等
2.3.7 通過、和
列舉內容
2.3.8組織型標簽和
2.3.9 標簽及其同伴
2.3.10 外部腳本標簽
2.3.11 表格標簽、、
和
2.4解析
2.4.1 解析簡介
2.4.2丟棄節點
2.4.3在創建過程中提取信息
小結
延伸閱讀
習題
第3章 XML和JSON
3.1 XML文檔示例
3.2 XML語法規則
3.2.1 元素和屬性
3.2.2 XML結構
第4章xpath
第5章HTTP
第6章AJAX
第7章SQL和關系型數據庫
第8章正則表達式和基本字符串函數
第二部分網絡抓取和文本挖掘實用工具箱
第9章網絡抓取
第10章統計性文本處理
第11章管理數據項目
第三部分一組案例分析
第12章美國參議院里的合作網絡
第13章從半結構化文檔解析信息
第14章利用Twitter預測2014年奧斯卡獎
第15章繪制姓氏地理分布圖
第16章采集關于手機的數據
第17章分析產品評論里的情緒