日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
基于R語言的自動數據收集:網絡抓取和文本挖掘實用指南圖書
人氣:65

基于R語言的自動數據收集:網絡抓取和文本挖掘實用指南

本書共17章。第1章是概述,闡述數據挖掘的意義與實際應用。第2~8章介紹網絡和數據技術基礎知識。這一部分內容涉及互聯網上通信、交換、保存和顯示信息的基礎技術(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解...

內容簡介

本書共17章。第1章是概述,闡述數據挖掘的意義與實際應用。第2~8章介紹網絡和數據技術基礎知識。這一部分內容涉及互聯網上通信、交換、保存和顯示信息的基礎技術(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解用于查詢網絡文檔和數據集的基本技術(XPath和正則表達式)。第9~11章介紹網絡抓取和文本挖掘的實用工具箱。這一部分由三個核心章節組成:第9章講解多種網絡抓取技術,涉及正則表達式的使用、XPath、各類API接口、其他數據類型以及開源社區相關的技術;第10章深入介紹用于統計性文本處理的技術;第11章給出關于用R管理數據的項目中常見問題的一些見解。第12~17章介紹實際案例分析,涉及美國參議院里的合作網絡、從半結構化文檔解析信息、利用Twitter預測2014年奧斯卡獎、繪制姓氏地理分布圖、采集關于手機的數據、分析產品評論里的情緒等。這些案例分析針對日常的數據抓取和文本處理的工作流程、真實環境數據中的陷阱以及規避它們的方法等問題提供一些實用的見解。

目錄

譯者序

前 言

第1章概述

1.1案例研究:瀕危世界遺產地

1.2有關網絡數據質量的一些討論

1.3傳播、提取和保存網絡數據的技術

1.3.1在網絡上傳播內容的技術

1.3.2從Web文檔中提取信息的

技術

1.3.3 數據保存的技術

1.4本書的結構

及時部分網絡和數據技術入門

第2章HTML

2.1瀏覽器顯示及源代碼

2.2語法規則

2.2.1標簽、元素和屬性

2.2.2樹形結構

2.2.3注釋

2.2.4保留字符和特殊字符

2.2.5文檔類型定義

2.2.6 空格和換行

2.3標簽和屬性

2.3.1 錨標簽

2.3.2 元數據標簽

2.3.3 外部引用標簽

2.3.4 強調標簽、和

2.3.5段落標簽

2.3.6 標題標簽、、

2.3.7 通過、和

列舉內容

2.3.8組織型標簽和

2.3.9 標簽及其同伴

2.3.10 外部腳本標簽

2.3.11 表格標簽、、

2.4解析

2.4.1 解析簡介

2.4.2丟棄節點

2.4.3在創建過程中提取信息

小結

延伸閱讀

習題

第3章 XML和JSON

3.1 XML文檔示例

3.2 XML語法規則

3.2.1 元素和屬性

3.2.2 XML結構

第4章xpath

第5章HTTP

第6章AJAX

第7章SQL和關系型數據庫

第8章正則表達式和基本字符串函數

第二部分網絡抓取和文本挖掘實用工具箱

第9章網絡抓取

第10章統計性文本處理

第11章管理數據項目

第三部分一組案例分析

第12章美國參議院里的合作網絡

第13章從半結構化文檔解析信息

第14章利用Twitter預測2014年奧斯卡獎

第15章繪制姓氏地理分布圖

第16章采集關于手機的數據

第17章分析產品評論里的情緒

網友評論(不代表本站觀點)

免責聲明

更多出版社