日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
基于R語言的自動(dòng)數(shù)據(jù)收集:網(wǎng)絡(luò)抓取和文本挖掘?qū)嵱弥改蠄D書
人氣:55

基于R語言的自動(dòng)數(shù)據(jù)收集:網(wǎng)絡(luò)抓取和文本挖掘?qū)嵱弥改?/h3>
本書共17章。第1章是概述,闡述數(shù)據(jù)挖掘的意義與實(shí)際應(yīng)用。第2~8章介紹網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)基礎(chǔ)知識(shí)。這一部分內(nèi)容涉及互聯(lián)網(wǎng)上通信、交換、保存和顯示信息的基礎(chǔ)技術(shù)(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解...

內(nèi)容簡(jiǎn)介

本書共17章。第1章是概述,闡述數(shù)據(jù)挖掘的意義與實(shí)際應(yīng)用。第2~8章介紹網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)基礎(chǔ)知識(shí)。這一部分內(nèi)容涉及互聯(lián)網(wǎng)上通信、交換、保存和顯示信息的基礎(chǔ)技術(shù)(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解用于查詢網(wǎng)絡(luò)文檔和數(shù)據(jù)集的基本技術(shù)(XPath和正則表達(dá)式)。第9~11章介紹網(wǎng)絡(luò)抓取和文本挖掘的實(shí)用工具箱。這一部分由三個(gè)核心章節(jié)組成:第9章講解多種網(wǎng)絡(luò)抓取技術(shù),涉及正則表達(dá)式的使用、XPath、各類API接口、其他數(shù)據(jù)類型以及開源社區(qū)相關(guān)的技術(shù);第10章深入介紹用于統(tǒng)計(jì)性文本處理的技術(shù);第11章給出關(guān)于用R管理數(shù)據(jù)的項(xiàng)目中常見問題的一些見解。第12~17章介紹實(shí)際案例分析,涉及美國(guó)參議院里的合作網(wǎng)絡(luò)、從半結(jié)構(gòu)化文檔解析信息、利用Twitter預(yù)測(cè)2014年奧斯卡獎(jiǎng)、繪制姓氏地理分布圖、采集關(guān)于手機(jī)的數(shù)據(jù)、分析產(chǎn)品評(píng)論里的情緒等。這些案例分析針對(duì)日常的數(shù)據(jù)抓取和文本處理的工作流程、真實(shí)環(huán)境數(shù)據(jù)中的陷阱以及規(guī)避它們的方法等問題提供一些實(shí)用的見解。

目錄

譯者序

前 言

第1章概述

1.1案例研究:瀕危世界遺產(chǎn)地

1.2有關(guān)網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量的一些討論

1.3傳播、提取和保存網(wǎng)絡(luò)數(shù)據(jù)的技術(shù)

1.3.1在網(wǎng)絡(luò)上傳播內(nèi)容的技術(shù)

1.3.2從Web文檔中提取信息的

技術(shù)

1.3.3 數(shù)據(jù)保存的技術(shù)

1.4本書的結(jié)構(gòu)

及時(shí)部分網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)入門

第2章HTML

2.1瀏覽器顯示及源代碼

2.2語法規(guī)則

2.2.1標(biāo)簽、元素和屬性

2.2.2樹形結(jié)構(gòu)

2.2.3注釋

2.2.4保留字符和特殊字符

2.2.5文檔類型定義

2.2.6 空格和換行

2.3標(biāo)簽和屬性

2.3.1 錨標(biāo)簽

2.3.2 元數(shù)據(jù)標(biāo)簽

2.3.3 外部引用標(biāo)簽

2.3.4 強(qiáng)調(diào)標(biāo)簽、和

2.3.5段落標(biāo)簽

2.3.6 標(biāo)題標(biāo)簽、、

2.3.7 通過、和

列舉內(nèi)容

2.3.8組織型標(biāo)簽和

2.3.9 標(biāo)簽及其同伴

2.3.10 外部腳本標(biāo)簽

2.3.11 表格標(biāo)簽、、

2.4解析

2.4.1 解析簡(jiǎn)介

2.4.2丟棄節(jié)點(diǎn)

2.4.3在創(chuàng)建過程中提取信息

小結(jié)

延伸閱讀

習(xí)題

第3章 XML和JSON

3.1 XML文檔示例

3.2 XML語法規(guī)則

3.2.1 元素和屬性

3.2.2 XML結(jié)構(gòu)

第4章xpath

第5章HTTP

第6章AJAX

第7章SQL和關(guān)系型數(shù)據(jù)庫(kù)

第8章正則表達(dá)式和基本字符串函數(shù)

第二部分網(wǎng)絡(luò)抓取和文本挖掘?qū)嵱霉ぞ呦?/p>

第9章網(wǎng)絡(luò)抓取

第10章統(tǒng)計(jì)性文本處理

第11章管理數(shù)據(jù)項(xiàng)目

第三部分一組案例分析

第12章美國(guó)參議院里的合作網(wǎng)絡(luò)

第13章從半結(jié)構(gòu)化文檔解析信息

第14章利用Twitter預(yù)測(cè)2014年奧斯卡獎(jiǎng)

第15章繪制姓氏地理分布圖

第16章采集關(guān)于手機(jī)的數(shù)據(jù)

第17章分析產(chǎn)品評(píng)論里的情緒

網(wǎng)友評(píng)論(不代表本站觀點(diǎn))

免責(zé)聲明

更多出版社