日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
數(shù)據(jù)挖掘?qū)д?完整版)圖書(shū)
人氣:43

數(shù)據(jù)挖掘?qū)д?完整版)

【好評(píng)返5元店鋪禮券】信息管理專家、科技作家涂子沛傾情推薦,帶你進(jìn)入真正的大數(shù)據(jù)時(shí)代!

內(nèi)容簡(jiǎn)介

數(shù)據(jù)挖掘?qū)д?完整版)》介紹了數(shù)據(jù)挖掘的理論和方法,旨在為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實(shí)際問(wèn)題所必需的知識(shí)。《數(shù)據(jù)挖掘?qū)д?完整版)》涵蓋五個(gè)主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測(cè)。除異常檢測(cè)外,每個(gè)主題都包含兩章:前面一章講述基本概念、代表性算法和評(píng)估技術(shù),后面一章較深入地討論不錯(cuò)概念和算法。目的是使讀者在透徹地理解數(shù)據(jù)挖掘基礎(chǔ)的同時(shí),還能了解更多重要的不錯(cuò)主題。此外,書(shū)中還提供了大量示例、圖表和習(xí)題。

數(shù)據(jù)挖掘?qū)д?完整版)》適合作為相關(guān)專業(yè)高年級(jí)本科生和研究生數(shù)據(jù)挖掘課程的教材,同時(shí)也可作為數(shù)據(jù)挖掘研究和應(yīng)用開(kāi)發(fā)人員的參考書(shū)。

編輯推薦

數(shù)據(jù)挖掘?qū)д?完整版)》介紹了數(shù)據(jù)挖掘,涵蓋了五個(gè)主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測(cè)。除異常檢測(cè)外,每個(gè)主題都有兩章。前一章涵蓋基本概念、代表性算法和評(píng)估技術(shù),而后一章討論不錯(cuò)概念和算法。這樣讀者在透徹地理解數(shù)據(jù)挖掘的基礎(chǔ)的同時(shí),還能夠了解更多重要的不錯(cuò)主題。

數(shù)據(jù)挖掘?qū)д?完整版)》是明尼蘇達(dá)大學(xué)和密歇根州立大學(xué)數(shù)據(jù)挖掘課程的教材,由于獨(dú)具特色,正式出版之前就已經(jīng)被斯坦福大學(xué)、得克薩斯大學(xué)奧斯汀分校等眾多名校采用。《數(shù)據(jù)挖掘?qū)д?完整版)》特色

與許多其他同類圖書(shū)不同,《數(shù)據(jù)挖掘?qū)д?完整版)》將重點(diǎn)放在如何用數(shù)據(jù)挖掘知識(shí)解決各種實(shí)際問(wèn)題。

只要求具備很少的預(yù)備知識(shí)——不需要數(shù)據(jù)庫(kù)背景,只需要很少的統(tǒng)計(jì)學(xué)或數(shù)學(xué)背景知識(shí)。

書(shū)中包含大量的圖表、綜合示例和豐富的習(xí)題,并且使用示例、關(guān)鍵算法的簡(jiǎn)潔描述和習(xí)題,盡可能直接聚焦于數(shù)

據(jù)挖掘的主要概念。

教輔內(nèi)容極為豐富,包括課程幻燈片、學(xué)生課題建議、數(shù)據(jù)挖掘資源(如數(shù)據(jù)挖掘算法和數(shù)據(jù)集)、聯(lián)機(jī)指南(使

用實(shí)際的數(shù)據(jù)集和數(shù)據(jù)分析軟件,《數(shù)據(jù)挖掘?qū)д?完整版)》介紹的部分?jǐn)?shù)據(jù)挖掘技術(shù)提供例子講解)。

作者簡(jiǎn)介

陳封能(Pang-Ning Tan)現(xiàn)為密歇根州立大學(xué)計(jì)算機(jī)與工程系助理教授,主要教授數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)系統(tǒng)等課程。此前,他曾是明尼蘇達(dá)大學(xué)美國(guó)陸軍高性能計(jì)算研究中心副研究員(2002-2003)。

斯坦巴赫(Michael Steinbach)明尼蘇達(dá)大學(xué)計(jì)算機(jī)與工程系研究員,在讀博士。

庫(kù)瑪爾(Vipin Kumar)明尼蘇達(dá)大學(xué)計(jì)算機(jī)科學(xué)與工程系主任,曾任美國(guó)陸軍高性能計(jì)算研究中心主任。他擁有馬里蘭大學(xué)博士學(xué)位,是數(shù)據(jù)挖掘和高性能計(jì)算方面的靠前很好不錯(cuò),IEEE會(huì)士。

范明,鄭州大學(xué)信息工程學(xué)院教授,中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專業(yè)委員會(huì)委員、人工智能與模式識(shí)別專業(yè)委員會(huì)委員,長(zhǎng)期從事計(jì)算機(jī)軟件與理論教學(xué)和研究。先后發(fā)表論史40余篇。

范宏建 澳大利亞墨爾本大學(xué)計(jì)算機(jī)科學(xué)博士。先后在WWW、PAKDD、RSFDGrC、IEEE GrC和Australian AI等靠前學(xué)術(shù)會(huì)議和IEEE Transactions on Knowledge and Data Engineering10余篇。目前是澳大利亞AUSTRAC的不錯(cuò)分析師。

目錄

第1章 緒論 1

1.1 什么是數(shù)據(jù)挖掘 2

1.2 數(shù)據(jù)挖掘要解決的問(wèn)題 2

1.3 數(shù)據(jù)挖掘的起源 3

1.4 數(shù)據(jù)挖掘任務(wù) 4

1.5 本書(shū)的內(nèi)容與組織 7

文獻(xiàn)注釋 7

參考文獻(xiàn) 8

習(xí)題 10

第2章 數(shù)據(jù) 13

2.1 數(shù)據(jù)類型 14

2.1.1 屬性與度量 15

2.1.2 數(shù)據(jù)集的類型 18

2.2 數(shù)據(jù)質(zhì)量 22

2.2.1 測(cè)量和數(shù)據(jù)收集問(wèn)題 22

2.2.2 關(guān)于應(yīng)用的問(wèn)題 26

2.3 數(shù)據(jù)預(yù)處理 27

2.3.1 聚集 27

2.3.2 抽樣 28

2.3.3 維歸約 30

.2.3.4 特征子集選擇 31

2.3.5 特征創(chuàng)建 33

2.3.6 離散化和二元化 34

2.3.7 變量變換 38

2.4 相似性和相異性的度量 38

2.4.1 基礎(chǔ) 39

2.4.2 簡(jiǎn)單屬性之間的相似度和相異度 40

2.4.3 數(shù)據(jù)對(duì)象之間的相異度 41

2.4.4 數(shù)據(jù)對(duì)象之間的相似度 43

2.4.5 鄰近性度量的例子 43

2.4.6 鄰近度計(jì)算問(wèn)題 48

2.4.7 選取正確的鄰近性度量 50

文獻(xiàn)注釋 50

參考文獻(xiàn) 52

習(xí)題 53

第3章 探索數(shù)據(jù) 59

3.1 鳶尾花數(shù)據(jù)集 59

3.2 匯總統(tǒng)計(jì) 60

3.2.1 頻率和眾數(shù) 60

3.2.2 百分位數(shù) 61

3.2.3 位置度量:均值和中位數(shù) 61

3.2.4 散布度量:極差和方差 62

3.2.5 多元匯總統(tǒng)計(jì) 63

3.2.6 匯總數(shù)據(jù)的其他方法 64

3.3 可視化 64

3.3.1 可視化的動(dòng)機(jī) 64

3.3.2 一般概念 65

3.3.3 技術(shù) 67

3.3.4 可視化高維數(shù)據(jù) 75

3.3.5 注意事項(xiàng) 79

3.4 olap和多維數(shù)據(jù)分析 79

3.4.1 用多維數(shù)組表示鳶尾花數(shù)據(jù) 80

3.4.2 多維數(shù)據(jù):一般情況 81

3.4.3 分析多維數(shù)據(jù) 82

3.4.4 關(guān)于多維數(shù)據(jù)分析的評(píng)述 84

文獻(xiàn)注釋 84

參考文獻(xiàn) 85

習(xí)題 86

第4章 分類:基本概念、決策樹(shù)與模型評(píng)估 89

4.1 預(yù)備知識(shí) 89

4.2 解決分類問(wèn)題的一般方法 90

4.3 決策樹(shù)歸納 92

4.3.1 決策樹(shù)的工作原理 92

4.3.2 如何建立決策樹(shù) 93

4.3.3 表示屬性測(cè)試條件的方法 95

4.3.4 選擇劃分的度量 96

4.3.5 決策樹(shù)歸納算法 101

4.3.6 例子:web 機(jī)器人檢測(cè) 102

4.3.7 決策樹(shù)歸納的特點(diǎn) 103

4.4 模型的過(guò)分?jǐn)M合 106

4.4.1 噪聲導(dǎo)致的過(guò)分?jǐn)M合 107

4.4.2 缺乏代表性樣本導(dǎo)致的過(guò)分?jǐn)M合 109

4.4.3 過(guò)分?jǐn)M合與多重比較過(guò)程 109

4.4.4 泛化誤差估計(jì) 110

4.4.5 處理決策樹(shù)歸納中的過(guò)分?jǐn)M合 113

4.5 評(píng)估分類器的性能 114

4.5.1 保持方法 114

4.5.2 隨機(jī)二次抽樣 115

4.5.3 交叉驗(yàn)證 115

4.5.4 自助法 115

4.6 比較分類器的方法 116

4.6.1 估計(jì)度的置信區(qū)間 116

4.6.2 比較兩個(gè)模型的性能 117

4.6.3 比較兩種分類法的性能 118

文獻(xiàn)注釋 118

參考文獻(xiàn) 120

習(xí)題 122

第5章 分類:其他技術(shù) 127

5.1 基于規(guī)則的分類器 127

5.1.1 基于規(guī)則的分類器的工作原理 128

5.1.2 規(guī)則的排序方案 129

5.1.3 如何建立基于規(guī)則的分類器 130

5.1.4 規(guī)則提取的直接方法 130

5.1.5 規(guī)則提取的間接方法 135

5.1.6 基于規(guī)則的分類器的特征 136

5.2 最近鄰分類器 137

5.2.1 算法 138

5.2.2 最近鄰分類器的特征 138

5.3 貝葉斯分類器 139

5.3.1 貝葉斯定理 139

5.3.2 貝葉斯定理在分類中的應(yīng)用 140

5.3.3 樸素貝葉斯分類器 141

5.3.4 貝葉斯誤差率 145

5.3.5 貝葉斯信念網(wǎng)絡(luò) 147

5.4 人工神經(jīng)網(wǎng)絡(luò) 150

5.4.1 感知器 151

5.4.2 多層人工神經(jīng)網(wǎng)絡(luò) 153

5.4.3 人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 155

5.5 支持向量機(jī) 156

5.5.1 較大邊緣超平面 156

5.5.2 線性支持向量機(jī):可分情況 157

5.5.3 線性支持向量機(jī):不可分情況 162

5.5.4 非線性支持向量機(jī) 164

5.5.5 支持向量機(jī)的特征 168

5.6 組合方法 168

5.6.1 組合方法的基本原理 168

5.6.2 構(gòu)建組合分類器的方法 169

5.6.3 偏倚-方差分解 171

5.6.4 裝袋 173

5.6.5 提升 175

5.6.6 隨機(jī)森林 178

5.6.7 組合方法的實(shí)驗(yàn)比較 179

5.7 不平衡類問(wèn)題 180

5.7.1 可選度量 180

5.7.2 接受者操作特征曲線 182

5.7.3 代價(jià)敏感學(xué)習(xí) 184

5.7.4 基于抽樣的方法 186

5.8 多類問(wèn)題 187

文獻(xiàn)注釋 189

參考文獻(xiàn) 190

習(xí)題 193

第6章 關(guān)聯(lián)分析:基本概念和算法 201

6.1 問(wèn)題定義 202

6.2 頻繁項(xiàng)集的產(chǎn)生 204

6.2.1 先驗(yàn)原理 205

6.2.2 apriori算法的頻繁項(xiàng)集產(chǎn)生 206

6.2.3 候選的產(chǎn)生與剪枝 208

6.2.4 支持度計(jì)數(shù) 210

6.2.5 計(jì)算復(fù)雜度 213

6.3 規(guī)則產(chǎn)生 215

6.3.1 基于置信度的剪枝 215

6.3.2 apriori算法中規(guī)則的產(chǎn)生 215

6.3.3 例:美國(guó)國(guó)會(huì)投票記錄 217

6.4 頻繁項(xiàng)集的緊湊表示 217

6.4.1 極大頻繁項(xiàng)集 217

6.4.2 閉頻繁項(xiàng)集 219

6.5 產(chǎn)生頻繁項(xiàng)集的其他方法 221

6.6 fp增長(zhǎng)算法 223

6.6.1 fp樹(shù)表示法 224

6.6.2 fp增長(zhǎng)算法的頻繁項(xiàng)集產(chǎn)生 225

6.7 關(guān)聯(lián)模式的評(píng)估 228

6.7.1 興趣度的客觀度量 228

6.7.2 多個(gè)二元變量的度量 235

6.7.3 辛普森悖論 236

6.8 傾斜支持度分布的影響 237

文獻(xiàn)注釋 240

參考文獻(xiàn) 244

習(xí)題 250

第7章 關(guān)聯(lián)分析:高級(jí)概念 259

7.1 處理分類屬性 259

7.2 處理連續(xù)屬性 261

7.2.1 基于離散化的方法 261

7.2.2 基于統(tǒng)計(jì)學(xué)的方法 263

7.2.3 非離散化方法 265

7.3 處理概念分層 266

7.4 序列模式 267

7.4.1 問(wèn)題描述 267

7.4.2 序列模式發(fā)現(xiàn) 269

7.4.3 時(shí)限約束 271

7.4.4 可選計(jì)數(shù)方案 274

7.5 子圖模式 275

7.5.1 圖與子圖 276

7.5.2 頻繁子圖挖掘 277

7.5.3 類apriori方法 278

7.5.4 候選產(chǎn)生 279

7.5.5 候選剪枝 282

7.5.6 支持度計(jì)數(shù) 285

7.6 非頻繁模式 285

7.6.1 負(fù)模式 285

7.6.2 負(fù)相關(guān)模式 286

7.6.3 非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較 287

7.6.4 挖掘有趣的非頻繁模式的技術(shù) 288

7.6.5 基于挖掘負(fù)模式的技術(shù) 288

7.6.6 基于支持度期望的技術(shù) 290

文獻(xiàn)注釋 292

參考文獻(xiàn) 293

習(xí)題 295

第8章 聚類分析:基本概念和算法 305

8.1 概述 306

8.1.1 什么是聚類分析 306

8.1.2 不同的聚類類型 307

8.1.3 不同的簇類型 308

8.2 k均值 310

8.2.1 基本k均值算法 310

8.2.2 k均值:附加的問(wèn)題 315

8.2.3 二分k均值 316

8.2.4 k均值和不同的簇類型 317

8.2.5 優(yōu)點(diǎn)與缺點(diǎn) 318

8.2.6 k均值作為優(yōu)化問(wèn)題 319

8.3 凝聚層次聚類 320

8.3.1 基本凝聚層次聚類算法 321

8.3.2 特殊技術(shù) 322

8.3.3 簇鄰近度的lance-williams公式 325

8.3.4 層次聚類的主要問(wèn)題 326

8.3.5 優(yōu)點(diǎn)與缺點(diǎn) 327

8.4 dbscan 327

8.4.1 傳統(tǒng)的密度:基于中心的方法 327

8.4.2 dbscan算法 328

8.4.3 優(yōu)點(diǎn)與缺點(diǎn) 329

8.5 簇評(píng)估 330

8.5.1 概述 332

8.5.2 非監(jiān)督簇評(píng)估:使用凝聚度和分離度 332

8.5.3 非監(jiān)督簇評(píng)估:使用鄰近度矩陣 336

8.5.4 層次聚類的非監(jiān)督評(píng)估 338

8.5.5 確定正確的簇個(gè)數(shù) 339

8.5.6 聚類趨勢(shì) 339

8.5.7 簇有效性的監(jiān)督度量 340

8.5.8 評(píng)估簇有效性度量的顯著性 343

文獻(xiàn)注釋 344

參考文獻(xiàn) 345

習(xí)題 347

第9章 聚類分析:其他問(wèn)題與算法 355

9.1 數(shù)據(jù)、簇和聚類算法的特性 355

9.1.1 例子:比較k均值和dbscan 355

9.1.2 數(shù)據(jù)特性 356

9.1.3 簇特性 357

9.1.4 聚類算法的一般特性 358

9.2 基于原型的聚類 359

9.2.1 模糊聚類 359

9.2.2 使用混合模型的聚類 362

9.2.3 自組織映射 369

9.3 基于密度的聚類 372

9.3.1 基于網(wǎng)格的聚類 372

9.3.2 子空間聚類 374

9.3.3 denclue:基于密度聚類的一種基于核的方案 377

9.4 基于圖的聚類 379

9.4.1 稀疏化 379

9.4.2 最小生成樹(shù)聚類 380

9.4.3 opossum:使用metis的稀疏相似度劃分 381

9.4.4 chameleon:使用動(dòng)態(tài)建模的層次聚類 381

9.4.5 共享最近鄰相似度 385

9.4.6 jarvis-patrick聚類算法 387

9.4.7 snn密度 388

9.4.8 基于snn密度的聚類 389

9.5 可伸縮的聚類算法 390

9.5.1 可伸縮:一般問(wèn)題和方法 391

9.5.2 birch 392

9.5.3 cure 393

9.6 使用哪種聚類算法 395

文獻(xiàn)注釋 397

參考文獻(xiàn) 398

習(xí)題 400

第10章 異常檢測(cè) 403

10.1 預(yù)備知識(shí) 404

10.1.1 異常的成因 404

10.1.2 異常檢測(cè)方法 404

10.1.3 類標(biāo)號(hào)的使用 405

10.1.4 問(wèn)題 405

10.2 統(tǒng)計(jì)方法 406

10.2.1 檢測(cè)一元正態(tài)分布中的離群點(diǎn) 407

10.2.2 多元正態(tài)分布的離群點(diǎn) 408

10.2.3 異常檢測(cè)的混合模型方法 410

10.2.4 優(yōu)點(diǎn)與缺點(diǎn) 411

10.3 基于鄰近度的離群點(diǎn)檢測(cè) 411

10.4 基于密度的離群點(diǎn)檢測(cè) 412

10.4.1 使用相對(duì)密度的離群點(diǎn)檢測(cè) 413

10.4.2 優(yōu)點(diǎn)與缺點(diǎn) 414

10.5 基于聚類的技術(shù) 414

10.5.1 評(píng)估對(duì)象屬于簇的程度 415

10.5.2 離群點(diǎn)對(duì)初始聚類的影響 416

10.5.3 使用簇的個(gè)數(shù) 416

10.5.4 優(yōu)點(diǎn)與缺點(diǎn) 416

文獻(xiàn)注釋 417

參考文獻(xiàn) 418

習(xí)題 420

附錄a 線性代數(shù) 423

附錄b 維歸約 433

附錄c 概率統(tǒng)計(jì) 445

附錄d 回歸 451

附錄e 優(yōu)化 457

在線預(yù)覽

空間數(shù)據(jù)的重要例子是科學(xué)和工程數(shù)據(jù)集,其數(shù)據(jù)取自二維或三維網(wǎng)格上規(guī)則或不規(guī)則分布的點(diǎn)上的測(cè)量或模型輸出。例如,地球科學(xué)數(shù)據(jù)集記錄在各種分辨率(如每度)下經(jīng)緯度球面網(wǎng)格點(diǎn)(網(wǎng)格單元)上測(cè)量的溫度和氣壓(見(jiàn)圖2-4d)。另一個(gè)例子,在瓦斯氣流模擬中,可以針對(duì)模擬中的每個(gè)網(wǎng)格點(diǎn)記錄流速和方向。

5.處理非記錄數(shù)據(jù)大部分?jǐn)?shù)據(jù)挖掘算法都是為記錄數(shù)據(jù)或其變體(如事務(wù)數(shù)據(jù)和數(shù)據(jù)矩陣)設(shè)計(jì)的。通過(guò)從數(shù)據(jù)對(duì)象中提取特征,并使用這些特征創(chuàng)建對(duì)應(yīng)于每個(gè)對(duì)象的記錄,針對(duì)記錄數(shù)據(jù)的技術(shù)也可以用于非記錄數(shù)據(jù)。考慮前面介紹的化學(xué)結(jié)構(gòu)數(shù)據(jù)。給定一個(gè)常見(jiàn)的子結(jié)構(gòu)集合,每個(gè)化合物都可以用一個(gè)具有二元屬性的記錄表示,這些二元屬性指出化合物是否包含特定的子結(jié)構(gòu)。這樣的表示實(shí)際上是事務(wù)數(shù)據(jù)集,其中事務(wù)是化合物,而項(xiàng)是子結(jié)構(gòu)。在某些情況下,容易用記錄形式表示數(shù)據(jù),但是這類表示并不能捕獲數(shù)據(jù)中的所有信息。考慮這樣的時(shí)間空間數(shù)據(jù),它由空間網(wǎng)格每一點(diǎn)上的時(shí)間序列組成。通常,這種數(shù)據(jù)存放在數(shù)據(jù)矩陣中,其中每行代表一個(gè)位置,而每列代表一個(gè)特定的時(shí)間點(diǎn)。然而,這種表示并不能明確地表示屬性之間存在的時(shí)間聯(lián)系以及對(duì)象之間存在的空間聯(lián)系。但并不是說(shuō)這種表示不合適,而是說(shuō)分析時(shí)必須考慮這些聯(lián)系。例如,在使用數(shù)據(jù)挖掘技術(shù)時(shí),假定屬性之間在統(tǒng)計(jì)上是相互獨(dú)立的并不是一個(gè)好主意。……

網(wǎng)友評(píng)論(不代表本站觀點(diǎn))

來(lái)自匿名用**的評(píng)論:

經(jīng)典圖書(shū),值得一讀

2017-02-16 10:07:20
來(lái)自漓江漁**的評(píng)論:

書(shū)是好書(shū),圖靈書(shū)都不錯(cuò)的,就是書(shū)角好象被用力砟過(guò),有破損,不影響使用。

2014-12-28 17:39:44

免責(zé)聲明

更多出版社