在集團(tuán)內(nèi),數(shù)據(jù)人員面臨的現(xiàn)實情況是:集團(tuán)數(shù)據(jù)存儲已經(jīng)達(dá)到EB級別,部分單張表每天的數(shù)據(jù)記錄數(shù)高達(dá)幾千億條;在2016年"雙11購物狂歡節(jié)"的24小時中,支付金額達(dá)到了1207億元人民幣,支付峰值高達(dá)12萬筆/秒,下單峰值達(dá)17.5萬筆/秒,媒體直播大屏處理的總數(shù)據(jù)量高達(dá)百億級別且所有數(shù)據(jù)都需要做到實時、地對外披露……巨大的信息量給數(shù)據(jù)采集、存儲和計算都帶來了極大的挑戰(zhàn)。《大數(shù)據(jù)之路——大數(shù)據(jù)實踐》就是在此背景下完成的。本書中講到的大數(shù)據(jù)系統(tǒng)架構(gòu),就是為了滿足不斷變化的業(yè)務(wù)需求,同時實現(xiàn)系統(tǒng)的高度擴(kuò)展性、靈活性以及數(shù)據(jù)展現(xiàn)的高性能而設(shè)計的。本書由數(shù)據(jù)技術(shù)及產(chǎn)品部組織并完成寫作,是分享對大數(shù)據(jù)的認(rèn)知,與生態(tài)伙伴共創(chuàng)數(shù)據(jù)智能的重要基石。相信本書中的實踐和思考對同行會有很大的啟發(fā)和借鑒意義。
數(shù)據(jù)技術(shù)及產(chǎn)品部是所屬的數(shù)據(jù)業(yè)務(wù)部門,該部門最為熟知大阿里的整個大數(shù)據(jù)業(yè)務(wù)發(fā)展。該部門的幾位博學(xué)員工結(jié)合實踐完成本書。主要分析近幾年的數(shù)據(jù)挖掘、分析、應(yīng)用的探索經(jīng)歷。本書適合所有搞數(shù)據(jù)研究、數(shù)據(jù)分析的個人或企業(yè)學(xué)習(xí)參考。
目錄
第1章 總述1第1篇 數(shù)據(jù)技術(shù)篇第2章 日志采集82.1 瀏覽器的頁面日志采集8
2.1.1 頁面瀏覽日志采集流程9
2.1.2 頁面交互日志采集14
2.1.3 頁面日志的服務(wù)器端清洗和預(yù)處理15
2.2 無線客戶端的日志采集16
2.2.1 頁面事件17
2.2.2 控件點擊及其他事件18
2.2.3 特殊場景19
2.2.4 H5 & Native日志統(tǒng)一20
2.2.5 設(shè)備標(biāo)識22
2.2.6 日志傳輸23
2.3 日志采集的挑戰(zhàn)24
2.3.1 典型場景24
2.3.2 大促保障26第3章 數(shù)據(jù)同步29
3.1 數(shù)據(jù)同步基礎(chǔ)29
3.1.1 直連同步30
3.1.2 數(shù)據(jù)文件同步30
3.1.3 數(shù)據(jù)庫日志解析同步31
3.2 阿里數(shù)據(jù)倉庫的同步方式35
3.2.1 批量數(shù)據(jù)同步35
3.2.2 實時數(shù)據(jù)同步37
3.3 數(shù)據(jù)同步遇到的問題與解決方案39
3.3.1 分庫分表的處理39
3.3.2 高效同步和批量同步41
3.3.3 增量與全量同步的合并42
3.3.4 同步性能的處理43
3.3.5 數(shù)據(jù)漂移的處理45第4章 離線數(shù)據(jù)開發(fā)48
4.1 數(shù)據(jù)開發(fā)平臺48
4.1.1 統(tǒng)一計算平臺49
4.1.2 統(tǒng)一開發(fā)平臺53
4.2 任務(wù)調(diào)度系統(tǒng)58
4.2.1 背景58
4.2.2 介紹59
4.2.3 特點及應(yīng)用65第5章 實時技術(shù)68
5.1 簡介69
5.2 流式技術(shù)架構(gòu)71
5.2.1 數(shù)據(jù)采集72
5.2.2 數(shù)據(jù)處理74
5.2.3 數(shù)據(jù)存儲78
5.2.4 數(shù)據(jù)服務(wù)80
5.3 流式數(shù)據(jù)模型80
5.3.1 數(shù)據(jù)分層80
5.3.2 多流關(guān)聯(lián)83
5.3.3 維表使用84
5.4 大促挑戰(zhàn)&保障86
5.4.1 大促特征86
5.4.2 大促保障88第6章 數(shù)據(jù)服務(wù)91
6.1 服務(wù)架構(gòu)演進(jìn)91
6.1.1 DWSOA92
6.1.2 OpenAPI93
6.1.3 SmartDQ94
6.1.4 統(tǒng)一的數(shù)據(jù)服務(wù)層96
6.2 技術(shù)架構(gòu)97
6.2.1 SmartDQ97
6.2.2 iPush100
6.2.3 Lego101
6.2.4 uTiming102
6.3 實踐103
6.3.1 性能103
6.3.2 穩(wěn)定性111第7章 數(shù)據(jù)挖掘116
7.1 數(shù)據(jù)挖掘概述116
7.2 數(shù)據(jù)挖掘算法平臺117
7.3 數(shù)據(jù)挖掘中臺體系119
7.3.1 挖掘數(shù)據(jù)中臺120
7.3.2 挖掘算法中臺122
7.4 數(shù)據(jù)挖掘案例123
7.4.1 用戶畫像123
7.4.2 互聯(lián)網(wǎng)反作弊125第2篇 數(shù)據(jù)模型篇第8章 大數(shù)據(jù)領(lǐng)域建模綜述1308.2 關(guān)系數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫131
8.3 從OLTP和OLAP系統(tǒng)的區(qū)別看模型方法論的選擇132
8.4 典型的數(shù)據(jù)倉庫建模方法論132
8.4.1 ER模型132
8.4.2 維度模型133
8.4.3 Data Vault模型134
8.4.4 Anchor模型135
8.5 阿里巴巴數(shù)據(jù)模型實踐綜述136第9章 阿里巴巴數(shù)據(jù)整合及管理體系138
9.1 概述138
9.1.1 定位及價值139
9.1.2 體系架構(gòu)139
9.2 規(guī)范定義140
9.2.1 名詞術(shù)語141
9.2.2 指標(biāo)體系141
9.3 模型設(shè)計148
9.3.1 指導(dǎo)理論148
9.3.2 模型層次148
9.3.3 基本原則150
9.4 模型實施152
9.4.1 業(yè)界常用的模型實施過程152
9.4.2 OneData實施過程154第10章 維度設(shè)計159
10.1 維度設(shè)計基礎(chǔ)159
10.1.1 維度的基本概念159
10.1.2 維度的基本設(shè)計方法160
10.1.3 維度的層次結(jié)構(gòu)162
10.1.4 規(guī)范化和反規(guī)范化163
10.1.5 一致性維度和交叉探查165
10.2 維度設(shè)計高級主題166
10.2.1 維度整合166
10.2.2 水平拆分169
10.2.3 垂直拆分170
10.2.4 歷史歸檔171
10.3 維度變化172
10.3.1 緩慢變化維172
10.3.2 快照維表174
10.3.3 極限存儲175
10.3.4 微型維度178
10.4 特殊維度180
10.4.1 遞歸層次180
10.4.2 行為維度184
10.4.3 多值維度185
10.4.4 多值屬性187
10.4.5 雜項維度188第11章 事實表設(shè)計190
11.1 事實表基礎(chǔ)190
11.1.1 事實表特性190
11.1.2 事實表設(shè)計原則191
11.1.3 事實表設(shè)計方法193
11.2 事務(wù)事實表196
11.2.1 設(shè)計過程196
11.2.2 單事務(wù)事實表200
11.2.3 多事務(wù)事實表202
11.2.4 兩種事實表對比206
11.2.5 父子事實的處理方式208
11.2.6 事實的設(shè)計準(zhǔn)則209
11.3 周期快照事實表210
11.3.1 特性211
11.3.2 實例212
11.3.3 注意事項217
11.4 累積快照事實表218
11.4.1 設(shè)計過程218
11.4.2 特點221
11.4.3 特殊處理223
11.4.4 物理實現(xiàn)225
11.5 三種事實表的比較227
11.6 無事實的事實表228
11.7 聚集型事實表228
11.7.1 聚集的基本原則229
11.7.2 聚集的基本步驟229
11.7.3 阿里公共匯總層230
11.7.4 聚集補(bǔ)充說明234第3篇 數(shù)據(jù)管理篇第12章 元數(shù)據(jù)236
12.1 元數(shù)據(jù)概述236
12.1.1 元數(shù)據(jù)定義236
12.1.2 元數(shù)據(jù)價值237
12.1.3 統(tǒng)一元數(shù)據(jù)體系建設(shè)238
12.2 元數(shù)據(jù)應(yīng)用239
12.2.1 Data Profile239
12.2.2 元數(shù)據(jù)門戶241
12.2.3 應(yīng)用鏈路分析241
12.2.4 數(shù)據(jù)建模242
12.2.5 驅(qū)動ETL開發(fā)243第13章 計算管理245
13.1 系統(tǒng)優(yōu)化245
13.1.1 HBO246
13.1.2 CBO249
13.2 任務(wù)優(yōu)化256
13.2.1 Map傾斜257
13.2.2 Join傾斜261
13.2.3 Reduce傾斜269
第14章 存儲和成本管理275
14.1 數(shù)據(jù)壓縮275
14.2 數(shù)據(jù)重分布276
14.3 存儲治理項優(yōu)化277
14.4 生命周期管理278
14.4.1 生命周期管理策略278
14.4.2 通用的生命周期管理矩陣280
14.5 數(shù)據(jù)成本計量283
14.6 數(shù)據(jù)使用計費284第15章 數(shù)據(jù)質(zhì)量285
15.1 數(shù)據(jù)質(zhì)量保障原則285
15.2 數(shù)據(jù)質(zhì)量方法概述287
15.2.1 消費場景知曉289
15.2.2 數(shù)據(jù)加工過程卡點校驗292
15.2.3 風(fēng)險點監(jiān)控295
15.2.4 質(zhì)量衡量299第4篇 數(shù)據(jù)應(yīng)用篇第16章 數(shù)據(jù)應(yīng)用304
16.1 生意參謀305
16.1.1 背景概述305
16.1.2 功能架構(gòu)與技術(shù)能力307
16.1.3 商家應(yīng)用實踐310
16.2 對內(nèi)數(shù)據(jù)產(chǎn)品平臺313
16.2.1 定位313
16.2.2 產(chǎn)品建設(shè)歷程314
16.2.3 整體架構(gòu)介紹317
附錄A 本書插圖索引320