《Hadoop安全 大數(shù)據(jù)平臺(tái)隱私保護(hù)》闡述了Hadoop從早期開放的消費(fèi)互聯(lián)網(wǎng)時(shí)代到現(xiàn)在作為敏感數(shù)據(jù)可信平臺(tái)的演變歷程,介紹了包括身份驗(yàn)證、加密、密鑰管理和商業(yè)實(shí)踐在內(nèi)的諸多主題,并在實(shí)際環(huán)境下加以討論。第1章是介紹性內(nèi)容,隨后分為四大部分:部分是安全架構(gòu),第二部分是驗(yàn)證、授權(quán)和安全審計(jì),第三部分是數(shù)據(jù)安全,第四部分是歸納總結(jié)。后介紹了幾個(gè)使用案例,融合了書中諸多概念。 《Hadoop安全 大數(shù)據(jù)平臺(tái)隱私保護(hù)》適合對(duì)Hadoop感興趣的讀者,有大數(shù)據(jù)平臺(tái)保護(hù)需求的讀者。
隨著使用Hadoop存儲(chǔ)并處理大量數(shù)據(jù)的企業(yè)不斷增多,Hadoop安全性日益凸顯,尤其是在金融和醫(yī)療等涉及敏感信息的行業(yè)。本書兩位作者均來自Hadoop安全防范一線,書中詳細(xì)論述了身份驗(yàn)證、加密、密鑰管理等諸多重要主題,并給出了具體處理建議和案例分析,讀者可以從中了解搭建和使用Hadoop的架構(gòu)師是如何安全管理大數(shù)據(jù)的。 - 了解分布式系統(tǒng),尤其是Hadoop所面臨的安全挑戰(zhàn) - 學(xué)習(xí)如何盡可能確保Hadoop集群硬件的安全性 - Kerberos網(wǎng)絡(luò)認(rèn)證協(xié)議概覽 - 身份驗(yàn)證、授權(quán)和審計(jì)原則在Hadoop中的應(yīng)用 - 靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)的加密 - 客戶端訪問和數(shù)據(jù)提取過程的安全防護(hù)措施
Ben Spivey Cloudera解決方案架構(gòu)師,曾在多家世界500強(qiáng)企業(yè)工作,涉及金融服務(wù)、零售、醫(yī)療等多個(gè)行業(yè)。在于客戶的Hadoop集群進(jìn)行規(guī)劃、安裝、配置以及安全保護(hù)方面有豐富經(jīng)驗(yàn)。 Joey Echeverria Rocana軟件工程師,負(fù)責(zé)在Apache Hadoop平臺(tái)下構(gòu)建一代IT運(yùn)行分析系統(tǒng)。Hadoop生態(tài)系統(tǒng)數(shù)據(jù)API Kite SDK的貢獻(xiàn)者,并為Flume、Hadoop、HBase等多個(gè)Apache項(xiàng)目做過了貢獻(xiàn)。
序 xi
前言 xii
第1 章引言 1
1.1安全概覽 1
1.1.1機(jī)密性 2
1.1.2完整性 2
1.1.3可用性 2
1.1.4驗(yàn)證、授權(quán)和審計(jì) 3
1.2Hadoop 安全:簡(jiǎn)史 5
1.3Hadoop 組件和生態(tài)系統(tǒng) 5
1.3.1Apache HDFS 6
1.3.2Apache YARN 7
1.3.3Apache MapReduce 8
1.3.4Apache Hive 9
1.3.5Cloudera Impala 9
1.3.6Apache Sentry 10
1.3.7ApacheHBase 11
1.3.8Apache Accumulo 11
1.3.9Apache Solr.13
1.3.10Apache Oozie 13
1.3.11Apache ZooKeeper 13
1.3.12Apache Flume .13
1.3.13Apache Sqoop .14
vi | 目錄
1.3.14ClouderaHue 14
1.4小結(jié) .14
及時(shí)部分安全架構(gòu)
第2 章保護(hù)分布式系統(tǒng) .16
2.1威脅種類 17
2.1.1非授權(quán)訪問/偽裝 17
2.1.2內(nèi)在威脅 .17
2.1.3拒絕服務(wù) .18
2.1.4數(shù)據(jù)威脅 .18
2.2威脅和風(fēng)險(xiǎn)評(píng)估 18
2.2.1用戶評(píng)估 .19
2.2.2環(huán)境評(píng)估 .19
2.3漏洞 .19
2.4深度防御 20
2.5小結(jié) .21
第3 章系統(tǒng)架構(gòu) 22
3.1運(yùn)行環(huán)境 22
3.2網(wǎng)絡(luò)安全 23
3.2.1網(wǎng)絡(luò)劃分 .23
3.2.2網(wǎng)絡(luò)防火墻 24
3.2.3入侵檢測(cè)和防御 .25
3.3Hadoop 角色和隔離策略 27
3.3.1主節(jié)點(diǎn) 28
3.3.2工作節(jié)點(diǎn) .29
3.3.3管理節(jié)點(diǎn) .29
3.3.4邊界節(jié)點(diǎn) .30
3.4操作系統(tǒng)安全 31
3.4.1遠(yuǎn)程訪問控制 31
3.4.2主機(jī)防火墻 31
3.4.3SELinux 33
3.5小結(jié) .34
第4 章Kerberos 35
4.1為什么是Kerberos .35
4.2Kerberos 概覽 36
4.3Kerberos 工作流:一個(gè)簡(jiǎn)單示例 .37
目錄 | vii
4.4Kerberos 信任 38
4.5MIT Kerberos .39
4.5.1服務(wù)端配置 41
4.5.2客戶端配置 44
4.6小結(jié) .46
第二部分驗(yàn)證、授權(quán)和審計(jì)
第5 章身份和驗(yàn)證 .48
5.1身份 .48
5.1.1將Kerberos 主體映射為用戶名 .49
5.1.2Hadoop 用戶到組的映射 50
5.1.3Hadoop 用戶配置 54
5.2身份驗(yàn)證 54
5.2.1Kerberos 55
5.2.2用戶名和密碼驗(yàn)證 56
5.2.3令牌 56
5.2.4用戶模擬 .59
5.2.5配置 60
5.3小結(jié) .70
第6 章授權(quán) 71
6.1HDFS 授權(quán) 71
HDFS 擴(kuò)展ACL .72
6.2服務(wù)級(jí)授權(quán) .74
6.3MapReduce 和YARN 的授權(quán) .85
6.3.1MapReduce(MR1) 86
6.3.2YARN(MR2) 87
6.6HBase 和Accumulo 的授權(quán) 95
6.6.1系統(tǒng)、命名空間和表級(jí)授權(quán) 95
6.6.2列級(jí)別和單元級(jí)別授權(quán) .99
6.7小結(jié) .99
第7 章Apache Sentry(孵化中) 100
7.1Sentry 概念 100
7.2Sentry 服務(wù) 102
7.3Hive 授權(quán) 105
7.4Impala 授權(quán) 110
7.5Solr 授權(quán) 112
viii | 目錄
7.6Sentry 特權(quán)模型 113
7.6.1SQL 特權(quán)模型 114
7.6.2Solr 特權(quán)模型 .116
7.7Sentry 策略管理 118
7.7.1SQL 命令 118
7.7.2SQL 策略文件 121
7.7.3Solr 策略文件 .123
7.7.4策略文件的驗(yàn)證和校驗(yàn) 124
7.7.5從策略文件遷移 126
7.8小結(jié) 127
第8 章審計(jì) .128
8.1HDFS 審計(jì)日志 .129
8.2MapReduce 審計(jì)日志 .130
8.3YARN 審計(jì)日志132
8.4Hive 審計(jì)日志 134
8.5ClouderaImpala 審計(jì)日志 134
8.6HBase 審計(jì)日志 135
8.7Accumulo 審計(jì)日志 137
8.8Sentry 審計(jì)日志 139
8.9日志聚合 140
8.10小結(jié) 141
第三部分?jǐn)?shù)據(jù)安全
第9 章數(shù)據(jù)保護(hù) .144
9.1加密算法 144
9.2靜態(tài)數(shù)據(jù)加密 .145
9.2.1加密和密鑰管理 146
9.2.2HDFS 靜態(tài)數(shù)據(jù)加密 .146
9.2.3MapReduce2 中間數(shù)據(jù)加密 151
9.2.4Impala 磁盤溢出加密 152
9.2.5全盤加密 152
9.2.6文件系統(tǒng)加密 154
9.2.7Hadoop 中重要數(shù)據(jù)的安全考慮 .155
9.3動(dòng)態(tài)數(shù)據(jù)加密 .156
9.3.1傳輸層安全 .156
9.3.2Hadoop 動(dòng)態(tài)數(shù)據(jù)加密 157
目錄 | ix
9.4數(shù)據(jù)銷毀和刪除 162
9.5小結(jié) 163
第10 章數(shù)據(jù)導(dǎo)入安全 .164
10.1導(dǎo)入數(shù)據(jù)的完整性 165
10.2數(shù)據(jù)導(dǎo)入的機(jī)密性 166
10.2.1Flume 加密 167
10.2.2Sqoop 加密 173
10.3導(dǎo)入工作流 178
10.4企業(yè)架構(gòu) .179
10.5小結(jié) 180
第11 章數(shù)據(jù)提取和客戶端訪問安全 181
11.1Hadoop 命令行接口 .182
11.2保護(hù)應(yīng)用安全 183
11.3HBase 184
11.3.1HBase shell 184
11.3.2HBase REST 網(wǎng)關(guān) 186
11.3.3HBase Thrift 網(wǎng)關(guān) 189
11.4Accumulo 190
11.4.1Accumulo shell 190
11.4.2Accumulo 服務(wù) 192
11.5Oozie .192
11.6Sqoop .194
11.7SQL 訪問 195
11.7.1Impala .195
11.7.2Hive .200
11.8WebHDFS/HttpFS 208
11.9小結(jié) 209
第12 章Cloudera Hue .210
12.1Hue HTTPS 211
12.2Hue 身份驗(yàn)證 212
12.2.1SPNEGO 后端 212
12.2.2SAML 后端 .213
12.2.3LDAP 后端 .215
12.3Hue 授權(quán) .218
12.4Hue SSL 客戶端配置 219
12.5小結(jié) 219
x | 目錄
第四部分綜合應(yīng)用
第13 章案例分析 .222
13.1案例分析:Hadoop 數(shù)據(jù)倉(cāng)庫(kù) 222
13.1.1環(huán)境搭建 223
13.1.2用戶體驗(yàn) 226
13.1.3小結(jié) .229
13.2案例分析:交互式HBaseWeb 應(yīng)用 .230
13.2.1設(shè)計(jì)與架構(gòu) .230
13.2.2安全需求 231
13.2.3集群配置 232
13.2.4實(shí)現(xiàn)中的注意事項(xiàng) .236
13.2.5小結(jié) .237
后記 .238
關(guān)于作者 .240
關(guān)于封面 .240
“Hadoop能夠讓你存儲(chǔ)更多數(shù)據(jù),并使用多種高效工具對(duì)其進(jìn)行挖掘。本書幫你了解如何安全無憂地體驗(yàn)Hadoop這些強(qiáng)大性能。” ——Doug Cutting,Hadoop之父
“本書的兩位作者在將安全概念引入Hadoop平臺(tái)方面做出過突出貢獻(xiàn),他們不但介紹了Hadoop從早期開放的消費(fèi)互聯(lián)網(wǎng)時(shí)代到現(xiàn)在作為敏感數(shù)據(jù)可信平臺(tái)的演變過程,還對(duì)如何安全管理大數(shù)據(jù)給出了具體意見。” ——Mike Olson,Cloudera公司首-席戰(zhàn)略官、聯(lián)合創(chuàng)始人