日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線(xiàn)客服
數(shù)據(jù)算法:Hadoop/Spark大數(shù)據(jù)處理技巧圖書(shū)
人氣:50

數(shù)據(jù)算法:Hadoop/Spark大數(shù)據(jù)處理技巧

市面上N0.1本關(guān)于Hadoop與Spark大數(shù)據(jù)處理技巧的教程,提供了豐富的算法和工具。

內(nèi)容簡(jiǎn)介

本書(shū)介紹了很多基本設(shè)計(jì)模式、優(yōu)化技術(shù)和數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)解決方案,以解決生物信息學(xué)、基因組學(xué)、統(tǒng)計(jì)和社交網(wǎng)絡(luò)分析等領(lǐng)域的很多問(wèn)題。這本書(shū)還概要介紹了MapReduce、Hadoop和Spark。

本書(shū)主要內(nèi)容包括:

完成超大量交易的購(gòu)物籃分析。

數(shù)據(jù)挖掘算法(K-均值、KNN和樸素貝葉斯)。

使用超大基因組數(shù)據(jù)完成DNA和RNA測(cè)序。

樸素貝葉斯定理和馬爾可夫鏈實(shí)現(xiàn)數(shù)據(jù)和市場(chǎng)預(yù)測(cè)。

推薦算法和成對(duì)文檔相似性。

線(xiàn)性回歸、Cox回歸和皮爾遜(Pearson)相關(guān)分析。

等位基因頻率和DNA挖掘。

社交網(wǎng)絡(luò)分析(推薦系統(tǒng)、三角形計(jì)數(shù)和情感分析)。

編輯推薦

如果你準(zhǔn)備深入研究MapReduce框架來(lái)處理大數(shù)據(jù)集,本書(shū)非常實(shí)用,通過(guò)提供豐富的算法和工具,它會(huì)循序漸進(jìn)地帶你探索MapReduce世界,用Apache Hadoop或Apache Spark構(gòu)建分布式MapReduce應(yīng)用時(shí)通常都需要用到這些算法和工具。每一章分別提供一個(gè)實(shí)例來(lái)解決一個(gè)大規(guī)模計(jì)算問(wèn)題,如構(gòu)建推薦系統(tǒng)。你會(huì)了解如何用代碼實(shí)現(xiàn)適當(dāng)?shù)腗apReduce解決方案,而且可以在你的項(xiàng)目中具體應(yīng)用這些解決方案。這

作者簡(jiǎn)介

Mahmoud Parsian,計(jì)算機(jī)科學(xué)博士,是一位熱衷于實(shí)踐的軟件專(zhuān)家,作為開(kāi)發(fā)人員、設(shè)計(jì)人員、架構(gòu)師和作者,他有30多年的軟件開(kāi)發(fā)經(jīng)驗(yàn)。目前領(lǐng)導(dǎo)著Illumina的大數(shù)據(jù)團(tuán)隊(duì),在過(guò)去15年間,他主要從事Java (服務(wù)器端)、數(shù)據(jù)庫(kù)、MapReduce和分布式計(jì)算的有關(guān)工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等書(shū)(均由Apress出版)。

目錄

序 1

前言 3

第1章二次排序:簡(jiǎn)介 19

二次排序問(wèn)題解決方案 21

MapReduce/Hadoop的二次排序解決方案 25

Spark的二次排序解決方案 29

第2章二次排序:詳細(xì)示例 42

二次排序技術(shù) 43

二次排序的完整示例 46

運(yùn)行示例——老版本Hadoop API 50

運(yùn)行示例——新版本Hadoop API 52

第3章 Top 10 列表 54

Top N 設(shè)計(jì)模式的形式化描述 55

MapReduce/Hadoop實(shí)現(xiàn):鍵 56

Spark實(shí)現(xiàn):鍵 62

Spark實(shí)現(xiàn):非鍵 73

使用takeOrdered()的Spark Top 10 解決方案 84

MapReduce/Hadoop Top 10 解決方案:非鍵 91

第4章左外連接 96

左外連接示例 96

MapReduce左外連接實(shí)現(xiàn) 99

Spark左外連接實(shí)現(xiàn) 105

使用leftOuterJoin()的Spark實(shí)現(xiàn) 117

第5章反轉(zhuǎn)排序 127

反轉(zhuǎn)排序模式示例 128

反轉(zhuǎn)排序模式的MapReduce/Hadoop實(shí)現(xiàn) 129

運(yùn)行示例 134

第6章移動(dòng)平均 137

示例1:時(shí)間序列數(shù)據(jù)(股票價(jià)格) 137

示例2:時(shí)間序列數(shù)據(jù)(URL訪問(wèn)數(shù)) 138

形式定義 139

POJO移動(dòng)平均解決方案 140

MapReduce/Hadoop移動(dòng)平均解決方案 143

第7章購(gòu)物籃分析 155

MBA目標(biāo) 155

MBA的應(yīng)用領(lǐng)域 157

使用MapReduce的購(gòu)物籃分析 157

Spark解決方案 166

運(yùn)行Spark實(shí)現(xiàn)的YARN 腳本 179

第8章共同好友 182

輸入 183

POJO共同好友解決方案 183

MapReduce算法 184

解決方案1: 使用文本的Hadoop實(shí)現(xiàn) 187

解決方案2: 使用ArrayListOfLongsWritable 的Hadoop實(shí)現(xiàn) 189

Spark解決方案 191

第9章使用MapReduce實(shí)現(xiàn)推薦引擎 201

購(gòu)買(mǎi)過(guò)該商品的顧客還購(gòu)買(mǎi)了哪些商品 202

經(jīng)常一起購(gòu)買(mǎi)的商品 206

推薦連接 210

第10章基于內(nèi)容的電影推薦 225

輸入 226

MapReduce階段1 226

MapReduce階段2和階段3 227

Spark電影推薦實(shí)現(xiàn) 234

第11章使用馬爾可夫模型的智能郵件營(yíng)銷(xiāo) .253

馬爾可夫鏈基本原理 254

使用MapReduce的馬爾可夫模型 256

Spark解決方案 269

第12章 K-均值聚類(lèi) 282

什么是K-均值聚類(lèi)? 285

聚類(lèi)的應(yīng)用領(lǐng)域 285

K-均值聚類(lèi)方法非形式化描述:分區(qū)方法 286

K-均值距離函數(shù) 286

K-均值聚類(lèi)形式化描述 287

K-均值聚類(lèi)的MapReduce解決方案 288

K-均值算法Spark實(shí)現(xiàn) 292

第13章 k-近鄰 296

kNN分類(lèi) 297

距離函數(shù) 297

kNN示例 298

kNN算法非形式化描述 299

kNN算法形式化描述 299

kNN的類(lèi)Java非MapReduce 解決方案 299

Spark的kNN算法實(shí)現(xiàn) 301

第14章樸素貝葉斯 315

訓(xùn)練和學(xué)習(xí)示例 316

條件概率 319

深入分析樸素貝葉斯分類(lèi)器 319

樸素貝葉斯分類(lèi)器:符號(hào)數(shù)據(jù)的MapReduce解決方案 322

樸素貝葉斯分類(lèi)器Spark實(shí)現(xiàn) 332

使用Spark和Mahout 347

第15章情感分析 349

情感示例 350

情感分?jǐn)?shù):正面或負(fù)面 350

一個(gè)簡(jiǎn)單的MapReduce情感分析示例 351

真實(shí)世界的情感分析 353

第16章查找、統(tǒng)計(jì)和列出大圖中的所有三角形 354

基本的圖概念 355

三角形計(jì)數(shù)的重要性 356

MapReduce/Hadoop解決方案 357

Spark解決方案 364

第17章 K-mer計(jì)數(shù) 375

K-mer計(jì)數(shù)的輸入數(shù)據(jù) 376

K-mer計(jì)數(shù)應(yīng)用 376

K-mer計(jì)數(shù)MapReduce/Hadoop解決方案 377

K-mer計(jì)數(shù)Spark解決方案 378

第18章 DNA測(cè)序 390

DNA測(cè)序的輸入數(shù)據(jù) 392

輸入數(shù)據(jù)驗(yàn)證 393

DNA序列比對(duì) 393

DNA測(cè)試的MapReduce算法 394

第19章 Cox回歸 413

Cox模型剖析 414

使用R的Cox回歸 415

Cox回歸應(yīng)用 416

Cox回歸 POJO解決方案 417

MapReduce輸入 418

使用MapReduce的Cox回歸 419

第20章 Cochran-Armitage趨勢(shì)檢驗(yàn) 426

Cochran-Armitage算法 427

Cochran-Armitage應(yīng)用 432

MapReduce解決方案 435

第21章等位基因頻率 443

基本定義 444

形式化問(wèn)題描述 448

等位基因頻率分析的MapReduce解決方案 449

MapReduce解決方案, 階段1 449

MapReduce解決方案,階段2 459

MapReduce解決方案, 階段3 463

染色體X 和Y的特殊處理 466

第22章 T檢驗(yàn) 468

對(duì)bioset完成T檢驗(yàn) 469

MapReduce問(wèn)題描述 472

輸入 472

期望輸出 473

MapReduce解決方案 473

Spark實(shí)現(xiàn) 476

第23章皮爾遜相關(guān)系數(shù) 488

皮爾遜相關(guān)系數(shù)公式 489

皮爾遜相關(guān)系數(shù)示例 491

皮爾遜相關(guān)系數(shù)數(shù)據(jù)集 492

皮爾遜相關(guān)系數(shù)POJO 解決方案 492

皮爾遜相關(guān)系數(shù)MapReduce解決方案 493

皮爾遜相關(guān)系數(shù)的Spark 解決方案 496

運(yùn)行Spark程序的YARN 腳本 516

使用Spark計(jì)算斯皮爾曼相關(guān)系數(shù) 517

第24章 DNA堿基計(jì)數(shù) 520

FASTA 格式 521

FASTQ 格式 522

MapReduce解決方案:FASTA 格式 522

運(yùn)行示例 524

MapReduce解決方案: FASTQ 格式 528

Spark 解決方案: FASTA 格式 533

Spark解決方案: FASTQ 格式 537

第25章 RNA測(cè)序 543

數(shù)據(jù)大小和格式 543

MapReduce工作流 544

RNA測(cè)序分析概述 544

RNA測(cè)序MapReduce算法 548

第26章基因聚合 553

輸入 554

輸出 554

MapReduce解決方案(按單個(gè)值過(guò)濾和按平均值過(guò)濾) 555

基因聚合的Spark解決方案 567

Spark解決方案:按單個(gè)值過(guò)濾 567

Spark解決方案:按平均值過(guò)濾 576

第27章線(xiàn)性回歸 586

基本定義 587

簡(jiǎn)單示例 587

問(wèn)題描述 588

輸入數(shù)據(jù) 589

期望輸出 590

使用SimpleRegression的MapReduce解決方案 590

Hadoop實(shí)現(xiàn)類(lèi) 593

使用R線(xiàn)性模型的MapReduce解決方案 593

第28章 MapReduce和幺半群 600

概述 600

幺半群的定義 602

幺半群和非幺半群示例 603

MapReduce示例:非幺半群 606

MapReduce示例:幺半群 608

使用幺半群的Spark示例 612

使用幺半群的結(jié)論 618

函子和幺半群 619

第29章小文件問(wèn)題 622

解決方案1:在客戶(hù)端合并小文件 623

解決方案2:用CombineFileInputFormat解決小文件問(wèn)題 629

其他解決方案 634

第30章 MapReduce的大容量緩存 635

實(shí)現(xiàn)方案 636

緩存問(wèn)題形式化描述 637

一個(gè)精巧、可伸縮的解決方案 637

實(shí)現(xiàn)LRUMap緩存 640

使用LRUMap的MapReduce解決方案 646

第31章 Bloom過(guò)濾器 651Bloom

過(guò)濾器性質(zhì) 651

一個(gè)簡(jiǎn)單的Bloom過(guò)濾器示例 653

網(wǎng)友評(píng)論(不代表本站觀點(diǎn))

來(lái)自hdw9678**的評(píng)論:

不錯(cuò),都是經(jīng)典

2017-11-15 18:14:49
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

挺好的,算法這了好多,夠用了

2017-11-16 10:07:37
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

Hadoop這本書(shū),做工一般,有毛邊。收到的時(shí)候邊角有點(diǎn)磨損,書(shū)的背面中等程度的褶皺。希望在包裝上多下點(diǎn)功夫。

2017-09-17 21:39:03
來(lái)自匿名用**的評(píng)論:

還差五個(gè)字?。。?!

2017-06-03 11:06:26
來(lái)自匿名用**的評(píng)論:

物流太爛太懶送到豐巢

2017-06-03 22:26:36
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

數(shù)據(jù)算法:Hadoop/Spark大數(shù)據(jù)處理技巧 書(shū)應(yīng)該是正版的,印刷很清晰。就是里面講的東西便難,適合那些研究生以上學(xué)歷的,數(shù)學(xué)專(zhuān)業(yè)的才能看懂。里邊講到許多算法,應(yīng)該挺有用的,就是一般人看不懂。還有就是里邊的案例不是用最新的scala寫(xiě)的,采用的還是java,這個(gè)有點(diǎn)不爽,畢竟Scala更加簡(jiǎn)潔。建議搞大數(shù)據(jù)3年以上的再去看這本書(shū),里邊的算法還是值得一看的

2017-06-06 21:22:29
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

正版圖書(shū),非常滿(mǎn)意,全5分好評(píng)。

2017-06-15 16:43:31
來(lái)自***(匿**的評(píng)論:

當(dāng)當(dāng)?shù)臅?shū)真的很優(yōu)惠,對(duì)比三大電商,當(dāng)當(dāng)花花腸子最少,最受不了某東了,雷聲大雨滴小,還是當(dāng)當(dāng)好啊,絕對(duì)的五星好評(píng)!

2017-06-18 09:53:16
來(lái)自n***a(**的評(píng)論:

發(fā)貨迅速,性?xún)r(jià)比超高。

2017-06-20 13:54:30
來(lái)自l***o(**的評(píng)論:

夠厚,不知道什么時(shí)候能看懂。

2017-07-05 10:40:05
來(lái)自匿名用**的評(píng)論:

66666666666

2017-07-07 21:51:25
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

書(shū)很好!!

2017-07-07 22:53:58
來(lái)自匿名用**的評(píng)論:

發(fā)貨快,服務(wù)好,正品 好好好好好好好好

2017-07-14 11:50:01
來(lái)自k***b(**的評(píng)論:

是好書(shū)沒(méi)問(wèn)題

2017-07-25 14:49:03
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

明顯被人用過(guò),書(shū)角都被砸壞了,書(shū)封面還有污漬

2017-07-28 10:46:44
來(lái)自g***0(**的評(píng)論:

先學(xué)習(xí)著。

2017-07-30 12:21:36
來(lái)自白鶴亮**的評(píng)論:

當(dāng)當(dāng)網(wǎng)越來(lái)越刷新我的底線(xiàn),原以為當(dāng)當(dāng)自營(yíng)的書(shū)都是正版的,可憐天真的我錯(cuò)了

2017-09-05 23:00:40
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

數(shù)據(jù)算法:Hadoop/Spark大數(shù)據(jù)處理技巧 書(shū)挺厚的,講的挺抽象,不適合初學(xué)。

2017-09-27 22:21:24
來(lái)自a***w(**的評(píng)論:

實(shí)用性比較大,有現(xiàn)成的實(shí)例,專(zhuān)業(yè)性較強(qiáng)!

2017-10-31 11:35:05
來(lái)自zhaoxin**的評(píng)論:

封皮及前面部分破損

2017-11-05 18:00:38
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

感覺(jué)一般般,簡(jiǎn)單一說(shuō),看了一點(diǎn)都是spark里面自帶的代碼,實(shí)用性不怎么樣,版本低,還是java代碼

2017-11-05 19:01:20
來(lái)自lisongq**的評(píng)論:

書(shū)質(zhì)量不錯(cuò),內(nèi)容也很好

2017-11-06 08:35:22
來(lái)自剛***1(**的評(píng)論:

書(shū)的內(nèi)容還沒(méi)看,發(fā)貨過(guò)來(lái)沒(méi)有皮包裹,書(shū)的邊角有破損,心塞

2017-01-12 09:08:23
來(lái)自y***1(**的評(píng)論:

書(shū)很厚,內(nèi)容卻很空泛。代碼沒(méi)有上下文。三句不離本行,老是說(shuō)到基因測(cè)序上去。

2017-05-24 08:17:26
來(lái)自a***w(**的評(píng)論:

實(shí)用性比較大,有現(xiàn)成的實(shí)例,專(zhuān)業(yè)性較強(qiáng),比較實(shí)用!

2017-10-31 11:37:08
來(lái)自c***0(**的評(píng)論:

有各大數(shù)據(jù)算法的具體實(shí)踐,但是是屬于純算法的那種,需要一點(diǎn)spark大數(shù)據(jù)經(jīng)驗(yàn),新手慎入

2017-07-15 16:20:08
來(lái)自匿名用**的評(píng)論:

買(mǎi)了兩本,一本明擺著就是別人退回來(lái)再發(fā)給我的,連包裝都沒(méi)有的,就連防偽圖層都是刮掉的,真的是醉了,感覺(jué)當(dāng)當(dāng)?shù)臅?shū)越來(lái)越有問(wèn)題了

2017-03-12 18:51:50
來(lái)自匿名用**的評(píng)論:

數(shù)據(jù)算法:Hadoop/Spark大數(shù)據(jù)處理技巧 稍微翻了下,感覺(jué)并不是講原理的,比如說(shuō)kmeans的分布式實(shí)現(xiàn)的理論是啥,這本書(shū)好像沒(méi)有解釋清楚,而是直接用了spark提供的函數(shù)。具體怎么樣,還沒(méi)有細(xì)看,待補(bǔ)充評(píng)論,目前感覺(jué)不值這個(gè)價(jià)。

2016-12-20 20:02:18
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

數(shù)據(jù)算法,主要針對(duì)大數(shù)據(jù)處理方面,比較難啃,畢竟需要一定的數(shù)學(xué)和計(jì)算機(jī)基礎(chǔ),但是里面都帶有詳細(xì)的算法示例,依照坐下來(lái)應(yīng)該不難,很是很推薦這本書(shū)的,畢竟也是o'reilly出版的數(shù)據(jù),不多說(shuō)了,兩個(gè)字,推薦。。。。。

2017-08-29 09:48:42
來(lái)自無(wú)昵稱(chēng)**的評(píng)論:

好,剛好需要,就買(mǎi)了。雖然由于國(guó)外內(nèi)容翻譯過(guò)來(lái)有些滯后,但是做基本算法了解還是不不錯(cuò)的教材。

2017-02-10 17:12:44

免責(zé)聲明

更多出版社