日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
科學(xué)計(jì)算與企業(yè)級(jí)應(yīng)用的并行優(yōu)化圖書
人氣:51

科學(xué)計(jì)算與企業(yè)級(jí)應(yīng)用的并行優(yōu)化

T行業(yè)急需這本書 和本系列的前兩本書一樣,在解釋為什么筆者認(rèn)為軟件工程師需要這本書之前,筆者先來(lái)介紹并行、并發(fā)和代碼性能優(yōu)化這3個(gè)概念,因?yàn)槔斫膺@3個(gè)概念是閱讀本系列3本書的基礎(chǔ)。 并行對(duì)應(yīng)的英文單詞是p...

內(nèi)容簡(jiǎn)介

本書系統(tǒng)、深入講解了科學(xué)計(jì)算及企業(yè)級(jí)應(yīng)用的并行優(yōu)化方法與實(shí)踐。第1章介紹了常見的并行編程基于的多核/眾核向量處理器架構(gòu)。第2章介紹了如何在X86、ARM和GPU上優(yōu)化常見的線性代數(shù)運(yùn)算。第3章介紹了如何在X86和GPU處理器上優(yōu)化偏微分方程的求解。第4章介紹了如何在X86處理器和GPU上優(yōu)化常見的分子動(dòng)力學(xué)算法。第5章詳細(xì)介紹了如何在X86、ARM和GPU上優(yōu)化常見的機(jī)器學(xué)習(xí)算法。

目錄

第1章 多核向量處理器架構(gòu)

1.1 眾核系統(tǒng)結(jié)構(gòu)

1.2 眾核架構(gòu)的一致性

1.3 多核向量處理器架構(gòu)

1.3.1 Intel Haswell CPU架構(gòu)

1.3.2 ARM A15多核向量處理器架構(gòu)

1.3.3 AMD GCN GPU架構(gòu)

1.3.4 NVIDIA Kepler和Maxwell GPU架構(gòu)

1.4 Intel MIC架構(gòu)

1.4.1 整體架構(gòu)

1.4.2 計(jì)算單元

1.4.3 存儲(chǔ)器單元

1.4.4 MIC架構(gòu)上一些容易成為瓶頸的設(shè)計(jì)

1.5 OpenCL程序在多核向量處理器上的映射

1.5.1 OpenCL程序在多核向量CPU上的映射

1.5.2 OpenCL程序在NVIDIA GPU上的映射

1.5.3 OpenCL程序在AMD GCN上的映射

1.6 OpenCL程序在各眾核硬件上執(zhí)行的區(qū)別

1.7 眾核編程模式

1.8 眾核性能優(yōu)化

1.9 MIC和GPU編程比較

1.10 本章小結(jié)

第2章 常見線性代數(shù)算法優(yōu)化

2.1 稀疏矩陣與向量乘法

2.1.1 稀疏矩陣的存儲(chǔ)格式

2.1.2 CSR 格式稀疏矩陣與向量乘法

2.1.3 ELL格式稀疏矩陣與向量乘

2.2 對(duì)稱矩陣與向量乘積

2.2.1 串行代碼

2.2.2 向量化對(duì)稱矩陣與向量乘積

2.2.3 OpenMP 并行化

2.2.4 CUDA 代碼

2.3 三角線性方程組的解法

2.3.1 串行算法

2.3.2 串行算法優(yōu)化

2.3.3 AVX 優(yōu)化實(shí)現(xiàn)

2.3.4 NEON 優(yōu)化實(shí)現(xiàn)

2.3.5 如何提高并行度

2.3.6 CUDA 算法實(shí)現(xiàn)

2.4 矩陣乘法

2.4.1 AVX指令計(jì)算矩陣乘法

2.4.2 NEON指令計(jì)算矩陣乘法

2.4.3 GPU計(jì)算矩陣乘法

2.5 本章小結(jié)

第3章 優(yōu)化偏微分方程的數(shù)值解法

3.1 熱傳遞問題

3.1.1 C代碼及性能

3.1.2 OpenMP代碼及性能

3.1.3 OpenACC代碼及性能

3.1.4 CUDA代碼

3.2 簡(jiǎn)單三維Stencil

3.2.1 串行實(shí)現(xiàn)

3.2.2 Stencil在X86處理器上實(shí)現(xiàn)的困境

3.2.3 CUDA實(shí)現(xiàn)

3.3 本章小結(jié)

第4章 優(yōu)化分子動(dòng)力學(xué)算法

4.1 簡(jiǎn)單搜索的實(shí)現(xiàn)

4.1.1 串行代碼

4.1.2 向量化實(shí)現(xiàn)分析

4.1.3 OpenMP實(shí)現(xiàn)

4.1.4 CUDA實(shí)現(xiàn)

4.2 范德華力計(jì)算

4.2.1 串行實(shí)現(xiàn)

4.2.2 向量化實(shí)現(xiàn)分析

4.2.3 OpenMP實(shí)現(xiàn)

4.2.4 CUDA實(shí)現(xiàn)

4.2.5 如何提高緩存的利用

4.3 鍵長(zhǎng)伸縮力計(jì)算

4.3.1 串行實(shí)現(xiàn)

4.3.2 向量化實(shí)現(xiàn)

4.3.3 OpenMP實(shí)現(xiàn)

4.3.4 CUDA實(shí)現(xiàn)

4.4 徑向分布函數(shù)計(jì)算

4.4.1 串行實(shí)現(xiàn)

4.4.2 向量化實(shí)現(xiàn)

4.4.3 OpenMP實(shí)現(xiàn)

4.4.4 CUDA實(shí)現(xiàn)

4.5 本章小結(jié)

第5章 機(jī)器學(xué)習(xí)算法

5.1 kmeans算法

5.1.1 計(jì)算流程

5.1.2 計(jì)算元素所屬分類

5.1.3 更新分類中心

5.1.4 入口函數(shù)

5.2 KNN算法

5.2.1 計(jì)算步驟

5.2.2 相似度計(jì)算

5.2.3 求前k個(gè)相似度較大元素

5.2.4 統(tǒng)計(jì)所屬分類

5.3 二維卷積

5.3.1 X86實(shí)現(xiàn)

5.3.2 ARM實(shí)現(xiàn)

5.3.3 CUDA實(shí)現(xiàn)

5.4 四維卷積

5.4.1 X86實(shí)現(xiàn)

5.4.2 ARM 實(shí)現(xiàn)

5.4.3 CUDA實(shí)現(xiàn)

5.5 多GPU并行優(yōu)化深度學(xué)習(xí)軟件Caffe

5.5.1 為什么要使用多GPU并行Caffe

5.5.2 AlexNet示例

5.5.3 Caffe的主要計(jì)算流程

5.5.4 多GPU并行卷積神經(jīng)網(wǎng)絡(luò)的方式

5.5.5 多GPU并行Caffe實(shí)踐

5.6 本章小結(jié)

網(wǎng)友評(píng)論(不代表本站觀點(diǎn))

來(lái)自無(wú)昵稱**的評(píng)論:

不錯(cuò),好評(píng)!

2016-08-08 15:51:47
來(lái)自無(wú)昵稱**的評(píng)論:

好評(píng)

2016-09-28 15:30:37
來(lái)自匿名用**的評(píng)論:

專業(yè)需要,不錯(cuò),排版和內(nèi)容都很好

2017-08-01 20:39:52

免責(zé)聲明

更多出版社