日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

大數(shù)據(jù)處理論文

引論:我們?yōu)槟砹?篇大數(shù)據(jù)處理論文范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

大數(shù)據(jù)處理論文

數(shù)據(jù)處理論文:電子商務(wù)大數(shù)據(jù)處理研究

當(dāng)今時(shí)代,是一個(gè)信息化和網(wǎng)絡(luò)化的時(shí)代,電子信息技術(shù)的產(chǎn)生對(duì)人們的生產(chǎn)和生活產(chǎn)生了極其重要的作用和影響。隨著人們生產(chǎn)生活水平的不斷發(fā)展,電子商務(wù)順勢(shì)而生,在人們的日常生活中占據(jù)了極大的比重,對(duì)人們的消費(fèi)理念和消費(fèi)方式產(chǎn)生了顛覆性的改變。電子商務(wù)平臺(tái)依托于傳統(tǒng)零售業(yè)的基礎(chǔ),憑借電子信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,促進(jìn)了銷售方式的改變。大數(shù)據(jù)作為一種新型的信息技術(shù),能夠有效采集、存儲(chǔ)和分析數(shù)據(jù),能夠提高數(shù)據(jù)信息的有效性,對(duì)于電子商務(wù)的發(fā)展而言,提高了銷售的針對(duì)性和度,促進(jìn)了銷售的轉(zhuǎn)化和成交的比例,在人們消費(fèi)觀念普遍轉(zhuǎn)化的今天,以大數(shù)據(jù)處理模式為基礎(chǔ)的電子商務(wù)呈現(xiàn)出蓬勃的發(fā)展態(tài)勢(shì)。那么,大數(shù)據(jù)處理模式的特點(diǎn)和意義體現(xiàn)在什么地方?大數(shù)據(jù)處理對(duì)電子商務(wù)有哪些影響?大數(shù)據(jù)處理模式不斷發(fā)展條件下的電子商務(wù)有什么樣的發(fā)展趨勢(shì)和發(fā)展前景?

1大數(shù)據(jù)處理模式的意義和特點(diǎn)

大數(shù)據(jù)處理模式,是依托于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展而興起的一種新型技術(shù)模式,能夠有效地處理大批量的數(shù)據(jù)信息,并保障信息的安全性和性。大數(shù)據(jù)處理模式,突破了傳統(tǒng)意義上的信息搜索和信息存儲(chǔ),有效捕捉和管理數(shù)據(jù)信息,決策力更強(qiáng),洞察力更優(yōu),效率更高,信息更多樣化。大數(shù)據(jù)處理模式,改變了傳統(tǒng)數(shù)據(jù)收集的意義,對(duì)于數(shù)據(jù)信息的收集,其意義不在于數(shù)據(jù)信息的存儲(chǔ),而是對(duì)所收集到的數(shù)據(jù)信息進(jìn)行刪選整合等一系列的專業(yè)化處理,實(shí)現(xiàn)數(shù)據(jù)信息的轉(zhuǎn)化和升值,為不同行業(yè)不同領(lǐng)域的銷售轉(zhuǎn)化提供參考和動(dòng)力,有效實(shí)現(xiàn)產(chǎn)業(yè)升級(jí)和企業(yè)盈利。大數(shù)據(jù)處理模式與傳統(tǒng)的數(shù)據(jù)庫(kù)不同,海量的數(shù)據(jù)只是基礎(chǔ),能夠進(jìn)行復(fù)雜有效的數(shù)據(jù)分析,才是大數(shù)據(jù)處理模式的顯著優(yōu)勢(shì)。大數(shù)據(jù)處理模式有四個(gè)顯著特點(diǎn):及時(shí),數(shù)據(jù)量大。大數(shù)據(jù)處理模式能夠存儲(chǔ)海量信息,并保障信息的安全性。第二,數(shù)據(jù)的類型繁雜。大數(shù)據(jù)處理模式下的數(shù)據(jù),突破傳統(tǒng)的數(shù)據(jù)概念,將圖片、視頻、位置數(shù)據(jù)等都統(tǒng)稱為數(shù)據(jù)信息。第三,數(shù)據(jù)信息的處理速度極快。無(wú)論是何種類型的數(shù)據(jù),無(wú)論是何種形式的數(shù)據(jù),大數(shù)據(jù)處理模式都能在短時(shí)間內(nèi)分析出數(shù)據(jù)價(jià)值,促進(jìn)轉(zhuǎn)化。第四,較高的數(shù)據(jù)價(jià)值回報(bào)。對(duì)于海量的信息,大數(shù)據(jù)處理模式能夠進(jìn)行專業(yè)性的分析,并能夠在分析后對(duì)數(shù)據(jù)的使用和應(yīng)用方式提出指示性建議,帶來(lái)較高的價(jià)值回報(bào)。總之,大數(shù)據(jù)處理模式是當(dāng)今時(shí)代海量數(shù)據(jù)分析的首要選擇,也是眾多行業(yè)眾多領(lǐng)域越來(lái)越傾心的數(shù)據(jù)處理的前沿方式,在信息技術(shù)和互聯(lián)網(wǎng)技術(shù)不斷發(fā)展的背景下,必定會(huì)得到更為長(zhǎng)足的發(fā)展。

2大數(shù)據(jù)處理模式對(duì)電子商務(wù)的影響

2.1提高了電子商務(wù)領(lǐng)域信息檢索的能力

電子商務(wù)平臺(tái),是依托于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展而興起的商業(yè)模式,極大地改變了當(dāng)代消費(fèi)者的消費(fèi)心理和消費(fèi)習(xí)慣,但是,電子商務(wù)信息冗雜,無(wú)論是商品的種類還是商品的數(shù)量,都有海量的商家可供選擇,增加了用戶刪選的難度。只有改變這種雜亂無(wú)章的非結(jié)構(gòu)化信息數(shù)據(jù),才能提高電子商務(wù)的運(yùn)營(yíng)水平和銷售轉(zhuǎn)化。大數(shù)據(jù)處理模式,使得信息數(shù)據(jù)的處理更為針對(duì)性,更為靈活化。電子商務(wù)充分利用大數(shù)據(jù)處理模式,能夠?qū)崿F(xiàn)信息數(shù)據(jù)的有效檢索,根據(jù)用戶的消費(fèi)需求進(jìn)行針對(duì)性的信息顯示,根據(jù)用戶的消費(fèi)習(xí)慣進(jìn)行性的信息篩選,使得電子商務(wù)的運(yùn)作更為智能化,更為高效性。大數(shù)據(jù)的處理模式,使得信息推薦更有針對(duì)性,提高了用戶的消費(fèi)質(zhì)量和消費(fèi)效率,節(jié)省了消費(fèi)時(shí)間和消費(fèi)精力,用戶只要輸入相關(guān)字眼,就能夠迅速反饋出用戶所需的信息資源,大大提高了消費(fèi)用戶的滿意度。

2.2提高了電子商務(wù)平臺(tái)彈性處理的能力

電子商務(wù)平臺(tái)的發(fā)展,離不開信息數(shù)據(jù)的處理。大數(shù)據(jù)處理模式的發(fā)展,提高了電子商務(wù)平臺(tái)的彈性處理能力,能夠在極短的時(shí)間內(nèi)反饋,對(duì)大量的用戶訪問(wèn)做出及時(shí)地回饋和反應(yīng)。對(duì)于電子商務(wù)而言,商家的營(yíng)銷活動(dòng)時(shí)時(shí)有、日日有,大量活動(dòng)信息的堆積必然造成大量的訂單信息,這就對(duì)數(shù)據(jù)信息的處理提出了更高的要求。大數(shù)據(jù)的信息存儲(chǔ)能力有效地解決了這一問(wèn)題,保障了信息存儲(chǔ)的安全性,優(yōu)化了資源配置,實(shí)現(xiàn)了信息數(shù)據(jù)的即取即用。電子商務(wù)的發(fā)展,依托于對(duì)信息數(shù)據(jù)的及時(shí)反饋和刪選,彈性的信息處理能力才能讓電子商務(wù)的發(fā)展如虎添翼,提高其運(yùn)營(yíng)的整體水平和質(zhì)量。

2.3保障了電子商務(wù)行業(yè)信息處理的安全性

大數(shù)據(jù)處理模式的發(fā)展,保障了電子商務(wù)行業(yè)信息處理的安全性。電子商務(wù)是依托于信息網(wǎng)絡(luò)技術(shù)的不斷發(fā)展而興起的消費(fèi)模式,難以避免地會(huì)面臨數(shù)據(jù)信息安全與否的問(wèn)題。網(wǎng)絡(luò)系統(tǒng)的癱瘓、網(wǎng)絡(luò)交易安全的缺失都會(huì)對(duì)信息安全帶來(lái)極大的威脅。而對(duì)于電商的消費(fèi)用戶而言,信息安全和交易過(guò)程的安全是他們最為關(guān)心的事情,不容忽視。大數(shù)據(jù)處理模式的引進(jìn),有效存儲(chǔ)用戶的信息,及時(shí)對(duì)網(wǎng)絡(luò)攻擊現(xiàn)象進(jìn)行審查和定位,對(duì)于一些非正常的攻擊現(xiàn)象及時(shí)收集并分析,采取有效的預(yù)防和處理措施,保障信息資源的安全性和性。云計(jì)算技術(shù)的引用,還能夠?qū)⒁恍┑男畔⑦M(jìn)行進(jìn)一步的轉(zhuǎn)化,使之成為云服務(wù),進(jìn)而托管在云端,對(duì)這些的、重要的信息進(jìn)行更為專業(yè)的防護(hù)和保密,較大化信息安全。此外,大數(shù)據(jù)的處理模式還能夠?qū)⒁恍┟舾行缘摹?shù)量極大的數(shù)據(jù)信息進(jìn)行轉(zhuǎn)化,使之成為可用的信息資源,為下一步創(chuàng)造直接的經(jīng)濟(jì)價(jià)值奠定堅(jiān)實(shí)基礎(chǔ)。

3大數(shù)據(jù)處理模式不斷發(fā)展的條件下電子商務(wù)的發(fā)展趨勢(shì)

3.1大數(shù)據(jù)的發(fā)展推動(dòng)了電子商務(wù)平臺(tái)服務(wù)和產(chǎn)品的多樣化

大數(shù)據(jù)的不斷發(fā)展,推動(dòng)了電子商務(wù)平臺(tái)服務(wù)和產(chǎn)品的多樣化發(fā)展。電子商務(wù)是以服務(wù)和產(chǎn)品為主導(dǎo)的行業(yè)類型,高質(zhì)量的服務(wù)和產(chǎn)品才是提高行業(yè)效益的根據(jù)手段和運(yùn)營(yíng)方式。對(duì)于電子商務(wù)所針對(duì)的用戶群體來(lái)說(shuō),大數(shù)據(jù)的不斷發(fā)展,能夠有效分析這些客戶群體的喜好和偏愛(ài),能夠刪選有效的客戶信息,能夠有效進(jìn)行客戶的針對(duì)性信息發(fā)送,提高信息的針對(duì)性和度,并根據(jù)客戶信息的提示進(jìn)行服務(wù)類型和服務(wù)方式的調(diào)整,根據(jù)客戶的偏愛(ài)進(jìn)行產(chǎn)品類型的刪減和增添,以促進(jìn)銷售。以書包為例,不同年齡有不同的風(fēng)格喜好,不同性別有不同的類別偏好,以藍(lán)胖子為主題的書包類型一定不是酷炫殺馬特風(fēng)格的青少年的囊中物,胡巴的卡通形象才是呆萌少女最熱衷的產(chǎn)品類型。根據(jù)客戶不同的喜好和性格,可以有效改變服務(wù)和產(chǎn)品類型,帶動(dòng)一定量的銷售業(yè)績(jī)。

3.2大數(shù)據(jù)的發(fā)展推動(dòng)新型電子商務(wù)運(yùn)營(yíng)模式的產(chǎn)生和發(fā)展

大數(shù)據(jù)處理模式的出現(xiàn),對(duì)傳統(tǒng)的經(jīng)濟(jì)模式造成了一定的沖擊,產(chǎn)生了一系列的個(gè)性化服務(wù)和定制化產(chǎn)品類型,這些都直接影響了電子商務(wù)行業(yè)的運(yùn)營(yíng)模式,傳統(tǒng)的運(yùn)營(yíng)理念已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足社會(huì)的發(fā)展要求和信息技術(shù)的進(jìn)一步發(fā)展,創(chuàng)新電子商務(wù)的運(yùn)營(yíng)模式才能為電子商務(wù)的發(fā)展開辟一條坦途。大數(shù)據(jù)處理模式的出現(xiàn),對(duì)電子商務(wù)進(jìn)行了區(qū)別和分析,根據(jù)所運(yùn)營(yíng)產(chǎn)品和服務(wù)對(duì)象的不同,依托于互聯(lián)網(wǎng)的力量,歸納出不同的運(yùn)營(yíng)模式:B2B的企業(yè)互惠,B2C的網(wǎng)絡(luò)直銷,C2C的消費(fèi)者交易,O2O的互聯(lián)網(wǎng)銷售等,有效提高了交易速度,簡(jiǎn)化了交易流程,提高了交易質(zhì)量,便捷了交易模式,大數(shù)據(jù)處理模式影響了電子商務(wù)不同模式競(jìng)相爭(zhēng)榮,成為互聯(lián)網(wǎng)時(shí)代下一道亮麗的風(fēng)景線。例如,近兩年不斷興起的上門服務(wù),革新了傳統(tǒng)的銷售模式和運(yùn)營(yíng)方式,以消費(fèi)者的訴求為根本,從消費(fèi)者的消費(fèi)習(xí)慣和消費(fèi)心理出發(fā),滿足消費(fèi)者的消費(fèi)體驗(yàn),便捷了操作模式和操作流程,明顯提高了交易質(zhì)量和效果。

3.3大數(shù)據(jù)的發(fā)展推動(dòng)IT設(shè)施在電子商務(wù)企業(yè)發(fā)展過(guò)程中的核心競(jìng)爭(zhēng)力

量大數(shù)據(jù)的不斷發(fā)展,推動(dòng)了IT設(shè)施在電子商務(wù)企業(yè)發(fā)展過(guò)程中的核心競(jìng)爭(zhēng)力量。傳統(tǒng)的銷售,以用戶為根本,以產(chǎn)品為主打,大數(shù)據(jù)處理模式下,雖然離不開產(chǎn)品的競(jìng)爭(zhēng)力和用戶的體驗(yàn),但是卻借助大數(shù)據(jù)的信息處理功能,有效提高了整個(gè)交易流程的轉(zhuǎn)化。對(duì)于電子商務(wù)而言,生產(chǎn)成本、企業(yè)管理、運(yùn)營(yíng)模式都會(huì)影響企業(yè)在社會(huì)中的不斷發(fā)展和其在市場(chǎng)中的競(jìng)爭(zhēng)力,積極引進(jìn)大數(shù)據(jù)的處理模式和相應(yīng)的IT設(shè)施,能夠?qū)崿F(xiàn)資源的優(yōu)化配置和數(shù)據(jù)信息的有效利用,降低企業(yè)的生產(chǎn)成本,提高企業(yè)的產(chǎn)銷率,并較大化企業(yè)的運(yùn)營(yíng)管理水平。對(duì)于電子商務(wù)而言,由于其對(duì)信息技術(shù)水平和網(wǎng)絡(luò)技術(shù)的依賴性極大,積極應(yīng)用云計(jì)算構(gòu)架,采取大數(shù)據(jù)處理,能夠有效存儲(chǔ)海量的數(shù)據(jù)信息,并對(duì)數(shù)據(jù)信息進(jìn)行刪選,為電子商務(wù)的不斷發(fā)展奠定堅(jiān)實(shí)的基礎(chǔ)。總之,大數(shù)據(jù)處理模式的產(chǎn)生不是偶然的,而是當(dāng)今時(shí)代信息技術(shù)與網(wǎng)絡(luò)技術(shù)不斷發(fā)展的產(chǎn)物,對(duì)各行各業(yè)都有著舉足輕重的作用和影響。電子商務(wù)作為一種網(wǎng)絡(luò)條件孕育下的銷售方式,必須立足于網(wǎng)絡(luò)環(huán)境的大背景下,以大數(shù)據(jù)的處理模式有效處理客戶信息和相應(yīng)的數(shù)據(jù)資源,提高數(shù)據(jù)信息的有效性和價(jià)值意義,促進(jìn)數(shù)據(jù)信息的有效轉(zhuǎn)化,提高客戶的精準(zhǔn)度,提高銷售量和銷售質(zhì)量,推動(dòng)整個(gè)電子商務(wù)平臺(tái)的有效運(yùn)營(yíng)和整個(gè)行業(yè)的不斷發(fā)展。

作者:屈志強(qiáng) 喬靜 單位:濟(jì)寧醫(yī)學(xué)院

大數(shù)據(jù)處理論文:移動(dòng)通信網(wǎng)絡(luò)中大數(shù)據(jù)處理關(guān)鍵技術(shù)研究

摘要:社會(huì)的發(fā)展以及人們生活水平的提升使得移動(dòng)通信網(wǎng)絡(luò)的應(yīng)用范圍得以大范圍推廣,并且伴隨著社會(huì)對(duì)移動(dòng)通信網(wǎng)絡(luò)需求的增強(qiáng),大數(shù)據(jù)處理技術(shù)的應(yīng)用就應(yīng)運(yùn)而生了,本文就此展開論述。

關(guān)鍵詞:移動(dòng)通信網(wǎng)絡(luò);大數(shù)據(jù)處理;技術(shù)分析

伴隨著我國(guó)綜合國(guó)力的增強(qiáng),科技水平也得到了進(jìn)一步增強(qiáng)。計(jì)算機(jī)技術(shù)作為新時(shí)代的重要基礎(chǔ)技術(shù),其應(yīng)用范圍的擴(kuò)大,在一定程度上促進(jìn)了信息技術(shù)的騰飛發(fā)展。伴隨著日漸龐雜的數(shù)據(jù)規(guī)模,使得大數(shù)據(jù)處理技術(shù)應(yīng)時(shí)代而生。同時(shí)移動(dòng)通信網(wǎng)絡(luò)技術(shù)的發(fā)展,極大的方便了人們的工作和生活。為了滿足人們?nèi)找嬖鲩L(zhǎng)的通信需求,移動(dòng)通信網(wǎng)絡(luò)也需要具備更加有力的數(shù)據(jù)處理能力和處理速度。

1大數(shù)據(jù)技術(shù)概述

現(xiàn)階段,我國(guó)數(shù)據(jù)的發(fā)展主要包括以下幾個(gè)階段:及時(shí),被動(dòng)產(chǎn)生階段。伴隨著數(shù)據(jù)庫(kù)的出現(xiàn),其在規(guī)范社會(huì)數(shù)據(jù)方面意義深遠(yuǎn)。不過(guò)該階段數(shù)據(jù)庫(kù)的作用相對(duì)較為被動(dòng),其服務(wù)的對(duì)象主要為政府、大型企業(yè)等,諸如銀行以及超市等主要進(jìn)行經(jīng)營(yíng)活動(dòng)而產(chǎn)生的數(shù)據(jù)交易記錄;第二,主動(dòng)產(chǎn)生階段。伴隨著互聯(lián)網(wǎng)技術(shù)的騰飛發(fā)展,社會(huì)經(jīng)濟(jì)活動(dòng)日漸頻繁,相應(yīng)的也會(huì)產(chǎn)生大量的數(shù)據(jù)信息。同時(shí)在這大量的數(shù)據(jù)信息中包含著大量的用戶原創(chuàng)性信息內(nèi)容,其主要借助QQ日志、微博、博客以及微信等方式到網(wǎng)絡(luò)上。此外智能化電子產(chǎn)品的誕生,為人們這些原創(chuàng)信息提供了便利。因此,該階段所產(chǎn)生的數(shù)據(jù)信息量不僅數(shù)量巨大,且多是主動(dòng)產(chǎn)生的。第三,自動(dòng)產(chǎn)生階段。隨著大數(shù)據(jù)時(shí)代的到來(lái),使得數(shù)據(jù)開始進(jìn)行自動(dòng)產(chǎn)生。主要原因在于移動(dòng)通信網(wǎng)絡(luò)和物聯(lián)網(wǎng)之間得到了有效融合,從而推動(dòng)數(shù)據(jù)自動(dòng)產(chǎn)生,并直接推動(dòng)者大數(shù)據(jù)時(shí)代的到來(lái)。大數(shù)據(jù)技術(shù)主要具備如下幾個(gè)特點(diǎn):及時(shí),需要處理規(guī)模相對(duì)較大的數(shù)據(jù)。大數(shù)據(jù)技術(shù)通常需要處理PB級(jí)甚至是EB級(jí)的數(shù)據(jù)量。第二,數(shù)據(jù)非結(jié)構(gòu)化。在大數(shù)據(jù)時(shí)代,非結(jié)構(gòu)化的數(shù)據(jù)迅速增加,高達(dá)數(shù)據(jù)總量的80%左右。第三,多源異構(gòu)。由于基于物聯(lián)網(wǎng)環(huán)境下,大數(shù)據(jù)多運(yùn)用傳感器、移動(dòng)設(shè)備等異構(gòu)終端來(lái)進(jìn)行數(shù)據(jù)的采集,這樣很容易導(dǎo)致數(shù)據(jù)出現(xiàn)多源異構(gòu)特點(diǎn)。第四,數(shù)據(jù)處理的實(shí)時(shí)性。生活節(jié)奏的變快使得人們需要快速處理各種信息數(shù)據(jù),因此在線實(shí)時(shí)處理數(shù)據(jù)則是大數(shù)據(jù)時(shí)代的另一重要特點(diǎn)。

2大數(shù)據(jù)處理的關(guān)鍵技術(shù)

在移動(dòng)通信網(wǎng)絡(luò)中,尤其是物聯(lián)網(wǎng)中,很多終端設(shè)備都是處在無(wú)人監(jiān)控狀態(tài)下,加之這些終端設(shè)備所處環(huán)境大多較為惡劣,因此在物聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)采集時(shí),往往會(huì)出現(xiàn)很多錯(cuò)誤,因而收集到的原始數(shù)據(jù)就缺乏性,譬如采集的一些數(shù)據(jù)會(huì)和實(shí)際產(chǎn)生一定誤差,一些數(shù)據(jù)收集不完整,又或者是一些數(shù)據(jù)是無(wú)關(guān)多余的。因此,這就需要通過(guò)各種方式來(lái)提取所需的數(shù)據(jù)。就當(dāng)前來(lái)看,有許多數(shù)據(jù)清洗技術(shù),然而這些數(shù)據(jù)只適用于較強(qiáng)結(jié)構(gòu)化的數(shù)據(jù),大數(shù)據(jù)又是非結(jié)構(gòu)性,因而并不能起到很好的作用。而且利用該技術(shù)也無(wú)法處理大量數(shù)據(jù),這就難以體現(xiàn)大數(shù)據(jù)的實(shí)時(shí)性。因此,在大數(shù)據(jù)清洗技術(shù)的研究方面還需要進(jìn)一步研究。大數(shù)據(jù)有非常多的來(lái)源,將收集到的各方數(shù)據(jù)融合在一起對(duì)于數(shù)據(jù)分析相當(dāng)重要。數(shù)據(jù)融合就是收集到的數(shù)據(jù)源是不一樣的,這些數(shù)據(jù)要通過(guò)不同表象來(lái)表達(dá)實(shí)體,這就需要將數(shù)據(jù)轉(zhuǎn)換成為對(duì)同一個(gè)表象的表達(dá),減少相關(guān)數(shù)據(jù)產(chǎn)生沖突的過(guò)程。在移動(dòng)通信網(wǎng)絡(luò)當(dāng)中,數(shù)據(jù)的多源性比較普遍,因而對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一十分必要,讓各數(shù)據(jù)之間產(chǎn)生關(guān)聯(lián)。這就要使結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)發(fā)生關(guān)聯(lián),再以數(shù)據(jù)融合來(lái)提取關(guān)鍵數(shù)據(jù)。經(jīng)過(guò)一系列處理之后,就要分析所獲得的大數(shù)據(jù),并挖掘出新的數(shù)據(jù)。要將移動(dòng)通信網(wǎng)絡(luò)中的大數(shù)據(jù)分析和挖掘出來(lái)就要從數(shù)據(jù)表示和存儲(chǔ)兩個(gè)方面給予充分考慮。其中,要借助先進(jìn)的挖掘工具,并改善數(shù)據(jù)開發(fā)環(huán)境。另外一項(xiàng)大數(shù)據(jù)處理關(guān)鍵技術(shù)是利用可視化來(lái)進(jìn)行數(shù)據(jù)分析。眾所周知,移動(dòng)通信網(wǎng)絡(luò)有著十分龐大的數(shù)據(jù)量,其挖掘結(jié)果也是大數(shù)據(jù),通過(guò)可視化分析這些大數(shù)據(jù)可以讓人們對(duì)這些數(shù)據(jù)更加容易的理解,進(jìn)而更深入來(lái)分析這些數(shù)據(jù);并且對(duì)數(shù)據(jù)進(jìn)行可視化分析,能夠促進(jìn)人機(jī)交互的開展,利用人機(jī)交互來(lái)處理大數(shù)據(jù)可極大的提升數(shù)據(jù)處理能力和工作效率。當(dāng)然,移動(dòng)通信網(wǎng)絡(luò)當(dāng)中大數(shù)據(jù)的處理不僅僅局限于上述挑戰(zhàn),安全問(wèn)題也是大數(shù)據(jù)處理所面臨的重要問(wèn)題,因此需加強(qiáng)數(shù)據(jù)管理,不斷提升數(shù)據(jù)處理技術(shù)水平,最終實(shí)現(xiàn)大數(shù)據(jù)有效管理。

3云計(jì)算

經(jīng)分析可以看出,移動(dòng)通信網(wǎng)絡(luò)大數(shù)據(jù)處理有兩大趨勢(shì),主要是數(shù)據(jù)量驟增以及分析深度加劇。這對(duì)于移動(dòng)通信網(wǎng)絡(luò)大數(shù)據(jù)的處理來(lái)講無(wú)疑是一大挑戰(zhàn)。而云計(jì)算的出現(xiàn)則讓移動(dòng)通信網(wǎng)絡(luò)大數(shù)據(jù)處理有了新的思路。2004年,Google就提出了MapReduce技術(shù)來(lái)作為處理大數(shù)據(jù)分析和處理的計(jì)算模型,此舉一出立刻引起了廣泛關(guān)注。MapReduce技術(shù)包含了三個(gè)層面,即分布式文件系統(tǒng)、并行編程模型以及并行執(zhí)行引擎。MapReduce技術(shù)的出現(xiàn)引起了各方面關(guān)注,而在運(yùn)行中,慢慢發(fā)現(xiàn)其很多不足之處,譬如不支持Schema、沒(méi)有存取優(yōu)化以及依靠蠻力來(lái)處理數(shù)據(jù)等等。針對(duì)MapReduce當(dāng)中的不足,研究人員進(jìn)行了深入研究,對(duì)其性能進(jìn)行了相應(yīng)提升,并對(duì)易用性進(jìn)行了一定的改進(jìn),經(jīng)過(guò)實(shí)踐證明,MapReduce是分析和處理大數(shù)據(jù)的一種有效工具,但是在進(jìn)行大數(shù)據(jù)處理過(guò)程中,MapReduce依舊有著缺陷和不足。就大數(shù)據(jù)處理模式角度而言,流處理和批處理是其中最為重要的模式。MapReduce只可以運(yùn)用批處理模式來(lái)處理大數(shù)據(jù)。然而實(shí)際狀況是,眾多的社交網(wǎng)站和電子商務(wù)均需要進(jìn)行在線處理,而MapRe-duce卻只能愛(ài)莫能助。綜上,移動(dòng)通信網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量不斷增多,這些數(shù)據(jù)為社會(huì)帶來(lái)了便利,然而也面臨著大量數(shù)據(jù)要處理的現(xiàn)實(shí)問(wèn)題。對(duì)此應(yīng)用大數(shù)據(jù)處理關(guān)鍵技術(shù)來(lái)解決越來(lái)越多的數(shù)據(jù)難題,盡管還存在一些不足,但相信在科技的發(fā)展下這種情況會(huì)得到有效改善。

作者:賈麗華 單位:沈陽(yáng)電信工程局

大數(shù)據(jù)處理論文:大數(shù)據(jù)時(shí)代下的電力自動(dòng)化系統(tǒng)數(shù)據(jù)處理

摘 要:我國(guó)電力市場(chǎng)發(fā)展度較快,電力系統(tǒng)也正逐步向自動(dòng)化邁進(jìn),并且在運(yùn)行過(guò)程中產(chǎn)生了大量數(shù)據(jù),我們將其稱之為"大數(shù)據(jù)時(shí)代"。本文主要闡述了電力自動(dòng)系統(tǒng)在運(yùn)行過(guò)程中產(chǎn)生的具體數(shù)據(jù)情況,并分析了基于大數(shù)據(jù)時(shí)代背景下如何做好電力數(shù)據(jù)處理工作。

關(guān)鍵詞:大數(shù)據(jù)時(shí)代;電力自動(dòng)化系統(tǒng);數(shù)據(jù)處理

電力自動(dòng)化數(shù)據(jù)的處理工作中,要針對(duì)不同的數(shù)據(jù)類型以及系統(tǒng)不同部分對(duì)數(shù)據(jù)的不同要求建立起對(duì)應(yīng)的系統(tǒng)數(shù)據(jù)資源處理體系。通過(guò)建立并整合綜合數(shù)據(jù)庫(kù)、完成電力系統(tǒng)安全防護(hù)規(guī)范、形成完善的調(diào)度數(shù)據(jù)體現(xiàn)功能等實(shí)現(xiàn)對(duì)電力自動(dòng)化系統(tǒng)中數(shù)據(jù)的有效處理。

一、電力自動(dòng)化系統(tǒng)的類型分類

1.基礎(chǔ)型數(shù)據(jù):主要是與電力自動(dòng)化系統(tǒng)中的電力設(shè)施設(shè)備屬性相關(guān)的數(shù)據(jù),如,發(fā)電機(jī)、變壓器等電力設(shè)施設(shè)備的基礎(chǔ)數(shù)據(jù)。對(duì)于這些數(shù)據(jù)一般是電力單位根據(jù)相關(guān)的數(shù)據(jù)規(guī)劃各自進(jìn)行管理,并通過(guò)相關(guān)數(shù)據(jù)服務(wù)器對(duì)其數(shù)據(jù)進(jìn)行數(shù)據(jù)同步,便于調(diào)度中心對(duì)這些數(shù)據(jù)進(jìn)行集中存儲(chǔ)、整理和相關(guān)計(jì)算。

2.實(shí)時(shí)數(shù)據(jù):大多數(shù)是在電力系統(tǒng)運(yùn)行過(guò)程中進(jìn)行實(shí)時(shí)采集的數(shù)據(jù),其數(shù)據(jù)量很大,對(duì)存儲(chǔ)空間的要求比較高。這些數(shù)據(jù)是在電力系統(tǒng)運(yùn)行過(guò)程中產(chǎn)生的,通過(guò)對(duì)其進(jìn)行糾錯(cuò)處理后,能夠?yàn)檎{(diào)度部門或市場(chǎng)運(yùn)營(yíng)提供決策參考依據(jù)。目前,我國(guó)電力自動(dòng)化系統(tǒng)在實(shí)時(shí)數(shù)據(jù)處理方面比較成熟,對(duì)收集到的實(shí)時(shí)數(shù)據(jù)不需要進(jìn)行相關(guān)的處理,只需要在數(shù)據(jù)輸入、輸出過(guò)程中建立一個(gè)穩(wěn)定的接口即可。

3.日常管理的數(shù)據(jù):主要是在電力系統(tǒng)運(yùn)行過(guò)程中對(duì)各種相關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),各部門對(duì)在工作中遇到的問(wèn)題進(jìn)行相關(guān)處理后的數(shù)據(jù)信息。一般情況下,這些數(shù)據(jù)只需要在特定的范圍內(nèi)進(jìn)行同步和共享即可。在電力系統(tǒng)運(yùn)行過(guò)程中,建立這一類型數(shù)據(jù)同步和共享的數(shù)據(jù)平臺(tái)是十分必要的。主要原因表現(xiàn)在以下幾個(gè)方面:①這些日常管理的數(shù)據(jù)在某種程度上反映電力系統(tǒng)中電力設(shè)施設(shè)備的運(yùn)行情況;②方便電力系統(tǒng)中各個(gè)部門對(duì)日常管理數(shù)據(jù)的獲取,以便更好的開展部門工作。

4.市場(chǎng)經(jīng)濟(jì)數(shù)據(jù):隨著市場(chǎng)經(jīng)濟(jì)的發(fā)展,電力系統(tǒng)的經(jīng)濟(jì)效益越來(lái)越突出,電力系統(tǒng)運(yùn)行中的相關(guān)數(shù)據(jù)對(duì)電力單位的發(fā)展具有重要影響,將其作為經(jīng)濟(jì)性數(shù)據(jù)十分有必要。市場(chǎng)經(jīng)濟(jì)數(shù)據(jù)對(duì)城市建設(shè)規(guī)劃中的電力規(guī)劃有很重要的決策參考依據(jù)。市場(chǎng)經(jīng)濟(jì)數(shù)據(jù)具有非常大的擴(kuò)展空間,其數(shù)據(jù)規(guī)劃的重點(diǎn)將是實(shí)時(shí)數(shù)據(jù)。

二、電力系統(tǒng)化系統(tǒng)中數(shù)據(jù)的獲取

電力系統(tǒng)化系統(tǒng)中數(shù)據(jù)的獲取就是整個(gè)數(shù)據(jù)的采集過(guò)程。在電力自動(dòng)化系統(tǒng)中,主要包括了數(shù)據(jù)采集、數(shù)據(jù)處理以及數(shù)據(jù)轉(zhuǎn)發(fā)三個(gè)環(huán)節(jié)。在電力系統(tǒng)中,實(shí)現(xiàn)數(shù)據(jù)傳輸是進(jìn)行數(shù)據(jù)獲取與采集的重要目的。在進(jìn)行數(shù)據(jù)傳輸過(guò)程中,可以采用有限傳輸與無(wú)線傳輸兩種方式進(jìn)行。在采用有限傳輸?shù)倪^(guò)程中,主要通過(guò)使用電纜或者光纖進(jìn)行傳輸。而在無(wú)線傳輸過(guò)程中,則可以使用微波或者無(wú)線擴(kuò)頻的方式進(jìn)行傳送。由于有限傳輸信號(hào)穩(wěn)定,因此,在電力自動(dòng)化系統(tǒng)當(dāng)中主要是使用有線傳輸方式。但是,由于無(wú)線傳輸方式能夠減少線路的鋪設(shè)工作量,而且在較為偏遠(yuǎn)的地區(qū)能夠方便的采集數(shù)據(jù),而使得其在部分地區(qū)得到廣泛應(yīng)用。

三、電力自動(dòng)化系統(tǒng)中的數(shù)據(jù)處理

3.1數(shù)據(jù)共享

數(shù)據(jù)共享的主要方式主要包括以下幾種:(1)內(nèi)存數(shù)據(jù)庫(kù)。利用內(nèi)存數(shù)據(jù)庫(kù)有著安全性高、訪問(wèn)速度快和結(jié)構(gòu)靈活的特點(diǎn),但是也存在著一些問(wèn)題,那就是其開放性較低。(2)利用網(wǎng)絡(luò)進(jìn)行通訊。網(wǎng)絡(luò)通訊的方式有UDP、TCP、IP等,在對(duì)數(shù)據(jù)進(jìn)行打包發(fā)送的過(guò)程中,網(wǎng)絡(luò)通訊的方式相應(yīng)速度較快,而且數(shù)據(jù)在處理的過(guò)程中,使用的是二進(jìn)制的方式,這種方式在編程的時(shí)候較為復(fù)雜。(3)直接內(nèi)存訪問(wèn)。利用直接內(nèi)存訪問(wèn)的方式進(jìn)行共享,有著傳輸速度較高、進(jìn)入的速度較快的特點(diǎn),但是在數(shù)據(jù)處理的過(guò)程中,對(duì)于整個(gè)系統(tǒng)的安全性會(huì)造成一定的影響。電力自動(dòng)化系統(tǒng)使用的是DCOM技術(shù)來(lái)進(jìn)行內(nèi)存數(shù)據(jù)庫(kù)的訪問(wèn)的,例如,遠(yuǎn)程主機(jī)在進(jìn)行數(shù)據(jù)共享的過(guò)程中,可以使用網(wǎng)絡(luò)映射的方式將遠(yuǎn)程主機(jī)進(jìn)行映射,使其映射到本地的磁盤中,這樣是便于數(shù)據(jù)的下載與更新的。

3.2數(shù)據(jù)流

數(shù)據(jù)流也是電力自動(dòng)化系統(tǒng)運(yùn)行中十分重要的組成部分,在數(shù)據(jù)處理中扮演著關(guān)鍵性得角色。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,數(shù)據(jù)流呈現(xiàn)出了連續(xù)性、順序性和實(shí)時(shí)性,整個(gè)過(guò)程的起點(diǎn)是在數(shù)據(jù)進(jìn)入到了系統(tǒng)中開始,而數(shù)據(jù)在流動(dòng)的過(guò)程中,那么信息的流動(dòng)策略就會(huì)與整個(gè)系統(tǒng)的功能有著緊密的聯(lián)系。隨著電力自動(dòng)化技術(shù)的不斷提高,電力系統(tǒng)在運(yùn)行的過(guò)程中,數(shù)據(jù)量在逐漸的增加,整個(gè)系統(tǒng)結(jié)構(gòu)也變得越來(lái)越復(fù)雜,必須要對(duì)相應(yīng)的數(shù)據(jù)量進(jìn)行科學(xué)的分析,這樣才能夠合理的部署,提高數(shù)據(jù)傳輸?shù)男剩箶?shù)據(jù)流在運(yùn)行的過(guò)程中,能夠充分的保障其性、安全性和實(shí)時(shí)性。數(shù)據(jù)流技術(shù)在處理的過(guò)程中,一定要將接口的統(tǒng)一性進(jìn)行相應(yīng)的處理,在這樣的情況下,就要充分的解決各個(gè)子系統(tǒng)之間的在接口統(tǒng)一性上的問(wèn)題。

3.3電力自動(dòng)化系統(tǒng)中的數(shù)據(jù)整合

電力自動(dòng)化系統(tǒng)的建立及發(fā)展是基于“建立調(diào)度綜合數(shù)據(jù)應(yīng)用與交換平臺(tái),規(guī)范和整合調(diào)度系統(tǒng)數(shù)據(jù)”的基本要求,通過(guò)數(shù)據(jù)讓你過(guò)河、功能完善等方式使得不同的專業(yè)技術(shù)以及信息安全技術(shù)在系統(tǒng)中得到應(yīng)用和體現(xiàn)。同時(shí),電力自動(dòng)化系統(tǒng)的整合工作必須基于國(guó)家電網(wǎng)調(diào)度系統(tǒng)的數(shù)據(jù)整合原則及基本工作框架進(jìn)行。當(dāng)前,系統(tǒng)建設(shè)的主要目標(biāo)在于建立一個(gè)綜合數(shù)據(jù)庫(kù)、形成一個(gè)與電力二次系統(tǒng)安全防護(hù)要求相一致的信息交換體系,實(shí)現(xiàn)通用調(diào)度數(shù)據(jù)的體現(xiàn)。在具體的實(shí)施過(guò)程中,可以采取如下步驟進(jìn)行:(1)基于既有系統(tǒng)開發(fā)多種分散數(shù)據(jù)的采集與整合工具,形成統(tǒng)一數(shù)據(jù)規(guī)格的管理規(guī)范,建立一個(gè)基于對(duì)象的數(shù)據(jù)處理數(shù)學(xué)模型,進(jìn)而實(shí)現(xiàn)系統(tǒng)信息的相互關(guān)聯(lián),實(shí)現(xiàn)信息區(qū)域的管理中心。(2)利用通用調(diào)度數(shù)據(jù)展現(xiàn)技術(shù)給電力自動(dòng)化系統(tǒng)用戶提供便捷的數(shù)據(jù)分析、加工及理途徑。同時(shí),開發(fā)并實(shí)現(xiàn)基于用戶自定義規(guī)則的調(diào)度數(shù)據(jù)綜合處理信息系統(tǒng),實(shí)現(xiàn)對(duì)數(shù)據(jù)的重復(fù)利用。(3)開發(fā)橫向調(diào)度數(shù)據(jù)接口技術(shù),通過(guò)完善并統(tǒng)一對(duì)外調(diào)度接口的方式,避免出現(xiàn)數(shù)據(jù)多重交叉的以及重復(fù)輸出問(wèn)題。(4)形成上、下級(jí)縱向調(diào)度數(shù)據(jù)的標(biāo)準(zhǔn)接口,構(gòu)建起廣域范圍中的金字塔式形式的立體數(shù)據(jù)體系。

四、智能電網(wǎng)

1.智能電網(wǎng)中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

智能電網(wǎng)中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)具有堅(jiān)強(qiáng)、靈活的特點(diǎn),能夠有效的解決電力系統(tǒng)中能源和生產(chǎn)力分布不均勻的問(wèn)題,滿足電力企業(yè)大規(guī)模生產(chǎn)運(yùn)輸過(guò)程中產(chǎn)生大規(guī)模數(shù)據(jù)的處理功能,實(shí)現(xiàn)資源的優(yōu)化配置,減少電能損耗。同時(shí),智能電網(wǎng)中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)能夠有效的應(yīng)對(duì)一些自然災(zāi)害,如雨、雪等。

2.開放、標(biāo)準(zhǔn)、集成的通信系統(tǒng)

智能電網(wǎng)能夠?qū)﹄娏ψ詣?dòng)化系統(tǒng)進(jìn)行及時(shí)有效的監(jiān)控,主要在其具有識(shí)別故障早期征兆的預(yù)測(cè)能力和對(duì)故障做出相關(guān)的相應(yīng)的能力。智能電網(wǎng)是電力自動(dòng)化企業(yè)的發(fā)展方向,能夠?yàn)殡娋W(wǎng)規(guī)劃、建設(shè)和運(yùn)行管理提供的數(shù)據(jù)信息,有利于大數(shù)據(jù)時(shí)代下電力自動(dòng)化運(yùn)行系統(tǒng)的穩(wěn)定、安全和高效的運(yùn)行。

結(jié)語(yǔ)

自動(dòng)化系統(tǒng)的正常運(yùn)行,一定要充分考慮到系統(tǒng)運(yùn)行中數(shù)據(jù)信息的數(shù)量信息,便于數(shù)據(jù)的維修和存儲(chǔ)空間的無(wú)限擴(kuò)展。文章主要是分析了自動(dòng)化系統(tǒng)的數(shù)據(jù)類型,并且對(duì)其進(jìn)行了詳盡的分析,對(duì)于相關(guān)問(wèn)題進(jìn)行了闡述,給電力自動(dòng)化系統(tǒng)提供了更加廣闊的空間,并探究了智能電網(wǎng)在電力自動(dòng)化運(yùn)行系統(tǒng)中運(yùn)行的優(yōu)勢(shì)和未來(lái)的發(fā)展方向。

大數(shù)據(jù)處理論文:大數(shù)據(jù)處理平臺(tái)比較研究

摘要:大數(shù)據(jù)環(huán)境下,傳統(tǒng)的數(shù)據(jù)處理方式不再適用,以云計(jì)算技術(shù)為支撐的大數(shù)據(jù)處理平臺(tái)應(yīng)運(yùn)而生。比較了開源Hadoop和Spark平臺(tái)各自的優(yōu)缺點(diǎn),發(fā)現(xiàn)各自的適用范圍:Hadoop適用于數(shù)據(jù)密集型任務(wù),并廣泛應(yīng)用于離線分析;Spark因其基于內(nèi)存計(jì)算,在迭代計(jì)算和實(shí)時(shí)分析領(lǐng)域占據(jù)優(yōu)勢(shì)。二者在功能上有較強(qiáng)的互補(bǔ)性,協(xié)同使用可以發(fā)揮更大效益。

1大數(shù)據(jù)處理平臺(tái)

1.1大數(shù)據(jù)特點(diǎn)

目前,大數(shù)據(jù)還沒(méi)有一個(gè)標(biāo)準(zhǔn)定義,但是把握大數(shù)據(jù)的特征,有助于加深對(duì)大數(shù)據(jù)內(nèi)涵的理解。數(shù)據(jù)具有的3V特征,即規(guī)模大(Volume)、種類多(Variety)、速度快(Velocity)。規(guī)模大,意味著數(shù)據(jù)量不斷擴(kuò)張,數(shù)據(jù)量級(jí)從現(xiàn)在的GB、TB增長(zhǎng)到PB、EB甚至ZB級(jí);種類多,指數(shù)據(jù)類型有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化,其中文字、圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)占很大比例;速度快,表示大數(shù)據(jù)有強(qiáng)時(shí)效性,數(shù)據(jù)快速產(chǎn)生,需要及時(shí)處理及分析才能實(shí)現(xiàn)大數(shù)據(jù)的經(jīng)濟(jì)價(jià)值。 大數(shù)據(jù)的處理過(guò)程為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋 [1]。巨量的數(shù)據(jù)往往也意味著噪聲較多,這給數(shù)據(jù)清洗工作造成困難。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)處理對(duì)象單位通常為MB,適合處理存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),而面向大數(shù)據(jù)的數(shù)據(jù)庫(kù)技術(shù)能夠解決海量的非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)問(wèn)題。傳統(tǒng)的數(shù)據(jù)分析方法以算法的率作為重要的衡量指標(biāo),而大數(shù)據(jù)的高速性要求算法必須犧牲一部分性以更高效地處理數(shù)據(jù)。

1.2大數(shù)據(jù)處理平臺(tái)

為從規(guī)模巨大、種類繁多、生成快速的數(shù)據(jù)集中挖掘價(jià)值[2],針對(duì)大數(shù)據(jù)的技術(shù)和方法應(yīng)運(yùn)而生。GFS、NoSQL、ITHbase、MapReduce等云計(jì)算技術(shù)發(fā)展,使大數(shù)據(jù)有效存儲(chǔ)、管理和分析成為可能。但從眾多復(fù)雜的大數(shù)據(jù)技術(shù)中進(jìn)行選擇,并搭建完備的大數(shù)據(jù)處理框架難度很高,不利于挖掘大數(shù)據(jù)中的經(jīng)濟(jì)價(jià)值。大數(shù)據(jù)平臺(tái)能在用戶不了解架構(gòu)底層細(xì)節(jié)的情況下,開發(fā)大數(shù)據(jù)應(yīng)用程序。全球經(jīng)驗(yàn)豐富的科技巨頭紛紛提出了建設(shè)與應(yīng)用大數(shù)據(jù)處理平臺(tái):IBM公司推出了云端版InfoSphere BigInsights[3];HP推出了HP Vertica6.1分析平臺(tái)[4];Google提出的GFS、MapReduce等云計(jì)算技術(shù)催生了大數(shù)據(jù)處理平臺(tái)的事實(shí)標(biāo)準(zhǔn)Hadoop。目前,Google使用的是自己開發(fā)的Caffeine[2];Facebook結(jié)合自身需求實(shí)現(xiàn)了Corona、Prism。完備、高效的大數(shù)據(jù)處理平臺(tái)為大數(shù)據(jù)應(yīng)用提供一站式基礎(chǔ)服務(wù),支持應(yīng)用系統(tǒng)從清洗、集成、分析到結(jié)果可視化展現(xiàn)全過(guò)程建設(shè),降低了用戶技術(shù)門檻[5]。

2大數(shù)據(jù)處理平臺(tái)比較

Hadoop的支撐技術(shù)(MapReduce等)成熟,實(shí)現(xiàn)了海量數(shù)據(jù)分布式存儲(chǔ)和批量處理,應(yīng)用廣泛,成為大數(shù)據(jù)處理平臺(tái)的事實(shí)標(biāo)準(zhǔn)。Spark以其近乎實(shí)時(shí)的性能和相對(duì)靈活易用而受到歡迎,它同Hadoop一樣都是Apache旗下的開源集群系統(tǒng),是目前發(fā)展最快的大數(shù)據(jù)處理平臺(tái)之一。

2.1Hadoop與Spark比較

2.1.1Hadoop及特c Hadoop是由Apache開發(fā)的開源云計(jì)算平臺(tái),實(shí)現(xiàn)在大量計(jì)算機(jī)組成的集群中進(jìn)行分布式存儲(chǔ)和計(jì)算。Hadoop框架最核心的技術(shù)是HDFS和MapReduce。HDFS是可部署在廉價(jià)機(jī)器上的分布式文件系統(tǒng),采用主/從結(jié)構(gòu),將大文件分割后形成大小相等的block復(fù)制3份,分別存儲(chǔ)在不同節(jié)點(diǎn)上,實(shí)現(xiàn)了海量數(shù)據(jù)存儲(chǔ)。MapReduce編程模型實(shí)現(xiàn)大數(shù)據(jù)處理,它的核心是“分而治之”[1]。Map任務(wù)區(qū)將輸入數(shù)據(jù)源分塊后,分散給不同的節(jié)點(diǎn),通過(guò)用戶自定義的Map函數(shù),得到中間key/Value集合,存儲(chǔ)到HDFS上。Reduce任務(wù)區(qū)從硬盤上讀取中間結(jié)果,把相同K值數(shù)據(jù)組織在一起,再經(jīng)過(guò)用戶自定義的Reduce函數(shù)處理,得到并輸出結(jié)果;將巨量資料的處理并行運(yùn)行在集群上,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的有效處理。 Hadoop具有如下優(yōu)點(diǎn)[69]: (1)高擴(kuò)展性。Hadoop的橫向擴(kuò)展性能很好,海量數(shù)據(jù)能橫跨幾百甚至上千臺(tái)服務(wù)器,而用戶使用時(shí)感覺(jué)只是面對(duì)一個(gè)。大量計(jì)算機(jī)并行工作,對(duì)大數(shù)據(jù)的處理能在合理時(shí)間內(nèi)完成并得以應(yīng)用,這是傳統(tǒng)單機(jī)模式無(wú)法實(shí)現(xiàn)的。 (2)高容錯(cuò)性。從HDFS的設(shè)計(jì)可以看出它通過(guò)提供數(shù)據(jù)冗余的方式提供高性。當(dāng)某個(gè)數(shù)據(jù)塊損壞或丟失,NameNode就會(huì)將其它DataNode上的副本進(jìn)行復(fù)制,保障每塊都有3份。所以,在數(shù)據(jù)處理過(guò)程中,當(dāng)集群中機(jī)器出現(xiàn)故障時(shí)計(jì)算不會(huì)停止。 (3)節(jié)約成本。首先,Hadoop本身是開源軟件,免費(fèi);其次,它可以部署在廉價(jià)的PC機(jī)上;“把計(jì)算推送給數(shù)據(jù)”的設(shè)計(jì)理念,節(jié)省了數(shù)據(jù)傳輸中的通信開銷。而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)將所有數(shù)據(jù)存儲(chǔ)起來(lái),成本高昂,這不利于大數(shù)據(jù)產(chǎn)業(yè)發(fā)展。 (4)高效性。Hadoop以簡(jiǎn)單直觀的方式解決了大數(shù)據(jù)處理中的儲(chǔ)存和分析問(wèn)題。數(shù)據(jù)規(guī)模越大,相較于單機(jī)處理Hadoop的集群并行處理優(yōu)勢(shì)越明顯。 (5)基礎(chǔ)性。對(duì)于技術(shù)優(yōu)勢(shì)企業(yè),可以根據(jù)基礎(chǔ)的Hadoop結(jié)合應(yīng)用場(chǎng)景進(jìn)行二次開發(fā),使其更適合工作環(huán)境。比如,F(xiàn)acebook從自身應(yīng)用需求出發(fā),構(gòu)建了實(shí)時(shí)Hadoop系統(tǒng)。 Hadoop系統(tǒng)局限性 [1011]:①不適合迭代運(yùn)算。MapReduce要求每個(gè)運(yùn)算結(jié)果都輸出到HDFS,每次初始化都要從HDFS讀入數(shù)據(jù)。在迭代運(yùn)算中,每次運(yùn)算的中間結(jié)果都要寫入磁盤,Hadoop在執(zhí)行每一次功能相同的迭代任務(wù)時(shí)都要反復(fù)操作I/O,計(jì)算代價(jià)很大。而對(duì)于常見(jiàn)的圖計(jì)算和數(shù)據(jù)挖掘等,迭代計(jì)算又是必要的;②實(shí)時(shí)性差。Hadoop平臺(tái)由于頻繁的磁盤I/O操作,大大增加了時(shí)間延遲,不能勝任快速處理任務(wù);③易用性差。Hadoop只是一個(gè)基礎(chǔ)框架,精細(xì)程度有所欠缺,如果要實(shí)現(xiàn)具體業(yè)務(wù)還需進(jìn)一步開發(fā)。MapReduce特定的編程模型增加了Hadoop的技術(shù)復(fù)雜性。

2.1.2Spark及特點(diǎn) Spark的整個(gè)生態(tài)系統(tǒng)稱為BDAS(伯克利數(shù)據(jù)分析棧),包括Tachyon、Spark Streaming、Spark Core、MLlib等。其核心框架Spark是為了實(shí)現(xiàn)大數(shù)據(jù)的快速處理而設(shè)計(jì)的,可以用來(lái)構(gòu)建低延遲應(yīng)用。Spark以RDD(彈性分布數(shù)據(jù)集)為基礎(chǔ),實(shí)現(xiàn)了基于內(nèi)存的大數(shù)據(jù)計(jì)算。RDD是對(duì)數(shù)據(jù)的基本抽象,實(shí)現(xiàn)了對(duì)分布式內(nèi)存的抽象使用。由于RDD能緩存到內(nèi)存中,因此避免了過(guò)多的磁盤I/O操作,大大降低了時(shí)延。Tachyon是分布式內(nèi)存文件系統(tǒng),類似于內(nèi)存中的HDFS,基于它可以實(shí)現(xiàn)RDD或文件在計(jì)算機(jī)集群中共享。Spark沒(méi)有自己的文件系統(tǒng),通過(guò)支持Hadoop HDFS、HBase等進(jìn)行數(shù)據(jù)存儲(chǔ)。Spark更專注于計(jì)算性能,其特點(diǎn)如下[1113]: (1)高速性。Spark通過(guò)內(nèi)存計(jì)算減少磁盤I/O開銷,極大縮小了時(shí)間延遲,能處理Hadoop無(wú)法應(yīng)對(duì)的迭代運(yùn)算,在進(jìn)行圖計(jì)算等工作時(shí)表現(xiàn)更好。高速數(shù)據(jù)處理能力使得Spark更能滿足大數(shù)據(jù)分析中實(shí)時(shí)分析的要求。 (2)靈活性。較之僅支持map函數(shù)和reduce函數(shù)的Hadoop,Spark支持map、reduce、filter、join、count等近80多種操作類型。Spark的交互模式使用戶在進(jìn)行操作時(shí)能及時(shí)獲得反饋,這是Hadoop不具備的。Spark SQL能直接用標(biāo)準(zhǔn)SQL語(yǔ)句在Spark上進(jìn)行大數(shù)據(jù)查詢,簡(jiǎn)單易學(xué)。盡管在Hadoop中有Hive,可以不用Java來(lái)編寫復(fù)雜的MapReduce程序,但是Hive在MapReduce上的運(yùn)行速度卻達(dá)不到期望程度。

2.1.3Hadoop與Spark特點(diǎn)比較分析 Hadoop具有高擴(kuò)展性、高容錯(cuò)性、成本低、高效性、不適合迭代運(yùn)算、實(shí)時(shí)性差、易用性差等特點(diǎn),與之相比,Spark最突出的特點(diǎn)是高速性和靈活性,基于這些特點(diǎn)分析總結(jié)如下:Hadoop更注重存儲(chǔ)性能,而Spark更專注于計(jì)算,可以形象地將二者的處理方式比作“大砍刀”和“剔骨刀”,前者可以勝任更加繁重的任務(wù),但難免粗糙,后者則勝在快速、靈巧上。

2.2Hadoop與Spark應(yīng)用場(chǎng)景比較

2.2.1Hadoop應(yīng)用場(chǎng)景 Hadoop的高擴(kuò)展性、高容錯(cuò)性、基礎(chǔ)性等優(yōu)點(diǎn),決定了其適用于龐大數(shù)據(jù)集控制、數(shù)據(jù)密集型計(jì)算和離線分析等場(chǎng)景。針對(duì)Hadoop的局限性,為提高Hadoop性能,各種工具應(yīng)運(yùn)而生,已經(jīng)發(fā)展成為包括Hive、Pig、HBase、Cassandra、YARN等在內(nèi)的完整生態(tài)系統(tǒng)。HBase新型NoSQL數(shù)據(jù)庫(kù)便于數(shù)據(jù)管理,Hive提供類似SQL的操作方式進(jìn)行數(shù)據(jù)分析,Pig是用來(lái)處理大規(guī)模數(shù)據(jù)的高級(jí)腳本語(yǔ)言……這些功能模塊在一定程度上彌補(bǔ)了Hadoop的不足,降低了用戶使用難度,擴(kuò)展了應(yīng)用場(chǎng)景。

2.2.2Spark應(yīng)用場(chǎng)景 與Hadoop不同,Spark高速、靈活的特點(diǎn),決定了它適用于迭代計(jì)算、交互式查詢、實(shí)時(shí)分析等場(chǎng)景,比如,淘寶使用Spark來(lái)實(shí)現(xiàn)基于用戶的圖計(jì)算應(yīng)用[11]。但是,其RDD特點(diǎn)使其不適合異步細(xì)粒度更新?tīng)顟B(tài)的應(yīng)用[1],比如,增量的Web抓取和索引。RDD的特點(diǎn)之一是“不可變”,即只讀不可寫,如果要對(duì)RDD中的數(shù)據(jù)進(jìn)行更新,就要遍歷整個(gè)RDD并生成一個(gè)新RDD,頻繁更新代價(jià)很大。

2.2.3Hadoop與Spark的互補(bǔ)競(jìng)爭(zhēng)關(guān)系 Hadoop與Spark同櫬笫據(jù)處理平臺(tái),必然在市場(chǎng)中存在一定的競(jìng)爭(zhēng)替代關(guān)系,二者在功能上有較強(qiáng)的互補(bǔ)性。Hadoop解決了如何將大數(shù)據(jù)儲(chǔ)存起來(lái)的問(wèn)題,Spark在此基礎(chǔ)上考慮的是更快速、易用地實(shí)現(xiàn)大數(shù)據(jù)分析,這點(diǎn)從Spark仍采用HDFS作為文件系統(tǒng)就可看出。它們適用于不同的應(yīng)用場(chǎng)景,有時(shí)協(xié)同工作會(huì)達(dá)到更理想的效果,在Spark和Hadoop的許多發(fā)行版(如CDH、MapR、InfoSphere BigInsights)中,它們都已經(jīng)互相支持實(shí)現(xiàn)。

3結(jié)語(yǔ)

本文分析了大數(shù)據(jù)的3V特點(diǎn),論述了大數(shù)據(jù)處理與傳統(tǒng)數(shù)據(jù)處理的不同,指出了傳統(tǒng)處理方式在大數(shù)據(jù)環(huán)境下的局限性。通過(guò)分析常用的大數(shù)據(jù)處理平臺(tái),并分析Hadoop和Spark的核心技術(shù),對(duì)其優(yōu)缺點(diǎn)進(jìn)行了歸納。Hadoop實(shí)現(xiàn)了海量異構(gòu)數(shù)據(jù)的存儲(chǔ)和處理,雖然在處理速度和易用性方面存在缺陷,但由于它的基礎(chǔ)性還是得到廣泛應(yīng)用,企業(yè)可根據(jù)自身應(yīng)用特點(diǎn)進(jìn)行改進(jìn)。雖然Spark不適合異步細(xì)粒度更新?tīng)顟B(tài)的應(yīng)用,但在處理性能和易用程度上較Hadoop優(yōu)勢(shì)顯著,發(fā)展也十分迅速。通過(guò)比較兩者的優(yōu)缺點(diǎn),可以發(fā)現(xiàn)它們?cè)诠δ苌嫌休^強(qiáng)的互補(bǔ)性,協(xié)同使用可以帶來(lái)效益優(yōu)化。目前Spark和很多Hadoop發(fā)行版都已經(jīng)互相支持。期望本文對(duì)大數(shù)據(jù)處理平臺(tái)的選擇、利用和研發(fā)有所啟發(fā)。

大數(shù)據(jù)處理論文:大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域中的應(yīng)用研究

【摘要】 文章首先對(duì)智能電網(wǎng)和大數(shù)據(jù)處理技術(shù)進(jìn)行了簡(jiǎn)介,進(jìn)而分析了智能電網(wǎng)的大數(shù)據(jù)特點(diǎn),提出了大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域中的具體應(yīng)用。

【關(guān)鍵詞】 大數(shù)據(jù)處理技術(shù) 智能電網(wǎng) 具體 應(yīng)用

前言:隨著我國(guó)工業(yè)的高速發(fā)展以及居民生活的豐富化,目前我國(guó)的電力行業(yè)取得了巨大的發(fā)展,跨區(qū)聯(lián)網(wǎng)的規(guī)模處于不斷擴(kuò)大中。而就電網(wǎng)結(jié)構(gòu)而言,也處于不斷復(fù)雜的趨勢(shì)下,存在的不穩(wěn)定因素也越來(lái)越多,使用中的風(fēng)險(xiǎn)以及故障的機(jī)率特增加了很多。進(jìn)而大數(shù)據(jù)分析處理技術(shù)得以在電網(wǎng)中使用,實(shí)現(xiàn)了電網(wǎng)管理的智能化,提升了電網(wǎng)使用的穩(wěn)定性和安全性。基于此,文章圍繞大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域的應(yīng)用為中心,分三部分展開了細(xì)致的分析探討,旨在提供一些該方面的理論參考,以下是具體內(nèi)容。

一、智能電網(wǎng)和大數(shù)據(jù)處理技術(shù)簡(jiǎn)介

1.1智能電網(wǎng)

所為智能電網(wǎng)指的是以基本的物理電網(wǎng)為基礎(chǔ),通過(guò)應(yīng)用目前的現(xiàn)代信息技術(shù)、通信技術(shù)以及計(jì)算機(jī)處理技術(shù)等技術(shù),同時(shí)和傳感測(cè)量技術(shù)一控制技術(shù)進(jìn)行結(jié)合,進(jìn)而形成的一種高度集成的新型電網(wǎng)。智能電網(wǎng)在電網(wǎng)運(yùn)輸?shù)陌踩院托陨隙加诤艽蟮谋U希瑫r(shí)從功能上觀察,也具備電網(wǎng)實(shí)時(shí)信息的處理、分析、集成、安全以及顯示等諸多功能[1]。

1.2大數(shù)據(jù)處理技術(shù)

所謂大數(shù)據(jù)處理技術(shù)就是對(duì)數(shù)量龐大的數(shù)據(jù)進(jìn)行分析和處理的技術(shù)。目前主要使用的大數(shù)據(jù)處理技術(shù)都是基于互聯(lián)網(wǎng)的云處理技術(shù)的,在社會(huì)中的各行各業(yè)中均有得到了廣泛的應(yīng)用。

二、智能電網(wǎng)的大數(shù)據(jù)特點(diǎn)

2.1規(guī)模大

就智能電網(wǎng)所產(chǎn)生的大數(shù)據(jù)而言,其首先存在的一個(gè)特點(diǎn)即規(guī)模大。在電網(wǎng)的不斷發(fā)展過(guò)程中,其負(fù)荷節(jié)點(diǎn)和電機(jī)節(jié)電會(huì)不斷增加,再加之電網(wǎng)和負(fù)荷之間的雙向交互因素的影響,就會(huì)大大增加電網(wǎng)數(shù)據(jù)的量,M而所產(chǎn)生和需要儲(chǔ)備的數(shù)據(jù)也就隨之大量增加[2]。

2.2速度快

因?yàn)樵陔娋W(wǎng)的運(yùn)作過(guò)程中,負(fù)荷的波動(dòng)具有極大的隨機(jī)性,因此在電網(wǎng)的隨時(shí)監(jiān)測(cè)工作上所產(chǎn)生的隨機(jī)性就很大。而電網(wǎng)一旦出現(xiàn)故障,導(dǎo)致的進(jìn)一步事故發(fā)展的速度很快,并且造成的事故損失也會(huì)很大,因此智能電網(wǎng)的大數(shù)據(jù)也具有速度快的特點(diǎn)。

2.3多樣性

多樣性也是電網(wǎng)所具備的一個(gè)特點(diǎn)之一。因?yàn)橹悄茈娋W(wǎng)在運(yùn)作過(guò)程中,所涉及到的面很多,因此其所產(chǎn)生的數(shù)據(jù),包括內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)等多個(gè)方面的數(shù)據(jù),其種類十分繁多。

三、大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域中的具體應(yīng)用

3.1支持基建決策

首先大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)的基建決策中起著十分重要的作用。例如可以通過(guò)大數(shù)據(jù)處理技術(shù)對(duì)電網(wǎng)基建地的天氣系統(tǒng)數(shù)據(jù)進(jìn)行細(xì)致的剖析,并且和電網(wǎng)企業(yè)的發(fā)電機(jī)數(shù)據(jù)進(jìn)行綜合分析。進(jìn)而根據(jù)企業(yè)所累積的數(shù)據(jù)以及天氣系統(tǒng)所提供的風(fēng)速、風(fēng)向以及氣溫、氣壓濕度等數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),并采用數(shù)據(jù)建模技術(shù),對(duì)這些因素可能導(dǎo)致的對(duì)電力的影響,進(jìn)行模式運(yùn)算,得出電網(wǎng)基建的位置[3]。

3.2進(jìn)行客戶分析

其次在智能電網(wǎng)中,大數(shù)據(jù)處理技術(shù)還被廣泛的應(yīng)用于對(duì)客戶的分析工作中在電網(wǎng)的運(yùn)作過(guò)程中會(huì)產(chǎn)生大量的用戶數(shù)據(jù),而通過(guò)對(duì)這些數(shù)據(jù)的分析和歸類可以對(duì)電網(wǎng)用戶群體有一個(gè)清晰的認(rèn)識(shí),進(jìn)而就可以展開針對(duì)性營(yíng)銷,對(duì)于提升電網(wǎng)企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力具有重要的意義。

3.3實(shí)現(xiàn)協(xié)同化管理

從整體上觀察,對(duì)于電網(wǎng)企業(yè)而言,其在市場(chǎng)中的運(yùn)作并不僅僅只涉及到電網(wǎng)企業(yè)一家,和市場(chǎng)的諸多行業(yè)均有一定的涉及,因此要保障電力企業(yè)的發(fā)展就必須和其他行業(yè)的企業(yè)做好協(xié)同工作。通過(guò)大數(shù)據(jù)處理技術(shù)的應(yīng)用可以提升行業(yè)之間的聯(lián)系,進(jìn)而可對(duì)行業(yè)的前景有一個(gè)動(dòng)態(tài)的了解。而這不僅僅局限于電力企業(yè)一家,同時(shí)對(duì)其他和電力行業(yè)密切相關(guān)的企業(yè)也有十分巨大的影響,可促進(jìn)電力企業(yè)的內(nèi)外共同發(fā)展。

結(jié)束語(yǔ):綜上所述,智能電網(wǎng)指的是以基本的物理電網(wǎng)為基礎(chǔ),通過(guò)應(yīng)用目前的現(xiàn)代信息技術(shù)、通信技術(shù)以及計(jì)算機(jī)處理技術(shù)等技術(shù),同時(shí)和傳感測(cè)量技術(shù)一控制技術(shù)進(jìn)行結(jié)合,進(jìn)而形成的一種高度集成的新型電網(wǎng)。其在自身的大數(shù)據(jù)上具有規(guī)模大、速度快以及種類多樣的特點(diǎn)。而大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域支持基建決策、進(jìn)行客戶分析、提升智能控制以及實(shí)現(xiàn)協(xié)同化管理等多個(gè)方面都有十分廣泛的應(yīng)用,是保障智能電網(wǎng)運(yùn)作穩(wěn)定性和安全性的一個(gè)基本技術(shù)。

大數(shù)據(jù)處理論文:基于人臉識(shí)別的智能大數(shù)據(jù)處理系統(tǒng)的研究

摘 要:構(gòu)建一個(gè)基于人臉識(shí)別的智能大數(shù)據(jù)處理系統(tǒng),將圖片中提取的人臉數(shù)據(jù)特征上傳到HBase分布式數(shù)據(jù)庫(kù)中進(jìn)行存儲(chǔ),使用Mahout提供的推薦、分類等數(shù)據(jù)挖掘算法進(jìn)行數(shù)據(jù)挖掘,使用Echarts框架將挖掘結(jié)果直觀顯示給用戶。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)可視化;數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理

1 概述

面對(duì)互聯(lián)網(wǎng)絡(luò)的海量數(shù)據(jù),如何提取有用的信息并進(jìn)行數(shù)據(jù)分析和挖掘就顯得尤為重要。一般置于商場(chǎng)和公共場(chǎng)所的數(shù)字標(biāo)牌廣告機(jī)只具有信息顯示和信息功能,無(wú)法了解用戶更多行為,運(yùn)用先進(jìn)的人臉識(shí)別技術(shù)和視頻智能分析技術(shù)提供一套完善的解決方案,能夠智能統(tǒng)計(jì)和分析用戶狀態(tài),幫助了解用戶的喜好。

基于人臉識(shí)別技術(shù)設(shè)計(jì)一個(gè)對(duì)人臉信息進(jìn)行智能處理的系統(tǒng),利用人臉識(shí)別技術(shù)統(tǒng)計(jì)商家數(shù)字標(biāo)牌內(nèi)容的觀看人數(shù)、觀看人的性別、年齡等信息,基于收集的數(shù)據(jù)利用大數(shù)據(jù)分析技術(shù)輔助產(chǎn)品提供者制定更加精準(zhǔn)、人性化的推廣方案和內(nèi)容。

2 關(guān)鍵技術(shù)簡(jiǎn)介

2.1 Hadoop分布式數(shù)據(jù)處理平臺(tái)

Hadoop是基于MapReduce數(shù)據(jù)集計(jì)算框架對(duì)原始的數(shù)據(jù)集進(jìn)行處理的平臺(tái),可以快速、高效的海量數(shù)據(jù)進(jìn)行快速處理。

2.2 HBase分布式數(shù)據(jù)

HBase是基于Hadoop平臺(tái)的分布式的開源數(shù)據(jù)庫(kù),是一種基于列存儲(chǔ)的、非關(guān)系型的數(shù)據(jù)庫(kù)。

2.3 Mahout數(shù)據(jù)挖掘工具

Mahout是Apache旗下的一款數(shù)據(jù)挖掘工具,可以運(yùn)行在Hadoop平臺(tái)上對(duì)數(shù)據(jù)進(jìn)行處理,包含了諸多的挖掘算法,例如:聚類、分類、推薦等,對(duì)數(shù)據(jù)處理提供了極大的便利性。

2.4 Echarts數(shù)據(jù)可視化工具

Echarts商業(yè)報(bào)表技術(shù)是一個(gè)純的JavaScript的圖表庫(kù),其中包含了諸多的商用圖表,例如:折線圖、柱狀圖、散點(diǎn)圖、K線圖、餅圖等等,提供了簡(jiǎn)潔、直觀、生動(dòng)、可交互的數(shù)據(jù)可視化圖表。

2.5 Face++人臉識(shí)別技術(shù)

Face++人臉識(shí)別技術(shù)可用于對(duì)圖片中人臉的檢測(cè)、微笑分析以及性別、年齡、種族、面部器官等坐標(biāo)數(shù)據(jù)的獲取。

3 系統(tǒng)功能描述

基于人臉識(shí)別的大數(shù)據(jù)智能處理系統(tǒng)首先通過(guò)人臉識(shí)別技術(shù)收集信息,利用大數(shù)據(jù)處理技術(shù)分析用戶對(duì)內(nèi)容的喜好,為不同性別、年齡、情緒狀態(tài)的用戶提供更加人性化的內(nèi)容,在不同時(shí)段投放不同內(nèi)容作出參考依據(jù),為用戶帶來(lái)更好體驗(yàn)同時(shí)為投資者帶來(lái)更豐厚的回報(bào)。具體包括人臉識(shí)別和數(shù)據(jù)分析兩部分內(nèi)容。

3.1 人臉識(shí)別

(1)人臉檢測(cè):通過(guò)攝像頭獲取人臉輪廓,提取特征生成特征數(shù)據(jù)庫(kù)。

(2)表情檢測(cè):通過(guò)攝像頭判斷當(dāng)前人臉是否注視攝像頭,可識(shí)別睜眼、閉眼、眨眼等動(dòng)作。

(3)姿態(tài)檢測(cè):通過(guò)攝像頭判斷當(dāng)前人臉是平視、抬頭、低頭、左右轉(zhuǎn)頭等。

3.2 數(shù)據(jù)分析

通過(guò)人臉特征的提取,對(duì)其中的信息進(jìn)行分析,根據(jù)統(tǒng)計(jì)數(shù)據(jù),給出推薦的廣告位置和投放時(shí)間等信息,為商家提供參考依據(jù)。

4 系統(tǒng)構(gòu)建

4.1 系統(tǒng)設(shè)計(jì)

針對(duì)系統(tǒng)的功能描述,構(gòu)建分布式集群環(huán)境,通過(guò)圖片預(yù)處理、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化三大核心模塊,完成系統(tǒng)的構(gòu)建。

(1)圖片預(yù)處理

在數(shù)據(jù)處理前期對(duì)圖片進(jìn)行預(yù)處理,利用Face++人臉識(shí)別技術(shù),提取人臉信息,并將其上傳到HBase分布式數(shù)據(jù)庫(kù)中進(jìn)行存儲(chǔ)。

(2)數(shù)據(jù)挖掘

使用Mahout開源的數(shù)據(jù)挖掘框架,進(jìn)行參數(shù)設(shè)置后調(diào)用推薦、分類算法進(jìn)行數(shù)據(jù)挖掘工作,獲取挖掘結(jié)果,并將其存放到數(shù)據(jù)庫(kù)中。

(3)數(shù)據(jù)可視化

從前臺(tái)獲取數(shù)據(jù)庫(kù)中存儲(chǔ)的挖掘結(jié)果,使用Echarts可視化工具進(jìn)行數(shù)據(jù)顯示。

4.2系統(tǒng)實(shí)現(xiàn)

(1)人種興趣圖

鼠標(biāo)放在某一區(qū)域時(shí)會(huì)顯示該人種所占的比例,點(diǎn)擊下載圖標(biāo)時(shí)可將整個(gè)圖表以圖片的形式保存下來(lái)。

(2)數(shù)據(jù)分布圖

查看每個(gè)區(qū)域的數(shù)據(jù)分布情況,直觀明了。

5 結(jié)束語(yǔ)

本系統(tǒng)可以快速的對(duì)大量的人臉數(shù)據(jù)進(jìn)行處理并提取出有效信息,在數(shù)據(jù)可視化平臺(tái)進(jìn)行數(shù)據(jù)展示,給用戶以直觀、生動(dòng)的數(shù)據(jù)感受。同時(shí),用戶可以對(duì)相關(guān)結(jié)果進(jìn)行下載、打印等操作。

大數(shù)據(jù)處理論文:Spark 2.0平臺(tái)在大數(shù)據(jù)處理中的應(yīng)用研究

摘要摘要:Spark分布式框架具有利用數(shù)據(jù)集內(nèi)存緩存、啟動(dòng)任務(wù)的低遲延、迭代類運(yùn)算、實(shí)時(shí)計(jì)算的支持和強(qiáng)大的函數(shù)式編程接口等特征。描述Spark 集群環(huán)境的搭建過(guò)程,將Spark 應(yīng)用到預(yù)測(cè)森林植被中,對(duì)基于RDD和基于Data Frame接口的Spark隨機(jī)森林算法的性能差異進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,基于Dataset結(jié)構(gòu)的隨機(jī)森林法預(yù)測(cè)效果好、執(zhí)行時(shí)間短,可以廣泛使用。

0引言

數(shù)據(jù)爆炸式增長(zhǎng)和隱藏在這些數(shù)據(jù)之后的商業(yè)價(jià)值催生了一代又一代的大數(shù)據(jù)處理技術(shù)。2004年Hadoop橫空出世,由Google公司提出的開源的MapReduces的大數(shù)據(jù)處理框架拉開了其在企業(yè)應(yīng)用的序幕,它被視為解決高性能處理大數(shù)據(jù)的有效方案。但是MapReduces框架不僅存在單點(diǎn)故障,而且對(duì)實(shí)時(shí)數(shù)據(jù)和流式數(shù)據(jù)訪問(wèn)能力弱,導(dǎo)致基于MapReduces框架的Hadoop平臺(tái)應(yīng)用推廣受到較大影響。

Apache Spark是另一種分布式、開源計(jì)算框架,目的是簡(jiǎn)化基于計(jì)算機(jī)集群的并行程序的編寫。Spark不僅可以發(fā)揮MapReduces對(duì)大數(shù)據(jù)的處理能力[1],還可以充分利用數(shù)據(jù)集內(nèi)存緩存、啟動(dòng)任務(wù)的低遲延、迭代類運(yùn)算、實(shí)時(shí)計(jì)算的支持和強(qiáng)大的函數(shù)式編程接口[2]。Spark是Apache的頂級(jí)開源項(xiàng)目,功能不斷完善。現(xiàn)在近期版本為Spark 2.10,它集成了基于RDD和DataFrame(Dataset)兩種編程接口。為了簡(jiǎn)化編程,方便更多人使用,同時(shí)進(jìn)一步提高數(shù)據(jù)處理速度,Spark 3.0版本會(huì)摒棄直接面對(duì)用戶的基于RDD編程接口。目前,Spark分布式框架在基于機(jī)器學(xué)習(xí)和迭代處理的大數(shù)據(jù)分析上有廣泛應(yīng)用。

1Spark2.0 基本原理

Spark繼承了MapReduces的線性擴(kuò)張性和容錯(cuò)性,同時(shí)對(duì)它作了一些重量級(jí)擴(kuò)展,主要包括核心數(shù)據(jù)結(jié)構(gòu):RDD(Spark 3.0以后使用Data Frame、Dataset)。

RDD是Spark的核心數(shù)據(jù)結(jié)構(gòu),是一種基于內(nèi)存彈性分布式數(shù)據(jù)集[3]。利用RDD可以把一部分?jǐn)?shù)據(jù),包括中間結(jié)果緩存在內(nèi)存中,為后續(xù)計(jì)算所重復(fù)利用,不需要像其它計(jì)算結(jié)構(gòu)需要反復(fù)訪問(wèn)磁盤,節(jié)省了大量時(shí)間。與Hadoop MapReduce相比,其實(shí)驗(yàn)的性能要快100倍,訪問(wèn)磁盤的性能快10倍[4]。基于DataFrames/Dataset的高層API,利用PipeLine可以方便用戶構(gòu)建和調(diào)試機(jī)器學(xué)習(xí)流水線,完成高效的數(shù)據(jù)處理。RDD(DataFrames、Dataset)數(shù)據(jù)結(jié)構(gòu)解決了MapReduces存在的很多問(wèn)題。

(1)解決了MapReduces啟動(dòng)遲緩問(wèn)題[5]。利用Spark采用的有向無(wú)環(huán)圖的任務(wù)調(diào)度機(jī)制,可以對(duì)多個(gè)Stage的Task進(jìn)行串聯(lián)或并聯(lián)Excutor,無(wú)需將每個(gè)Stage的中間結(jié)果保存到HDFS,不需要訪問(wèn)磁盤,因此可以節(jié)省時(shí)間。尤其在計(jì)算機(jī)集群的環(huán)境下,可以避免運(yùn)算時(shí)過(guò)量的網(wǎng)絡(luò)和磁盤IO開銷。

(2)支持迭代計(jì)算。迭代計(jì)算需要訪問(wèn)相同的數(shù)據(jù)集,采用基于內(nèi)存的RDD/DataFrame/Dataset結(jié)構(gòu)可以避免重新計(jì)算和從磁盤加載。

(3)支持實(shí)時(shí)計(jì)算。基于Spark構(gòu)建Spark Straming 是在Spark基礎(chǔ)上的二次開發(fā),主要是將其實(shí)時(shí)、流水任務(wù)離散化成一系列的DStream的數(shù)據(jù)窗口[6],最小窗口選擇只需要0.5~2s,滿足大多數(shù)的準(zhǔn)實(shí)時(shí)計(jì)算場(chǎng)景。

(4)性能優(yōu)化。Dataset API建立在Spark SQL引擎之上,它可以利用Catalyst來(lái)優(yōu)化邏輯計(jì)劃和物理查詢計(jì)劃。而且采用特殊的Encoder,不僅可以有效序列化JVM object,還可以直接被Spark的許多操作,如Filter、Sort、Hash等使用,從而提高執(zhí)行速度。

2Spark2.0在預(yù)測(cè)森林植被中的應(yīng)用

目前,Spark支持4種運(yùn)行模式。本地單機(jī)模式、集群模式、基于Mesos、基于YARN、基于EC。本文的Spark分布式集群基于YARN,即Hadoop2。

2.1Spark分布式集群h境搭建

實(shí)驗(yàn)環(huán)境所需的軟硬件設(shè)備如下:

軟件:操作系統(tǒng)采用Ubuntu Server 16.10 版本,Hadoop 2.7 版本,JDK 1.8 版本,虛擬軟件VMware Station Pro 12;硬件:1 臺(tái)聯(lián)想臺(tái)式機(jī),CPU 是主頻3.4GHz的Intel的酷睿i7,超頻4.2 GHz,硬盤容量1T,內(nèi)存16GB。

Spark集群環(huán)境的搭建過(guò)程如下:

(1) 安裝3臺(tái)虛擬機(jī),OS版本ubuntu server 16.10 版本,并通過(guò)Hostname、Interfaces、Hosts文件分別設(shè)置主機(jī)名(Master、Slave1、Slave2)、IP地址,以及DNS映射關(guān)系,執(zhí)行sudo ufw disable、Ping分別關(guān)閉防火墻以及檢驗(yàn)3臺(tái)虛擬機(jī)互通無(wú)阻。

(2)在每臺(tái)虛擬機(jī)上安裝JDK、Scala、Hadoop、Spark并配置相關(guān)的Java環(huán)境變量。

(3)在每臺(tái)機(jī)器上執(zhí)行安裝openssh-server服務(wù),執(zhí)行ssh-keygen生成SSH 密鑰文件,保障相互直接建立不需要密碼的SSH可信通道。

(4)修改Spark目錄下conf/core-site.xml、mapred -site.xml、 yarn-site.xml、hdfs-site.xml、hdfs-env.sh、masters、slaves文件,確保能夠正常啟動(dòng)Spark。

2.2隨機(jī)森林算法預(yù)測(cè)森林植被實(shí)現(xiàn)

在Spark機(jī)器學(xué)習(xí)中,用于分類的算法有很多,其中效果較好的有SVM和隨機(jī)森林算法。隨機(jī)森林(Random Forest,RF)是由 Leo Breiman 將 Bagging 集成學(xué)習(xí)理論[7]與隨機(jī)子空間方法[8]相結(jié)合,于2001年提出的一種機(jī)器學(xué)習(xí)算法[9]。RF利用Bootstrap重抽樣方法從原始樣本中多次隨機(jī)抽取不同特征的子集數(shù)據(jù)組成訓(xùn)練樣本,構(gòu)建多棵、合理、獨(dú)立的子樹,然后融合多棵決策樹的預(yù)測(cè)結(jié)果。在大數(shù)據(jù)背景下,RF不僅能夠與Spark和Map Reduce的并行處理特征結(jié)合,預(yù)測(cè)效果好,而且基于Dataset 的執(zhí)行時(shí)間要比基于RDD的少。

為了更加深入地了解RF性能,尤其是測(cè)試效果,需要在實(shí)踐中進(jìn)行檢驗(yàn)。本實(shí)驗(yàn)數(shù)據(jù)采用Kaggle大賽的數(shù)據(jù)Forestcover-Type-Prediction,記錄了美國(guó)科羅拉多州不同地塊森林植被特征:海拔、坡度、與水源的距離、遮陽(yáng)情況和土壤類型,并給出了地塊的已知森林植被類型,共54特征,有581012個(gè)樣本[10]。本實(shí)驗(yàn)主要比較基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機(jī)森林算法的性能差異。關(guān)鍵代碼及參數(shù)如下:

2.3性能分析

通過(guò)對(duì)決策樹、隨機(jī)森林模型的impurity、maxDepth、maxBins、minInfoGain、numTrees(只有隨機(jī)森林才有此參數(shù))、maxMemoryInMB等參數(shù)進(jìn)行調(diào)試,對(duì)比其性能,找到參數(shù)及模型。下面分別從訓(xùn)練時(shí)間、參數(shù)、預(yù)測(cè)效果的Accuracy 3個(gè)方面進(jìn)行比較。

2.3.1尋找參數(shù)訓(xùn)練時(shí)間比較

由表1可以發(fā)現(xiàn),隨機(jī)森林算法的訓(xùn)練時(shí)間,無(wú)論是基于RDD數(shù)據(jù)結(jié)構(gòu)還是基于Datase結(jié)構(gòu),都要比決策樹算法的訓(xùn)練時(shí)間長(zhǎng)。實(shí)驗(yàn)過(guò)程中的數(shù)據(jù)也顯示,隨著隨機(jī)森林算法的樹深度的加大和樹數(shù)量的增加,訓(xùn)練時(shí)間明顯延長(zhǎng)。

2.3.2尋找模型參數(shù)

從表2中可以發(fā)現(xiàn),與決策樹的參數(shù)相比較,隨機(jī)森林算法的參數(shù)深度相近,桶數(shù)數(shù)量相差很大,該數(shù)據(jù)為調(diào)試參數(shù)有一定的參考意義。

2.3.3預(yù)測(cè)效果Accuracy比較

由表3可知,與決策樹的Accuracy相比,隨機(jī)森林算法的Accuracy明顯要高(無(wú)論是訓(xùn)練數(shù)據(jù)、交叉數(shù)據(jù),還是測(cè)試數(shù)據(jù))。這說(shuō)明多棵樹的評(píng)價(jià)效果比單棵樹的預(yù)測(cè)效果好。

3結(jié)語(yǔ)

Spark實(shí)現(xiàn)了分布式計(jì)算框架,它是采用分布式處理大規(guī)模數(shù)據(jù)的最有效途徑。在搭建好的實(shí)驗(yàn)環(huán)境下,對(duì)基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機(jī)森林算法的性能差異進(jìn)行了比較,相對(duì)而言,基于RDD接口的隨機(jī)森林算法的執(zhí)行效率較差。并且將隨機(jī)森林算法與決策樹算法比較,更好地體現(xiàn)了隨機(jī)森林算法良好的預(yù)測(cè)效果,但是訓(xùn)練的時(shí)間進(jìn)一步延長(zhǎng)了。如何在集群環(huán)境中針對(duì)數(shù)據(jù)的特性,利用Spark平臺(tái)快速找到相應(yīng)的模型并通過(guò)調(diào)整模型參數(shù)使預(yù)測(cè)效果達(dá)到,將是下一步研究的重點(diǎn)。

大數(shù)據(jù)處理論文:大數(shù)據(jù)以及大數(shù)據(jù)處理技術(shù)在醫(yī)院信息化建設(shè)中的應(yīng)用

摘要:在大數(shù)據(jù)技術(shù)不斷發(fā)展的情況下,其在實(shí)際生活當(dāng)中也具有了更廣的應(yīng)用范圍。目前,醫(yī)院積極開展了信息化平臺(tái)的建設(shè),要想有效的達(dá)成目標(biāo),就需要做好大數(shù)據(jù)技術(shù)的應(yīng)用。在本文中,將就大數(shù)據(jù)以及大數(shù)據(jù)處理技術(shù)在醫(yī)院信息化建設(shè)中的應(yīng)用進(jìn)行一定的研究。

關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)處理技術(shù);醫(yī)院信息化建設(shè);應(yīng)用

在現(xiàn)今信息化時(shí)代背景下,各行業(yè)也大力開展了信息化建設(shè)。在醫(yī)院中,實(shí)現(xiàn)信息化平臺(tái)的建立與應(yīng)用已經(jīng)成為了醫(yī)院加強(qiáng)管理的重要突破口。其中,數(shù)據(jù)挖掘可以說(shuō)是大數(shù)據(jù)當(dāng)中的核心技術(shù),通過(guò)該技術(shù)的應(yīng)用,將在有效實(shí)現(xiàn)醫(yī)院信息化建設(shè)的同時(shí)提升工作效果。

1 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù),即在從不、隨機(jī)以及大量的數(shù)據(jù)當(dāng)中將其中不為人知且具有潛在作用知識(shí)、信息進(jìn)行提取的過(guò)程。從醫(yī)院角度考慮,其關(guān)鍵數(shù)據(jù)挖掘技術(shù)有:建立數(shù)據(jù)關(guān)聯(lián)模型,了解哪些疾病在哪類病患身上容易并發(fā);對(duì)成像儀器(如 B 超、CT 等)的影像數(shù)據(jù)進(jìn)行挖掘等。這部分?jǐn)?shù)據(jù)的獲得,對(duì)醫(yī)院的發(fā)展具有十分重要的意義,首先,在醫(yī)學(xué)領(lǐng)域當(dāng)中,其具有較多的數(shù)據(jù)資源,且數(shù)據(jù)庫(kù)在復(fù)雜程度以及規(guī)模上不斷發(fā)展。在該種情況下,從大量數(shù)據(jù)當(dāng)中做好有用信息的提取則成為了非常重要的一項(xiàng)工作。其次,在醫(yī)院信息系統(tǒng)中,也具有著大量的臨床信息以及管理信息,如何從這部分?jǐn)?shù)據(jù)當(dāng)中挖掘出有價(jià)值、深層次的知識(shí),則是醫(yī)院發(fā)展當(dāng)中的重要課題。而數(shù)據(jù)挖掘技術(shù)則能夠從海量數(shù)據(jù)當(dāng)中提取有價(jià)值的信息,在對(duì)未來(lái)行為進(jìn)行預(yù)測(cè)的情況下做出具有前瞻性的決策,能夠有效實(shí)現(xiàn)醫(yī)院管理能力的提升。

2 應(yīng)用現(xiàn)狀

2.1 現(xiàn)有建設(shè)問(wèn)題

目前,我國(guó)廣泛通過(guò)計(jì)算機(jī)的應(yīng)用實(shí)現(xiàn)信息系統(tǒng)的建立,且有醫(yī)院逐漸對(duì)微機(jī)局域網(wǎng)進(jìn)行了建設(shè),并實(shí)現(xiàn)部分子系統(tǒng)的開發(fā),如機(jī)關(guān)事務(wù)處理系統(tǒng)以及門診住院收費(fèi)系統(tǒng)等。而在大多數(shù)醫(yī)院中,其在對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行處理時(shí),僅僅限于刪除、查詢、修改以及統(tǒng)計(jì)這幾方面工作,對(duì)于這部分工作而言,其僅僅屬于醫(yī)院數(shù)據(jù)庫(kù)當(dāng)中較低層次的應(yīng)用,并沒(méi)有對(duì)數(shù)據(jù)實(shí)現(xiàn)深層分析與集成,也不能夠自動(dòng)獲取醫(yī)學(xué)知識(shí),并因此對(duì)系統(tǒng)的實(shí)際應(yīng)用效果產(chǎn)生了較大的影響。在該種情況下,則需要醫(yī)院加強(qiáng)信息化建設(shè),在以系統(tǒng)數(shù)據(jù)庫(kù)作為數(shù)據(jù)源的基礎(chǔ)上通過(guò)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用對(duì)信息分析系統(tǒng)進(jìn)行建立,也正是醫(yī)院現(xiàn)階段發(fā)展中非常重要的一項(xiàng)任務(wù)。

2.2 應(yīng)用情況

目前,我很多醫(yī)院都已經(jīng)逐步建立起了醫(yī)院信息管理系統(tǒng),且在數(shù)據(jù)挖掘急速的應(yīng)用方面也獲得了一定的發(fā)展,在醫(yī)院經(jīng)營(yíng)目標(biāo)管理、財(cái)務(wù)物資管理、醫(yī)院質(zhì)量管理以及經(jīng)營(yíng)決策管理方面都具有著十分積極的作用。舉一個(gè)簡(jiǎn)單的例子,通過(guò)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,醫(yī)院則能夠在聯(lián)系就診疾病分類情況的基礎(chǔ)上對(duì)科室建設(shè)進(jìn)行確定,如風(fēng)濕性關(guān)節(jié)炎、慢性支氣管炎等病癥發(fā)病率近幾年逐漸減少,而部分慢性非傳染病如糖尿病、高血壓以及心腦血管疾病等發(fā)生率逐漸增加等。在做好這部分信息把握之后,醫(yī)院則可以更有目的的實(shí)現(xiàn)相應(yīng)設(shè)備的購(gòu)置,并建立起同其配套的科研中心或者重點(diǎn)實(shí)驗(yàn)室。而在該技術(shù)在醫(yī)院信息化建設(shè)實(shí)際應(yīng)用的過(guò)程中,也存在著一定的問(wèn)題,其主要表現(xiàn)為:及時(shí),在部分醫(yī)院中,其信息管理系統(tǒng)的實(shí)現(xiàn)目標(biāo)更多為日常業(yè)務(wù),如結(jié)算、掛號(hào)以及收費(fèi)等,分析功能較為有限,從普通的查詢工具以及報(bào)表當(dāng)中也能夠獲得,并沒(méi)有對(duì)數(shù)據(jù)挖掘技術(shù)的分析功能進(jìn)行充分的應(yīng)用;第二,在醫(yī)院不同業(yè)務(wù)部門中,具有大量常用的數(shù)據(jù),但在實(shí)際存儲(chǔ)方式上則具有著較大的差異,如FoxPro、Oracle以及Acess等。該種情況的存在,則需要在根據(jù)信息源的不同對(duì)不同的分析應(yīng)用進(jìn)行開發(fā),使醫(yī)院對(duì)數(shù)據(jù)綜合應(yīng)用的廣度與深度以此獲得發(fā)展;第三,醫(yī)院在實(shí)際對(duì)信息系統(tǒng)進(jìn)行應(yīng)用時(shí),該系統(tǒng)是公司在聯(lián)系具體科室需求的基礎(chǔ)上訂制的,并不能夠使數(shù)據(jù)庫(kù)的設(shè)計(jì)統(tǒng)一進(jìn)行實(shí)現(xiàn),不僅不同字段在長(zhǎng)度、格式以及類型方面無(wú)法統(tǒng)一,且部分字段在設(shè)計(jì)當(dāng)中也存在不合理的情況。而在對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行建立時(shí),不同數(shù)據(jù)源數(shù)據(jù)也是實(shí)際決策分析工作開展的關(guān)鍵,如果以該方式對(duì)數(shù)據(jù)信息進(jìn)行挖掘,則往往會(huì)存在問(wèn)題。

3 應(yīng)用建議

就目前醫(yī)院信息化建設(shè)當(dāng)中在數(shù)據(jù)挖掘技術(shù)應(yīng)用方面存在的不足,在未來(lái)工作中,可以從以下方面做好應(yīng)對(duì)與優(yōu)化:

3.1 明確建設(shè)理念

通常情況下,從系統(tǒng)功能角度分析,醫(yī)院信息化建設(shè)可以分為業(yè)務(wù)信息以及管理信息系統(tǒng),在現(xiàn)今醫(yī)院信息系統(tǒng)中,都以聯(lián)機(jī)的方式對(duì)相關(guān)事務(wù)進(jìn)行處理,在該處理方式中,管理層只具有數(shù)據(jù)匯總以及報(bào)表生成等較為簡(jiǎn)單的功能。而在信息管理系統(tǒng)當(dāng)中數(shù)據(jù)不斷增多的情況,如何通過(guò)這部分?jǐn)?shù)據(jù)的應(yīng)用推動(dòng)醫(yī)院工作進(jìn)一步與開展,則成為了現(xiàn)階段醫(yī)院發(fā)展當(dāng)中需要重點(diǎn)解決的問(wèn)題。對(duì)此,在醫(yī)院信息化建設(shè)當(dāng)中,就需要先明確基礎(chǔ)指導(dǎo)理念,通過(guò)挖掘技術(shù)的科學(xué)運(yùn)用實(shí)現(xiàn)自身數(shù)據(jù)庫(kù)的構(gòu)建:首先,要從日常業(yè)務(wù)入手進(jìn)行變革,加強(qiáng)信息流以及資金流等信息的收集,在信息收集完畢之后在存儲(chǔ)以及傳輸過(guò)程中其這部分?jǐn)?shù)據(jù)的電子、網(wǎng)絡(luò)化進(jìn)行實(shí)現(xiàn),做好數(shù)據(jù)的積累與存儲(chǔ)。同時(shí),醫(yī)院的決策者以及管理者也需要做好數(shù)據(jù)挖掘技術(shù)以及數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用,通過(guò)深入理解分析對(duì)數(shù)據(jù)庫(kù)當(dāng)中有價(jià)值的信息與知識(shí)進(jìn)行獲取,以此不斷實(shí)現(xiàn)醫(yī)院經(jīng)營(yíng)管理水平的提升。

3.2 掌握應(yīng)用原則

要想在工作當(dāng)中做好數(shù)據(jù)挖掘技術(shù)的應(yīng)用,首先,就需要做好該技術(shù)應(yīng)用流程的把握,在實(shí)際對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行運(yùn)用時(shí),其常用步驟有目標(biāo)的確定以及模式發(fā)現(xiàn)等方面。其中,模式發(fā)現(xiàn)可以說(shuō)是現(xiàn)階段醫(yī)院數(shù)據(jù)信息工作開展中的核心內(nèi)容,在該內(nèi)容中,其將可以在科學(xué)運(yùn)用數(shù)據(jù)挖掘算法的基礎(chǔ)上對(duì)供決策應(yīng)用的各類規(guī)則以及模式進(jìn)行獲得;其次,要積極探索可視化操作。在技術(shù)應(yīng)用中,能夠?qū)崿F(xiàn)挖掘模型以及相關(guān)數(shù)據(jù)的可視化處理,也將因此影響到數(shù)據(jù)的解釋以及以及挖掘能力。在該種情況下,醫(yī)院則能夠充分應(yīng)用可視化數(shù)據(jù)技術(shù),以此使用戶在數(shù)據(jù)剖析方面具有更為清晰的特點(diǎn),如可以將數(shù)據(jù)庫(kù)當(dāng)中多為數(shù)據(jù)實(shí)現(xiàn)向多種圖形的轉(zhuǎn)變,以此在數(shù)據(jù)潛在規(guī)律以及內(nèi)在本質(zhì)揭示方面發(fā)揮更大的作用。

3.3 挖掘綜合信息

醫(yī)院在運(yùn)行當(dāng)中,患者在治療過(guò)程中將留下較為復(fù)雜且各異的治療記錄。在該種情況下,通過(guò)應(yīng)用數(shù)據(jù)挖掘技術(shù),醫(yī)院則能夠從新的視角觀察相關(guān)數(shù)據(jù),并在做好數(shù)據(jù)觀察的同時(shí)深入的挖掘用戶綜合信息。如醫(yī)院可以從具體科室、病人身份以及出院時(shí)間等方面觀察醫(yī)院最近一段時(shí)間的工作情況,并在住院時(shí)間的基礎(chǔ)上繪制病人在院內(nèi)的住院時(shí)間頻譜圖,以此對(duì)其分布規(guī)律以及集中趨勢(shì)進(jìn)行觀察,此外,還可以將科室為基礎(chǔ),對(duì)病人構(gòu)成以及住院變化方面的規(guī)律以及相關(guān)因素在住院方面的影響進(jìn)行積極的研究,通過(guò)數(shù)據(jù)挖掘技術(shù)在該過(guò)程當(dāng)中的應(yīng)用,則能夠在做好患者數(shù)據(jù)把握、深入分析的基礎(chǔ)上為醫(yī)院決策提供服務(wù)。

3.4 提升患者滿意度

在醫(yī)院發(fā)展中,其服務(wù)質(zhì)量以及患者的滿意程度十分關(guān)鍵,不僅將對(duì)人的健康水平具有直接的聯(lián)系,同時(shí)也是醫(yī)院能夠獲得較好生存發(fā)展、是否具有較高生命力的重要問(wèn)題,將直接對(duì)醫(yī)院經(jīng)營(yíng)成敗產(chǎn)生影響。通過(guò)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,則能夠在醫(yī)院提升患者滿意度方面作出更大的貢獻(xiàn)。如醫(yī)院在工作當(dāng)中可以做好門診就診人次與各類醫(yī)院設(shè)備應(yīng)用情況的分析,在對(duì)醫(yī)院醫(yī)療服務(wù)質(zhì)量進(jìn)行反映的基礎(chǔ)上將其作為管理人員決策的重要的依據(jù),在對(duì)醫(yī)療成本進(jìn)行降低的基礎(chǔ)上實(shí)現(xiàn)醫(yī)院綜合能力的提升。

4 結(jié)語(yǔ)

在網(wǎng)絡(luò)、信息技術(shù)不斷發(fā)展的情況下,使我們都身處在信息化時(shí)代當(dāng)中。在信息化時(shí)代中,醫(yī)院在工作當(dāng)中需要能夠做好大數(shù)據(jù)技術(shù)的重視與應(yīng)用,在提升自身管理水平的基礎(chǔ)上獲得更好的發(fā)展。

大數(shù)據(jù)處理論文:基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)方案設(shè)計(jì)研究

摘要:在大數(shù)據(jù)的發(fā)展時(shí)代背景下,我國(guó)的各行各業(yè)都在致力于將人、物、機(jī)等三元世界在網(wǎng)絡(luò)空間中進(jìn)行交互、融合,以獲得互聯(lián)網(wǎng)上的大數(shù)據(jù)資源。在大數(shù)據(jù)資源的潮流趨勢(shì)之下,文章主要圍繞大數(shù)據(jù)的研究現(xiàn)狀、作用意義展開,在此基礎(chǔ)上探索綜合數(shù)據(jù)處理平臺(tái),并對(duì)其平臺(tái)方案的設(shè)計(jì)進(jìn)行研究,以促進(jìn)我國(guó)信息化社會(huì)的建設(shè)。

關(guān)鍵詞:大數(shù)據(jù);綜合數(shù)據(jù)處理;平臺(tái)方案設(shè)計(jì);研究

隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及云計(jì)算等IT技術(shù)的進(jìn)一步發(fā)展,我國(guó)社會(huì)的各行各業(yè)都迎來(lái)了新的發(fā)展機(jī)遇和挑戰(zhàn)。在大數(shù)據(jù)的時(shí)代背景下,探索綜合數(shù)據(jù)處理平臺(tái)的方案設(shè)計(jì)研究,不僅能夠改變我國(guó)的經(jīng)濟(jì)發(fā)展增長(zhǎng)方式,而且還能夠讓各行各業(yè)的發(fā)展跟上時(shí)代潮流的發(fā)展步伐,提升我國(guó)產(chǎn)業(yè)經(jīng)濟(jì)的國(guó)際競(jìng)爭(zhēng)力,促進(jìn)我國(guó)綜合國(guó)力的進(jìn)一步提升。

1 大數(shù)據(jù)的概念及其作用、意義解析

大數(shù)據(jù)是一個(gè)高度抽象、凝練的概括詞,各行各業(yè)的專家、學(xué)者大多都是根據(jù)自己的理解來(lái)對(duì)大數(shù)據(jù)進(jìn)行定義,因此,迄今為止,人們對(duì)大數(shù)據(jù)都沒(méi)有統(tǒng)一、標(biāo)準(zhǔn)的定義,大數(shù)據(jù)的概念還處于仁者見(jiàn)仁、智者見(jiàn)智的狀態(tài)。

大數(shù)據(jù)指的是所涉及的資料規(guī)模很大,無(wú)法通過(guò)目前的主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)者進(jìn)行決策的資訊,這是維基百科對(duì)大數(shù)據(jù)的定義。可以看出在這概念中,維基百科對(duì)大數(shù)據(jù)的解釋主要側(cè)重點(diǎn)是強(qiáng)調(diào)大數(shù)據(jù)資源的規(guī)模量大的特點(diǎn),并說(shuō)明了大數(shù)據(jù)的功能作用是擷取、管理、處理以及整理相關(guān)的信息資源以供企業(yè)使用。從維基百科對(duì)大數(shù)據(jù)的定義來(lái)看,大數(shù)據(jù)所服務(wù)的對(duì)象主要是企業(yè)經(jīng)營(yíng)者,但就筆者看來(lái),這一定義無(wú)可避免地帶有了維基百科本身的局限性。大數(shù)據(jù)并不僅僅是為企業(yè)經(jīng)營(yíng)者服務(wù)的,任何行業(yè)包括我國(guó)的基層政府、公、檢、法等部門都可以使用大數(shù)據(jù)資源來(lái)建立綜合數(shù)據(jù)處理平臺(tái),以此對(duì)相關(guān)的決策、政策進(jìn)行分析,為促進(jìn)我國(guó)社會(huì)的發(fā)展貢獻(xiàn)力量。

在大數(shù)據(jù)的飛速發(fā)展過(guò)程中,其展現(xiàn)了自身的獨(dú)特作用和功能,對(duì)大數(shù)據(jù)進(jìn)行精細(xì)化的研究,不僅有助于捍衛(wèi)我國(guó)的網(wǎng)絡(luò)空間的數(shù)字主權(quán),維護(hù)我國(guó)的社會(huì)穩(wěn)定,推動(dòng)社會(huì)與經(jīng)濟(jì)的可持續(xù)化發(fā)展。而且大數(shù)據(jù)在發(fā)展的過(guò)程中還能夠極大的推動(dòng)國(guó)民經(jīng)濟(jì)核心的產(chǎn)業(yè)信息化升級(jí),突破當(dāng)前科學(xué)、技術(shù)的限制,帶動(dòng)誕生出數(shù)據(jù)服務(wù)、數(shù)據(jù)材料、數(shù)據(jù)制藥等戰(zhàn)略性新興產(chǎn)業(yè)。縱使大數(shù)據(jù)具備了眾多的功能和作用,極大地促進(jìn)了我國(guó)經(jīng)濟(jì)社會(huì)的發(fā)展,但大數(shù)據(jù)給我國(guó)經(jīng)濟(jì)社會(huì)的發(fā)展所帶來(lái)的挑戰(zhàn)也是不容忽視的。大數(shù)據(jù)由于其數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)內(nèi)在模式都極其的復(fù)雜;數(shù)據(jù)本身、數(shù)據(jù)模型以及數(shù)據(jù)學(xué)習(xí)的不確定性;數(shù)據(jù)模式、數(shù)據(jù)行為以及智慧的涌現(xiàn)性等現(xiàn)狀使得人們?cè)趯?duì)大數(shù)據(jù)的使用中存在著諸多的挑戰(zhàn)。基于大數(shù)據(jù)的這些功能作用以及面臨的挑戰(zhàn)特點(diǎn),對(duì)大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)方案進(jìn)行設(shè)計(jì)研究具有重要的現(xiàn)實(shí)作用。

2 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)的方案設(shè)計(jì)研究

在大數(shù)據(jù)的時(shí)代背景下,建立綜合數(shù)據(jù)處理平臺(tái)的首要任務(wù)是要明確平臺(tái)建設(shè)的目標(biāo)。通過(guò)運(yùn)用管理學(xué)學(xué)科的相關(guān)知識(shí)對(duì)這些目標(biāo)進(jìn)行層次的劃分,將目標(biāo)進(jìn)行細(xì)化處理,使其成為一個(gè)個(gè)可供實(shí)踐操作的小目標(biāo)。其次是根據(jù)這些目標(biāo)的需要,結(jié)合相關(guān)的互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)以及數(shù)學(xué)分析、建模思想等,構(gòu)建綜合數(shù)據(jù)處理平臺(tái)的總體架構(gòu),初步搭建綜合數(shù)據(jù)處理平臺(tái)。是對(duì)綜合數(shù)據(jù)處理平臺(tái)的內(nèi)涵及外延進(jìn)行填充處理,如對(duì)綜合數(shù)據(jù)處理平臺(tái)進(jìn)行技術(shù)架構(gòu)、網(wǎng)架架構(gòu)以及安全架構(gòu)等等,并采取相關(guān)的措施對(duì)其進(jìn)行管理維修,以方便使用。

2.1 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)設(shè)計(jì)的目標(biāo)分析

由于大數(shù)據(jù)本身所具備的特殊性,構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái),首先需要的是明確構(gòu)建這一平臺(tái)的目標(biāo)。在筆者看來(lái),構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)的目標(biāo)主要有以下幾方面:一是提供各種類型的數(shù)據(jù)信息,在大數(shù)據(jù)概念、內(nèi)涵中都已經(jīng)明確了其功能作用,大數(shù)據(jù)主要是為社會(huì)各行各業(yè)的發(fā)展需要提供多元化、便捷化、高速化的服務(wù)。構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)的目標(biāo)之一就是收集、分析、整理各種類型的數(shù)據(jù)資源,并將其分門別類地置于綜合數(shù)據(jù)處理平臺(tái)上,為廣大用戶群體提供充足的數(shù)據(jù)資料,方便其決策使用。二是創(chuàng)建新型的共享數(shù)據(jù)庫(kù),實(shí)現(xiàn)綜合數(shù)據(jù)處理平臺(tái)上數(shù)據(jù)的共建共享。在當(dāng)前的社會(huì)發(fā)展中,各大數(shù)據(jù)庫(kù)使用的仍然是點(diǎn)對(duì)點(diǎn)的數(shù)據(jù)共享,這一復(fù)雜的網(wǎng)狀結(jié)構(gòu)既使得同樣的信息和功能重復(fù)出現(xiàn),又使得數(shù)據(jù)庫(kù)系統(tǒng)中存在大量的信息和功能冗余,這極大地阻礙了數(shù)據(jù)庫(kù)功能作用的發(fā)揮。而建立的新型綜合數(shù)據(jù)處理平臺(tái),采用的是開放式架構(gòu)體系,其能夠有效地實(shí)現(xiàn)各系統(tǒng)之間的耦合,這既能夠簡(jiǎn)化數(shù)據(jù)庫(kù)中的網(wǎng)狀結(jié)構(gòu),節(jié)省數(shù)據(jù)庫(kù)的空間,又能夠?qū)崟r(shí)完成新型數(shù)據(jù)庫(kù)中數(shù)據(jù)資源的共建、共享,_到提供信息資源和進(jìn)行數(shù)據(jù)服務(wù)的目的。

構(gòu)建綜合數(shù)據(jù)處理平臺(tái)第三方面的目標(biāo)是建立制定數(shù)據(jù)交換使用的標(biāo)準(zhǔn)。俗話說(shuō)無(wú)規(guī)矩不成方圓,在構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)時(shí),需要在其目標(biāo)制定階段就推出統(tǒng)一的數(shù)據(jù)交換標(biāo)準(zhǔn),以保障后續(xù)工作的有序化開展。為了更好地滿足社會(huì)各界對(duì)于綜合數(shù)據(jù)處理平臺(tái)的各項(xiàng)業(yè)務(wù)開展的需要,需彌補(bǔ)當(dāng)前數(shù)據(jù)庫(kù)中數(shù)據(jù)資源標(biāo)準(zhǔn)缺乏的不足,保障同一類型的數(shù)據(jù)不會(huì)存在多個(gè)數(shù)據(jù)源頭或者是多個(gè)數(shù)據(jù)格式,更好地實(shí)現(xiàn)數(shù)據(jù)的共享。在進(jìn)行綜合數(shù)據(jù)處理平臺(tái)方案的設(shè)計(jì)時(shí),要預(yù)先設(shè)置統(tǒng)一的數(shù)據(jù)訪問(wèn)和數(shù)據(jù)交換的標(biāo)準(zhǔn),避免數(shù)據(jù)的重復(fù)建設(shè),實(shí)現(xiàn)數(shù)據(jù)適應(yīng)業(yè)務(wù)需要的靈活化發(fā)展,滿足人們?nèi)找嬖鲩L(zhǎng)的數(shù)據(jù)使用、業(yè)務(wù)變化需求,促進(jìn)大數(shù)據(jù)綜合數(shù)據(jù)處理平臺(tái)的建設(shè)和發(fā)展。

在明確了這些平臺(tái)目標(biāo)之后,還需要基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái),在方案設(shè)計(jì)研究中一步一步地對(duì)這些目標(biāo)展開進(jìn)一步的細(xì)化,使其成為可操作、實(shí)時(shí)性強(qiáng)的小目標(biāo)。并在此基礎(chǔ)上構(gòu)建一個(gè)綜合數(shù)據(jù)處理平臺(tái)方案設(shè)計(jì)研究的目標(biāo)體系,為基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)的建成做好必要的準(zhǔn)備工作,為后續(xù)的平臺(tái)設(shè)計(jì)、研究、建設(shè)做好鋪墊。

2.2 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)方案設(shè)計(jì)的總體構(gòu)架分析

在大數(shù)據(jù)的理念、技術(shù)支撐之下,可以構(gòu)建基于服務(wù)總線、數(shù)據(jù)庫(kù)級(jí)共享模塊以及應(yīng)用級(jí)模塊的綜合數(shù)據(jù)處理平臺(tái)。在具體的方案設(shè)計(jì)研究中,分別對(duì)這三大模塊進(jìn)行分解、細(xì)化,使其成為更小的子系統(tǒng),然后對(duì)各子系統(tǒng)中的各個(gè)要素部分進(jìn)行設(shè)計(jì)和處理。將所有的要素部分進(jìn)行糅合,以此建立數(shù)據(jù)信息交互的綜合數(shù)據(jù)處理分析平臺(tái)。其中,基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)方案設(shè)計(jì)中的服務(wù)總線的主要功能是完成信息的路由、轉(zhuǎn)發(fā)、服務(wù)、注冊(cè)等,并且服務(wù)總線同時(shí)與其他同級(jí)平臺(tái)進(jìn)行連接,以達(dá)到數(shù)據(jù)信息資源共享的目標(biāo)。服務(wù)總線模塊的方案設(shè)計(jì)是整個(gè)綜合數(shù)據(jù)處理平臺(tái)的主體部分,如果將其比作生物人的話,服務(wù)總線就相當(dāng)于人的大腦,對(duì)整個(gè)平臺(tái)的運(yùn)轉(zhuǎn)進(jìn)行指揮、調(diào)節(jié)、控制。

數(shù)據(jù)庫(kù)級(jí)共享模塊的作用是實(shí)現(xiàn)數(shù)據(jù)資源的存儲(chǔ)、交換,并達(dá)到共享的目的。在具體的方案構(gòu)架中,數(shù)據(jù)庫(kù)級(jí)共享模塊主要是通過(guò)對(duì)數(shù)據(jù)庫(kù)和共享數(shù)據(jù)庫(kù)進(jìn)行直接訪問(wèn)的方式展開,以完成各種類型的,大批量實(shí)時(shí)數(shù)據(jù)、靜態(tài)數(shù)據(jù)、統(tǒng)計(jì)分析數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半Y構(gòu)化數(shù)據(jù)等的共享。數(shù)據(jù)庫(kù)級(jí)共享模塊還可以主動(dòng)地對(duì)被抽取的數(shù)據(jù)、被動(dòng)接收的數(shù)據(jù)進(jìn)行共享數(shù)據(jù)庫(kù)的構(gòu)建,以不斷地滿足各大數(shù)據(jù)平臺(tái)的提供者和用戶對(duì)數(shù)據(jù)資源的儲(chǔ)存、交換,實(shí)現(xiàn)綜合數(shù)據(jù)處理平臺(tái)的作用。

而在應(yīng)用級(jí)共享模塊的建設(shè)時(shí)主要是要將其與服務(wù)總線進(jìn)行連接,并在其進(jìn)行標(biāo)準(zhǔn)的服務(wù)接口時(shí),對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)資源進(jìn)行共享數(shù)據(jù)加工、共享數(shù)據(jù)交換、共享數(shù)據(jù)服務(wù)以及共享流程服務(wù)等工作。應(yīng)用級(jí)共享模塊主要是通過(guò)這些工作來(lái)實(shí)現(xiàn)整個(gè)綜合數(shù)據(jù)處理平臺(tái)各系統(tǒng)之間的相互交流,相互協(xié)調(diào)合作,以實(shí)現(xiàn)各大數(shù)據(jù)平臺(tái)數(shù)據(jù)的交換和服務(wù)的共享。也可以這樣說(shuō),應(yīng)用級(jí)共享模塊在整個(gè)的綜合數(shù)據(jù)處理平臺(tái)中居于信息共享平臺(tái)的中樞、核心層,是實(shí)現(xiàn)大數(shù)據(jù)交換、服務(wù)、共享的關(guān)鍵板塊。

2.3 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)設(shè)計(jì)的技術(shù)構(gòu)架分析

基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)設(shè)計(jì)的主要技術(shù)是計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)、云計(jì)算處理技術(shù)以及信息通信、信息通訊等技術(shù),進(jìn)行綜合數(shù)據(jù)處理平臺(tái)的構(gòu)建離不開這些現(xiàn)代化技術(shù)的支撐。基于大數(shù)據(jù)的發(fā)展,綜合數(shù)據(jù)處理分析平臺(tái)中的硬件構(gòu)架主要有防火墻、交換機(jī)、數(shù)據(jù)庫(kù)服務(wù)器、光纖交換機(jī)、硬盤陣列以及應(yīng)用服務(wù)器等。

綜合數(shù)據(jù)處理分析平臺(tái)中的各大硬件構(gòu)架在使用過(guò)程中所憑借的具體技術(shù)支撐有所不同,各硬件構(gòu)架在整個(gè)綜合數(shù)據(jù)處理分析平臺(tái)中的地位也有所區(qū)別。其中,數(shù)據(jù)庫(kù)服務(wù)器主要采用的是固定分區(qū)方式,對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行存取、訪問(wèn)控制、對(duì)數(shù)據(jù)進(jìn)行管理、集成數(shù)據(jù)分析服務(wù)、對(duì)信息進(jìn)行調(diào)度以實(shí)現(xiàn)共享等等。此外,數(shù)據(jù)庫(kù)服務(wù)器還能夠?qū)τ布④浖约捌渌氖芸丶a(chǎn)生的故障進(jìn)行探測(cè),并同時(shí)將故障主機(jī)上的應(yīng)用迅速切換至其他的設(shè)備上,較大限度地保障數(shù)據(jù)業(yè)務(wù)使用的連貫性。

應(yīng)用服務(wù)器作為連接交換機(jī)、光纖交換機(jī)的主要載體,在整個(gè)的綜合數(shù)據(jù)處理分析平臺(tái)上處于核心設(shè)備地位,主要負(fù)責(zé)數(shù)據(jù)共享方面的業(yè)務(wù)。包括基于消息隊(duì)列的共享、基于共享數(shù)據(jù)庫(kù)方式的共享以及基于共享服務(wù)和業(yè)務(wù)流程級(jí)別的信息共享等。應(yīng)用服務(wù)器能夠保障資源的靈活性使用,并根據(jù)實(shí)際情況的需要,對(duì)信息資源進(jìn)行相關(guān)的實(shí)時(shí)性調(diào)整。但為了更好地發(fā)揮應(yīng)用服務(wù)器在整個(gè)綜合數(shù)據(jù)處理平臺(tái)上的作用,在使用應(yīng)用服務(wù)器時(shí),好對(duì)應(yīng)用服務(wù)器進(jìn)行雙機(jī)集群處理。

2.4 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)設(shè)計(jì)的網(wǎng)架架構(gòu)分析

網(wǎng)架構(gòu)架是整個(gè)數(shù)據(jù)平臺(tái)得以正常運(yùn)轉(zhuǎn)的關(guān)鍵技術(shù)支撐,沒(méi)有網(wǎng)絡(luò)架構(gòu),綜合數(shù)據(jù)處理平臺(tái)其他模塊的構(gòu)架都是紙上談兵。當(dāng)前,我國(guó)計(jì)算機(jī)網(wǎng)絡(luò)使用得比較普遍的是廣域網(wǎng)和局域網(wǎng),在絕大多數(shù)的行業(yè)領(lǐng)域,使用得最為普遍的是局域網(wǎng)。局域網(wǎng)主要是利用以太網(wǎng)技術(shù)作為網(wǎng)架架構(gòu),這在一定程度上能夠滿足平臺(tái)內(nèi)部的網(wǎng)絡(luò)使用需求,實(shí)現(xiàn)內(nèi)部數(shù)據(jù)資源的網(wǎng)絡(luò)共享。但在進(jìn)行綜合數(shù)據(jù)平臺(tái)處理時(shí),可以有意識(shí)地多加入廣域網(wǎng)的使用,以實(shí)現(xiàn)更廣范圍內(nèi)的行業(yè)和平臺(tái)之間信息的橫向溝通交流。這樣也可以實(shí)現(xiàn)更大范圍內(nèi)的數(shù)據(jù)資源共享,滿足人們對(duì)于大數(shù)據(jù)時(shí)展的數(shù)據(jù)需求,促進(jìn)整個(gè)經(jīng)濟(jì)社會(huì)的信息化發(fā)展。

2.5 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)設(shè)計(jì)的安全構(gòu)架分析

計(jì)算機(jī)網(wǎng)絡(luò)安全一直以來(lái)都是社會(huì)各界人士關(guān)注的重點(diǎn)。近些年來(lái),黑客入侵、用戶信息資料泄露影響了網(wǎng)絡(luò)環(huán)境安全,給網(wǎng)絡(luò)用戶的生活帶來(lái)了極大的困擾。在構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺(tái)方案分析時(shí),要充分地考慮到平臺(tái)各個(gè)方面、各個(gè)層級(jí)體系的安全性能,構(gòu)建完備的安全服務(wù)與安全防護(hù)體系,保障平臺(tái)與用戶進(jìn)入口之間信息交換的安全性。

筆者認(rèn)為,有如下的具體做法可以用來(lái)構(gòu)建綜合數(shù)據(jù)處理平臺(tái)中的安全架構(gòu)體系:一是強(qiáng)化防火墻技術(shù)系統(tǒng),對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)入口進(jìn)行嚴(yán)密的限制、控制,并對(duì)服務(wù)器的區(qū)域邊界、區(qū)域之間的訪問(wèn)進(jìn)行嚴(yán)格的控制,以保障平臺(tái)數(shù)據(jù)資源使用的安全性。二是對(duì)各硬件、軟件進(jìn)行防病毒系統(tǒng)保護(hù)。在各數(shù)據(jù)庫(kù)終端和服務(wù)器上都部署相應(yīng)的安全管理區(qū)域,對(duì)各用戶的訪問(wèn)端口進(jìn)行病毒掃描,定期對(duì)病毒管理系統(tǒng)進(jìn)行優(yōu)化升級(jí)。借此進(jìn)一步提高相關(guān)系統(tǒng)的監(jiān)控管理能力,提高綜合數(shù)據(jù)處理平臺(tái)系統(tǒng)的安全性。三是對(duì)應(yīng)用管系統(tǒng)和審計(jì)系統(tǒng)進(jìn)行安全管理,無(wú)論是核心交換機(jī)還是終端、服務(wù)器都要對(duì)惡意用戶的不正當(dāng)行為進(jìn)行過(guò)濾和警告,尤其是要嚴(yán)格禁止不法用戶的非法訪問(wèn)、惡意攻擊以及蠕蟲傳播等行為。要以此保障整個(gè)綜合數(shù)據(jù)處理平臺(tái)各系統(tǒng)之間各類型數(shù)據(jù)資源的安全性能,促進(jìn)整個(gè)平臺(tái)安全構(gòu)架的建設(shè)。

3 結(jié)語(yǔ)

在探索綜合數(shù)據(jù)處理平臺(tái)方案設(shè)計(jì)研究的過(guò)程中,筆者發(fā)現(xiàn)大數(shù)據(jù)的處理技術(shù)還存在著一些亟待解決的問(wèn)題。當(dāng)前,大數(shù)據(jù)的存儲(chǔ)成本比較高,資源的利用率比較低,大數(shù)據(jù)系統(tǒng)的吞吐率也還比較低,非線性迭代算法還需要做進(jìn)一步的優(yōu)化等,這些都是目前大數(shù)據(jù)平臺(tái)所存在的系列問(wèn)題。在大數(shù)據(jù)時(shí)代背景下,構(gòu)建綜合數(shù)據(jù)處理分析平臺(tái)既需要相關(guān)的工作技術(shù)人員采取相應(yīng)的措施、方法來(lái)解決大數(shù)據(jù)自身所面臨的問(wèn)題和挑戰(zhàn),也需要不斷地引進(jìn)、開發(fā)新的技術(shù),解決在構(gòu)建綜合數(shù)據(jù)處理平臺(tái)過(guò)程中所產(chǎn)生的新問(wèn)題。這從一定程度上來(lái)說(shuō)增加了綜合數(shù)據(jù)處理平臺(tái)的方案設(shè)計(jì)難度和數(shù)據(jù)平臺(tái)的建立難度。

大數(shù)據(jù)處理論文:關(guān)于云計(jì)算大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)中分析與應(yīng)用淺析

摘要:隨著我國(guó)經(jīng)濟(jì)的高速發(fā)展,我國(guó)的電力行業(yè)的快速發(fā)展,隨著科學(xué)技術(shù)的長(zhǎng)足進(jìn)步,使得現(xiàn)代化的智能電網(wǎng)取得一定的發(fā)展。隨著智能電網(wǎng)系統(tǒng)的構(gòu)建,隨著發(fā)電、輸電、用電等全方面的管理工作隨之開展,越來(lái)越多的現(xiàn)代化技術(shù)也逐步應(yīng)用到電力系統(tǒng)之中,特別是現(xiàn)代化云計(jì)算平臺(tái)的使用,使得大量的數(shù)據(jù)得到積累和存儲(chǔ),從而推動(dòng)了大數(shù)據(jù)存儲(chǔ)和管理技術(shù)的研究和發(fā)展。在現(xiàn)代化智能電網(wǎng)而言,既是機(jī)遇也是挑戰(zhàn)。本文主要通過(guò)對(duì)智能電網(wǎng)系統(tǒng)具體的應(yīng)用原則,從而探索其中面臨的困難和挑戰(zhàn)。

關(guān)鍵詞:智能電網(wǎng) 大數(shù)據(jù)處理技術(shù) 應(yīng)用現(xiàn)狀 面臨困境

在經(jīng)濟(jì)發(fā)展和科學(xué)技術(shù)的進(jìn)步時(shí)期,為人類帶來(lái)了效益的同時(shí)也造成了嚴(yán)重的資源浪費(fèi),因此在這一時(shí)代背景下各國(guó)都加強(qiáng)了對(duì)智能電網(wǎng)的研究和建設(shè)工作。在智能電網(wǎng)的管理過(guò)程中,對(duì)于大量數(shù)據(jù)的管理、處理、存儲(chǔ)等方面的問(wèn)題困擾使用者,這也是現(xiàn)階段需要及時(shí)改善的內(nèi)容,因此本文以此為背景,對(duì)其應(yīng)用和挑戰(zhàn)進(jìn)行分析和研究。

1 智能電網(wǎng)云計(jì)算大數(shù)據(jù)處理技術(shù)的應(yīng)用現(xiàn)狀

1.1 智能電網(wǎng)的大數(shù)據(jù)

在智能電網(wǎng)中,大數(shù)據(jù)的產(chǎn)生和存在主要由以下三個(gè)方面的原因[1]。一方面是對(duì)于電網(wǎng)運(yùn)行以及設(shè)備數(shù)據(jù)方面的內(nèi)容,這方面的數(shù)據(jù)也是智能電網(wǎng)的主要內(nèi)容,同時(shí)也是程序最復(fù)雜的部分;第二方面是對(duì)于電能的營(yíng)銷數(shù)據(jù),這也是企業(yè)發(fā)展最櫓匾的部分,很多企業(yè)都對(duì)這部分內(nèi)容投入大量的人力、物力投入;第三個(gè)方面是對(duì)于電力企業(yè)的管理數(shù)據(jù)。在這三方面形成了嚴(yán)密、系統(tǒng)的整體,但是很多專家和學(xué)者都不會(huì)采用分層劃分的方式,因此導(dǎo)致多數(shù)學(xué)者傾向于數(shù)據(jù)內(nèi)部的層次劃分。大數(shù)據(jù)力求通過(guò)整合數(shù)據(jù)內(nèi)部的結(jié)構(gòu)為主要特點(diǎn),對(duì)數(shù)據(jù)的相關(guān)信息進(jìn)行有效的細(xì)化分析,從而分析出結(jié)構(gòu)性數(shù)據(jù)以及非結(jié)構(gòu)性數(shù)據(jù)兩個(gè)不同的部分。同時(shí)對(duì)于非結(jié)構(gòu)數(shù)據(jù)而言,無(wú)法利用數(shù)據(jù)庫(kù)的二維模式進(jìn)行編輯,這種類型的數(shù)據(jù)呈現(xiàn)出高速發(fā)展增長(zhǎng)態(tài)勢(shì)。在電網(wǎng)系統(tǒng)中,對(duì)于智能電網(wǎng)數(shù)據(jù)而言,非結(jié)構(gòu)數(shù)據(jù)占據(jù)極大的比重。

1.2 大數(shù)據(jù)處理技術(shù)的復(fù)雜性

隨著全世界的科學(xué)技術(shù)的發(fā)展,對(duì)于大數(shù)據(jù)的研究和應(yīng)用不斷發(fā)展和深入,大數(shù)據(jù)的應(yīng)用和科學(xué)的發(fā)展都對(duì)科學(xué)和經(jīng)濟(jì)的發(fā)展具有重要的影響[2]。現(xiàn)階段的國(guó)家、企業(yè)之間的競(jìng)爭(zhēng)都是圍繞大數(shù)據(jù)進(jìn)行的控制和管理工作。但是對(duì)于云計(jì)算平臺(tái)自身而言,其實(shí)用性存在較大的劣勢(shì),對(duì)于大數(shù)據(jù)的分析和挖掘等方面無(wú)法得到充分的滿足。隨著大數(shù)據(jù)的多元化發(fā)展方向,對(duì)于數(shù)據(jù)的發(fā)掘以及處理方面都得到了及時(shí)的提高,從而有效利用復(fù)雜的混合計(jì)算模式,從而實(shí)現(xiàn)智能化電網(wǎng)的大數(shù)據(jù)技術(shù)的局限性突破和發(fā)展。

2 智能電網(wǎng)中云計(jì)算大數(shù)據(jù)處理技術(shù)的具體應(yīng)用和分析

2.1 智能電網(wǎng)中大數(shù)據(jù)的傳輸和存儲(chǔ)技術(shù)

當(dāng)前信息化技術(shù)的發(fā)展使得電網(wǎng)系統(tǒng)地智能化發(fā)展取得了一定的成效,在電力系統(tǒng)的運(yùn)行過(guò)程中,需要對(duì)各個(gè)環(huán)節(jié)的相關(guān)數(shù)據(jù)和設(shè)備的監(jiān)測(cè)數(shù)據(jù)進(jìn)行詳細(xì)的記錄,這個(gè)過(guò)程中所產(chǎn)生的海量數(shù)據(jù),使得監(jiān)控系統(tǒng)承擔(dān)著比較大的壓力,對(duì)于智能電網(wǎng)的進(jìn)一步發(fā)展有著一定的阻礙作用[3]。在電網(wǎng)數(shù)據(jù)的傳輸方面,通過(guò)利用數(shù)據(jù)壓縮的方式可以減少數(shù)據(jù)的傳輸量,保障數(shù)據(jù)傳輸效率的提升。這樣導(dǎo)致越來(lái)越多的數(shù)據(jù)壓縮技術(shù)被應(yīng)用到智能電網(wǎng)中,能夠降低數(shù)據(jù)存儲(chǔ)的空間,但在這個(gè)過(guò)程中會(huì)造成一定的資源浪費(fèi)。在數(shù)據(jù)的存儲(chǔ)方面,通常情況下使用的方式是分布式文件保存,實(shí)現(xiàn)對(duì)于大量數(shù)據(jù)的存儲(chǔ),但是在對(duì)于實(shí)時(shí)數(shù)據(jù)的處理方面存在著一定的缺陷。

在智能電網(wǎng)中,非結(jié)構(gòu)化數(shù)據(jù)占到了比較大的比重,有著十分重要的作用,在存儲(chǔ)方面要將這些海量的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效轉(zhuǎn)化,是當(dāng)前智能電網(wǎng)大數(shù)據(jù)處理技術(shù)所面臨的困境。

2.2 大數(shù)據(jù)的實(shí)時(shí)處理技術(shù)

大數(shù)據(jù)處理技術(shù)在當(dāng)前的智能電網(wǎng)進(jìn)程中有著比較重要的作用,在大數(shù)據(jù)技術(shù)的應(yīng)用中,處理速度是一個(gè)重要的衡量指標(biāo),如果數(shù)據(jù)的規(guī)模過(guò)大,所需要的處理時(shí)間就比較長(zhǎng),當(dāng)數(shù)據(jù)規(guī)模超過(guò)處理技術(shù)的承受能力,會(huì)對(duì)電網(wǎng)的正常運(yùn)行造成一定的影響,這就需要保障數(shù)據(jù)傳輸、分析以及處理的速度。大數(shù)據(jù)云計(jì)算系統(tǒng)雖然能夠?yàn)橹悄茈娋W(wǎng)提供品質(zhì)快速的服務(wù),但是也有可能會(huì)造成網(wǎng)絡(luò)堵塞現(xiàn)象,會(huì)使得電網(wǎng)的服務(wù)器運(yùn)行受到影響。

2.3 可視化分析技術(shù)

智能電網(wǎng)在運(yùn)行過(guò)程中會(huì)產(chǎn)生大量的數(shù)據(jù),而對(duì)這些數(shù)據(jù)進(jìn)行及時(shí)有效的處理,同時(shí)在有限的顯示屏內(nèi)展示給用戶,這也是當(dāng)前智能電網(wǎng)大數(shù)據(jù)處理所面臨的嚴(yán)峻挑戰(zhàn)。同時(shí)還要保障智能電網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)的質(zhì)量,對(duì)整個(gè)網(wǎng)絡(luò)系統(tǒng)進(jìn)行定期的檢測(cè)和維護(hù),如果出現(xiàn)故障,要結(jié)合出現(xiàn)故障的現(xiàn)象采用相關(guān)的技術(shù)進(jìn)行分析處理,在根源上解除故障,保障數(shù)據(jù)網(wǎng)絡(luò)正常運(yùn)轉(zhuǎn)。

3 結(jié)語(yǔ)

通過(guò)上述的分析,在當(dāng)前提倡綠色低碳經(jīng)濟(jì)發(fā)展理念以及網(wǎng)絡(luò)信息技術(shù)飛速發(fā)展的基礎(chǔ)上,智能電網(wǎng)的建設(shè)和發(fā)展已經(jīng)成為一種必然的趨勢(shì),在智能電網(wǎng)應(yīng)用中的云計(jì)算大數(shù)據(jù)處理技術(shù)主要包括存儲(chǔ)和傳輸技術(shù)、實(shí)時(shí)處理技術(shù)以及可視化分析技術(shù),文章對(duì)這集中主要的技術(shù)進(jìn)行了研究和分析,最終得出這幾種技術(shù)在智能電網(wǎng)中有著非常重要的作用,可以對(duì)電網(wǎng)系統(tǒng)的戴亮數(shù)據(jù)進(jìn)行及時(shí)的存儲(chǔ)、傳輸、收集以及處理,有效的彌補(bǔ)了傳統(tǒng)處理技術(shù)的不足,使得電網(wǎng)數(shù)據(jù)處理的效率和質(zhì)量得到了大幅提升,但是也存在著一定的不足,這就需要相關(guān)的工作人員進(jìn)行不斷的努力和創(chuàng)新,探索出一種有效的解決方法,促進(jìn)我國(guó)智能電網(wǎng)的穩(wěn)定健康發(fā)展。

大數(shù)據(jù)處理論文:云時(shí)代背景下大數(shù)據(jù)處理在電子信息風(fēng)險(xiǎn)中的應(yīng)用

2016年,雅虎事件爆發(fā),數(shù)以億計(jì)的客戶信息遭到泄露。除去雅虎公司自身存在的問(wèn)題,該事件同時(shí)也折射了傳統(tǒng)的電子信息風(fēng)險(xiǎn)管理還有待健全和完善。在云時(shí)代背景下,大數(shù)據(jù)處理得到有效的發(fā)掘和利用,為電子信息的風(fēng)險(xiǎn)提供了另一種思路和方向,提高了電子信息風(fēng)險(xiǎn)的可預(yù)見(jiàn)性,對(duì)于完善電子信息風(fēng)險(xiǎn)管理體系和促進(jìn)該行業(yè)的健康發(fā)展具有極為重要的意義。

【關(guān)鍵詞】云時(shí)代 大數(shù)據(jù) 電子信息

1 云時(shí)代及云時(shí)代背景下的大數(shù)據(jù)

云時(shí)代即為云計(jì)算時(shí)代,它是一種基于互聯(lián)網(wǎng)的計(jì)算方式,表現(xiàn)為眾多技術(shù)的積累和組合,利用共享的軟硬件資源和信息,使用戶能夠根據(jù)自身需求訪問(wèn)計(jì)算機(jī)和存儲(chǔ)系統(tǒng)。云計(jì)算普及后,越來(lái)越多的用戶選擇將各類信息傳輸?shù)接?jì)算機(jī)的“云端”,從而匯聚到大數(shù)據(jù)中。而大數(shù)據(jù)這個(gè)詞語(yǔ)無(wú)疑是時(shí)下最熱門的IT詞匯之一,人們?cè)絹?lái)越認(rèn)識(shí)到每天大量產(chǎn)生的數(shù)據(jù)本身就蘊(yùn)藏著無(wú)窮的資源與財(cái)富。其實(shí),大數(shù)據(jù)這個(gè)概念很早之前就已經(jīng)出現(xiàn)了,然而受到科技發(fā)展的局限性,大數(shù)據(jù)并未得到有效利用,因?yàn)橹挥泻A康臄?shù)據(jù)而不進(jìn)行處理是沒(méi)有用處的。隨著互聯(lián)網(wǎng)技術(shù)尤其是云計(jì)算的不斷發(fā)展與普及,使得大數(shù)據(jù)的處理、分析和利用成為可能。云時(shí)代背景下的大數(shù)據(jù)處理其核心價(jià)值在于它的預(yù)測(cè)功能,可以為用戶提高工作效率和生產(chǎn)力提供解決方案。大數(shù)據(jù)處理也已在眾多行業(yè)包括一些新興行業(yè)中發(fā)揮著巨大的作用。

2 案例分析

2016年的雅虎事件將雅虎這家享譽(yù)全球的科技公司推上了風(fēng)口浪尖,有超過(guò)5億雅虎用戶的賬戶信息被黑客攻擊竊取,并且該事件的最早發(fā)生事件可能追溯到兩年前,甚至更早。網(wǎng)絡(luò)黑客以高價(jià)出售其竊取的有效信息,這些信息包括用戶的賬戶名、密碼、密碼保護(hù)以及一些郵件地址等。對(duì)于此次事件,盡管雅虎公司做出了諸多解釋,然而這一事件的發(fā)生及后期的事件j釀,使得雅虎公司形象大跌。類似事件受影響較為嚴(yán)重的公司還包括LinkedIn、MySpace以及Tumblr等知名公司,其每家公司的單一網(wǎng)站遭受的損失平均超過(guò)億元。隨著信息時(shí)代的不斷發(fā)展,電子信息蒙受損失的事故不斷涌現(xiàn),其中既包括經(jīng)濟(jì)損失,也包括非經(jīng)濟(jì)型如政治類、軍事類的損失。從雅虎事件到近期歐洲各國(guó)提款機(jī)遭遠(yuǎn)程攻擊等來(lái)看,信息爆炸時(shí)代,電子信息風(fēng)險(xiǎn)變得常態(tài)化、多樣化以及復(fù)雜化。如何防范電子信息風(fēng)險(xiǎn),合理進(jìn)行電子信息的風(fēng)險(xiǎn)管理成為大家普遍關(guān)心的問(wèn)題。

3 大數(shù)據(jù)處理對(duì)電子信息風(fēng)險(xiǎn)的意義

據(jù)稱,雅虎事件的主要原因是其旗下使用的服務(wù)器安全漏洞太多。雖然雅虎公司在電子信息風(fēng)險(xiǎn)管控中存在很多失誤,但不可否認(rèn)的是,以往眾多公司采用的傳統(tǒng)形式的電子信息風(fēng)險(xiǎn)管控方式在如今這個(gè)時(shí)代背景下已然顯得有些捉襟見(jiàn)肘。而要想實(shí)現(xiàn)電子信息風(fēng)險(xiǎn)管理的智能化、可預(yù)期化,云時(shí)代下的大數(shù)據(jù)利用便為其提供了無(wú)限的可能。目前,已有很多領(lǐng)域接受并利用大數(shù)據(jù)技術(shù),并取得了一些突破性的進(jìn)展。比如電商領(lǐng)域,天貓等通過(guò)大數(shù)據(jù)分析得出消費(fèi)者的消費(fèi)心理及關(guān)注點(diǎn),從而在網(wǎng)頁(yè)瀏覽時(shí)及時(shí)地推送消費(fèi)者所關(guān)注的商品信息等。而風(fēng)險(xiǎn)控制仍未充分開始利用它的力量。因此,探討大數(shù)據(jù)處理在電子信息風(fēng)險(xiǎn)管理上的應(yīng)用對(duì)于促進(jìn)其健康發(fā)展,彌補(bǔ)傳統(tǒng)風(fēng)險(xiǎn)管理手段的不足,建立完善的風(fēng)險(xiǎn)防范體系有著重要的現(xiàn)實(shí)意義。

4 云時(shí)代背景下大數(shù)據(jù)在電子信息風(fēng)險(xiǎn)中的應(yīng)用

電子信息風(fēng)險(xiǎn)管理,是指通過(guò)相應(yīng)的監(jiān)控管理技術(shù)識(shí)別以及評(píng)估電子信息可能存在的風(fēng)險(xiǎn),繼而實(shí)現(xiàn)對(duì)電子信息風(fēng)險(xiǎn)的控制與消除,并以低的成本使風(fēng)險(xiǎn)損失程度降低的管理活動(dòng)。傳統(tǒng)的電子信息風(fēng)險(xiǎn)控制措施主要有數(shù)據(jù)備份、定期系統(tǒng)檢查、系統(tǒng)還原以及安裝并提高防火墻等級(jí)等,但這些措施并不能對(duì)風(fēng)險(xiǎn)進(jìn)行很好地控制。大數(shù)據(jù)技術(shù)提供的基于預(yù)測(cè)功能的應(yīng)用,為電子信息有效的風(fēng)險(xiǎn)管控提供了一種新的思維管理方式,使得系統(tǒng)在運(yùn)行的過(guò)程中實(shí)現(xiàn)電子信息風(fēng)險(xiǎn)的事前、事中及事后管理與控制的目標(biāo)。

4.1 建立風(fēng)險(xiǎn)預(yù)測(cè)模型,做到事前預(yù)判

大數(shù)據(jù)處理技術(shù)在風(fēng)險(xiǎn)管理的事前控制中,通過(guò)收集運(yùn)行常規(guī)數(shù)據(jù),以及各類非結(jié)構(gòu)化的數(shù)據(jù),再由云計(jì)算整合大數(shù)據(jù)運(yùn)算出風(fēng)險(xiǎn)事前控制的預(yù)測(cè)計(jì)算模型,從而得到一個(gè)高度可行的預(yù)測(cè)方案,對(duì)風(fēng)險(xiǎn)發(fā)生前電子信息運(yùn)行的外部環(huán)境、自身存在的風(fēng)險(xiǎn)等進(jìn)行預(yù)判,提前預(yù)知風(fēng)險(xiǎn)的發(fā)生,讓電子信息在發(fā)生危機(jī)之前就拉響警報(bào),實(shí)時(shí)的預(yù)判和動(dòng)態(tài)提示可提醒相關(guān)人員注意提前控制和規(guī)避風(fēng)險(xiǎn),做出合理的反應(yīng)和決定,保護(hù)電子信息免受損失。例如百度的百度云和奇虎360的360云安全服務(wù)系統(tǒng)都是通過(guò)通過(guò)云端大數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)信息處理進(jìn)而實(shí)現(xiàn)對(duì)外部環(huán)境的識(shí)別,電子信息在遭遇黑客攻擊前,便可及時(shí)提示用戶不要對(duì)某些網(wǎng)頁(yè)、信息進(jìn)行瀏覽和下載,或在用戶的終端禁止某些病毒類文件,以防黑客有機(jī)可乘。如瑞星的近期云管家產(chǎn)品每天攔截木馬攻擊的次數(shù)達(dá)100次。

4.2 大數(shù)據(jù)處理在事中風(fēng)險(xiǎn)控制的應(yīng)用

在風(fēng)險(xiǎn)發(fā)生的過(guò)程中,大數(shù)據(jù)的應(yīng)用可以為用戶采取應(yīng)急措施提供相應(yīng)的便利。云技術(shù)背景下的大數(shù)據(jù)風(fēng)險(xiǎn)應(yīng)急管理技術(shù)可以云端所有的數(shù)據(jù)庫(kù),實(shí)時(shí)在線對(duì)相應(yīng)的風(fēng)險(xiǎn)進(jìn)行快速的分析并處理,諸如360的云端快速掃描、全盤掃描以及特定盤的掃描等,從而快速的去除相應(yīng)的風(fēng)險(xiǎn)。此外,在應(yīng)對(duì)電子信息風(fēng)險(xiǎn)管理上的漏洞,大數(shù)據(jù)分析技術(shù)還可以整合風(fēng)險(xiǎn)管理涉及的各個(gè)部門提供的有效信息,并提出合理的風(fēng)險(xiǎn)決策,使相關(guān)部門和人員可以及時(shí)的通力協(xié)作,信息共享,保障風(fēng)險(xiǎn)應(yīng)急處置的及時(shí)性和工作效率。對(duì)個(gè)人來(lái)說(shuō),大數(shù)據(jù)還可以為風(fēng)險(xiǎn)的應(yīng)急處理提供更加便捷靈活的手段。

4.3 大數(shù)據(jù)處理在風(fēng)險(xiǎn)事后中的應(yīng)用

大數(shù)據(jù)基礎(chǔ)上建立的風(fēng)險(xiǎn)發(fā)展趨勢(shì)預(yù)測(cè),還可以模擬風(fēng)險(xiǎn)發(fā)生后可能產(chǎn)生的結(jié)果,并合理估算風(fēng)險(xiǎn)事故中產(chǎn)生的各項(xiàng)損失,基于云計(jì)算的大數(shù)據(jù)處理將為風(fēng)險(xiǎn)事故在發(fā)生后提供的處置方案,以較大限度減少或消除用戶的損失。此外,事故的處理與信息反饋是大數(shù)據(jù)處理的另一項(xiàng)重要的功能。通過(guò)相應(yīng)的信息數(shù)據(jù)反饋從而不斷地更新和修正數(shù)據(jù)庫(kù)產(chǎn)生的模型,將風(fēng)險(xiǎn)管理體系進(jìn)行進(jìn)一步的優(yōu)化和健全,防止下次事件的發(fā)生。

5 結(jié)語(yǔ)

云計(jì)算為大數(shù)據(jù)在電子信息風(fēng)險(xiǎn)管理的應(yīng)用提供了可能。有報(bào)道稱,大數(shù)據(jù)的價(jià)值在被夸大,但無(wú)可否認(rèn)的是,大數(shù)據(jù)處理已經(jīng)在很多行業(yè)卓有成效。因此,云時(shí)代背景下的大數(shù)據(jù)能夠有效地提升和優(yōu)化電子信息的風(fēng)險(xiǎn)管理體系,降低風(fēng)控成本,并實(shí)現(xiàn)在線實(shí)時(shí)監(jiān)控,具有很好的發(fā)展前景。與其說(shuō)大數(shù)據(jù)提供了一種技術(shù)上的支持方案,不如說(shuō)它提供了一種風(fēng)險(xiǎn)管理的思維,激發(fā)了新的價(jià)值增長(zhǎng)點(diǎn),讓人們從另一個(gè)方向去解決電子信息風(fēng)險(xiǎn)管理出現(xiàn)的問(wèn)題。這對(duì)于完善電子信息風(fēng)險(xiǎn)管理體系以及促進(jìn)該行業(yè)的健康發(fā)展具有極為重要的意義。

大數(shù)據(jù)處理論文:基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)

摘 要: R語(yǔ)言是一種基于統(tǒng)計(jì)、運(yùn)算和繪圖的數(shù)據(jù)處理方式,其能夠較為理想地進(jìn)行大數(shù)據(jù)處理工作。因此,設(shè)計(jì)基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)。當(dāng)平臺(tái)的用戶請(qǐng)求層向技術(shù)層發(fā)送大數(shù)據(jù)處理指令,技術(shù)層隨即開始工作,其處理結(jié)果也將反饋至用戶請(qǐng)求層。技術(shù)層由大數(shù)據(jù)管理模塊、大數(shù)據(jù)處理模塊和R語(yǔ)言控制模塊組成,大數(shù)據(jù)處理模塊的EP1C6Q240C8芯片通過(guò)借鑒大型數(shù)據(jù)庫(kù)內(nèi)容,進(jìn)行大數(shù)據(jù)的挖掘工作,并將其挖掘結(jié)果提供給大數(shù)據(jù)處理模塊進(jìn)行大數(shù)據(jù)的篩選、匯總、轉(zhuǎn)換和標(biāo)準(zhǔn)控制。經(jīng)大數(shù)據(jù)處理模塊處理后的大數(shù)據(jù),將通過(guò)串口通信電路回傳給用戶請(qǐng)求層。R語(yǔ)言控制模塊為整個(gè)平臺(tái)制訂處理標(biāo)準(zhǔn)。軟件方面利用R語(yǔ)言的類聚性能設(shè)計(jì)技術(shù)層挖掘功能圖和大數(shù)據(jù)向量化處理代碼。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的平臺(tái)能夠?qū)Υ髷?shù)據(jù)進(jìn)行高性能的處理。

關(guān)鍵詞: R語(yǔ)言; 大數(shù)據(jù)處理平臺(tái); EP1C6Q240C8; 數(shù)據(jù)挖掘

0 引 言

網(wǎng)絡(luò)時(shí)代的來(lái)臨,使大數(shù)據(jù)不可避免地吸引到了各界的關(guān)注。大數(shù)據(jù)處理平臺(tái)要求其處理方式應(yīng)具有超強(qiáng)的決策能力,以應(yīng)對(duì)大數(shù)據(jù)海量、多樣性的特點(diǎn)[1?3]。R語(yǔ)言是一種基于統(tǒng)計(jì)、運(yùn)算和繪圖的數(shù)據(jù)處理方式,與普通處理方式相比,R語(yǔ)言能夠?qū)崿F(xiàn)更加復(fù)雜的數(shù)據(jù)處理,且處理效果較為理想。根據(jù)R語(yǔ)言的以上優(yōu)勢(shì),設(shè)計(jì)基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái),使大數(shù)據(jù)處理平臺(tái)具有較高的處理性能[4?6]。

科研組織也曾研究出一些較具特點(diǎn)的大數(shù)據(jù)處理平臺(tái),但這些平臺(tái)的處理性能均有待提高,如文獻(xiàn)[7]提出基于Jaql的大數(shù)據(jù)處理平臺(tái),該平臺(tái)利用Jaql編輯處理語(yǔ)言縮減大數(shù)據(jù)傳輸量,最終提高平臺(tái)處理性能,但由于Jaql編輯處理語(yǔ)言的處理能力有限,無(wú)法高效完成海量大數(shù)據(jù)的轉(zhuǎn)換工作,致使整個(gè)平臺(tái)的處理性能不高。文獻(xiàn)[8]提出基于OPENMP的大數(shù)據(jù)處理平臺(tái),OPENMP是一種基于分布處理、集中管控的處理方式,其對(duì)大數(shù)據(jù)的兼容性較強(qiáng),處理效率較高,但擴(kuò)展性能較差,致使整個(gè)平臺(tái)的更新能力欠佳,無(wú)法應(yīng)對(duì)大數(shù)據(jù)的實(shí)時(shí)變化。文獻(xiàn)[9]提出基于PR的大數(shù)據(jù)處理平臺(tái),該平臺(tái)利用PR隱形并列的處理方式,將大數(shù)據(jù)特點(diǎn)進(jìn)行剖析,只提取出其中的關(guān)鍵信息點(diǎn),達(dá)到縮減大數(shù)據(jù)內(nèi)存的目的,進(jìn)而降低平臺(tái)處理壓力,但該平臺(tái)的處理效率不高,大數(shù)據(jù)信息較易丟失。

基于上述大數(shù)據(jù)處理平臺(tái)的缺陷,提出基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái),以實(shí)現(xiàn)大數(shù)據(jù)處理平臺(tái)對(duì)大數(shù)據(jù)的高效解析、增強(qiáng)平臺(tái)各項(xiàng)處理性能。

1 基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)設(shè)計(jì)

1.1 平臺(tái)總體設(shè)計(jì)

基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)由用戶請(qǐng)求層、技術(shù)層和多種大型數(shù)據(jù)庫(kù)組成,如圖1所示。

由圖1可知,當(dāng)用戶請(qǐng)求層向技術(shù)層發(fā)送大數(shù)據(jù)處理指令,技術(shù)層隨即開始工作,其處理結(jié)果也將反饋至用戶請(qǐng)求層。技術(shù)層由大數(shù)據(jù)管理模塊、大數(shù)據(jù)處理模塊和R語(yǔ)言控制模塊組成,技術(shù)層是基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的重點(diǎn)設(shè)計(jì)部分。平臺(tái)為技術(shù)層提供了多種大型數(shù)據(jù)庫(kù),技術(shù)層在實(shí)現(xiàn)大數(shù)據(jù)處理的過(guò)程中會(huì)借鑒這些大數(shù)據(jù)庫(kù)的處理結(jié)果,保障平臺(tái)處理性能。

1.2 大數(shù)據(jù)管理模塊設(shè)計(jì)

大數(shù)據(jù)管理模塊能夠進(jìn)行大數(shù)據(jù)的挖掘和供給工作,其進(jìn)行大數(shù)據(jù)挖掘的主要借鑒對(duì)象有地方資源庫(kù)、大數(shù)據(jù)檔案庫(kù)以及網(wǎng)絡(luò)大數(shù)據(jù)地址。供給工作是指大數(shù)據(jù)管理模塊將挖掘出的大數(shù)據(jù)進(jìn)行分類、挑選后,將其按一定順序供給大數(shù)據(jù)處理模塊進(jìn)行大數(shù)據(jù)的處理工作。大數(shù)據(jù)管理模塊的核心控制元件選取了某公司設(shè)計(jì)的EP1C6Q240C8芯片。EP1C6Q240C8芯片的成本不高,且資源較多,是一種能夠?qū)崿F(xiàn)實(shí)時(shí)高效編輯的控制芯片。EP1C6Q240C8芯片擁有先入先出隊(duì)列模式,其數(shù)據(jù)傳輸量高達(dá)36 b,傳輸速率較高可達(dá)300 MHz,能夠有效減少基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的大數(shù)據(jù)丟失率,并為平臺(tái)的后期更新工作提供了技術(shù)支持。EP1C6Q240C8芯片結(jié)構(gòu)圖如圖2所示。

由圖2可知,EP1C6Q240C8芯片主要由邏輯陣列塊和I/O塊組成。邏輯陣列塊中的鎖相環(huán)是一種高性能反饋控制電路,鎖相環(huán)能夠根據(jù)挖掘信號(hào)實(shí)現(xiàn)基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)對(duì)大數(shù)據(jù)信號(hào)的分類,并可對(duì)分類后的大數(shù)據(jù)實(shí)施主動(dòng)追蹤。M4K存儲(chǔ)器為平臺(tái)提供大數(shù)據(jù)的分類存儲(chǔ)區(qū)域。I/O塊的主要作用就是實(shí)現(xiàn)大數(shù)據(jù)的傳輸工作,包括EP1C6Q240C8芯片的內(nèi)部傳輸,以及大數(shù)據(jù)管理模塊與大數(shù)據(jù)處理模塊的通信傳輸。

1.3 大數(shù)據(jù)處理模塊設(shè)計(jì)

大數(shù)據(jù)處理模塊的主要工作是進(jìn)行大數(shù)據(jù)的篩選、匯總、轉(zhuǎn)換和標(biāo)準(zhǔn)控制。篩選是指將挖掘到的大數(shù)據(jù)中的不正常信息和錯(cuò)誤格式篩選出來(lái),常用的篩選方式有填補(bǔ)空缺法、標(biāo)準(zhǔn)值替換法、異常值隱藏法等。大數(shù)據(jù)處理模塊進(jìn)行的篩選工作是其及時(shí)流程,這程不能忽略,必要時(shí)應(yīng)進(jìn)行多次篩選,以保障基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的率。匯總是指大數(shù)據(jù)處理模塊將篩選后的大數(shù)據(jù)匯總并構(gòu)建數(shù)據(jù)庫(kù)的過(guò)程。在這一過(guò)程中,大數(shù)據(jù)在數(shù)據(jù)庫(kù)中的、高效分類匹配是其應(yīng)重點(diǎn)解決的問(wèn)題。大數(shù)據(jù)處理模塊利用R語(yǔ)言解決了這一問(wèn)題。轉(zhuǎn)換是統(tǒng)一大數(shù)據(jù)格式的過(guò)程,大數(shù)據(jù)處理模塊利用A/D轉(zhuǎn)換電路實(shí)現(xiàn)這一過(guò)程。

標(biāo)準(zhǔn)控制是指利用各項(xiàng)標(biāo)準(zhǔn)管控大數(shù)據(jù)處理的過(guò)程,基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的常用標(biāo)準(zhǔn)有解壓縮標(biāo)準(zhǔn)、維度標(biāo)準(zhǔn)、常規(guī)數(shù)值標(biāo)準(zhǔn)等,這些標(biāo)準(zhǔn)能夠?qū)崟r(shí)控制大數(shù)據(jù)處理模塊對(duì)大數(shù)據(jù)的壓縮、篩選、刪除、替換等工作,是實(shí)現(xiàn)平臺(tái)高性能的保障。

1.3.1 A/D轉(zhuǎn)換電路設(shè)計(jì)

由于大數(shù)據(jù)管理模塊挖掘出的大數(shù)據(jù)的格式并不統(tǒng)一,故需首先對(duì)大數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換。A/D轉(zhuǎn)換電路的轉(zhuǎn)換性能直接影響著基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的各項(xiàng)性能,故在A/D轉(zhuǎn)換電路的設(shè)計(jì)中,應(yīng)盡可能保障其轉(zhuǎn)換的效率和率。

選用某公司設(shè)計(jì)的TLC5510I轉(zhuǎn)換器作為A/D轉(zhuǎn)換電路的核心元件。TLC5510I轉(zhuǎn)換器是一種能夠進(jìn)行高速A/D轉(zhuǎn)換的8位高阻抗并行A/D轉(zhuǎn)換器。擁有了TLC5510I轉(zhuǎn)換器,A/D轉(zhuǎn)換電路便能夠縮減掉其復(fù)雜的外接電路,減輕了設(shè)計(jì)難度,并間接節(jié)約了基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的運(yùn)行成本。圖3是TLC5510I轉(zhuǎn)換器結(jié)構(gòu)圖。

由圖3可知,A/D轉(zhuǎn)換電路經(jīng)由TLC5510I轉(zhuǎn)換器轉(zhuǎn)換大數(shù)據(jù)格式,TLC5510I轉(zhuǎn)換器主要由基準(zhǔn)分壓器、時(shí)鐘發(fā)生器、采樣比較器、采樣編碼器和數(shù)據(jù)鎖存器組成。控制開關(guān)將根據(jù)大數(shù)據(jù)的內(nèi)存狀態(tài)對(duì)基準(zhǔn)分壓器中的三種電阻進(jìn)行控制。時(shí)鐘發(fā)生器會(huì)輸出三種計(jì)時(shí)信號(hào),這三種計(jì)時(shí)信號(hào)會(huì)直接傳輸給采樣比較器,經(jīng)由采樣比較器按順序依次傳遞給采樣編碼器和數(shù)據(jù)鎖存器。

1.3.2 串口通信電路O計(jì)

經(jīng)大數(shù)據(jù)處理模塊處理過(guò)的大數(shù)據(jù),需要一個(gè)傳輸性能較為完善的串口通信電路將處理后的大數(shù)據(jù)傳輸?shù)接脩粽?qǐng)求層,所設(shè)計(jì)的串口通信電路簡(jiǎn)圖如圖4所示。

圖4中,串口通信電路的傳輸芯片選用EP1C6Q256芯片,該芯片的工作電壓范圍是[1.43 V,1.58 V],能夠在[0 ℃,85 ℃]的環(huán)境下工作。其擁有5 980個(gè)邏輯塊,能夠高效、且穩(wěn)定地進(jìn)行大數(shù)據(jù)傳輸。EP1C6Q256芯片控制著大數(shù)據(jù)的高性能輸入和電源的穩(wěn)定供電,使串口通信電路能夠直接將處理后的大數(shù)據(jù)輸入到用戶請(qǐng)求層,提高了基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的整體效率。

1.4 R語(yǔ)言控制模塊設(shè)計(jì)

R語(yǔ)言控制模塊通過(guò)調(diào)取Java類加載器,為基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)提供所有技術(shù)支持,即制訂平臺(tái)的處理標(biāo)準(zhǔn)。Java類加載器是一種能夠?qū)⒋髷?shù)據(jù)按需存儲(chǔ)到內(nèi)存中的虛擬設(shè)備,其獨(dú)立于算法編譯器,可以對(duì)大數(shù)據(jù)進(jìn)行選擇性處理。圖5是Java類加載器結(jié)構(gòu)圖。

圖5中,啟動(dòng)類加載器為R語(yǔ)言控制模塊調(diào)用剛挖掘出的大數(shù)據(jù)進(jìn)行讀取,這部分大數(shù)據(jù)不能修改,只能對(duì)其進(jìn)行R語(yǔ)言算法處理;擴(kuò)展類加載器能夠調(diào)用大數(shù)據(jù)處理結(jié)果,R語(yǔ)言控制模塊可對(duì)其進(jìn)行直接修改;應(yīng)用程序類加載器是基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的基礎(chǔ)加載器,該加載器在日常工作中常處于休眠狀態(tài),當(dāng)啟動(dòng)類加載器和擴(kuò)展類加載器無(wú)法調(diào)用大數(shù)據(jù)時(shí),應(yīng)用程序類加載器便會(huì)啟動(dòng)并接手上述工作。

2 基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的軟件設(shè)計(jì)

技術(shù)層對(duì)大數(shù)據(jù)的挖掘工作是整個(gè)基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的運(yùn)行基礎(chǔ),為了保障技術(shù)層挖掘出的大數(shù)據(jù)擁有較高質(zhì)量,平臺(tái)利用R語(yǔ)言的類聚性能,設(shè)計(jì)了技術(shù)層挖掘功能圖,如圖6所示。

由圖6可知,技術(shù)層挖掘功能圖主要有預(yù)處理、分類和熱點(diǎn)實(shí)現(xiàn)三種功能。預(yù)處理功能主要進(jìn)行大數(shù)據(jù)預(yù)處理,其根據(jù)R語(yǔ)言向技術(shù)層中的大數(shù)據(jù)處理模塊寫入特征算法,將大數(shù)據(jù)向量化,即將一維數(shù)據(jù)格式變換成向量格式,并對(duì)向量格式的大數(shù)據(jù)進(jìn)行分類。預(yù)處理功能對(duì)大數(shù)據(jù)進(jìn)行向量化的代碼設(shè)計(jì)為:

分類功能包括大數(shù)據(jù)的分類挖掘和類聚挖掘,單一結(jié)構(gòu)的大數(shù)據(jù)會(huì)直接進(jìn)行大數(shù)據(jù)類聚挖掘,對(duì)于結(jié)構(gòu)較為復(fù)雜的大數(shù)據(jù),軟件將先對(duì)其進(jìn)行大數(shù)據(jù)分類挖掘,將熱點(diǎn)狀態(tài)不一致的大數(shù)據(jù)分開存儲(chǔ),進(jìn)行類聚挖掘。熱點(diǎn)實(shí)現(xiàn)功能包括熱點(diǎn)跟蹤和熱點(diǎn)展示,原則上這兩個(gè)功能是能夠同時(shí)進(jìn)行的,但出于對(duì)基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)各項(xiàng)性能要求的考慮,軟件首先對(duì)分類后的大數(shù)據(jù)進(jìn)行熱點(diǎn)跟蹤,驗(yàn)證其無(wú)誤后,再對(duì)大數(shù)據(jù)進(jìn)行熱點(diǎn)展示。

3 實(shí)驗(yàn)分析

大數(shù)據(jù)處理平臺(tái)的性能主要包括大數(shù)據(jù)寫入和讀取效率、大數(shù)據(jù)挖掘吞吐量以及大數(shù)據(jù)處理效率。為驗(yàn)證所設(shè)計(jì)的基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)的性能,現(xiàn)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)選取性能較高的基于Hadoop的大數(shù)據(jù)處理平臺(tái)和基于OPENMP的大數(shù)據(jù)處理平臺(tái),與本文平臺(tái)進(jìn)行對(duì)比。大數(shù)據(jù)寫入和讀取效率、大數(shù)據(jù)挖掘吞吐量的實(shí)驗(yàn)結(jié)果如圖7~圖9所示,大數(shù)據(jù)處理效率實(shí)驗(yàn)的處理時(shí)間結(jié)果如表1所示。

由圖7~圖9可知,大數(shù)據(jù)寫入效率、大數(shù)據(jù)讀取效率和大數(shù)據(jù)挖掘吞吐量的變化與大數(shù)據(jù)處理平臺(tái)的處理線程數(shù)有一定關(guān)系,在特定范圍內(nèi),處理線程數(shù)越多,平臺(tái)的性能就越高,若超出特定范圍,過(guò)多的處理線程數(shù)將導(dǎo)致平臺(tái)性能下降。

因此,在實(shí)際應(yīng)用中應(yīng)選擇適合的處理線程數(shù)。雖受處理線程數(shù)影響,但本文平臺(tái)的大數(shù)據(jù)寫入效率、大數(shù)據(jù)讀取效率和大數(shù)據(jù)挖掘吞吐量性能均高于基于Hadoop的大數(shù)據(jù)處理平臺(tái)和基于OPENMP的大數(shù)據(jù)處理平臺(tái)。且根據(jù)表1數(shù)據(jù)能夠得出,本文平臺(tái)擁有較高的大數(shù)據(jù)處理效率。以上實(shí)驗(yàn)結(jié)果表明,本文平臺(tái)能夠?qū)Υ髷?shù)據(jù)進(jìn)行高性能的處理。

4 結(jié) 論

本文設(shè)計(jì)了基于R語(yǔ)言的大數(shù)據(jù)處理平臺(tái)。當(dāng)平臺(tái)的用戶請(qǐng)求層向技術(shù)層發(fā)送大數(shù)據(jù)處理指令,技術(shù)層隨即開始工作,其處理結(jié)果也將反饋至用戶請(qǐng)求層。技術(shù)層由大數(shù)據(jù)管理模塊、大數(shù)據(jù)處理模塊和R語(yǔ)言控制模塊組成。大數(shù)據(jù)處理模塊的EP1C6Q240C8芯片通過(guò)借鑒大型數(shù)據(jù)庫(kù)內(nèi)容,進(jìn)行大數(shù)據(jù)的挖掘工作,并將其挖掘結(jié)果供給大數(shù)據(jù)處理模K進(jìn)行大數(shù)據(jù)的篩選、匯總、轉(zhuǎn)換和標(biāo)準(zhǔn)控制。經(jīng)大數(shù)據(jù)處理模塊處理后的大數(shù)據(jù)將通過(guò)串口通信電路回傳給用戶請(qǐng)求層。R語(yǔ)言控制模塊為整個(gè)平臺(tái)制訂處理標(biāo)準(zhǔn)。軟件利用R語(yǔ)言的類聚性能,設(shè)計(jì)技術(shù)層挖掘功能圖和大數(shù)據(jù)向量化處理代碼。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的平臺(tái)能夠?qū)Υ髷?shù)據(jù)進(jìn)行高性能的處理。

大數(shù)據(jù)處理論文:試論智能電網(wǎng)大數(shù)據(jù)處理技術(shù)的應(yīng)用現(xiàn)狀及面臨的挑戰(zhàn)

摘要:隨著我國(guó)經(jīng)濟(jì)的高速發(fā)展,我國(guó)的電力行業(yè)的快速發(fā)展,隨著科學(xué)技術(shù)的長(zhǎng)足進(jìn)步,使得現(xiàn)代化的智能電網(wǎng)取得一定的發(fā)展。隨著智能電網(wǎng)系統(tǒng)的構(gòu)建,隨著發(fā)電、輸電、用電等全方面的管理工作隨之開展,越來(lái)越多的現(xiàn)代化技術(shù)也逐步應(yīng)用要電力系統(tǒng)之中,特別是現(xiàn)代化云計(jì)算平臺(tái)的使用,使得大量的數(shù)據(jù)得到積累和存儲(chǔ),從而推動(dòng)了大數(shù)據(jù)存儲(chǔ)和管理技術(shù)的研究和發(fā)展。在現(xiàn)代化智能電網(wǎng)而言,既是機(jī)遇也是挑戰(zhàn)。本文主要通過(guò)對(duì)智能電網(wǎng)系統(tǒng)具體的應(yīng)用原則,從而探索其中面臨的困難和挑戰(zhàn)。

關(guān)鍵詞:智能電網(wǎng) 大數(shù)據(jù)處理技術(shù) 應(yīng)用現(xiàn)狀 面臨困境

在經(jīng)濟(jì)發(fā)展和科學(xué)技術(shù)的進(jìn)步時(shí)期,為人類帶來(lái)了效益的同時(shí)也造成了嚴(yán)重的資源浪費(fèi),因此在這一時(shí)代背景下各國(guó)都加強(qiáng)了對(duì)智能電網(wǎng)的研究和建設(shè)工作。在智能電網(wǎng)的管理過(guò)程中,對(duì)于大量數(shù)據(jù)的管理、處理、存儲(chǔ)等方面的問(wèn)題困擾使用者,這也是現(xiàn)階段需要及時(shí)改善的內(nèi)容,因此本文以此為背景,對(duì)其應(yīng)用和挑戰(zhàn)進(jìn)行分析和研究。

1 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)目前的應(yīng)用現(xiàn)狀

1.1 智能電網(wǎng)的大數(shù)據(jù)

在智能電網(wǎng)中,大數(shù)據(jù)的產(chǎn)生和存在主要有以下三個(gè)方面的原因[1]。一方面是對(duì)于電網(wǎng)運(yùn)行以及設(shè)備數(shù)據(jù)方面的內(nèi)容,這方面的數(shù)據(jù)也是智能電網(wǎng)的主要內(nèi)容,同時(shí)也是程序最復(fù)雜的部分;第二方面是對(duì)于電能的營(yíng)銷數(shù)據(jù),這也是企業(yè)發(fā)展最為重要的部分,很多企業(yè)都對(duì)這部分內(nèi)容投入大量的人力、物力;第三個(gè)方面是對(duì)于電力企業(yè)的管理數(shù)據(jù)。在這三方面形成了嚴(yán)密、系統(tǒng)的整體,但是很多專家和學(xué)者都不會(huì)采用分層劃分的方式,因此導(dǎo)致多數(shù)學(xué)者傾向于數(shù)據(jù)內(nèi)部的層次劃分。同時(shí)對(duì)于非結(jié)構(gòu)數(shù)據(jù)而言,無(wú)法利用數(shù)據(jù)庫(kù)的二維模式進(jìn)行編輯,這種類型的數(shù)據(jù)呈現(xiàn)出高速發(fā)展增長(zhǎng)態(tài)勢(shì)。在電網(wǎng)系統(tǒng)中,對(duì)于智能電網(wǎng)數(shù)據(jù)而言,非結(jié)構(gòu)數(shù)據(jù)占據(jù)極大的比重。

1.2 大數(shù)據(jù)處理技術(shù)的復(fù)雜性

隨著全世界的科學(xué)技術(shù)的發(fā)展,對(duì)于大數(shù)據(jù)的研究和應(yīng)用不斷發(fā)展和深入,大數(shù)據(jù)的應(yīng)用和科學(xué)的發(fā)展都對(duì)科學(xué)和經(jīng)濟(jì)的發(fā)展具有重要的影響[2]。現(xiàn)階段的國(guó)家、企業(yè)之間的競(jìng)爭(zhēng)都是圍繞大數(shù)據(jù)進(jìn)行的控制和管理工作。但是對(duì)于云計(jì)算平臺(tái)自身而言,其實(shí)用性存在較大的劣勢(shì),對(duì)于大數(shù)據(jù)的分析和挖掘等方面無(wú)法得到充分的滿足。隨著大數(shù)據(jù)的多元化發(fā)展方向,對(duì)于數(shù)據(jù)的發(fā)掘以及處理方面都得到了及時(shí)的提高,從而有效利用復(fù)雜的混合計(jì)算模式,從而實(shí)現(xiàn)智能化電網(wǎng)的大數(shù)據(jù)技術(shù)的局限性突破和發(fā)展。

2 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)所面臨的挑戰(zhàn)

2.1 智能電網(wǎng)中大數(shù)據(jù)的傳輸和存儲(chǔ)技術(shù)

當(dāng)前信息化技術(shù)的發(fā)展使得電網(wǎng)系統(tǒng)的智能化發(fā)展取得了一定的成效,在電力系統(tǒng)的運(yùn)行過(guò)程中,需要對(duì)各個(gè)環(huán)節(jié)的相關(guān)數(shù)據(jù)和設(shè)備的監(jiān)測(cè)數(shù)據(jù)進(jìn)行詳細(xì)的記錄,這個(gè)過(guò)程中所產(chǎn)生的海量數(shù)據(jù),使得監(jiān)控系統(tǒng)承擔(dān)著比較大的壓力,對(duì)于智能電網(wǎng)的進(jìn)一步發(fā)展有著一定的阻礙作用[3]。在電網(wǎng)數(shù)據(jù)的傳輸方面,通過(guò)利用數(shù)據(jù)壓縮的方式可以減少數(shù)據(jù)的傳輸量,保障數(shù)據(jù)傳輸效率的提升。在數(shù)據(jù)的存儲(chǔ)方面,通常情況下使用的方式是分布式文件保存,實(shí)現(xiàn)對(duì)于大量數(shù)據(jù)的存儲(chǔ),但是在對(duì)于實(shí)時(shí)數(shù)據(jù)的處理方面存在著一定的缺陷。

在智能電網(wǎng)中,非結(jié)構(gòu)化數(shù)據(jù)占到了比較大的比重,有著十分重要的作用,在存儲(chǔ)方面要將這些海量的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效轉(zhuǎn)化,是當(dāng)前智能電網(wǎng)大數(shù)據(jù)處理技術(shù)所面臨的困境。

2.2 大數(shù)據(jù)的實(shí)時(shí)處理技術(shù)

大數(shù)據(jù)處理技術(shù)在當(dāng)前的智能電網(wǎng)進(jìn)程中有著比較重要的作用,在大數(shù)據(jù)技術(shù)的應(yīng)用中,處理速度是一個(gè)重要的衡量指標(biāo),如果數(shù)據(jù)的規(guī)模過(guò)大,所需要的處理時(shí)間就比較長(zhǎng),當(dāng)數(shù)據(jù)規(guī)模超過(guò)處理技術(shù)的承受能力,會(huì)對(duì)電網(wǎng)的正常運(yùn)行造成一定的影響,這就需要保障數(shù)據(jù)傳輸、分析以及處理的速度。大數(shù)據(jù)云計(jì)算系統(tǒng)雖然能夠?yàn)橹悄茈娋W(wǎng)提供品質(zhì)快速的服務(wù),但是也有可能會(huì)造成網(wǎng)絡(luò)堵塞現(xiàn)象,會(huì)使得電網(wǎng)的服務(wù)器運(yùn)行受到影響。

2.3 可視化分析技術(shù)

智能電網(wǎng)在運(yùn)行過(guò)程中會(huì)產(chǎn)生大量的數(shù)據(jù),而對(duì)這些數(shù)據(jù)進(jìn)行及時(shí)有效的處理,同時(shí)在有限的顯示屏內(nèi)展示給用戶,這也是當(dāng)前智能電網(wǎng)大數(shù)據(jù)處理所面臨的嚴(yán)峻挑戰(zhàn)。利用可視化技術(shù)能夠有效的處理這些數(shù)據(jù),并逐漸的用于智能電網(wǎng)中,該技術(shù)運(yùn)用的是高度集成技術(shù)、高分辨率的圖像以及交互工具給用戶提供的數(shù)據(jù)處理結(jié)果[4]。同時(shí)還要保障智能電網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)的質(zhì)量,對(duì)整個(gè)網(wǎng)絡(luò)系統(tǒng)進(jìn)行定期的檢測(cè)和維護(hù),如果出現(xiàn)故障,要結(jié)合出現(xiàn)故障的現(xiàn)象采用相關(guān)的技術(shù)進(jìn)行分析處理,在根源上解除故障,保障數(shù)據(jù)網(wǎng)絡(luò)正常運(yùn)轉(zhuǎn)。

3 結(jié)語(yǔ)

現(xiàn)階段,隨著信息化技術(shù)的普及應(yīng)用,我國(guó)電力系統(tǒng)的智能化進(jìn)程有著比較好的效果,大數(shù)據(jù)處理技術(shù)成為當(dāng)前智能電網(wǎng)中維護(hù)電網(wǎng)安全穩(wěn)定運(yùn)行的主要措施。云計(jì)算為智能電網(wǎng)的數(shù)據(jù)處理、傳輸、存儲(chǔ)提供了的平臺(tái),保障了智能電網(wǎng)中的大數(shù)據(jù)可以得到及時(shí)有效的處理,為電網(wǎng)的樹立運(yùn)行提供一定的保障作用。但是隨著技術(shù)的進(jìn)一步發(fā)展,以及智能化程度的進(jìn)一步加深,大數(shù)據(jù)處理在傳輸、存儲(chǔ)等方面存在著一定的局限性,受到了比較嚴(yán)峻的挑戰(zhàn),因此需要相關(guān)的工作人員進(jìn)行不斷的努力和創(chuàng)新,探索出一種有效的解決方法,促進(jìn)我國(guó)智能電網(wǎng)的穩(wěn)定健康發(fā)展。