日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

大數(shù)據(jù)量解決方案實(shí)用13篇

引論:我們?yōu)槟砹?3篇大數(shù)據(jù)量解決方案范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

篇1

從建立大數(shù)據(jù)存儲(chǔ)、管理和查詢平臺(tái)入手,嘉和美康不斷優(yōu)化應(yīng)用軟件和解決方案,以幫助醫(yī)療單位跨過大數(shù)據(jù)這道門檻。“大數(shù)據(jù)在醫(yī)療行業(yè)的前景和收益是嘉和美康最根本的驅(qū)動(dòng)力,作為醫(yī)療行業(yè)信息系統(tǒng)的開發(fā)者和建設(shè)者,嘉和美康必須在產(chǎn)品上、技術(shù)上、應(yīng)用上邁上一個(gè)大的臺(tái)階。”試想,小到輔助臨床醫(yī)生做出更為科學(xué)和準(zhǔn)確的診斷和用藥決策或幫助醫(yī)院根據(jù)患者潛在需求開發(fā)全新個(gè)性化服務(wù)及自動(dòng)服務(wù),大到幫助研究機(jī)構(gòu)實(shí)現(xiàn)突破性的醫(yī)療方法和藥物革新或支持地區(qū)甚至全國(guó)醫(yī)療行業(yè)主管部門優(yōu)化醫(yī)療資源及服務(wù)配置,這些美好規(guī)劃實(shí)現(xiàn)的前提即是大數(shù)據(jù)好好為醫(yī)療行業(yè)所用。

“嘉和美康在電子病歷的基礎(chǔ)上,推出了新一代的臨床數(shù)據(jù)中心系統(tǒng)――基于CDR的臨床信息系統(tǒng)。” 范可方介紹,這個(gè)系統(tǒng)是面向臨床的深度應(yīng)用,基于CDR平臺(tái)借助大數(shù)據(jù)處理技術(shù)推出的新一代產(chǎn)品。

攜手英特爾

篇2

能否置身事外?

隨著網(wǎng)絡(luò)應(yīng)用和多媒體應(yīng)用的興起,互聯(lián)網(wǎng)成為大數(shù)據(jù)的主要來(lái)源。隨之而產(chǎn)生的網(wǎng)絡(luò)營(yíng)銷調(diào)整圍繞大數(shù)據(jù)而展開。淘寶是國(guó)內(nèi)公認(rèn)的對(duì)用戶數(shù)據(jù)利用得較好的公司——淘寶網(wǎng)利用大數(shù)據(jù)統(tǒng)計(jì)分析得到諸如“歐洲杯的球隊(duì)勝負(fù)如何影響各隊(duì)球衣的銷量?花露水的最佳搭配是電蚊拍還是痱子粉?”等問題的有趣結(jié)果,并以此為依據(jù)來(lái)更好地調(diào)整營(yíng)銷戰(zhàn)略。

近日,阿里巴巴集團(tuán)宣布,將在集團(tuán)管理層面設(shè)立首席數(shù)據(jù)官崗位(Chief Data Officer),負(fù)責(zé)全面推進(jìn)阿里巴巴集團(tuán)成為“數(shù)據(jù)分享平臺(tái)”的戰(zhàn)略。這直接證明了大數(shù)據(jù)對(duì)于互聯(lián)網(wǎng)企業(yè)的意義。

別的行業(yè)能不能對(duì)大數(shù)據(jù)冷眼旁觀呢?賽迪智庫(kù)軟件與信息服務(wù)業(yè)研究所研究員安暉認(rèn)為,雖然目前大數(shù)據(jù)的主要來(lái)源是互聯(lián)網(wǎng),但許多以信息流作為核心競(jìng)爭(zhēng)力,如金融、電信、零售等行業(yè)的機(jī)構(gòu)或企業(yè),其數(shù)據(jù)量也不容低估。例如,美國(guó)國(guó)家海洋和大氣管理局(NOAA)數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)超過20PB,沃爾瑪數(shù)據(jù)中心的存儲(chǔ)能力超過4PB,eBay分析平臺(tái)每天處理的數(shù)據(jù)量高達(dá)100PB。并且,由于這些機(jī)構(gòu)和企業(yè)所存儲(chǔ)的數(shù)據(jù)更加有針對(duì)性,其數(shù)據(jù)的價(jià)值密度更高,進(jìn)行大數(shù)據(jù)處理的意義更強(qiáng),運(yùn)用大數(shù)據(jù)的需求也更為迫切。

安暉以數(shù)個(gè)典型行業(yè)為例來(lái)說(shuō)明大數(shù)據(jù)能帶來(lái)什么好處——電信行業(yè)可以從龐大的數(shù)據(jù)中分析出不同群體的差異化需求,實(shí)現(xiàn)套餐制定等精準(zhǔn)營(yíng)銷;制造行業(yè)可以通過整合來(lái)自研發(fā)、工程和制造部門的數(shù)據(jù)以實(shí)行并行工程,顯著縮短產(chǎn)品上市時(shí)間并提高質(zhì)量;交通行業(yè)可以通過整合和處理相關(guān)數(shù)據(jù),實(shí)現(xiàn)智能交通(管理)與高效物流調(diào)度。

賽迪顧問軟件與信息服務(wù)業(yè)研究中心研究總監(jiān)胡小鵬認(rèn)為,金融行業(yè)中證券、信用卡、電子支付等數(shù)據(jù)規(guī)模龐大,具有使用對(duì)象多樣化、信息可靠性、實(shí)時(shí)性、保密性要求高等特點(diǎn);電信行業(yè)中大數(shù)據(jù)主要體現(xiàn)為電信業(yè)務(wù)系統(tǒng)產(chǎn)業(yè)的計(jì)費(fèi)賬務(wù)數(shù)據(jù)和用戶信息(包括客戶資料、客戶服務(wù)數(shù)據(jù)等),不僅數(shù)據(jù)量大,而且保存時(shí)間長(zhǎng);能源行業(yè)大數(shù)據(jù)主要集中在石油勘探以及電力生產(chǎn)、經(jīng)營(yíng)、管理等數(shù)據(jù),具有數(shù)據(jù)量大、分散、類型復(fù)雜等特點(diǎn)。其中,在金融行業(yè),利用大數(shù)據(jù)的挖掘和分析改善用戶體驗(yàn)、監(jiān)督欺詐行為、驗(yàn)證合規(guī)性、服務(wù)創(chuàng)新等,從而助力金融智能決策,提升競(jìng)爭(zhēng)力;而對(duì)于電力行業(yè),大數(shù)據(jù)分析有利于電網(wǎng)安全高效運(yùn)行(安全檢測(cè)與控制、災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和負(fù)荷預(yù)測(cè))、電力營(yíng)銷(用戶用電行為分析)、集團(tuán)集中管控與精細(xì)化管理等。

大數(shù)據(jù)這場(chǎng)盛宴上,哪個(gè)行業(yè)也不愿意沒有一席之地。

誰(shuí)能站出來(lái)?

大數(shù)據(jù)的熱度可以由英特爾、IBM、EMC、惠普等廠商紛紛推出面向大數(shù)據(jù)的一體化產(chǎn)品和解決方案直接反映出來(lái)。

然而,一個(gè)不能逃避的現(xiàn)實(shí)是,雖然越來(lái)越多的行業(yè)用戶嘗試應(yīng)用大數(shù)據(jù)的解決方案,但是大多數(shù)行業(yè)用戶對(duì)于大數(shù)據(jù)的認(rèn)知仍然比較有限。面對(duì)林林總總的不同廠商提供的大數(shù)據(jù)解決方案,用戶分不清這些解決方案的差異在哪里,也就不會(huì)真正了解哪種解決方案適合自己。

有用戶反映,大數(shù)據(jù)解決方案容易給人的錯(cuò)覺是該解決方案就是把數(shù)據(jù)分布存儲(chǔ),再并行處理。即使采用國(guó)外廠商的工具,這些工具成熟度不是特別高,導(dǎo)致解決實(shí)際問題的時(shí)間過長(zhǎng)。

英特爾相關(guān)專家表示,從總體上看,中國(guó)大數(shù)據(jù)市場(chǎng)發(fā)展迅速,特征明顯,相關(guān)技術(shù)和應(yīng)用可改進(jìn)和提升的空間巨大。而且大數(shù)據(jù)要落地,必須實(shí)現(xiàn)包括芯片商、軟件企業(yè)等在內(nèi)的IT基礎(chǔ)設(shè)施與服務(wù)層平臺(tái)的開放。

英特爾在硬件上的領(lǐng)先無(wú)需多言。在軟件層面,考慮到Hadoop的開源特性,很多廠商都有機(jī)會(huì)在Hadoop的基礎(chǔ)上推出產(chǎn)品,但行業(yè)解決方案提供商面臨的一個(gè)苦惱是,他們不得不進(jìn)行底層開發(fā)。實(shí)際上,底層解決方案是有很多共性的。對(duì)行業(yè)解決方案提供商來(lái)說(shuō),如果有一個(gè)由可靠廠商優(yōu)化過的平臺(tái)再好不過了。利用這個(gè)平臺(tái),行業(yè)解決方案提供商可以拋開重復(fù)的、無(wú)意義的勞動(dòng),將注意力和精力更加集中在行業(yè)特點(diǎn)上,進(jìn)而開發(fā)出滿足行業(yè)所需的實(shí)打?qū)嵉男袠I(yè)解決方案。在這種情況下,英特爾適時(shí)地推出了英特爾Hadoop發(fā)行版,打造一個(gè)優(yōu)秀的、高價(jià)值的底層平臺(tái)。

對(duì)于如何從大數(shù)據(jù)中發(fā)掘價(jià)值,英特爾指出,這需要在IT基礎(chǔ)設(shè)施與服務(wù)層、數(shù)據(jù)組織與管理層、數(shù)據(jù)分析與發(fā)現(xiàn)層、決策支持與IT服務(wù)層全面引入新的技術(shù),特別是在堪稱大數(shù)據(jù)應(yīng)用“載體”的IT基礎(chǔ)設(shè)施與服務(wù)層,采用基于開放架構(gòu)的平臺(tái)將是最佳選擇。

O‘Reilly Strata和Open Source Convention大會(huì)委員會(huì)主席Edd Dumbill曾指出,使大數(shù)據(jù)真正變得強(qiáng)大的方式之一就是讓上層程序員可以將精力放在數(shù)據(jù)而非底層Hadoop設(shè)施的抽象特征上。他們編寫更簡(jiǎn)短的程序,能夠更清晰地表達(dá)出對(duì)數(shù)據(jù)所做的處理。這些將有助于為非程序員創(chuàng)建更好的工具。

延伸到企業(yè)層面,“行業(yè)解決方案提供商需要穩(wěn)定性和可用性都足夠好的平臺(tái)。在這樣的平臺(tái)上,行業(yè)解決方案提供商可以從不必要的重復(fù)性勞動(dòng)中解放出來(lái),從而把更多的精力放在提供差異化特色方案和服務(wù)上。”英特爾亞太研發(fā)有限公司總經(jīng)理、英特爾軟件與服務(wù)事業(yè)部中國(guó)區(qū)總經(jīng)理何京翔的看法類似。進(jìn)而,他解讀了英特爾Hadoop發(fā)行版的優(yōu)勢(shì):“英特爾Hadoop發(fā)行版的優(yōu)勢(shì)在于:處理接近于實(shí)時(shí);能在英特爾平臺(tái)上實(shí)現(xiàn)最優(yōu)化的性能,比非英特爾發(fā)行版有成倍的增長(zhǎng);通過和電信、智能城市、醫(yī)療等行業(yè)客戶的合作,英特爾Hadoop還做了更進(jìn)一步的優(yōu)化。”

除了提供平臺(tái),英特爾(中國(guó))行業(yè)合作與解決方案部中國(guó)區(qū)總監(jiān)凌琦強(qiáng)調(diào),英特爾還會(huì)把大數(shù)據(jù)解決方案的研究和服務(wù)作為投資部門的重點(diǎn)。英特爾的風(fēng)險(xiǎn)投資部門也對(duì)大數(shù)據(jù)中所涉及的關(guān)鍵平臺(tái)、關(guān)鍵應(yīng)用、提供商,給予關(guān)注。

行業(yè)側(cè)重點(diǎn)

英特爾硬件平臺(tái)的特點(diǎn)讓其可以用“通吃”來(lái)形容,行業(yè)特色則由軟件來(lái)體現(xiàn)。

篇3

大掌控、大智匯、大洞察

在大數(shù)據(jù)成為流行詞之前,微軟便已著手于大數(shù)據(jù)的應(yīng)用與研發(fā),例如微軟Bing的高質(zhì)量搜索結(jié)果,便是通過分析超過100PB的數(shù)據(jù)得到的。微軟大數(shù)據(jù)解決方案的目標(biāo),是讓所有用戶都能獲得來(lái)自任何數(shù)據(jù)有價(jià)值的洞察力。

微軟大中華區(qū)副總裁兼市場(chǎng)戰(zhàn)略部副總經(jīng)理、大中華區(qū)首席云戰(zhàn)略官謝恩偉介紹,為了實(shí)現(xiàn)這一目標(biāo),微軟為大數(shù)據(jù)解決方案制定了全面的戰(zhàn)略——大掌控、大智匯、大洞察。

大掌控,即“支持所有數(shù)據(jù)類型的現(xiàn)代化的管理層”。微軟大數(shù)據(jù)解決方案的數(shù)據(jù)管理平臺(tái)可以無(wú)縫地存儲(chǔ)和處理包括結(jié)構(gòu)化、非結(jié)構(gòu)化和實(shí)時(shí)數(shù)據(jù)在內(nèi)的所有類型的數(shù)據(jù)。微軟推出的HDInsight是一種適合企業(yè)使用的、基于HDP的Hadoop服務(wù),它將Windows的簡(jiǎn)易性和可管理性帶給Hadoop,提供了結(jié)合Hadoop的擴(kuò)展平臺(tái),并為大數(shù)據(jù)提供了靈活且可擴(kuò)展的云。

大智匯,即“搜索并結(jié)合廣泛數(shù)據(jù),進(jìn)行先進(jìn)分析與精煉,從而提高數(shù)據(jù)價(jià)值的富集層”。微軟大數(shù)據(jù)解決方案,通過將數(shù)據(jù)和模型與公開的數(shù)據(jù)服務(wù)相結(jié)合,實(shí)現(xiàn)了突破性的數(shù)據(jù)發(fā)現(xiàn),例如自動(dòng)發(fā)現(xiàn)與共享防火墻外部的和第三方的數(shù)據(jù)源等。

大洞察,即“用戶熟悉的工具可為用戶提供具有直觀洞察力的洞悉層”。微軟大數(shù)據(jù)解決方案可以使客戶通過熟悉的由Hive add-in for Excel生成的Excel界面,從Hadoop功能中獲取有價(jià)值的洞察力,也可經(jīng)由企業(yè)熟悉的BI工具,如SQL Server 分析服務(wù)、PowerPivot和通過Hive Open Database Connectivity 驅(qū)動(dòng)生成的Power View來(lái)分析Hadoop中的非結(jié)構(gòu)化數(shù)據(jù)。

數(shù)據(jù)分析結(jié)果要“傻瓜化”

“我們要將挖掘與分析的結(jié)果直觀呈現(xiàn),轉(zhuǎn)換為用戶真正需要的有價(jià)值的洞察力。” 微軟全球高級(jí)副總裁、大中華區(qū)董事長(zhǎng)兼首席執(zhí)行官賀樂賦說(shuō)。

篇4

移動(dòng)設(shè)備爆炸帶來(lái)變革機(jī)會(huì)

云計(jì)算會(huì)吸引更多人上網(wǎng),接入更多設(shè)備,從而產(chǎn)生更多海量數(shù)據(jù)——這個(gè)即將出現(xiàn)的循環(huán)將帶來(lái)巨大的機(jī)會(huì)。

《數(shù)字商業(yè)時(shí)代》:云計(jì)算的出現(xiàn)讓全世界所有信息和通信技術(shù)覆蓋的地方,都試圖通過技術(shù)來(lái)生成一個(gè)數(shù)字化的投影。這種更徹底的數(shù)字化浪潮將為商業(yè)和經(jīng)濟(jì)帶來(lái)怎樣的影響?

柏安娜:云計(jì)算從提出到取得飛速發(fā)展是最近五年的事,它在面向消費(fèi)者和企業(yè)的相關(guān)服務(wù)及應(yīng)用的數(shù)量都在快速增加。云計(jì)算模式很有吸引力,它可以在低運(yùn)營(yíng)和低擁有成本的基礎(chǔ)上進(jìn)行大規(guī)模的擴(kuò)展,而且它具有按需提供服務(wù)的能力,因?yàn)樗幕A(chǔ)設(shè)施是共享的。可以看到,中國(guó)和美國(guó)的云建設(shè)都在飛速發(fā)展。這就像一個(gè)虛擬的循環(huán),隨著越來(lái)越多的人上網(wǎng)——目前有23億人上網(wǎng),他們會(huì)購(gòu)買更多設(shè)備。這些設(shè)備與數(shù)據(jù)中心連接,需要建設(shè)云基礎(chǔ)設(shè)施來(lái)支持這些設(shè)備。這會(huì)推動(dòng)新服務(wù)和解決方案的創(chuàng)新,從而吸引更多人上網(wǎng)。這些推動(dòng)了云計(jì)算的發(fā)展,并推動(dòng)相關(guān)服務(wù)的發(fā)展。在這個(gè)令人驚嘆的循環(huán)中,隨之帶來(lái)的是我們從未想過的新式服務(wù)和解決方案。就像你所說(shuō)的,我們現(xiàn)在真正處于數(shù)字創(chuàng)新時(shí)代,新服務(wù)在線上不停地涌現(xiàn),因?yàn)槲覀兡軌蛟谠浦羞M(jìn)行新功能的快速部署。

《數(shù)字商業(yè)時(shí)代》:與這種數(shù)字化浪潮最為匹配的技術(shù),似乎就是大數(shù)據(jù)分析技術(shù),現(xiàn)在和未來(lái)一段時(shí)間內(nèi),有哪些因大數(shù)據(jù)技術(shù)而生的商業(yè)模式值得人們關(guān)注?

柏安娜:一直有很多企業(yè)數(shù)據(jù),但從來(lái)沒有分析和利用這些數(shù)據(jù)的高效方式。這種情況下,數(shù)據(jù)就沒有發(fā)揮作用。現(xiàn)在圍繞大數(shù)據(jù)有很多行業(yè)創(chuàng)新。一個(gè)是計(jì)算成本繼續(xù)增加,例如橫向擴(kuò)展存儲(chǔ)等。一個(gè)重大成本是這些數(shù)據(jù)的存儲(chǔ)成本,傳統(tǒng)存儲(chǔ)方式太過昂貴。因此,你看到存儲(chǔ)創(chuàng)新,基于英特爾平臺(tái)的橫向擴(kuò)展存儲(chǔ)。然后是圍繞開源數(shù)據(jù)分析解決方案的大量創(chuàng)新。Hadoop是個(gè)非常好的開源框架,讓你能夠提取所有這些數(shù)據(jù),高效地存儲(chǔ)并實(shí)時(shí)分析。計(jì)算存儲(chǔ)平臺(tái)和分析解決方案相結(jié)合,讓企業(yè)和消費(fèi)者都能看到重大數(shù)據(jù)。有個(gè)很好的例子,中國(guó)政府要求電信運(yùn)營(yíng)商為消費(fèi)者提供90天的交易記錄,讓消費(fèi)者能夠上網(wǎng)了解過去90天的所有消費(fèi)情況,這是一個(gè)重大的大數(shù)據(jù)問題,涉及的數(shù)據(jù)量也非常巨大。我們與電信運(yùn)營(yíng)商合作,利用Hadoop向他們提供一個(gè)穩(wěn)定、優(yōu)化的Hadoop平臺(tái)以分析和報(bào)告這些信息,從而滿足政府的監(jiān)管要求。我們目前是Hadoop框架的分銷商,我們現(xiàn)在所做的是以前從未做過的事情。

數(shù)據(jù)就是價(jià)值

大數(shù)據(jù)時(shí)代,IT將不再是成本,而成為價(jià)值。

《數(shù)字商業(yè)時(shí)代》:有跡象表明在云計(jì)算與數(shù)據(jù)的時(shí)代它將開始主導(dǎo)企業(yè)業(yè)務(wù)的發(fā)展甚至是變成一個(gè)核心業(yè)務(wù),簡(jiǎn)而言之就是變成企業(yè)的盈利中心,你對(duì)這一趨勢(shì)有何看法?

篇5

尤其是隨著社交網(wǎng)絡(luò)、電子商務(wù)以及物聯(lián)網(wǎng)的發(fā)展,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并存,無(wú)論是數(shù)據(jù)的類型、來(lái)源還是數(shù)量等方面,都已十分復(fù)雜。而依靠傳統(tǒng)的IT技術(shù),已經(jīng)很難對(duì)這些海量數(shù)據(jù)進(jìn)行高效的分析。因此,是否能夠找到一套涵蓋業(yè)務(wù)、技術(shù)和IT基礎(chǔ)架構(gòu)的全面的大數(shù)據(jù)解決方案,就成為IT服務(wù)商決勝大數(shù)據(jù)市場(chǎng)的關(guān)鍵因素之一。

而這也正是榮之聯(lián)公司與Alpine公司合作,共同拓展國(guó)內(nèi)大數(shù)據(jù)市場(chǎng)的重要原因。“Alpine公司在大數(shù)據(jù)處理方面有著很多創(chuàng)新的技術(shù)和面向各個(gè)行業(yè)的解決方案,而這些可以幫助我們很好的解決國(guó)內(nèi)行業(yè)用戶所面臨的大數(shù)據(jù)問題。”王東輝說(shuō)。

其實(shí),對(duì)于大數(shù)據(jù),榮之聯(lián)公司并不陌生。“過去幾年,我們幫助華大基因等企業(yè)建設(shè)了巨大的數(shù)據(jù)庫(kù),計(jì)算量超過200萬(wàn)億次,我們的生物云也馬上要,數(shù)據(jù)量將會(huì)更大。而如何在生物行業(yè)中結(jié)合大數(shù)據(jù)分析,也是過去一年多我們一直在討論的問題。”榮之聯(lián)公司總經(jīng)理張彤介紹道。

篇6

譯者:盛楊燕

出版:浙江人民出版社

作者簡(jiǎn)介:

馬克?馮?里吉門納姆

全球頂尖大數(shù)據(jù)影響力人物之一,一站式大數(shù)據(jù)商店Datafloq創(chuàng)始人,荷蘭Data Donderdag大數(shù)據(jù)論壇聯(lián)合發(fā)起人,在大數(shù)據(jù)、區(qū)塊鏈、物聯(lián)網(wǎng)和顛覆性創(chuàng)新方面擁有豐富的經(jīng)驗(yàn)。

據(jù)測(cè)算,我們現(xiàn)在每?jī)商飚a(chǎn)生的數(shù)據(jù),相當(dāng)于人類文明伊始至2003年所a生的數(shù)據(jù)的總和。而且,隨著幾乎所有的一切事物都被數(shù)字化,人們預(yù)計(jì)可用數(shù)據(jù)量將每?jī)赡攴环4髷?shù)據(jù)能讓企業(yè)制定更好的決策,從而提高效率、節(jié)約成本、增加收入。但是許多企業(yè)還沒有認(rèn)識(shí)到它的好處,即便認(rèn)識(shí)到了,也許還不知道如何利用。

大數(shù)據(jù)早已開始改變商業(yè)乃至社會(huì)的運(yùn)作方式,企業(yè),尤其是中小企業(yè),若要避免被時(shí)代甩在后面的命運(yùn),就必須跟上構(gòu)建大數(shù)據(jù)戰(zhàn)略和關(guān)鍵大數(shù)據(jù)能力的浪潮。

任何數(shù)字化的事物皆為數(shù)據(jù)。越來(lái)越多的事物被數(shù)字化,并與互聯(lián)網(wǎng)產(chǎn)生聯(lián)系,這意味著公司正在接收全新領(lǐng)域的數(shù)據(jù)。物聯(lián)網(wǎng)運(yùn)動(dòng)表明,任何產(chǎn)品或設(shè)備都能與互聯(lián)網(wǎng)相連,因此都能提供數(shù)據(jù)。

當(dāng)然,數(shù)據(jù)自身并不具有價(jià)值。真正有價(jià)值的是在數(shù)據(jù)基礎(chǔ)上所做的分析,以及數(shù)據(jù)被轉(zhuǎn)換成的信息,甚至是知識(shí)和智慧。數(shù)據(jù)的價(jià)值在于企業(yè)如何利用數(shù)據(jù)打造一個(gè)以信息為中心的企業(yè),并將企業(yè)的決策制定立足于數(shù)據(jù)分析所釋放的基礎(chǔ)知識(shí)。

大數(shù)據(jù)見者有份――你只需拓寬視野去發(fā)現(xiàn)在哪里能找到它,以及如何分析和使用它。

常有人說(shuō),中小型企業(yè)無(wú)法加入大數(shù)據(jù)運(yùn)動(dòng)或者不能開發(fā)大數(shù)據(jù)戰(zhàn)略,因?yàn)樗麄儞碛械臄?shù)據(jù)太少。然而2012 年,SAP公司的一項(xiàng)研究顯示,接受采訪的中小型企業(yè)高管中,76%將大數(shù)據(jù)看作一個(gè)機(jī)會(huì)。SAP公司負(fù)責(zé)業(yè)務(wù)分析、數(shù)據(jù)庫(kù)和技術(shù)的執(zhí)行副總裁史蒂夫? 盧卡斯曾說(shuō):“每個(gè)公司都應(yīng)該考慮大數(shù)據(jù)戰(zhàn)略,無(wú)論大小。”即便企業(yè)擁有的數(shù)據(jù)較少,也可以開發(fā)大數(shù)據(jù)路線圖,成為以信息為中心的企業(yè)。那么,對(duì)于中小型企業(yè),今后的大數(shù)據(jù)機(jī)會(huì)是什么,應(yīng)如何利用自己的“小數(shù)據(jù)”?

這里所說(shuō)的“小數(shù)據(jù)”并不是IBM 定義的小體量、批處理和結(jié)構(gòu)化的數(shù)據(jù)。相反,小數(shù)據(jù)可以是任何形式的數(shù)據(jù),結(jié)構(gòu)化或非結(jié)構(gòu)化、實(shí)時(shí)處理或批處理均可。小數(shù)據(jù)只表示數(shù)據(jù)量少,即數(shù)吉字節(jié)或上太字節(jié),而達(dá)不到拍字節(jié)。

的確,一些中小型企業(yè)可能沒有很多數(shù)據(jù),但是,即便這樣,它們也有供應(yīng)商或經(jīng)銷商。如果這些公司開始合作和分享數(shù)據(jù),它們的可用數(shù)據(jù)量就會(huì)成倍增長(zhǎng)。我們也看到過這個(gè)過程曾發(fā)生在大型跨國(guó)公司身上,例如,耐克和同行分享它所有供應(yīng)商的數(shù)據(jù),這使得供應(yīng)鏈中的其他公司可以補(bǔ)充和使用該數(shù)據(jù)庫(kù),借此做出更聰明的決策。

當(dāng)中小型企業(yè)開始使用數(shù)據(jù),并將自己的數(shù)據(jù)與供應(yīng)商的數(shù)據(jù)相結(jié)合時(shí),它們就會(huì)突然擁有充足的數(shù)據(jù),這些數(shù)據(jù)可以經(jīng)分析和可視化處理后,用于改進(jìn)決策。它們也可以將已有的少量數(shù)據(jù)與公開數(shù)據(jù)集結(jié)合。開放權(quán)限的公開數(shù)據(jù)集現(xiàn)在已越來(lái)越多,同時(shí),公共平臺(tái)也在不斷增多,這樣,中小型企業(yè)就可以從這些平臺(tái)上免費(fèi)下載或花錢購(gòu)買更多的數(shù)據(jù)集。將個(gè)人數(shù)據(jù)與公開數(shù)據(jù)結(jié)合起來(lái),一方面能增加分析可用的數(shù)據(jù)量;另一方面可以獲得全新的結(jié)果,比如發(fā)現(xiàn)新市場(chǎng)或目標(biāo)群體。

中小型企業(yè)不應(yīng)該只看到公司已經(jīng)擁有和收集的數(shù)據(jù),而應(yīng)該樂于接受收集數(shù)據(jù)的新方式。在這個(gè)問題上,創(chuàng)意是關(guān)鍵,因?yàn)樽罱K只要有傳感器加入進(jìn)來(lái),任何產(chǎn)品都能轉(zhuǎn)化為數(shù)據(jù)。傳感器的成本正日漸降低,在已有產(chǎn)品上安裝傳感器可以傳遞全新的數(shù)據(jù)集,從而獲得意料之外的見解。

大數(shù)據(jù)不僅體現(xiàn)在大體量、高速度上,也體現(xiàn)在多樣性上。大數(shù)據(jù)強(qiáng)大之處就在于能夠?qū)⒎墙Y(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù)集結(jié)合,獲得新的見解。非結(jié)構(gòu)化數(shù)據(jù)有許多來(lái)源,包括社交數(shù)據(jù)、視覺資料、文檔、電子郵件,乃至語(yǔ)音數(shù)據(jù)。將多個(gè)較小的數(shù)據(jù)集結(jié)合與將大型數(shù)據(jù)集結(jié)合相比,它們產(chǎn)生的見解是一樣的。因此,數(shù)吉字節(jié)產(chǎn)生的見解對(duì)中小型企業(yè)的作用,與數(shù)拍字節(jié)或艾字節(jié)數(shù)據(jù)產(chǎn)生的見解對(duì)大型跨國(guó)公司的作用相當(dāng)。

Real Business的杰米?特納曾說(shuō):“由于資源有限……靈活性和敏捷性對(duì)于中小型企業(yè)極為重要。”的確,它們必須找到與它們可用資源相配的解決方案。這些企業(yè)可以使用由較小的也更為靈活的大數(shù)據(jù)創(chuàng)業(yè)公司創(chuàng)建的基于云端的解決方案,而不必選擇IBM、賽仕或惠普開發(fā)的完整大數(shù)據(jù)解決方案。此外,它們可以使用開源工具自行創(chuàng)建大數(shù)據(jù)解決方案。盡管后者仍然需要專業(yè)人員,但是成本已有下降。開源工具是免費(fèi)的(當(dāng)然不提供任何服務(wù)),商用硬件也逐漸變得便宜起來(lái)。

無(wú)疑,大數(shù)據(jù)適用的不僅僅是大型企業(yè),中小型企業(yè)也有很多機(jī)會(huì),能從它們已有的數(shù)據(jù)或新數(shù)據(jù)集中獲得有價(jià)值的見解。實(shí)際上,中小型企業(yè)確實(shí)需要多一點(diǎn)創(chuàng)新來(lái)解決大數(shù)據(jù)難題。它們必須跳出思維定式,發(fā)現(xiàn)企業(yè)內(nèi)部和外部的數(shù)據(jù)機(jī)會(huì)。不過說(shuō)到底,如果大型企業(yè)想充分利用大數(shù)據(jù),這一點(diǎn)同樣適用。

篇7

大數(shù)據(jù)處理之所以困難,是因?yàn)樗袆e于傳統(tǒng)關(guān)系型數(shù)據(jù)。數(shù)據(jù)量大(Volume)、速度生成快(Velocity)、數(shù)據(jù)類型多(Variety)、價(jià)值密度低(Value)是大數(shù)據(jù)的4大特點(diǎn),即“4V”。尤為值得一提的是,大數(shù)據(jù)雖然量大,但與關(guān)系型數(shù)據(jù)相比,其同等數(shù)據(jù)量的經(jīng)濟(jì)價(jià)值要小得多,如果還像傳統(tǒng)數(shù)據(jù)那樣投入就得不償失。

“大數(shù)據(jù)并不適合用傳統(tǒng)數(shù)據(jù)處理技術(shù)進(jìn)行存儲(chǔ)和分析,因而我們需要一種新的技術(shù),而Hadoop正是這樣一種數(shù)據(jù)處理技術(shù)。”Hadoop China發(fā)起人、中科院計(jì)算所查禮博士表示。據(jù)悉,Hadoop是一種開源軟件架構(gòu),能夠自由部署在x86平臺(tái)上,其獨(dú)特的分布式和可擴(kuò)展性都非常適合大數(shù)據(jù)的處理。這幾年Hadoop市場(chǎng)發(fā)展迅猛,且出現(xiàn)很多開源版本,如Cloudera公司的Distribution Including Apache Hadoop是其中頗有影響力的一個(gè)。

篇8

在大數(shù)據(jù)產(chǎn)品方面,曙光已經(jīng)成竹在胸。針對(duì)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),曙光都能提供匹配的存儲(chǔ)解決方案。比如,針對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),曙光的ParaStor就是一個(gè)非常好的存儲(chǔ)平臺(tái)。再比如,曙光利用自己的文件系統(tǒng)對(duì)Hadoop平臺(tái)進(jìn)行了優(yōu)化,可以更好地發(fā)揮Hadoop的優(yōu)勢(shì)。惠潤(rùn)海表示:“當(dāng)前,雖然大數(shù)據(jù)帶來(lái)的直接收入并不如預(yù)期,但是大數(shù)據(jù)市場(chǎng)的前景十分廣闊。”

不趕一體機(jī)的時(shí)髦

在大數(shù)據(jù)市場(chǎng)上,一體機(jī)越來(lái)越流行,曙光卻一直按兵不動(dòng)。“我們一定要透過現(xiàn)象看本質(zhì)。一體機(jī)的核心還是軟件。”惠潤(rùn)海表示,“將相關(guān)硬件拼湊在一起,再加上Hadoop就能構(gòu)成一個(gè)簡(jiǎn)單的一體機(jī),但是這樣的產(chǎn)品會(huì)有競(jìng)爭(zhēng)力嗎?我們只要推出一個(gè)新產(chǎn)品,就希望這個(gè)產(chǎn)品具有一定的競(jìng)爭(zhēng)力,能夠在市場(chǎng)上取得較高的占有率,而不是搞噱頭。”

在大數(shù)據(jù)業(yè)務(wù)方面,曙光的核心競(jìng)爭(zhēng)力主要體現(xiàn)在它有一支強(qiáng)大的技術(shù)服務(wù)團(tuán)隊(duì),可以為用戶提供代碼級(jí)開發(fā)的服務(wù)能力。由于自身的復(fù)雜性以及存在Bug,Hadoop通常不能直接使用,這就需要大數(shù)據(jù)解決方案廠商在Hadoop平臺(tái)上進(jìn)行相關(guān)調(diào)整和優(yōu)化。“由于數(shù)據(jù)種類繁多,數(shù)據(jù)量又大,如何快速將大數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)挖掘系統(tǒng)中是一個(gè)難題。如果廠商沒有過硬的技術(shù)服務(wù)團(tuán)隊(duì),不能根據(jù)數(shù)據(jù)的情況對(duì)解決方案進(jìn)行調(diào)整和優(yōu)化,那么大數(shù)據(jù)應(yīng)用落地就將成為一句空話。大數(shù)據(jù)應(yīng)用之所以難普及,一個(gè)重要的原因就是具有代碼級(jí)開發(fā)能力的專業(yè)技術(shù)人才太少了。”惠潤(rùn)海表示。

在推廣大數(shù)據(jù)解決方案時(shí),曙光并沒有與某一個(gè)應(yīng)用軟件廠商簽定產(chǎn)品捆綁協(xié)議。不過,曙光還是針對(duì)一些主流的應(yīng)用軟件進(jìn)行了方案的優(yōu)化。舉例來(lái)說(shuō),在結(jié)構(gòu)化數(shù)據(jù)處理方面,曙光主要針對(duì)Oracle數(shù)據(jù)庫(kù)進(jìn)行了方案優(yōu)化。曙光利用基礎(chǔ)的硬件,結(jié)合自己的大數(shù)據(jù)挖掘系統(tǒng),可以將Oracle數(shù)據(jù)庫(kù)的查詢速度至少提升50倍,而成本只有傳統(tǒng)的“小型機(jī)+高端存儲(chǔ)”解決方案的十分之一。

存儲(chǔ)服務(wù)器已獲認(rèn)可

篇9

雖然隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)的普及,最早起源于決策支持系統(tǒng)的商業(yè)智能已成為科技企業(yè)爭(zhēng)相布局的領(lǐng)域――提供商業(yè)智能解決方案的著名IT廠商包括微軟、IBM、Oracle、SAP、Informatica、Microstrategy、SAS、Royalsoft等。但是,并非所有的商業(yè)智能都能夠賺到錢。

“商業(yè)智能包括很多的內(nèi)容:數(shù)據(jù)可視化、報(bào)告、操作平臺(tái)等,然而QlikTech關(guān)注其最為重要的一點(diǎn),我們稱為分析發(fā)現(xiàn)(discovery)。”Terry Smagh解釋道。據(jù)悉,QlikTech公司已經(jīng)推出商業(yè)智能軟件QlikView 11.2版本,以及Business Discovery(商業(yè)探索平臺(tái)),“作為一個(gè)內(nèi)嵌式的存儲(chǔ)平臺(tái),對(duì)于大數(shù)據(jù)的分析、分類、標(biāo)簽等都在Discovery平臺(tái)上進(jìn)行。”

作為QlikTech公司的大客戶,海爾公司行銷網(wǎng)絡(luò)覆蓋全中國(guó),而且銷售的產(chǎn)品種類繁多,包括高端的企業(yè)級(jí)產(chǎn)品、低端的消費(fèi)品。“海爾公司產(chǎn)生的數(shù)據(jù)量不僅大,而且分布廣泛,例如他們的零售店、公司本部的數(shù)據(jù)庫(kù)等。”Terry Smagh說(shuō),“但是,海爾最想知道的是怎樣可以分析哪一家分銷店做得好、哪一款產(chǎn)品賣得好,更細(xì)致的就是在什么時(shí)間段這款產(chǎn)品賣得好,這樣它才能高效地組織規(guī)劃和生產(chǎn)。這時(shí),我們就把海爾的各方數(shù)據(jù)放到Discovery平臺(tái)上,分析不同的區(qū)域哪一款產(chǎn)品賣得好,是什么樣的人在買這款產(chǎn)品,以及買這類產(chǎn)品的人同時(shí)也買了哪些關(guān)聯(lián)的產(chǎn)品。”

篇10

對(duì)于企業(yè)和CIO來(lái)說(shuō),如何利用大數(shù)據(jù)技術(shù)來(lái)管理并挖掘其數(shù)據(jù)的商業(yè)價(jià)值,使企業(yè)更迅速的占領(lǐng)市場(chǎng)先機(jī),給客戶帶來(lái)更好的體驗(yàn),是企業(yè)用戶更加強(qiáng)勁的發(fā)展動(dòng)力。

EMC高級(jí)存儲(chǔ)事業(yè)部總裁Amitahb Srivastava表示,從技術(shù)的角度來(lái)看,IT部門將繼續(xù)看到智能的轉(zhuǎn)移,更多的數(shù)據(jù)中心智能會(huì)轉(zhuǎn)移到軟件控制平面中,而軟件控制平面則利用基于Web的技術(shù),訪問作為一個(gè)整體的計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)資源(例如軟件定義的數(shù)據(jù)中心)。隨著數(shù)據(jù)中心尋求更容易的技術(shù)消費(fèi)方式,云計(jì)算模式的原則也將增多,除了效率和敏捷性等,還將包括簡(jiǎn)單性。廠商對(duì)此做出的反應(yīng)是,提供基礎(chǔ)架構(gòu)解決方案,這類解決方案打包整合同類最佳技術(shù),并有可能使物理地點(diǎn)不再重要,而通過中央控制點(diǎn)管理多種多樣的基礎(chǔ)架構(gòu)。

由于越來(lái)越多的機(jī)構(gòu)尋求以更有效的方式保留和利用非結(jié)構(gòu)化數(shù)據(jù),所以對(duì)象存儲(chǔ)系統(tǒng)將迅速增加。要在企業(yè)中使用對(duì)象,具備擴(kuò)展對(duì)象存儲(chǔ)系統(tǒng)的能力將很重要。類似地,對(duì)于用對(duì)象建立應(yīng)用的開發(fā)人員而言,支持基于云的開放接口也將是非常關(guān)鍵的。

投資飆升

企業(yè)在大數(shù)據(jù)領(lǐng)域的投資也在激增。湯森路透的數(shù)據(jù)顯示,2011年,風(fēng)險(xiǎn)投資人給大數(shù)據(jù)相關(guān)的初創(chuàng)公司投資24.7億美元,與2010年的15.3億美元和2009年的11億美元相比,有顯著增長(zhǎng)。

2013年,大數(shù)據(jù)初創(chuàng)公司界將會(huì)看到,僅向市場(chǎng)提供單點(diǎn)式工具而不是集成式解決方案的公司結(jié)果會(huì)很不妙。盡管這類公司能為某些客戶提供價(jià)值,但是隨著市場(chǎng)的成熟,最好的廠商將變得更大、更強(qiáng),而其余的廠商恐怕只能為自己的產(chǎn)品舉行一場(chǎng)大數(shù)據(jù)“庭院拍賣會(huì)”了。

大數(shù)據(jù)幾乎在所有人的心目中都占有一席之地。社交和移動(dòng)技術(shù)相結(jié)合產(chǎn)生的影響、不斷需要增強(qiáng)競(jìng)爭(zhēng)優(yōu)勢(shì)以及無(wú)處不在的分析軟件和服務(wù),都將改變廠商和最終用戶消費(fèi)信息的方式。基礎(chǔ)技術(shù)已經(jīng)有了。Hadoop數(shù)據(jù)生態(tài)系統(tǒng)的出現(xiàn)已經(jīng)使經(jīng)濟(jì)實(shí)惠的存儲(chǔ)和PB級(jí)數(shù)據(jù)處理變成了現(xiàn)實(shí)。富有創(chuàng)新精神的企業(yè)正在利用這些技術(shù)開發(fā)一類全新的、實(shí)時(shí)的、以數(shù)據(jù)為主導(dǎo)的應(yīng)用。隨著這一趨勢(shì)的繼續(xù),我們將看到一群新的創(chuàng)新公司,對(duì)于10年前我們無(wú)法想象怎樣解決的問題,他們會(huì)開發(fā)出解決方案。

安全更加重要

從廣義來(lái)講,大數(shù)據(jù)產(chǎn)業(yè)鏈貫穿了數(shù)據(jù)整個(gè)生命周期,從產(chǎn)生、采集到存儲(chǔ),這和整個(gè)鏈條是有點(diǎn)相似的,從狹義來(lái)看,大數(shù)據(jù)的產(chǎn)業(yè)鏈主要涵蓋數(shù)據(jù)的管理分析、呈現(xiàn)和應(yīng)用的環(huán)節(jié)。大數(shù)據(jù)更加容易成為網(wǎng)絡(luò)攻擊的顯著目標(biāo),從近兩年所發(fā)生的一些互聯(lián)網(wǎng)公司的用戶帳號(hào)的信息失竊情況來(lái)看,大數(shù)據(jù)當(dāng)中數(shù)據(jù)量比較大,它的信息量也比較大,所以黑客更加樂意去攻擊,因?yàn)橄鄬?duì)來(lái)說(shuō)成本是比較低的。

大數(shù)據(jù)當(dāng)中加大了隱私泄漏的風(fēng)險(xiǎn),企業(yè)在數(shù)據(jù)存儲(chǔ)和部署的時(shí)候,有些時(shí)候容易交叉存儲(chǔ),把敏感信息一不小心部署到公開的或者不應(yīng)該部署到服務(wù)器上,更容易加大隱私的泄漏。

大數(shù)據(jù)數(shù)據(jù)量比較大,對(duì)于現(xiàn)在的存儲(chǔ)和目前安全防范措施可能提出新的挑戰(zhàn)。同時(shí),大數(shù)據(jù)分析技術(shù)也容易被黑客利用攻擊當(dāng)中去。

大數(shù)據(jù)可能成為可持續(xù)攻擊的載體,APT是這兩年提的比較多的詞,它有一個(gè)顯著特點(diǎn):病毒代碼非常強(qiáng)大,有些攻擊目標(biāo)病毒很難隱藏其間,對(duì)于龐大的大數(shù)據(jù)來(lái)講,這樣的惡意軟件隱藏在數(shù)據(jù)詞當(dāng)中很難被發(fā)現(xiàn)。所以說(shuō)有可能大數(shù)據(jù)成為高級(jí)的可持續(xù)APT的攻擊載體,這一點(diǎn)可能是需要大家非常注意的。

一位著名的法國(guó)哲學(xué)家說(shuō)過:“萬(wàn)變不離其宗。”這句話也可以用來(lái)反映2013年信息安全技術(shù)趨勢(shì)的很多方面。現(xiàn)在,一種新的網(wǎng)絡(luò)安全模式已經(jīng)就緒。要提供真正的深度防御,采用智能驅(qū)動(dòng)的信息安全模式比以往任何時(shí)候都更有必要。這種新模式將涉及多個(gè)方面,包括使用大數(shù)據(jù)分析方式,為來(lái)自眾多數(shù)據(jù)源的大量數(shù)據(jù)提供背景信息,以及時(shí)產(chǎn)生可作為行動(dòng)依據(jù)的信息。

篇11

由于數(shù)據(jù)體量的激增、結(jié)構(gòu)類型的復(fù)雜、但數(shù)據(jù)的低密度價(jià)值以及處理速度的提升等新特性的出現(xiàn),促使人們對(duì)大數(shù)據(jù)進(jìn)行研究與實(shí)踐。現(xiàn)階段,大數(shù)據(jù)已逐漸滲透到各個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域。在安防領(lǐng)域中,視頻監(jiān)控以其直觀、準(zhǔn)確、及時(shí)和信息內(nèi)容豐富而廣泛應(yīng)用于許多場(chǎng)合,在安防系統(tǒng)中的重要性日益突出,海量的視頻數(shù)據(jù)需要得到有效的處理,迫切需要與大數(shù)據(jù)技術(shù)相融合。大數(shù)據(jù)可以有效促進(jìn)視頻監(jiān)控業(yè)務(wù)的發(fā)展,推動(dòng)視頻監(jiān)控業(yè)務(wù)的展開,兩者之間的融合勢(shì)在必行。

2 大數(shù)據(jù)

在信息技術(shù)中,“大數(shù)據(jù)”是指一些使用目前現(xiàn)有數(shù)據(jù)庫(kù)管理工具或傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型而復(fù)雜的數(shù)據(jù)集。其挑戰(zhàn)包括采集、管理、存儲(chǔ)、搜索、共享、分析和可視化。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),使用高速獲取、發(fā)現(xiàn)和/或分析方法提取的各種各樣數(shù)據(jù)量非常大的數(shù)據(jù)價(jià)值。

3 視頻監(jiān)控?cái)?shù)據(jù)

在視頻監(jiān)控領(lǐng)域,大數(shù)據(jù)的特點(diǎn)可用4個(gè)V來(lái)概括:Volume、Variety、Velocity、Value。

3.1 數(shù)據(jù)體量巨大(Volume)

高清化帶來(lái)單個(gè)監(jiān)控點(diǎn)數(shù)據(jù)量以指數(shù)級(jí)增長(zhǎng),例如單個(gè)1080PIPC30天就會(huì)產(chǎn)生2T數(shù)據(jù);IP化大聯(lián)網(wǎng)后,各平臺(tái)實(shí)現(xiàn)互聯(lián),平安城市網(wǎng)內(nèi)攝像頭數(shù)量達(dá)數(shù)萬(wàn)數(shù)十萬(wàn)級(jí)別,其數(shù)據(jù)量之巨大可想而知。

3.2 數(shù)據(jù)類型繁多(Variety)

視頻監(jiān)控領(lǐng)域的視頻編碼格式包括:H.264、MPEG-4、MJPEG等多樣化的編碼方式。同時(shí)隨著各類物聯(lián)網(wǎng)技術(shù)融入到視頻監(jiān)控業(yè)務(wù),匯聚了包括各種傳感器、IT、CT系統(tǒng)產(chǎn)生的多樣的數(shù)據(jù)。

3.3 處理速度快(Velocity)

視頻數(shù)據(jù)隨時(shí)間快速增長(zhǎng),并以持續(xù)順序到達(dá)。隨著數(shù)據(jù)量的增加,哪怕對(duì)TB級(jí)別的數(shù)據(jù)進(jìn)行視頻內(nèi)容的數(shù)據(jù)分析和檢索,采用串行計(jì)算模式都可能需要花費(fèi)數(shù)小時(shí)的計(jì)算,已遠(yuǎn)遠(yuǎn)不能勝任時(shí)效性的需求。

3.4 價(jià)值密度低(Value),效率要求高

在視頻監(jiān)控業(yè)務(wù)中,價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。一小時(shí)的視頻監(jiān)控內(nèi)容,可能有用的數(shù)據(jù)僅僅只有一兩秒。

4 視頻監(jiān)控大數(shù)據(jù)分析架構(gòu)

結(jié)合視頻監(jiān)控業(yè)務(wù)特點(diǎn),引入Hadoop的架構(gòu),以頂層設(shè)計(jì)的視角來(lái)構(gòu)建面向大數(shù)據(jù)的視頻監(jiān)控架構(gòu)。面向大數(shù)據(jù)視頻監(jiān)控邏輯架構(gòu)包括:

4.1 數(shù)據(jù)源層

包括實(shí)時(shí)數(shù)據(jù)和非實(shí)時(shí)數(shù)據(jù)。實(shí)時(shí)數(shù)據(jù)指IP攝像頭和傳感器產(chǎn)生的實(shí)時(shí)流媒體數(shù)據(jù)。非實(shí)時(shí)數(shù)據(jù)是指從DVR、編碼器、第三方系統(tǒng)導(dǎo)入的媒體數(shù)據(jù)。

4.2 大數(shù)據(jù)存儲(chǔ)層

采用HDFS(Hadoop Distributed File System)和HBase(Hadoop Database)實(shí)現(xiàn)數(shù)據(jù)低成本、高可靠的管理。把采集的流視頻保存在HDFS集群內(nèi),并通過HBase建立訪問的索引。把傳統(tǒng)NVR和專用存儲(chǔ)進(jìn)行重構(gòu),納入到整體的分布式文件系統(tǒng)中。

4.3 大數(shù)據(jù)計(jì)算層

實(shí)現(xiàn)智能分析和數(shù)據(jù)挖掘。通過MapReduce把對(duì)視頻的分析進(jìn)行分解,充分利用閑置資源,把計(jì)算任務(wù)分配給多臺(tái)服務(wù)器進(jìn)行并行計(jì)算分析;另一方面,根據(jù)智能分析產(chǎn)生的視頻元數(shù)據(jù),通過Hive挖掘視頻元數(shù)據(jù)的價(jià)值信息。

4.4 業(yè)務(wù)及管理層

實(shí)現(xiàn)設(shè)備和業(yè)務(wù)管理。基于Zookeeper組成的服務(wù)器集群,可以保證業(yè)務(wù)系統(tǒng)的無(wú)故障運(yùn)營(yíng),基于Ganglia實(shí)現(xiàn)對(duì)攝像頭等設(shè)備的監(jiān)管。

基于大數(shù)據(jù)的視頻架構(gòu),本質(zhì)上是把視頻數(shù)據(jù)作為最有價(jià)值的資產(chǎn),以數(shù)據(jù)作為核心來(lái)構(gòu)建技術(shù)架構(gòu),重點(diǎn)解決海量的視頻數(shù)據(jù)分散和集中式存儲(chǔ)并存、多級(jí)分布等問題,極大提升非結(jié)構(gòu)化視頻數(shù)據(jù)讀寫的效率,為視頻監(jiān)控的快速檢索、智能分析提供端到端的解決方案。

5 視頻監(jiān)控?cái)?shù)據(jù)挖掘技術(shù)

視頻數(shù)據(jù)挖掘的目的是建立底層視頻數(shù)據(jù)到高層語(yǔ)義信息之間的映射關(guān)系,由于這種映射關(guān)系比較復(fù)雜,一般采用多層次的信息提取及映射技術(shù)來(lái)最終實(shí)現(xiàn)數(shù)據(jù)挖掘過程:從底層視頻數(shù)據(jù)中首先提取底層圖像特征信息,然后利用目標(biāo)檢測(cè)、目標(biāo)跟蹤、特征比對(duì)等手段從圖像特征中提取元語(yǔ)義信息,最后將元語(yǔ)義信息融合為高層的語(yǔ)義級(jí)描述信息。主要采用的視頻數(shù)據(jù)挖掘技術(shù)有:視頻濃縮與檢索技術(shù)、視頻圖像信息數(shù)據(jù)庫(kù)等技術(shù)。

視頻濃縮與檢索技術(shù)主要是利用圖像處理、模式識(shí)別、海量數(shù)據(jù)分類存儲(chǔ)以及搜索等技術(shù),對(duì)海量的存儲(chǔ)錄像等原始信息進(jìn)行分析和挖掘,對(duì)于目標(biāo)特征、目標(biāo)行為、目標(biāo)間關(guān)聯(lián)關(guān)系這3大類信息內(nèi)容,形成各種分類的特征信息庫(kù)、元數(shù)據(jù)和索引等,并提供統(tǒng)一接口供外部應(yīng)用進(jìn)行搜索,以期實(shí)現(xiàn)快速關(guān)聯(lián)和定位。

視頻圖像信息庫(kù)建設(shè)和海量數(shù)據(jù)的處理、分析、檢索,是提高效率的有力手段。通過視頻智能分析技術(shù),把海量的視頻數(shù)據(jù)進(jìn)行濃縮,提取特征摘要,減少存儲(chǔ)空間。同時(shí),視頻圖像信息庫(kù)針對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)的多個(gè)副本分布式保存方式,有效節(jié)約存儲(chǔ)空間,使系統(tǒng)架構(gòu)更加穩(wěn)定和可擴(kuò)展,并提供安全的負(fù)載均衡和容錯(cuò)機(jī)制。

6 結(jié)束語(yǔ)

隨著IT新興技術(shù)的興起,視頻監(jiān)控進(jìn)入網(wǎng)絡(luò)化時(shí)代,大數(shù)據(jù)技術(shù)在視頻監(jiān)控領(lǐng)域的廣闊發(fā)展路徑已經(jīng)顯現(xiàn)。如何從海量視頻數(shù)據(jù)中提取有用信息,把大數(shù)據(jù)技術(shù)和視頻監(jiān)控業(yè)務(wù)相互融合,打造大數(shù)據(jù)時(shí)代的視頻監(jiān)控解決方案,無(wú)疑是監(jiān)控系統(tǒng)各個(gè)行業(yè)用戶都迫切需要解決的問題。

參考文獻(xiàn)

[1]陳明.大數(shù)據(jù)概論[M].北京:科學(xué)出版社,2015.

[2]嚴(yán)權(quán)鋒.移動(dòng)視頻監(jiān)控系統(tǒng)中的關(guān)鍵技術(shù)研究[J].無(wú)線電通信技術(shù),2008,34(4):33-35.

作者簡(jiǎn)介

周英鳳(1980-),女。碩士學(xué)位。現(xiàn)為井岡山大學(xué)電子與信息工程學(xué)院講師。研究方向?yàn)榍度胧綀D像處理等。

篇12

工業(yè)化和計(jì)算機(jī)技術(shù)的發(fā)展,使制造系統(tǒng)每天產(chǎn)生的數(shù)據(jù)量不斷增加,整個(gè)制造業(yè)產(chǎn)生的數(shù)據(jù)量遠(yuǎn)高于其他行業(yè)[1]。面對(duì)日益復(fù)雜的制造業(yè)生產(chǎn)系統(tǒng),通過保存其運(yùn)行過程中的中間數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行研究,能夠解決當(dāng)前的系統(tǒng)建模手段無(wú)法解決的問題。傳統(tǒng)的數(shù)據(jù)分析方案一般先將數(shù)據(jù)保存到關(guān)系型數(shù)據(jù)庫(kù)中,然后借助聯(lián)機(jī)分析、處理等手段為決策提供支持[2]。

當(dāng)面對(duì)制造業(yè)的海量數(shù)據(jù)時(shí),可能會(huì)有如下缺陷[3]:

(1)數(shù)據(jù)來(lái)自不同地區(qū)的工作站、傳感器等,而且數(shù)據(jù)格式不統(tǒng)一,既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù),不利于處理;

(2)聯(lián)機(jī)分析處理過程中會(huì)有大量的數(shù)據(jù)移動(dòng)操作,當(dāng)數(shù)據(jù)量達(dá)到PB級(jí)時(shí),大量數(shù)據(jù)移動(dòng)造成的開銷變得難以接受。

因此,有必要研究并實(shí)現(xiàn)一個(gè)能夠合并存儲(chǔ)異構(gòu)數(shù)據(jù)、并且可以完成基于大數(shù)據(jù)的CIMS數(shù)據(jù)分析處理的平臺(tái)。本文將Hadoop大數(shù)據(jù)技術(shù)引入到CIMS海量工業(yè)數(shù)據(jù)的監(jiān)測(cè)和分析中。

二、研究現(xiàn)狀

范劍青[4]闡述了大數(shù)據(jù)獨(dú)有的特點(diǎn),說(shuō)明大數(shù)據(jù)提供的海量數(shù)據(jù)給統(tǒng)計(jì)、處理以及統(tǒng)計(jì)估算和檢驗(yàn)帶來(lái)的問題。Jiang 等人[5]對(duì)電子商務(wù)網(wǎng)站的大量商品數(shù)據(jù)進(jìn)行分析處理,提出了基于Hadoop的協(xié)同過濾算法。

Duke能源公司模擬大數(shù)據(jù)解決方案,使維護(hù)專家遠(yuǎn)程觀看設(shè)備和記錄異常指數(shù),甚至可以及時(shí)采取糾正操作,但還不能真正實(shí)現(xiàn)大數(shù)據(jù)分析和處理平臺(tái)。通用電氣(GE)于2013年推出其大數(shù)據(jù)分析平臺(tái),用以將云平臺(tái)中的工業(yè)機(jī)器產(chǎn)生的海量數(shù)據(jù)轉(zhuǎn)化為實(shí)時(shí)信息,此平臺(tái)可以認(rèn)為是第一個(gè)能夠真正管理工業(yè)海量數(shù)據(jù)的平臺(tái),但是難以處理來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)。美國(guó)國(guó)家儀器公司和IBM聯(lián)手推出InfoSphereStreams大數(shù)據(jù)解決方案,能夠以很高的數(shù)據(jù)吞吐率分析來(lái)自多個(gè)數(shù)據(jù)源的信息,但其處理帶有一定的數(shù)據(jù)延時(shí),實(shí)時(shí)性不佳。

為解決海量數(shù)據(jù)處理時(shí)的實(shí)時(shí)性問題,本文擬采用開源的Storm流處理技術(shù),并借助類SQL和Piglatin等過程化語(yǔ)言擴(kuò)展,以實(shí)時(shí)監(jiān)控整個(gè)大數(shù)據(jù)平臺(tái)。

三、大數(shù)據(jù)技術(shù)在CIMS監(jiān)測(cè)與分析平臺(tái)中的設(shè)計(jì)

工業(yè)應(yīng)用數(shù)據(jù)在數(shù)據(jù)量上遠(yuǎn)超普通應(yīng)用,其海量數(shù)據(jù)存儲(chǔ)的要求超過了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的存儲(chǔ)能力。另外,工業(yè)應(yīng)用數(shù)據(jù)也由傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)擴(kuò)展到結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)并存,對(duì)這些數(shù)據(jù)格式以及數(shù)據(jù)類型都存在不同的工業(yè)數(shù)據(jù)進(jìn)行采集、分析和處理的方式有別于傳統(tǒng)方式,因此需要對(duì)監(jiān)測(cè)和分析平臺(tái)進(jìn)行設(shè)計(jì),從軟件結(jié)構(gòu)、通信方式以及數(shù)據(jù)存儲(chǔ)方式等各個(gè)方面進(jìn)行分析。

3.1 CIMS海量數(shù)據(jù)監(jiān)測(cè)與分析平臺(tái)的設(shè)計(jì)

在將大數(shù)據(jù)技術(shù)應(yīng)用于CIMS海量數(shù)據(jù)的監(jiān)測(cè)與分析時(shí),海量的工業(yè)數(shù)據(jù)不再存放在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),而是存放到HDFS分布式文件系統(tǒng)上。因此,軟件結(jié)構(gòu)設(shè)計(jì)要與Hadoop的HDFS文件系統(tǒng)相對(duì)應(yīng)。

3.1.1 軟件結(jié)構(gòu)

本文設(shè)計(jì)的CIMS海量工業(yè)數(shù)據(jù)監(jiān)測(cè)和分析平臺(tái)(以下簡(jiǎn)稱“平臺(tái)”)采用Master-slave主從架構(gòu),Hadoop集群的NameNode節(jié)點(diǎn)作為監(jiān)測(cè)和分析平臺(tái)的管理節(jié)點(diǎn),完成數(shù)據(jù)采集、數(shù)據(jù)分析等各功能的功能模塊是工作節(jié)點(diǎn)。管理節(jié)點(diǎn)管理整個(gè)集群的相關(guān)信息,并維護(hù)包括節(jié)點(diǎn)的主機(jī)名、IP地址等機(jī)器狀態(tài)。工作節(jié)點(diǎn)可以根據(jù)工業(yè)應(yīng)用的需求進(jìn)行靈活的配置,也可以動(dòng)態(tài)增加或減少。

平臺(tái)主要分為如下部分[6]:客戶端、消息中間件、數(shù)據(jù)查詢模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)采集模塊以及Hadoop集群。客戶端接收用戶請(qǐng)求,向平臺(tái)發(fā)出任務(wù)請(qǐng)求;數(shù)據(jù)采集模塊、數(shù)據(jù)查詢模塊以及數(shù)據(jù)分析模塊是平臺(tái)的功能組件,分別提供工業(yè)大數(shù)據(jù)分析流程中的對(duì)應(yīng)功能[7]:數(shù)據(jù)采集模塊對(duì)外提供數(shù)據(jù)的訪問接口,其功能是從不同的數(shù)據(jù)源獲取數(shù)據(jù),并將這些數(shù)據(jù)存儲(chǔ)到Hadoop的HDFS文件系統(tǒng)上。

數(shù)據(jù)查詢模塊從HDFS文件系統(tǒng)中查詢數(shù)據(jù)的存儲(chǔ)索引,并返回給數(shù)據(jù)分析模塊;數(shù)據(jù)分析模塊中實(shí)現(xiàn)不同的數(shù)據(jù)分析配置方法,并交由MapReduce框架分布式地實(shí)現(xiàn)數(shù)據(jù)分析任務(wù)。

3.1.2 系統(tǒng)功能模塊

平臺(tái)中監(jiān)測(cè)和分析的數(shù)據(jù)一般都是離散數(shù)據(jù),所以選擇消息中間件作為通信管理模塊,消息中間件實(shí)現(xiàn)平臺(tái)中各個(gè)模塊間的通信。

以功能節(jié)點(diǎn)上線為例,由于管理節(jié)點(diǎn)存儲(chǔ)了所有節(jié)點(diǎn)的狀態(tài)信息,所以為保證整個(gè)集群信息的一致性,功能節(jié)點(diǎn)上線時(shí)需要先向管理節(jié)點(diǎn)注冊(cè)其信息,管理節(jié)點(diǎn)會(huì)向消息中間件訂閱“注冊(cè)”這一主題,消息中間件接收到訂閱請(qǐng)求后會(huì)創(chuàng)建相應(yīng)的隊(duì)列,并持續(xù)監(jiān)聽此隊(duì)列的消息情況。消息隊(duì)列中的消息是以文本格式存在的,本文的消息傳遞方式采用XML。平臺(tái)中的操作請(qǐng)求都會(huì)發(fā)送給任務(wù)管理模塊,由其解析后,再發(fā)送給相應(yīng)的功能模塊執(zhí)行。

數(shù)據(jù)采集模塊從基于HDFS文件系統(tǒng)的Hbase數(shù)據(jù)庫(kù)中獲取來(lái)自客戶端的數(shù)據(jù),由于工業(yè)數(shù)據(jù)的采集并發(fā)量可能比較大,因此要在采集端部署大量數(shù)據(jù)庫(kù);除此之外,ETL工具負(fù)責(zé)將異構(gòu)數(shù)據(jù)源的數(shù)據(jù)抽取處理進(jìn)行數(shù)據(jù)清洗。Hadoop上的數(shù)據(jù)分析模塊能夠完成多維分析,由于MapReduce的具備很強(qiáng)的并行處理能力,因此分析維度的增加并不會(huì)使數(shù)據(jù)分析的開銷顯著增加,這無(wú)疑是傳統(tǒng)的數(shù)據(jù)分析平臺(tái)所無(wú)可比擬的。

3.1.3 數(shù)據(jù)存儲(chǔ)方式

傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)不能很好的支持結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),HDFS分布式文件系統(tǒng)克服了這一缺陷,將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)都以文件形式存放,實(shí)現(xiàn)了廉價(jià)而又可靠數(shù)據(jù)存儲(chǔ)。

工業(yè)數(shù)據(jù)可能來(lái)自多個(gè)不同的數(shù)據(jù)源,平臺(tái)借助中間件屏蔽了它們之間的異構(gòu)性,然后將這些原本異構(gòu)的數(shù)據(jù)存儲(chǔ)到HDFS文件系統(tǒng)中。這種異構(gòu)數(shù)據(jù)存儲(chǔ)方式不需要昂貴的存儲(chǔ)設(shè)備,廉價(jià)的服務(wù)器即可組成可靠的存儲(chǔ)集群;另外,存儲(chǔ)集群節(jié)點(diǎn)同時(shí)還是Hadoop集群的工作節(jié)點(diǎn),提高了數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的利用率[8]。

四、大數(shù)據(jù)技術(shù)在CIMS監(jiān)測(cè)與分析平臺(tái)的性能優(yōu)化

軟件工程思想中,不能只設(shè)計(jì)軟件的結(jié)構(gòu),同時(shí)要對(duì)軟件進(jìn)行不斷優(yōu)化。平臺(tái)集中了多個(gè)數(shù)據(jù)來(lái)源的數(shù)據(jù),因此平臺(tái)間的數(shù)據(jù)傳遞吞吐量比較大;另外,平臺(tái)各個(gè)組件間的網(wǎng)絡(luò)依賴關(guān)系比較復(fù)雜,合理分配網(wǎng)絡(luò)資源對(duì)提升平臺(tái)性能有重要的影響。

系統(tǒng)動(dòng)力學(xué)研究復(fù)雜系統(tǒng)的結(jié)構(gòu)、功能以及動(dòng)態(tài)行為模式,可以利用系統(tǒng)動(dòng)力學(xué)的相關(guān)原理和方法,對(duì)本文設(shè)計(jì)的平臺(tái)進(jìn)行模擬仿真研究。

在進(jìn)行實(shí)際的大數(shù)據(jù)平臺(tái)仿真分析時(shí),為搭建Hadoop集群本文配置4臺(tái)服務(wù)器,其中一臺(tái)作為NameNode,其他服務(wù)器作為DataNode。具體的配置信息如表1所示:

系統(tǒng)動(dòng)力學(xué)分析軟件系統(tǒng)的基本思路是把與系統(tǒng)相關(guān)的網(wǎng)絡(luò)變量轉(zhuǎn)換為因果圖及流圖,因果圖表征了變量間的相互影響關(guān)系,流圖說(shuō)明了變量的反饋積累;然后利用DYNAMO方程描述變量間的關(guān)系。因果圖反應(yīng)了平臺(tái)中的反饋回路的正負(fù)極性,表示出系統(tǒng)元素間基本的相互影響關(guān)系。

基于以上分析,對(duì)本文設(shè)計(jì)的平臺(tái)進(jìn)行系統(tǒng)動(dòng)力學(xué)分析如下:由于平臺(tái)是一個(gè)非線性時(shí)變系統(tǒng),影響其性能的因素不僅包括管理節(jié)點(diǎn)、消息中間件、Hadoop集群等,還包含網(wǎng)絡(luò)帶寬、服務(wù)器配置等客觀因素。根據(jù)系統(tǒng)建模目的,可以知道系統(tǒng)邊界應(yīng)該包括如下因素:用戶請(qǐng)求數(shù)目、數(shù)據(jù)采集模塊采集到的輸入數(shù)據(jù)、消息中間件隊(duì)列中的消息數(shù)量、消息中間件路由消息的延遲、Hadoop集群的性能等。

平臺(tái)的系統(tǒng)邊界確定后,接下來(lái)需要分析系統(tǒng)邊界內(nèi)的元素間的影響關(guān)系,以及它們之間是否有因果關(guān)系。經(jīng)分析可知,用戶請(qǐng)求的增加會(huì)導(dǎo)致消息中間件隊(duì)列中的消息增加,而消息中間件路由消息的延遲降低會(huì)降低系統(tǒng)中消息傳遞的整體時(shí)延。

消息中間件的工作性能和系統(tǒng)各個(gè)模塊的工作時(shí)延組成正反饋回路,說(shuō)明消息中間件和系統(tǒng)模塊是正相關(guān)的,所以平臺(tái)整體性能的提升依賴于消息中間件和系統(tǒng)模塊的合理資源配置。

消息中間件的各種配置參數(shù),比如響應(yīng)速度、吞吐量等參數(shù)對(duì)提升平臺(tái)的分析性能影響很大,在優(yōu)化消息中間件的各種參數(shù)后,比較本文設(shè)計(jì)的基于大數(shù)據(jù)的數(shù)據(jù)分析平臺(tái)和傳統(tǒng)的工業(yè)數(shù)據(jù)平臺(tái)的性能,在同時(shí)對(duì)PB級(jí)別的工業(yè)數(shù)據(jù)進(jìn)行分析時(shí),當(dāng)CPU數(shù)目相同時(shí),響應(yīng)速度的結(jié)果如表2所示:

對(duì)于不同的數(shù)據(jù)級(jí)別,兩種大數(shù)據(jù)平臺(tái)的處理效果如表3所示:

由結(jié)果可知,在處理相同的數(shù)據(jù)量時(shí),在響應(yīng)速度的性能上,本文設(shè)計(jì)的工業(yè)數(shù)據(jù)分析平臺(tái)要優(yōu)于傳統(tǒng)的數(shù)據(jù)分析平臺(tái)。

當(dāng)處理不同的數(shù)據(jù)量時(shí),隨著數(shù)據(jù)量的增加,傳統(tǒng)的大數(shù)據(jù)處理平臺(tái)的處理時(shí)間也呈現(xiàn)顯著增加,而本文設(shè)計(jì)的大數(shù)據(jù)處理平臺(tái)處理時(shí)間是線性的,明顯優(yōu)于傳統(tǒng)大數(shù)據(jù)處理平臺(tái)。

五、總結(jié)與展望

本文首先介紹了Hadoop大數(shù)據(jù)技術(shù),分析了其HDFS文件系統(tǒng)和MapReduce計(jì)算框架;

接下來(lái)對(duì)基于大數(shù)據(jù)技術(shù)的CIMS海量工業(yè)數(shù)據(jù)監(jiān)測(cè)和分析平臺(tái)進(jìn)行設(shè)計(jì),從軟件結(jié)構(gòu)、通信方式以及數(shù)據(jù)存儲(chǔ)方式等各個(gè)方面進(jìn)行了分析。最后利用系統(tǒng)動(dòng)力學(xué)的原理,對(duì)影響平臺(tái)性能的因素進(jìn)行了研究。

與Duke能源公司模擬的大數(shù)據(jù)解決方案相比,本文設(shè)計(jì)的平臺(tái)已經(jīng)能夠采集、分析并處理海量數(shù)據(jù),真正意義上在工業(yè)領(lǐng)域引入了大數(shù)據(jù)技術(shù);而且此平臺(tái)還能夠處理來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),比通用電氣的大數(shù)據(jù)分析平臺(tái)具備一定的優(yōu)勢(shì)。

參 考 文 獻(xiàn)

[1] 韓燕波,趙卓峰.面向大規(guī)模感知數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)流處理方法及關(guān)鍵技術(shù)[J].計(jì)算機(jī)集成制造系統(tǒng).2013,19(3):641-653.

[2] 鄧華鋒,劉云生,肖迎元. 分布式數(shù)據(jù)流處理系統(tǒng)的動(dòng)態(tài)負(fù)載平衡技術(shù)[J]. 計(jì)算機(jī)科學(xué). 2007(07)

[3] 胡茂勝.基于數(shù)據(jù)中心模式的分布式異構(gòu)空間數(shù)據(jù)無(wú)縫集成技術(shù)研究[D].武漢:中國(guó)地質(zhì)大學(xué),2012.

[4] 楊林青,李湛,牟雁超等.面向大規(guī)模數(shù)據(jù)集的并行化Top-k Skyline查詢算法[J].計(jì)算機(jī)科學(xué)與探索.2014, 12(26).

[5] J.Jiang, J. Lu, G. Zhang, and G. Long. Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop. SERVICES, pp. 490 -497, 2011.

篇13

BI是過程不是產(chǎn)品

地處中西部并不發(fā)達(dá)的山西省,山西移動(dòng)卻成為國(guó)內(nèi)第一家構(gòu)建BI系統(tǒng)的電信運(yùn)營(yíng)商。談起當(dāng)時(shí)系統(tǒng)建設(shè)的出發(fā)點(diǎn),王峰認(rèn)為,這還是基于公司對(duì)數(shù)據(jù)、數(shù)據(jù)分析和數(shù)據(jù)挖掘的重要性有著充分的認(rèn)識(shí)。山西移動(dòng)在信息化建設(shè)的過程中,并不看重經(jīng)驗(yàn),看重的是數(shù)據(jù)的價(jià)值,這也成就了公司在決策層面的領(lǐng)先。

對(duì)于當(dāng)初系統(tǒng)建設(shè)的難點(diǎn),王峰認(rèn)為,一個(gè)純硬件平臺(tái)或軟件系統(tǒng)的搭建,不是很困難;困難的是,系統(tǒng)建設(shè)完成之后要有效地推動(dòng)業(yè)務(wù)。與業(yè)務(wù)運(yùn)營(yíng)支撐系統(tǒng)和客服系統(tǒng)建設(shè)完成就必須使用的產(chǎn)品特性不同,經(jīng)營(yíng)分析系統(tǒng)更像推動(dòng)業(yè)務(wù)轉(zhuǎn)化的一個(gè)過程,而不是一個(gè)建設(shè)好就必須使用的產(chǎn)品。正因?yàn)槿绱耍?jīng)營(yíng)分析系統(tǒng)并不處于必要的業(yè)務(wù)流程之內(nèi),業(yè)務(wù)人員可以用也可以不用。這就使系統(tǒng)的推廣并不是一件簡(jiǎn)單的事情。

在經(jīng)營(yíng)分析系統(tǒng)部署初期,移動(dòng)通信市場(chǎng)正處于一個(gè)爆炸式發(fā)展的時(shí)期,市場(chǎng)蛋糕以幾何級(jí)數(shù)增大,這使得經(jīng)營(yíng)分析系統(tǒng)的作用并不是那么明顯。為此,山西移動(dòng)甚至整個(gè)移動(dòng)集團(tuán)內(nèi)部在2002年到2004年有很多關(guān)于經(jīng)營(yíng)分析系統(tǒng)的培訓(xùn),目的就是推動(dòng)系統(tǒng)在業(yè)務(wù)中的使用。

而現(xiàn)在的電信領(lǐng)域,已經(jīng)不是十年前那個(gè)迅速膨大的市場(chǎng)蛋糕了,各種移動(dòng)通信標(biāo)準(zhǔn)的競(jìng)爭(zhēng)、運(yùn)營(yíng)商和終端生產(chǎn)商的聯(lián)合使得競(jìng)爭(zhēng)不斷加劇。以前,即使沒有決策和營(yíng)銷,市場(chǎng)也會(huì)發(fā)展起來(lái),系統(tǒng)可以查驗(yàn)數(shù)據(jù)就可以了。而近些年來(lái)的制度改革特別是去年3G牌照的發(fā)放,使得產(chǎn)品和營(yíng)銷策略的制定越來(lái)越需要精細(xì)化。在如此激烈的競(jìng)爭(zhēng)環(huán)境下,BI系統(tǒng)支撐業(yè)務(wù)發(fā)展、進(jìn)行營(yíng)銷、引導(dǎo)決策的重要作用就凸現(xiàn)了出來(lái)。王峰舉了一個(gè)例子:以前移動(dòng)運(yùn)營(yíng)商可以捆綁銷售來(lái)電顯示服務(wù),現(xiàn)在是不被允許的。這時(shí)就需要系統(tǒng)根據(jù)大量數(shù)據(jù)通過復(fù)雜的運(yùn)算發(fā)現(xiàn)不同的用戶需要來(lái)電顯示服務(wù)的概率有多大,然后再對(duì)目標(biāo)用戶進(jìn)行服務(wù)推送。精確化的用戶和服務(wù)匹配,比廣撒網(wǎng)式的廣告營(yíng)銷效果要好得多,有效地節(jié)約了成本。

大數(shù)據(jù)分析要更精細(xì)化

對(duì)大數(shù)據(jù)時(shí)代的到來(lái),用戶數(shù)量眾多的電信運(yùn)營(yíng)商感覺尤為深刻。山西移動(dòng)每天流入經(jīng)營(yíng)分析系統(tǒng)的數(shù)據(jù)量大約為300GB,龐大的數(shù)據(jù)量帶來(lái)了巨大的潛在價(jià)值和決策能力。

對(duì)于大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析,王峰認(rèn)為,山西移動(dòng)的片區(qū)精細(xì)化管理就已經(jīng)體現(xiàn)了大數(shù)據(jù)分析的特性。面對(duì)北京媒體,王峰以北京為例來(lái)說(shuō)明片區(qū)管理的大數(shù)據(jù)特性。片區(qū)管理是地理緯度上的客戶分塊,例如北京包括東城區(qū)、西城區(qū)、海淀區(qū)等。而每個(gè)區(qū)又可以向下細(xì)分,比如西城區(qū)可以細(xì)化到金融街區(qū),最后細(xì)化到移動(dòng)基站的一個(gè)扇面區(qū)域。如果一個(gè)用戶在昌平入網(wǎng),卻經(jīng)常在金融街區(qū)通話,就要把用戶定位成一個(gè)金融街用戶。每一個(gè)細(xì)化的片區(qū)由一個(gè)片區(qū)經(jīng)理管轄,金融街的片區(qū)經(jīng)理就要對(duì)定義成金融街的客戶進(jìn)行服務(wù),例如問候短信或新產(chǎn)品通知。片區(qū)經(jīng)理不僅要對(duì)現(xiàn)有客戶進(jìn)行服務(wù),還要對(duì)潛在客戶進(jìn)行挖掘。山西移動(dòng)要求片區(qū)經(jīng)理對(duì)自己管轄區(qū)域內(nèi)的每一棟寫字樓的每一家企業(yè)進(jìn)行記錄并錄入片區(qū)化支持系統(tǒng)。根據(jù)掌握的多種數(shù)據(jù),對(duì)用戶進(jìn)行精細(xì)化分類和深度挖掘,進(jìn)而進(jìn)行相關(guān)的營(yíng)銷活動(dòng),這種線上線下的共同合作,體現(xiàn)的正是大數(shù)據(jù)分析的特點(diǎn)。

片區(qū)化支持系統(tǒng)由Teradata公司協(xié)助山西移動(dòng)搭建,目前已經(jīng)完成了兩期。該系統(tǒng)以一年前Teradata提出的地理空間解決方案為基礎(chǔ)架構(gòu)。Teradata的CTO寶立明介紹說(shuō),地理空間解決方案并非專門為電信運(yùn)營(yíng)商打造的技術(shù),只是由于電信運(yùn)營(yíng)商的用戶可以通過手機(jī)定位其所處的位置,這一優(yōu)勢(shì)使電信運(yùn)營(yíng)商成為地理空間解決方案的第一批用戶。而山西移動(dòng)又是這一批用戶中的領(lǐng)先者。

山西移動(dòng)的經(jīng)營(yíng)分析系統(tǒng)作用于營(yíng)銷層面主要包含兩個(gè)核心應(yīng)用。一個(gè)是核心客戶保有。核心客戶是指用戶UP值貢獻(xiàn)高、漫游行為較多,有重要影響的高價(jià)值客戶。如果某個(gè)核心客戶在一段時(shí)間內(nèi)的主叫時(shí)長(zhǎng)出現(xiàn)了顯著的下降,統(tǒng)計(jì)分析部就會(huì)在核心客戶保有的應(yīng)用上發(fā)現(xiàn)這個(gè)用戶,認(rèn)定該核心客戶有發(fā)展為普通客戶的可能,并且把與之相關(guān)的客戶明細(xì)提供給相關(guān)的市場(chǎng)營(yíng)銷部門,由營(yíng)銷部門對(duì)其實(shí)施保有措施。另一個(gè)應(yīng)用是離網(wǎng)用戶關(guān)懷,與核心客戶保有應(yīng)用相比,該應(yīng)用是更針對(duì)離網(wǎng)客戶的預(yù)警。

對(duì)于海量數(shù)據(jù)的保有,山西移動(dòng)的策略是數(shù)據(jù)與應(yīng)用同在。一個(gè)應(yīng)用上線有自己的生命周期,應(yīng)用由哪個(gè)部門提出、應(yīng)用的主要功能、開發(fā)人員、何時(shí)上線、預(yù)計(jì)使用期限等信息都會(huì)被記錄在生命周期管理系統(tǒng)中。當(dāng)應(yīng)用達(dá)到使用期限,根據(jù)實(shí)際效果如果沒有必要進(jìn)行生命周期的延長(zhǎng),應(yīng)用下線時(shí)就將相關(guān)的數(shù)據(jù)評(píng)估為無(wú)效,進(jìn)行清理。

在經(jīng)營(yíng)分析系統(tǒng)上線的近十年時(shí)間中,山西移動(dòng)的數(shù)據(jù)分析和決策進(jìn)程正變得越來(lái)越科學(xué)。雖然在外部用戶層面,客戶很難感知到經(jīng)營(yíng)分析系統(tǒng)的存在,但山西移動(dòng)正通過它進(jìn)行著各種各樣的營(yíng)銷活動(dòng),從而為用戶提供更精確的服務(wù)。而在山西移動(dòng)內(nèi)部,經(jīng)營(yíng)分析系統(tǒng)的內(nèi)部客戶對(duì)數(shù)據(jù)的滿意度得到了非常大的提升,管理層和業(yè)務(wù)部門在決策上獲得了更好的支撐。

未來(lái)屬于將數(shù)據(jù)轉(zhuǎn)化為產(chǎn)品的公司。作為電信運(yùn)營(yíng)商,山西移動(dòng)有著先天的優(yōu)勢(shì)可以掌握海量的有效數(shù)據(jù)。面對(duì)大數(shù)據(jù)時(shí)代的來(lái)臨,多角度深層次的數(shù)據(jù)分析也正在成為山西移動(dòng)統(tǒng)計(jì)分析部門支持決策的重要手段。

鏈接

Teradata通過收購(gòu)應(yīng)對(duì)大數(shù)據(jù)分析