引論:我們為您整理了13篇大數據技術范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。
篇1
“大數據”是從英語“Big Data”一詞翻譯而來的,是當前IT界熱議和追逐的對象,是繼物聯網、云計算技術后世界又一熱議的信息技術,發展迅速。截至2011年年底,全球互聯網總數據存儲量已達100億TB以上,并且以59%以上的年增長率遞增。麥肯錫公司在2011年的報告(Bigdata:the Next FrontierforInnovation)中,對這種密集型數據爆炸的現象稱為“大數據”時代的到來。大數據領域出現的許多新技術,是大數據采集、存儲、處理和呈現的有力武器。
1 大數據概念
大數據概念的前身是海量數據,但兩者有很大的區別。海量數據主要強調了數據量的規模,對其特性并沒有特別關注。而大數據對傳播速率、體積、特征等數據的各種特性進行了描述。目前對大數據最廣泛的定義是:大數據是無法在一定時間內用通常的軟件工具進行收集、分析、管理的大量數據的集合。大數據的特點一般用“4V”概括,即:Volume:數據量大,目前大數據的最小單位一般被認為是10~20TB的量級;Variety:數據類型多,包括了結構化、非結構化和半結構化數據;value:數據的價值密度很低;velocity:數據產生和處理的速度非常快。
2 大數據相關技術
2.1 大數據處理通用技術架構
大數據的基本處理流程與傳統數據處理流程的主要區別在于:由于大數據要處理大量、非結構化的數據,所以在各個處理環節中都可以采用并行處理。目前,MapReduce等分布式處理方式已經成為大數據處理各環節的通用處理方法。
MapReduce分布式方法最先由谷歌設計并實現,包括分布式文件系統GFS、MapReduce分布式編程環境以及分布式大規模數據庫管理系統Bigrable。MapReduce是一套軟件框架,包括Map和Reduce兩個階段,可以進行海量數據分割、任務分解與結果匯總,從而完成海量數據的并行處理。MapReduce的工作原理是先分后合的數據處理方式。Map即“分解”,把海量數據分割成若干部分,分給多臺處理器并行處理;Reduce即“合并”,把各臺處理器處理后的結果進行匯總操作,以得到最終結果。用戶只需要提供自己的Map函數以及Reduce函數就可以在集群上進行大規模的分布式數據處理。MapReduce將處理任務分配到不同的處理節點,因此具有更強的并行處理能力。
2.2 大數據采集
大數據的采集是指利用數據庫等方式接收發自客戶端(Web、App或者傳感器形式等)的數據。大數據采集的主要特點是并發訪問量大,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站的并發訪問量在峰值時達到上百萬,這時傳統的數據采集工具很容易失效。大數據采集方法主要包括:系統日志采集、網絡數據采集、數據庫采集、其他數據采集等四種。
2.3 大數據分享
目前數據分享主要通過數據集市和開放數據平臺等方法實現。開放數據平臺可以提供涵蓋本地服務、娛樂、教育和醫療等方方面面的數據集合,用戶不但可以通過API訪問,還可以很方便地通過SDK集成到移動應用當中。在線數據集市除了提供下載數據的功能外,還為用戶提供上傳和交流數據的場所。數據平臺和數據集市不但吸引有數據需求用戶,還能夠吸引很多數據開發者在平臺上進行開發。
2.4 大數據預處理
數據預處理就是對采集的數據進行清洗、填補、平滑、合并、規格化以及檢查一致性等處理,并對數據的多種屬性進行初步組織,從而為數據的存儲、分析和挖掘做好準備。通常數據預處理包含三個部分:數據清理、數據集成和變換和數據規約。
2.5 大數據存儲及管理
大數據需要行之有效的存儲和管理,否則人們不能處理和利用數據,更不能從數據中得到有用的信息。目前,大數據的存儲和管理技術主要分三類:分布式文件系統、數據倉庫和非關系型數據庫(NoSOL)。
2.6 大數據分析及挖掘
大數據的分析和挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、數據挖掘、統計學、數據庫等技術,高度自動化地分析大數據,做出歸納性的推理,從中挖掘出潛在的模式,從而在大數據中提取有用信息。大數據的分析和挖掘與傳統的數據挖掘比較有兩個特點:一是通常采用并行處理的方式;二是大數據分析對實時處理的要求很高,流處理等實時處理技術受到人們歡迎。常用的方法有:機器學習、數據挖掘、模式識別、統計分析、并行處理。
2.7 大數據檢索
①數據庫實時檢索:在數據倉庫或者NoSOL等大數據存儲平臺上,或者多個不同結構的數據存儲平臺之間快速、實時地查詢和檢索不同結構的數據。②實時搜索引擎:對互聯網上的大量數據和信息進行即時、快速搜索,實現即搜即得的效果。目前各大搜索引擎都在致力于實時搜索的實現。
2.8 大數據可視化
可以提供更為清晰直觀的數據感官,將錯綜復雜的數據和數據之間的關系,通過圖片、映射關系或表格,以簡單、友好、易用的圖形化、智能化的形式呈現給用戶供其分析使用,可通過數據訪問接口或商業智能門戶實現,通過直觀的方式表達出來。可視化與可視分析通過交互可視界面來進行分析、推理和決策;從海量、動態、不確定甚至相互沖突的數據中整合信息,獲取對復雜情景的更深層的理解;可供人們檢驗已有預測,探索未知信息,同時提供快速、可檢驗、易理解.的評估和更有效的交流手段。可視化是人們理解復雜現象,診釋復雜數據的重要手段和途徑。
2.9 大數據應用
①視頻搜索;②內容分析;③理賠分析;④社交網絡分析;⑤社會分析;⑥社交媒體監控。
篇2
近幾年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。2012 年3 月,奧巴馬公布了美國《大數據研究和發展計劃》,標志著大數據已經成為國家戰略,上升為國家意志。從硅谷到北京,大數據的話題傳播迅速。
1 大數據時代
隨著計算機技術全面融入社會生活,經過半個多世紀的發展,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。最先經歷信息爆炸的學科,如天文學和基因學,創造出了“大數據”這個概念。
1.1 大數據時代產生的背景
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!贝笠幠Ia、分享和應用海量數據的時代之所以能夠開啟,源于信息科技的進步、互聯網與云計算技術和物聯網的發展。
(1)信息科技的進步。信息處理、信息存儲和信息傳遞是信息科技的三個主要支撐,存儲設備性價比不斷提升、網絡帶寬的持續增加,為大數據的存儲和傳播提供了物質基礎。
(2)互聯網與云計算技術。互聯網時代,電子商務、社交網絡和移動通信產生了大量結構化和非結構化的數據,以云計算為基礎的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數據存儲下來,并隨時進行分析與計算?;ヂ摼W領域的公司最早重視數據資產的價值,他們從大數據中淘金,并且引領著大數據的發展趨勢。
(3)物聯網的發展。眾所周知,物聯網時代所創造的數據不是互聯網時代所能比擬的,而且物聯網的數據是異構的、多樣性的、非結構和有噪聲的,最顯著的特點是是它的高增長率。大數據是物聯網中的關鍵技術,物聯網對大數據技術的要求更高,它的發展離不開大數據。
1.2 大數據與數據挖掘
Google、Amazon、Facebook、Twitter,這些稱霸全球互聯網的企業,它們的成功都具備一個共同的因素,就是收集分析海量的各種類型的數據,并能夠快速獲取影響未來的信息的能力?!百徺I了此商品的顧客還購買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統了,而創造出這個系統的正是Amazon。Amazon 通過分析商品的購買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數據,并與行為模式相似的其他用戶的歷史數據進行對照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認識這些人”的提示,這種提示可以準確到令人恐怖的程度,而這正是對龐大的數據進行分析而得到的結果。這種以數據分析為核心的技術就是數據挖掘(data mining)。
從技術角度看,數據挖掘是從大量的、復雜的、不規則的、隨機的、模糊的數據中獲取隱含的、人們事先沒有發覺的、有潛在價值的信息和知識的過程。從商業角度來說,數據挖掘是從龐大的數據庫中抽取、轉換、分析一些潛在規律和價值,從中獲取輔助商業決策的關鍵信息和有用知識。大數據概念的提出,將為數據挖掘技術的發展和應用帶來一個很大的機遇。
2 數據挖掘
數據挖掘旨在從大數據中提取隱藏的預測性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據。
2.1 數據挖掘原理
數據挖掘又稱為數據庫中的知識發現(Knowledge Diseoveryin Databases,KDD),是一個從數據庫或數據倉庫中發現并抽取隱含的、明顯未知的、具有潛在用處的信息的過程。數據挖掘一般流程主要包括三個階段:數據準備、數據挖掘、結果解釋和評價。在數據挖掘的處理過程中,數據挖掘分析方法是最為關鍵的。
(1)數據準備。數據準備是從海量數據源得到數據挖掘所用的數據,將數據集成到一起的過程。由于數據收集階段得到的數據可能有一定的污染,即數據可能存在不一致,或有缺失數據、臟數據的存在,因此需通過數據整理,對數據進行清洗及預處理。
(2)數據挖掘。是數據挖掘中最關鍵的一步,使用智能的方法提取數據模式,例如決策樹、分類和聚類、關聯規則和神經網絡等。首先決定要提取什么樣的模型,然后選取相應的算法參數,分析數據從而得到可能形成知識的模式模型。
(3)結果解釋和評價。數據挖掘后的結果需要轉換成用戶能夠理解的規則或模式,并根據其是否對決策問題具有實際意義進行評價。
2.2 數據挖掘技術在營銷中的應用
無差別的大眾媒體營銷已經無法滿足零和的市場環境下的競爭要求。精準營銷是企業現在及未來的發展方向,在精準營銷領域,最常用的數據挖掘分析方法包括分類、聚類和關聯三類。
(1)關聯規則。挖掘關聯規則就是發現存在于大量數據集中的關聯性或相關性,例如空間關聯挖掘出啤酒與尿布效應;時間關聯挖掘出孕嬰用品與家居裝修關系;時間關聯挖掘出調味品、紙巾與化妝品的消費等。
此外,關聯規則發現也可用于序列模式發現。序列模式發現的側重點在于分析數據項集在時間上或序列上的前后(因果)規律,可以看作是一種特定的關聯規則。例如顧客在購買了打印機后在一段時間內是否會購買墨盒。
(2)分類分析。分類是假定數據庫中的每個對象屬于一個預先給定的類,從而將數據庫中的數據分配到給定的類中。它屬于預測性模型,例如在銀行業,事先定義用戶的信用狀況分為兩類:信用好和信用壞,對于一個信用狀態未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構建一個分類模型,決策樹方法著眼于從一組無次序、無規則的客戶數據庫中推理出決策樹表現形式的分類規則。決策樹的非葉子節點均是客戶的一些基本特征,葉子節點是客戶分類標識,由根節點至上而下,到每個葉子節點,就生成了一條規則,由該決策樹可以得到很多規則,構成了一個規則集合,從而進行數據分析。
(3)聚類分析。聚類是將物理或抽象對象的集合進行分組,然后組成為由類似或相似的對象組成的多個分類的分析過程,其目的就是通過相似的方法來收集數據分類。為品牌找客戶,回答品牌“誰來賣”是精準營銷首先要解決的問題,科學細分客戶是解決這一問題的有效手段。聚類可以將目標客戶分成多個類,同一個類中的客戶有很大的相似性,表現在購買行為的高度一致,不同類間的客戶有很大的相異性,表現在購買行為的截然不同。
3 結語
大數據時代背景下“數據成為資產”,數據挖掘技術作為支撐精準營銷的重要手段,將它應用于營銷行業的決策中,不僅拓展了數據挖掘技術的應用范圍,而且大數據時代的數據挖掘技術可以幫助企業獲得突破性回報。
參考文獻
[1]維克托?邁爾―舍恩伯格;肯尼思?庫克耶.大數據時代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.
[2]王偉玲.大數據產業的戰略價值研究與思考.技術經濟與管理研究[J],2015(1).
篇3
關于數據方面的新名詞是層出不窮,云計算、物聯網的概念還沒有完全理解,大數據的概念又頻頻出現在媒體中,特別是今年“兩會”期間,在央視報道中,多次使用大數據進行實時分析。大數據的概念從計算機業界也迅速傳播到各行各業,與我們的日常生活也密切的聯系在一起。不但中國如此,2012年3月,奧巴馬宣布美國政府五大部門投資兩億美元啟動“大數據研究與開發計劃”,【1】大力推動大數據相關的收集、儲存、保留、管理、分析和共享海量數據技術研究,以提高美國的科研、教育與國家安全能力,美國政府以及把“大數據”技術上升到國家安全戰略的高度。其他國家也紛紛加大對大數據研究的資金投入,同時,許多大公司企業也將此技術視作創新前沿。
1 大數據概念與特征
但是,到目前為止,業界關于大數據的概念尚未有統一的定義。最早將大數據應用于IT環境的是著名的咨詢公司麥肯錫,它關于大數據的定義是這樣的:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。另外,被引用較多得到大家認可的還有維基百科的定義:大數據指數量巨大、類型復雜的數據集合,現有的數據庫管理工具或傳統的數據處理應用難以對其進行處理。這些挑戰包括如捕獲、收集、存儲、搜索、共享、傳遞、分析與可視化等。【2】
當前,較為統一的認識是大數據有四個基本特征:數據規模大(Volume),數據種類多(Variety),數據要求處理速度快(Velocity),數據價值密度低(Value),即所謂的四V特性。這些特性使得大數據區別于傳統的數據概念?!?】
首先,數據量龐大是大數據的最主要的特征,大數據的數據規模是以PB、EB、ZB量級為存儲單位的,數據量非常龐大。同時,此類數據還在不斷的加速產生,因此,傳統的數據庫管理技術無法在短時間內完成對數據的處理。第二,數據種類多。與傳統的數據相比,大數據的數據類型種類繁多,包括了結構化數據、半結構化數據和非結構化數據等多種數據類型。傳統的數據庫技術采取關系型數據庫較多,結構單一,而大數據重點關注的是包含大量細節信息的非結構化數據,因此傳統數據庫技術不能適應新的大數據的要求,傳統的數據處理方式也面臨著巨大的挑戰。第三,大數據的產生與存儲是動態的,有的處理結果時效性要求很高,這就要求對數據能夠快速處理,數據處理速度快也是大數據區別數據倉庫的主要因素。數據產生的速度以及快速變化形成的數據流,超越了傳統的信息系統的承載能力。最后,數據價值密度低是大數據關注的非結構化數據的重要屬性。大數據分析是采用原始數據的分析,保留了數據的全貌,因此一個事件的全部數據都會被保存,產生的數據量激增,而有用的信息可能非常少,因此價值密度偏低。
2 大數據可用性的面臨的技術與問題
大數據并不僅僅指其數據量之大,更代表著其潛在的數據價值之大。有研究證明,有效地管理、使用大數據能夠給企業提供更多增強企業生產能力和競爭能力的機會,能夠給企業帶來巨大的潛在商業價值。【4】但不可否認的是,大數據目前也面臨很多負面影響。低質量低密度的數據也可能對決策造成致命性的錯誤。如何把大數據從理論研究到企業應用的轉變,還面臨很多問題與挑戰。
(1)可用性理論體系的建立。大數據的可用性需要完整的理論做支撐,才能解決諸如如何形式化的表示數據可用性、如何評估數據可用性、數據錯誤自動發現和修復依據什么理論、如何管理數據和數據融合、數據安全性采取何種策略和理論等一系列問題。因此,要建立完整可用性理論體系,構建統一的模型,為大數據的進一步應用提供堅實的理論基礎。
(2)高質量數據的獲取的能力。大數據技術最基礎的對象就是數據,是一切應用和分析決策的前提。因此,獲取高質量數據是確保信息可用性的重要因素之一。隨著互聯網的數據不斷增大,物聯網的興起以及復雜物理信息系統的應用,大數據的來源也多種多樣,數據模型千差萬別,質量也參差不齊,這就為加工整合數據帶來非常大的困難。
大數據是對事物最原始的全貌記錄,數據量規模很大,但是其中有用的信息非常少,因此,對于處理數據來說,數據并不是越多越好。如何提高數據中的有效數據是非常關鍵的。大量的數據中如果僅僅包含了少量的錯誤數據,對分析結果可能不會造成很大的影響。但是如果對錯誤數據沒有有效控制的話,大量錯誤數據的涌入很可能會得到完全錯誤的結果。
因此,獲取高質量數據的能力是大數據能否進行實用的關鍵因素,否則只會在浪費人力物力后獲得完全無效甚至錯誤的結果。但是目前還缺乏系統的研究,對于出現的問題還沒有很好的解決方案,在獲取數據方面的工作任重而道遠。
篇4
1 概述
隨著產生數據的設備使用數量越來越多,使用范圍越來越廣,大量的非結構化數據每秒鐘都被產生出來,比如視頻、照片、社交媒體評論以及網站評述等數據都是這樣的數據。這意味著越來越多的數據不能被存儲在預定義的結構化表格中,相反,這類數據往往由形式自由的文本、日期、數字適時組成。某些數據源生成速度非??欤踔羴聿患胺治鼍瓦M行存儲。這也是無法單純依靠傳統數據管理和分析工具來存儲、管理、處理和分析大數據的原因。為了從這些大數據中獲取和分析特定的需求信息,就需要對大數據的技術進行研究。
2 大數據介紹
大數據近幾年來新出現的一個名詞,它相比傳統的數據描述,有自己的四個特性[1],分別是:Volume(大的數據量)、Velocity(輸入和處理速度快)、Variety(數據多種多樣)、Veracity(真實有價值)。因此,大數據需要新的處理模式來取代傳統的數據處理方法,它同時包含數據量巨大和快速的處理速度兩層含義。
云計算是一種大數據的處理技術平臺,綜合了各種資源之后提供一些虛擬技術服務。這樣的方式可以很大程度降低用戶維護、處理、使用數據以及其他計算資源的成本。數據單位已不再是用GB,TB能夠滿足的描述需要,而是步入了PB級別的時代。傳統的數據存儲方式已經不能滿足這些數據的存儲和處理,只有依托云平臺存儲技術的方式來解決這個當前已經面臨的問題。
3 大數據技術分析
3.1 大數據的處理方式
大數據的處理方式大致分為數據流處理方式和批量數據處理方式兩種。
數據流處理的方式適合用于對實時性要求比較高的場合之中。并不需要等待所有的數據都有了之后再進行處理,而是有一點數據就處理一點,更多地要求機器的處理器有較快速的性能以及擁有比較大的主存儲器容量,對輔助存儲器的要求反而不高。
批量數據處理方式是對整個要處理的數據進行切割劃分成小的數據塊,之后對其進行處理。重點在于把大化小——把劃分的小塊數據形成小任務分別單獨進行處理,并且形成小任務的過程中不時進行數據傳輸之后計算,而是將計算方法(通常是計算函數——映射并化簡)作用到這些數據塊最終得到結果。
3.2 大數據技術模型
大數據的技術模型目前主要研究的是圖1的模型。
圖1是一種描述復雜關系的數據結構,它并不像線性鏈表和樹那樣看上去結構簡單和清晰,但它能描述一些更為錯綜復雜的層次和關系。對實際關系的描述使用范圍和頻率都更多更廣。采用一些數學方法和算法工具來對圖進行處理,是處理大數據的一個前提。存儲圖結構數據的時候一般選用鄰接矩陣或鄰接表的方式來進行,這在數據結構這門學科里面已經有所研究。圖的兩個頂點之間用邊進行連接,這個可以看作網絡結構里面,相鄰兩個節點之間有傳輸消息的通路。一個復雜的網絡結構對應出來的也是復雜的圖結構,處理的時候需要將該圖進行分割處理,采用分而治之的辦法來解決問題。
如果節點A和B之間的所有通路都被C阻塞了,就意味著C有向分割了A和B,即A和B在給定條件C時獨立。
這種方法就降低了條件限制的復雜性,有效地將問題利用數學模型求解出來。
3.3 大數據處理系統應用
開源是現在很多大型國際IT公司倡導的服務方式,這個理念擁有很多擁護者。雖然它最初的出現和商業搭不上邊,但已為具有現展理念的國際大型商業IT公司所接受,他們所認同的是面向服務的開源,進而出現了新的經濟增長方式。
目前有一些較為前沿的公司已經研發開源的大數據處理技術,比較典型的是推特研發的Storm系統和谷歌研發的MapReduce模型。前者是以數據流方式進行數據處理而后者是采用批量數據的處理方式。
MapReduce是目前用得比較多的方法,其核心思想就是兩個步驟:Map和Reduce。Map過程就是一個映射過程,完成這一步之后再對其進行Reduce過程處理,也即是精簡的過程。最后將處理的最終結果進行輸出。
3.4 大數據技術發展趨勢
傳統的關系型數據庫和新興的數據處理技術目前是并存狀態,它們之間將來會相互學習,相互滲透,相互影響,互相融合,最終形成對數據分析有利的格局,能夠更好地為大數據處理服務,從龐大巨量的數據當中找到需要的數據并對之進行處理、分析乃至決策。
4 結束語
大數據是當今越來越多的數據源每分每秒不斷產生新數據后的一個產物,對他它的研究和利用是緊迫的事情。目前研究的一些大數據技術都有其優缺點,技術種類也不是很多,還處于一個上升的階段。研究大數據的處理、分析、利用技術和方法,對今后這一分支的發展起到關鍵性的作用,對后來的科技產品乃至我們的日常生活都會帶來巨大的影響。
參考文獻:
[1] Grobelink M.Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society[R/OL].2012.10.02. http:///eswc2012_grobelink_big_data/
[2] 戎翔,李玲娟.基于MapReduce的頻繁項集挖掘方法[J].西安郵電學院學報,2011(4).
篇5
“大數據”的生產與運用是一個“人人為我,我為人人”的互通、共享、多贏過程。檢察機關在整合應用其他政府機構、企事業單位、社會組織提供的信息數據服務司法辦案的同時,也在辦案中生產“大數據”。這些數據既可作為檢察機關校準后續辦案的內部參照系,同時部分數據亦可對外輸出服務社會。前者如在刑事檢察中整合同類案件形成案例數據庫,用以提升公訴量刑精準度,后者以當前檢察機關向社會公眾提供的行賄犯罪檔案查詢服務最為典型。顯然作為數據運用者,檢察機關“大數據”包括檢察工作所涉及的一切有用信息數據。其中,相當一部分數據并非檢察機關在司法辦案中產出的“原生”數據。如職務犯罪偵查辦案中反貪部門調用房產、銀行、公安行政機關的信息數據庫進行初查;相關業務部門在審查、出庭公訴、訴訟監督、參與社會治理等方面運用信息化、數字化新技術等。
“檢察大數據”與上述檢察機關運用的“大數據”有本質區別?!皺z察大數據”專指檢察機關司法辦案大數據,是檢察機關在司法辦案中的“原生”案件信息數據,其最核心的特征是相關數據是關于檢察業務辦案的信息數據。目前,在檢察司法辦案大數據的擷取、管理、應用方面,最高人民檢察院推進的“統一業務應用系統”是國家層面“檢察大數據”生成的最重要平臺;同時各地檢察機關亦多有創新,如北京市人民檢察院開發應用的“檢立方”系統、上海市閔行區人民檢察院試運行的“檢察官執法辦案全程監控考核系統”、浦東新區人民檢察院試運行的“綜合管理信息平臺一期”、湖北省人民檢察院研發的“互聯網檢務辦公室”,南京市鼓樓區人民檢察院研發的辦公辦案軟件“移動檢務通”等。上述系統平臺通過案件管理部門案件受理信息輸入及辦案人員在辦案過程中的流程信息輸入,生成、存儲、管理與檢察機關司法辦案相關的各項信息數據,并通過對大數據不同子系統數據的深度分析,進而服務領導決策與司法辦案。
當前檢察工作中的大數據運用
無論是檢察機關的“原生”大數據,還是第三方生成的關聯大數據,在當前的檢察辦案與司法管理工作中都有著極為廣闊的應用前景。作為檢察機關大數據的核心內容,“原生”大數據即“檢察大數據”,在輔助檢察辦案、服務司法管理中發揮著極為重要的作用。
在“檢察大數據”輔助檢察辦案方面,目前較為典型的如貴州省人民檢察機關的“大數據司法辦案輔助系統”。司法辦案輔助系統運用“實體識別”“數學建?!钡却髷祿夹g,通過繪制“犯罪構成知識”圖譜,建立各罪名案件數學模型的司法辦案輔助系統,為辦案提供案件信息智能采集、“要素―證據”智能關聯和風險預警、證據材料甄別,以及類案推送、量刑建議計算等智能化服務。目前,貴州省人民檢察機關的大數據司法辦案輔助系統已進行了三次迭代升級,正在貴州全省4個市(州)院和31個基層院試點運行。
在“檢察大數據”服務司法管理方面,上海市閔行區人民檢察院的檢察官執法辦案全程監控考核系統非常具有代表性。該院通過對各職能部門受理、立案(項)、辦理的案件以及不依附于自偵、批捕、等主要辦案業務的,有完整流程、審查結論及相關法律文書的訴訟監督、社會治理、維護穩定、預防犯罪等檢察業務進行梳理,對檢察建議、糾正違法等共性的檢察業務指標進行歸并,形成了較為規范的檢察機關司法辦案大數據目錄和工作指標w系。通過對檢察官在執法辦案中產生的“原生”大數據的深度挖掘和研判分析,將案件統計、質量監控、專題研判、績效分析有機融為一體,進而使辦案監督管理者能夠及時準確找出檢察官在辦案中存在的司法不規范問題,有效強化對司法辦案的績效考評與內部監控。
除了重視對“原生”大數據的收集整理與挖掘應用,如何發揮好“他山之石”的作用,在檢察辦案中運用好第三方關聯大數據,也是大數據技術與檢察辦案深度融合的重要內容。除了上述在職務犯罪案件偵查中對房產、銀行、公安行政機關等提供的關聯數據的常規運用外,當前一些地方檢察機關正在進行創新運用第三方大數據方面的積極探索。如江蘇省無錫市錫山區人民檢察院對接社會治理公共服務管理平臺和民情APP,推出檢察民情APP的創新做法。自對接平臺以來,錫山區人民檢察院已查閱近6000條民情信息,從海量數據中了解掌握群眾訴求,立足檢察職能,從中發現老百姓對征地拆遷、環境保護、社會保障等方面的民生需求,聚焦群眾關注的熱點民生問題深入挖掘職務犯罪案件線索、訴訟監督線索、執行監督線索及公益訴訟線索,使第三方大數據真正成為輔助檢察辦案,拓展監督案源的新渠道。
短板
檢察大數據系統的提升點
篇6
大數據概念可以從四個維度去解,即三個V和一個C。三個V分別指的是數據量大(Volume)、數據種類多(Variety)和數據增長速度快(Velocity),最后一個C指的是處理、升級或利用大數據的分析手段比處理結構化數據要復雜的多(Complexity)。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像Map-Reduce一樣的并行計算框架將復雜的計算任務分配到“云”中成百上千的節點。
1.2大數據與云計算
大數據本身就是一個問題集,云計算技術是目前解決大數據問題集最重要最有效的手段。云計算提供了基礎的架構平臺,大數據應用在這個平臺上運行。目前公認為分析大數據集最有效手段的分布式處理技術,也是云計算思想的一種具體體現。
云計算是分布式處理、并行處理和網格計算的發展,或者說是這些計算機科學概念的商業實現。云計算將網絡上分布的計算、存儲、服務構件、網絡軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務, 實現了資源和計算的分布式共享和并行處理,能夠很好地應對當前互聯網數據量高速增長的勢頭。
1.3大數據與Hadoop
Hadoop是一個Apache的開源項目,主要面向存儲和處理成百上千TB直至PB級別的結構化、半結構化或非結構化的大數據。Hadoop提供的Map-Reduce能將大數據問題分解成多個子問題,并將它們分配到成百上千個處理節點之上,再將結果匯集到一個小數據集當中,從而更容易分析得出最后的結果。
Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強的靈活性、允許用戶自己修改代碼等特點,同時能支持海量數據的存儲和計算任務。這些特點讓Hadoop被公認為是新一代的大數據處理平臺。 Hadoop同樣具備出色的大數據集處理能力,在獲取、存儲、管理和分析數據方面遠遠超越傳統的數據庫軟件工具。Hadoop經常在構建大數據解決方案時被用作基礎構架軟件。
二、大數據技術綜述
大數據處理不僅僅是Hadoop,許多特定的數據應用場景是需要實時分析和互動反饋的,這時候就需要利用包括內存檢索、流處理和實時計算等其他技術。而云計算的分布式存儲和計算架構開啟了大數據技術研究的大門,打造健全的大數據生態環境,所有這些技術結合在一起,才是一個完整的大數據處理系統。
2.1分布式計算框架
MapReduce是Google開發的一種簡化的分布式編程模型和高效的任務調度模型,用于大規模數據集(大于1TB)的并行運算,使云計算環境下的編程變得十分簡單。
MapReduce將數據處理任務抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數據的分解操作,Reduce主要完成數據的聚集操作.輸入輸出數據均以〈key,value〉格式存儲.用戶在使用該編程模型時,只需按照自己熟悉的語言實現Map函數和Reduce函數即可,MapReduce算法框架會自動對任務進行劃分以做到并行執行。
Pregel是Google 提出的迭代處理計算框架,它具有高效、可擴展和容錯的特性,并隱藏了分布式相關的細節,展現給人們的僅僅是一個表現力很強、很容易編程的大型圖算法處理的計算框架。Pregel的主要應用場景是大型的圖計算,例如交通線路、疾病爆發路徑、WEB 搜索等相關領域。
2.2分布式文件系統
為保證高可用、高可靠和經濟性,基于云計算的大數據處理系統采用分布式存儲的方式來保存數據,用冗余存儲的方式保證數據的可靠性。目前廣泛使用的分布式文件系統是Google的GFS和Hadoop團隊開發的GFS的開源實現HDFS。
GFS即Google文件系統,是一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問的應用。GFS的設計思想不同于傳統的文件系統,是針對大規模數據處理和Google應用特性而設計的,運行成本低廉,并提供容錯功能。
HDFS即Hadoop分布式文件系統,受到GFS很大啟發,具有高容錯性,并且可以被部署在低價的硬件設備之上。HDFS很適合那些有大數據集的應用,并且提供了數據讀寫的高吞吐率。HDFS是一個master/slave的結構,在master上只運行一個Namenode,而在每一個slave上運行一個Datanode。HDFS支持傳統的層次文件組織結構,對文件系統的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數據塊。
2.3大數據管理技術
互聯網數據已超出關系型數據庫的管理范疇,電子郵件、超文本、博客、標簽(Tag)以及圖片、音視頻等各種非結構化數據逐漸成為大數據的重要組成部分,而面向結構化數據存儲的關系型數據庫已經不能滿足數據快速訪問、大規模數據分析的需求,隨之而來,一系列新型的大數據管理技術和工具應運而生。
2.3.1 非關系型數據庫
NoSQL,也有人理解為Not Only SQL,它是一類非關系型數據庫的統稱。其特點是:沒有固定的數據表模式、可以分布式和水平擴展。NoSQL并不是單純的反對關系型數據庫,而是針對其缺點的一種補充和擴展。典型的NoSQL數據存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數據、列存儲等。而比較流行的,不得不提到Google的Bigtable,它把所有數據都作為對象來處理,形成一個巨大的表格,用來分布存儲大規模結構化數據,數據量可達PB級。而HBase是Hadoop團隊基于Bigtable的開源實現,使用HDFS作為其文件存儲系統。同時,Cassandra(K/V型數據庫)、MongoDB(文檔數據庫)和Redis等一系列優秀的非關系型數據庫產品如雨后春筍般問世。
2.3.2 數據查詢工具
Hive是Facebook提出的基于Hadoop的大型數據倉庫,其目標是簡化Hadoop上的數據聚集、即席查詢及大數據集的分析等操作,以減輕程序員的負擔.它借鑒關系數據庫的模式管理、SQL接口等技術,把結構化的數據文件映射為數據庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動將HiveQL語句解析成一優化的MapReduce任務執行序列.此外,它也支持用戶自定義的MapReduce函數。
PigLatin是Yahoo!提出的類似于Hive的大數據集分析平臺.兩者的區別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數據流式的接口.可以說Pig利用操作符來對Hadoop進行封裝,Hive利用SQL進行封裝。
Google Dremel是個可擴展的、交互式的即時查詢系統,用于完成大規模查詢結構化數據集(如日志和事件文件)。它支持類SQL語法,區別在于它只能查詢,不支持修改或者創建功能,也沒有表索引。數據被列式存儲,這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補充,被用于分析MapReduce的結果或者是作為大規模計算的測試。
2.4實時流處理技術
伴隨著互聯網業務發展的步調,以及業務流程的復雜化,企業的注意力越來越集中在“數據流”而非“數據集”上面,他們需要的是能夠處理隨時發生的數據流的架構,現有的分布式計算架構并不適合數據流處理。流計算強調的是數據流的形式和實時性。MapReduce系統主要解決的是對靜態數據的批量處理,當MapReduce任務啟動時,一般數據已經到位了(比如保存到了分布式文件系統上),而流式計算系統在啟動時,一般數據并沒有完全到位,而是經由外部數據源源不斷地流入,重視的是對數據處理的低延遲,希望進入的數據越快處理越好。數據越快被處理,結果就越有價值,這也是實時處理的價值所在。
流計算的數據本身就是數據流,不需要數據準備的時間,有數據流入就開始計算,解決了數據準備和延遲的兩個問題?,F有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數據流計算的場景。Storm是開源的分布式實時計算系統,可以可靠的處理流式數據并進行實時計算,單機性能可達到百萬記錄每秒,開發語言為Clojure和Java,并具備容錯特性。S4是面向流式數據和實時處理的,所以針對實時性較高的業務,可以很好地對數據做出高效的分析處理,而且系統一旦上線,很少需要人工干預,源源不斷的數據流會被自動路由并分析。對于海量數據,它和MapReduce都可以應對,但它能比后者更快地處理數據。
三、思考與展望
以云計算為基礎的信息存儲、分享和挖掘手段為知識生產提供了工具,通過對大數據分析、預測會使得決策更為精準,這對媒體融合具有重要意義。
篇7
20世紀80年代,計算機和互聯網技術的發展使得數據量飛速增長,大數據是互聯網技術發展到一定程度后必然出現的一種現象。
1數據挖掘的概念及功能
1.1 數據挖掘概念
數據挖掘是從大量的隨機、模糊并帶有噪聲的數據集合中通過采用一定的算法對信息進行提取,發現規律和有用的價值信息的過程。一個完整的數據庫挖掘系統主要包括了:數據庫、數據庫服務器、知識庫、數據庫挖掘引擎、模式評估模塊、可視化用戶界面。
1.2 數據挖掘方法和步驟
數據庫挖掘的主要方法有基于遺傳算法,粗集方法,決策樹方法和神經網絡方法。數據挖掘的一般步驟為:分析問題,判定源數據庫是否滿足數據挖掘的標準;提取、清洗和校驗數據,去除數據中的噪聲,得到數據完整、格式統一的數據;創建和調試模型,將選用的數據挖掘算法應用到數據中創建模型,通過數據來對模型進行校驗和調整,得到滿足使用要求的數據模型;維護數據挖掘模型,隨著數據量的增加,需要對模型進行調整和維護,一些關鍵信息的改變有可能嚴重模型的精度,模型維護是數據挖掘的重要環節,通過模型維護可以保持模型的活力,不斷完善模型。
1.3 數據挖掘的主要功能
數據挖掘的功能主要可以分為五大類:自動預測趨勢和行為,關聯分析,聚類分析,概念描述,偏差檢測。采用數據挖掘技術在大型的數據庫中尋找預測性信息,市場預測就是數據挖掘技術在自動預測趨勢和行為方面的典型應用;關聯分析是采用數據挖掘技術研究數據空中自變量和因變量之間的某種規律,找出數據庫中存在的隱藏的關聯網;聚類分析通過數據挖掘定義具有共同特征的子集,增強人們對于客觀事實的理解和認識,數據挖掘技術避免了傳統的模式識別和數學分類方法的片面性,是一個更加先進的聚類分析方法;概念描述建立在聚類分析的基礎上,提取對象的特征,形成對概念的描述;偏差檢測,數據庫中的數據很可能存在著異常記錄或者是數據噪聲,通過偏差檢測提出異常數據。
2數據挖掘技術的應用
數據挖掘技術已經應用在了各個行業中,數據量巨大的互聯網行業、天文學、氣象學、生物技術,以及醫療保健、銀行、金融、零售等行業。通過數據挖掘技術將大數據融合在各種社會應用中,數據挖掘的結果參與到政府、企業、個人的決策中,發揮數據挖掘的社會價值,改變人們的生活方式,最大化數據挖掘的積極作用。以互聯網行業為例,探究數據挖掘技術在社交網絡中的應用。
互聯網時代的信息爆炸給互聯網用戶的使用需求帶來了一定的不便,用戶如何快速獲取有用信息,網站如何快速定位用戶需求成為了研究課題。以社交網絡為例,社區中的視頻、音頻、圖片、文字等信息各式各樣,每個人的興趣、習慣不同,要得到的內容也不同。采用數據挖掘技術對社交網絡數據分析,通過細分用戶,挖掘不同用戶的需求,開出出符合不同用戶個性特征的服務和產品,滿足WEB2.0時代對于網絡個性化智能化的要求。
數據的采集和預處理是數據挖掘技術實現的前提,數據的預處理內容主要包括數據收集與錄入、數據清洗與凈化、用戶識別、會話識別、文本提取。數據收集與預處理的系統結構圖如圖1所示。采集的數據一般會存放在數據庫中,數據庫中的數據具有組織性、結構性、易存取的特點,數據為了達到數據挖掘的要求還需要進行數據清洗、數據集成、數據轉換和數據簡化。
數據挖掘器的設計目的是對文本數據的內容進行分析與挖掘,提取能夠代表和概括整個文本內容的標簽。文本挖掘的步驟包括識別中文詞,去除停用詞,檢測短語,檢查同義詞,創建單詞向量。中文中字、句、段之間都有間隔,只有詞之間沒有,本文采用機械分詞法進行識別處理,通過掃面句中字符串,將其余詞典詞語進行匹配,識別出詞匯。去除停用詞是將文本中常用的詞匯去除,這些詞匯在文本數據挖掘中屬于無用詞匯,去除后能夠減小數據處理的復雜程度。檢測短語和檢測同義詞的方法類似,都是通過類來實現,檢測短語通過類PhrasesCache實現,檢測同義詞通過類SynonymousCache實現,通過詞匯和記號詞的匹配實現短語和同義詞的識別。構建單詞向量,通過單詞向量來表示一個項目,單詞向量是通過文本單詞及其權重來構成的,通過單詞檢索可以得到用戶想要獲得的文檔和信息。
3結語
本文主要分析了大數據的含義和特點,數據挖掘的概念和主要功能,著重探究了數據挖掘技術的主要應用,并結合數據挖掘技術在互聯網社交網絡中的應用進行了實例分析,通過數據挖掘技術更好的匹配用戶想要得到的信息。
參考文獻
[1]郭春.基于數據挖掘的網絡入侵檢測關鍵技術研究[D].北京郵電大學,2014.
篇8
1 大數據的現狀
據權威數據顯示,大數據應用在我國還處在起步階段。但在未來三年,通信、金融領域將在大數據市場突破100億元。市場規模在2012年有望達到4.7億元,到2013年增至11.2億元,增長率高達138%,2014年,保持了與2013年基本持平的增速,增長率為114.38%,市場規模達到24.1億元,未來三年內有望突破150億元,2016年有望達到180億規模。自從2014年以來,各界對大數據的誕生都備加關注,已滲透到各個領域:交通行業、醫療行業、生物技術、零售行業、電商、農牧業、個人位置服務等行業,由此也正在不斷涌現大數據的新產品、新技術、新服務。
大數據行業“十三五”規劃主要目標:在2020年,將大數據打造成為國民經濟新興支柱產業并在社會各領域廣泛應用,推動我國大數據產業穩步快速發展,基本健全大數據產業體系,推動制定一批相關大數據的國標、行標和地方標準,引進具備大數據條件的企業,建設大數據產業孵化基地,提高全國信息化總體水平,以躋身世界先進水平。
2 大數據的概述
2.1 大數據定義
大數據即巨量數據集合,目前還沒有一個統一的定義。大數據的概念最早是由全球著名的管理咨詢公司麥肯錫提出,2011年Mckinsey研究稱,大數據通常是指信息爆炸時代產生的海量數據,在各個行業和業務領域,數據已經滲透到行業中并逐漸成為重要的要素,人們能夠從海量數據中挖掘出有用的數據并加以應用。對大數據定義的另一說法是利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。
隨著信息時代的高速發展,大數據已經成為社會生產力發展的又一推動力。大數據被稱為是繼云計算、物聯網之后信息時代的又一大顛覆性的技術革命。大數據的數據量巨大,一般10TB規模左右,但在實際應用中,多個數據集放在一起,已經形成了PB級的數據量,甚至EB、ZB、TB的數據量。
2.2 大數據的特點
2.2.1 數據量巨大
數據量級別從TB級別躍升到PB級別。隨著可穿戴設備、物聯網和云計算、云存儲等技術的發展,用戶的每一個動作都可以被記錄,由此每天產生大量的數據信息。據有關人士估算:1986~2007年,全球數據的存儲能力每年提高23%,雙向通信能力每年提高28%,通用計算能力每年提高58%;2007年,人類大約存儲了超過300EB
的數據;到2013年,世界上存儲的數據能達到約1.2ZB。
2.2.2 數據類型多樣化
即數據類型繁多,產生了海量的新數據集,新數據集可以是關系數據庫和數據倉庫數據這樣的結構化數據到半結構化數據和無結構數據,從靜態的數據庫到動態的數據流,從簡單的數據對象到時間數據、生物序列數據、傳感器數據、空間數據、超文本數據、多媒體數據、軟件程序代碼、Web數據和社會網絡數據[1]。各種數據集不僅產生于組織內部運作的各個環節,也來自于組織外部。
2.2.3 數據的時效性高
所謂的數據時效性高指以實時數據處理、實時結果導向為特征的解決方案,數據的傳輸速度、響應、反應的速度不斷加快。數據時效性為了去偽存真,采用非結構化數據剔除數據中無用的信息,而當前未有真正的解決方法,只能是人工承擔其中的智能部分。有些專員負責數據分析問題并提出分析后的解決方案。
2.2.4 數據真實性低
即數據的質量。數據的高質量是大數據時代重要的關注點。但在生活中,“臟數據”無處不在,例如,一些低劣的偽冒產品被推上市場,由于營銷手段的成功,加之其他因素的影響導致評分很高。但是這并不是真實的數據,如果對數據不加分析和鑒別而直接使用,即使計算的結果精度高,結果都是無意義的,因為數據本身就存在問題出現。
2.2.5 價值密度低
指隨著物聯網的廣泛應用,信息巨大,信息感知存在于客觀事物中,有很多不相關的信息。由于數據采集的不及時,數據樣本不全面,數據可能不連續等等,數據可能會失真,但當數據量達到一定規模,可以通過更多的數據達到更真實全面的反饋。
2.3 大數據的應用
2.3.1 醫療大數據
利用大數據平臺收集患者原先就醫的病例和治療方案,根據患者的體征,建立疾病數據庫并對患者的病例分類數據庫。一旦患者在哪個醫院就醫,憑著醫保卡或就診卡,醫生就可以從疾病數據庫中參考病人的疾病特征、所做的檢查報告結果快速幫助患者確診。同時擁有的數據也有利于醫藥行業開發出更符合治療疾病的醫療器械和藥物的研發。
2.3.2 傳統農牧業大數據
因為傳統農牧業主要依賴于天氣、土壤、空氣質量等客觀因素,因此利用大數據可以收集客觀因素的數據以及作物成熟度,甚至是設備和勞動力的成本及可用性方面的實時數據,能夠幫助農民選擇正確的播種時間、施肥和收割作物的決策。當農民遇到技術市場問題可以請教專業人員,專業人員根據實時數據做出科學的指導,制定合理的優化決策,降低農民的損失成本,提高產品的產量,從而為轉向規模化經營打下良好基礎。
2.3.3 輿情大數據
利用大數據技術收集民眾訴求的數據,降低社會,有利管理犯罪行為。通過大數據收集在微博的尋找走失的親人或提供可能被拐賣人口的信息,來幫助別人。
3 智能交通的需求
隨著城市一體化的快速發展,新時代農民工涌入大城市,促使城市人口的增大不斷給城市交通帶來問題。究其原因主要有:一是機動車的迅猛發展導致城市主次干道的流量趨于飽和,大量機動車的通行和停放占據主干道路。二是城市交通的道路基礎設施供給不平衡導致路網承擔能力差。三是停車泊位數量不足導致機動車使用者不得不過多依賴道路停車。四是公共設施的公交車分擔率不高導致交通運輸效率降低。五是城市的土地開發利用與道路交通發展不均衡。六是行人和機動車主素質不文明導致道路通行效率降低。為此,智能交通的出現是改善當前城市交通的必要需求,能夠在一定程度上有效的解決城市交通問題。
大數據是如何在智能交通的應用呢?可以從兩個方面說明:一是對交通運行數據的收集。由于每天道路的通行機動車較多,能夠產生較大的數據,數據的采集并發數高,利用大數據使機動車主更好的了解公路上的通行密度,有效合理對道路進行規劃,可規定個別道路為單行線。其二是可以利用大數據來實現主干道根據道路的運行狀況即時調度信號燈,提高已有線路運行能力,可以保障交通參與者的生命和提高有關部門的工作效率,降低成本。對于機動車主可以根據大數據隨時的了解當前的交通狀況和停車位數量。如果交通擁堵,車主則可選擇另一路線,節約了車主的大量時間。
4 智能交通體系的建立
4.1 智能交通建立的框架
主要包括感知數據層、軟件應用平臺及分析預測和優化管理的應用。物理感知層主要是采集交通的運行狀況和對交通數據的及時感知;軟件應用平臺主要整合每個感知終端的信息、將信息進行轉換和處理,達到支撐分析并做出及時的預警措施。比如:對主要交通干進行規劃,對頻發交通事故進行監控。同時還應進行應用系統建設的優化管理。比如:對機動車進行智能誘導、智能停車。
智能交通系統需要在各道路主干道上安裝高清攝像頭,采用先進的視頻監控、智能識別和信息技術手段,來增加可管理的維度,從空間的廣度、時間的深度、范圍的精細度來管理。整個系統的組成包括信息綜合應用平臺、信號控制系統、視頻監控系統、智能卡口系統、電子警察系統、信息采集系統、信息系統。每個城市建立智能交通并進行聯網,則會產生越來越多的視頻監控數據、卡口電警數據、路況信息、管控信息、營運信息、GPS定位信息、射頻識別信息等數據,每天產生的數據量將可以達到PB級別,并且呈現指數級的增長。
4.2 智能交通數據處理體系的構成
主要包括交通的數據輸入、車輛信息、道路承載能力等的數據處理、數據存儲、數據檢索。其中交通數據輸入可以是靜態數據或者是動態數據。數據處理是針對實時數據的處理。數據主要存儲的是每天采集的巨大數據量。為了從中獲取有用的數據,則需要進行數據查詢和檢索,還要對數據進行規劃。
5 大數據技術
5.1 數據采集與預處理
數據采集與預處理主要對交通領域全業態數據的立體采集與處理來支撐交通建設、管理、運行決策。采集的數據主要是車輛的實時通行數據,以實現實時監控、事先預測、及時預警,完成道路網流量的調配、控。這些數據獲取可以采用安裝的傳感器、識別技術并完成對已接收數據的辨析、轉換、抽取、清洗等操作。
5.2 數據存儲與管理
大數據的存儲與管理是把采集到的數據存放在存儲器,并建立相應的數據庫,如關系數據庫、Not Only SQL即對關系型SQL數據系統的補充。利用數據庫采用更簡單的數據模型,并將元數據與應用數據分離,從而實現管理和調用。
5.3 數據分析與挖掘
數據分析及挖掘技術是大數據的核心技術。從海量數據中,提取隱含在其中,人們事先未知的,但又可能有用的信息和知識的過程。從復雜數據類型中挖掘,如文本、圖片、視頻、音頻。該技術主要從數據中自動地抽取模式、關聯、變化、異常和有意義的結構,可以預測模型、機器學習、建模仿真。從而實現一些高級別數據分析的需求。
5.4 數據展現與應用
數據技術能夠將每天所產生的大量數據從中挖掘出有用的數據,應用到各個領域有需要的地方以提高運行效率。
6 結束語
大數據時代,能對智能交通信息資源進行優化配置,能夠改善傳統的交通問題。對非機動車主而言,利用大數據可以更好的規劃線路,更好的了解交通狀況,在一定程度上可以對問題預先提出解決方案,起到節省大量時間、額外的開支。同時對交管部門而言,能夠在限的警力情況下合理配置人員資源和交通設備,主干道路在高峰期出現的問題能夠合理利用大數據信息配置資源,在刑事案件偵查中也能發揮更重要的作用。
篇9
1.大數據產生的背景
大數據(Big Data),也稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的資訊,通常被認為是PB或EB或更高數量級的數據。
互聯網絡從上世紀90年代開始,發展迅速,加快了信息傳播和共享的速度,尤其是一些社交網站的興起,數據量更是以前所未有的速度暴增,文字資料、聲音、視頻、圖像等多媒體數據鋪天蓋地。據資料顯示,上世紀90年代,互聯網資源不是很豐富的時代,網民月平均流量1MB左右,之后則快速增長,2000年后,逐漸發展為每月10MB、100MB、1GB,據估計2014年可能會達到10GB。淘寶網每日幾千萬筆交易,單日數據量達幾十TB,數據存儲量幾十PB,百度公司目前數據總量接近1000PB,存儲網頁數量接近1萬億頁,每天大約要處理60億次搜索請求,幾十PB數據。
隨著技術發展,大數據廣泛存在,如企業數據、統計數據、科學數據、醫療數據、互聯網數據、移動數據、物聯網數據等等??傊?,大數據存在于各行各業,一個大數據的時代已經到來。
2.大數據時代的挑戰
大數據特點是容量在增長、種類在增長、速度也在增長,面臨如此龐大的數據量,數據的存儲和檢索面臨著巨大挑戰。比如2007年時,Facebook使用數據倉庫存儲15個TB的數據,但到了2010年,每天壓縮過的數據比過去總和還多,那時商業并行數據庫很少有超過100個節點以上的,而現在雅虎的Hadoop集群超過4000個節點,Facebook倉庫節點超過2700個。大量的數據現在已經開始影響我們整個的工作、生活、甚至經濟,如何存儲和高效利用這些數據是需要我們解決的。
二、關系數據庫
1.關系數據庫概述
關系型數據庫是支持關系模型的數據庫系統,他是目前各類數據庫中最重要,也是使用最廣泛的數據庫系統。關系型數據庫從上世紀70年代誕生到現在經過幾十年的發展,已經非常成熟,目前市場上主流的數據庫都為關系型數據庫,比較知名的有Oracle數據庫、DB2、Sybase、SQL Server等等。
2.關系數據庫優勢
關系數據庫相比其他模型的數據庫而言,有著以下優點:
模型容易理解:關系模型中的二維表結構非常貼近邏輯世界,相對于網狀、層次等其他模型來說更容易理解。
使用方便:通用的SQL語言使得操作關系型數據庫非常方便,只需使用SQL語言在邏輯層面操作數據庫,而完全不必理解其底層實現。
易于維護:豐富的完整性大大降低了數據冗余和數據不一致的概率。
3.關系數據庫存在問題
傳統的關系數據庫具有不錯的性能,穩定性高,歷經多年發展已日臻成熟,而且使用簡單,功能強大,也積累了大量的成功案例。上世紀90年代的互聯網領域,網站基本都是靜態網頁,主要以文字為主,訪問量也不大,當時用單個數據庫完全可以應對。可近幾年,動態網站隨處可見,各種論壇、博克、微博異常火爆,在大幅度提升交流方式的同時,用戶數據量迅速增長,處理事務性的數據關系數據庫得心應手,可面對互聯網的高并發、大數據量關系數據庫顯得力不從心,暴露了很多難以克服的問題:
數據庫高并發讀寫:高并發的動態網站數據庫并發負載非常高,往往要達到每秒上萬次甚至百萬次、千萬次的讀寫請求。關系數據庫應付上萬次SQL查詢沒問題,但是應付上百萬、千萬次SQL數據請求,硬盤IO就已經無法承受了。
海量數據的高效率訪問:一般大型數據庫在百萬級的數據庫表中檢索數據可達到秒級,但面對數億條記錄的數據庫表,檢索速度效率是極其低下,難以忍受的。
數據庫可擴展性和高可用性:基于web的架構當中,數據庫無法通過添加更多的硬件和服務節點來擴展性能和負載能力,對于很多需要提供24小時不間斷服務的網站來說,數據庫系統升級和擴展卻只能通過停機來實現,這無疑是一個艱難的決定。
三、NOSQL數據庫
1.NOSQL數據庫理論基礎
NOSQL作為新興數據庫系統概念,由于其具備處理海量數據的能力,近年來受到各大IT公司的追捧。Amazon、Google等大型網商已紛紛斥資進行研究并開發了適用的產品。談及NOSQL數據庫,首先應該了解支持NOSQL的理論:CAP理論、BASE思想和最終一致性。
(1)CAP理論
CAP理論由Eric Brewer在ACM PODC會議上的主題報告中提出,這個理論是NOSQL數據管理系統構建的基礎,CAP解釋為一致性(Consistency)、可用性(Availability)以及分區容忍性(Partition Tolerance)。具體描述如下:
強一致性(Consistency):系統在執行過某項操作后仍然處于一致的狀態。在分布式數據庫系統中,數據變更后所有的用戶都應該讀取到最新的值,這樣的系統被認為具有強一致性。
可用性(Availability):每一個操作都能夠在一定的時間內返回結果?!耙欢〞r間內”是指系統的結果必須在給定時間內返回,如果超時則被認為不可用,“返回結果”同樣非常重要,必須能提供成功或失敗的信息。
分區容錯性(Partition Tolerance):分區容錯性可以理解為系統在存在網絡分區的情況下仍然可以接受請求。
CAP是在分布式環境中設計和部署系統時所要考慮的三個重要的系統需求。根據CAP理論,數據共享系統只能滿足這三個特性中的兩個,不能同時滿足三個條件。因此系統設計者必須在這三個特性之間做出權衡。例如Amazon的Dynamo具有高可用性和分區容錯性但不支持強一致性,也就是說用戶不能立即看到其他用戶更新的內容。
(2)BASE思想
BASE(Basically Availble),基本可用,強調數據庫的最終一致(Eventually consistent最終一致,最終數據一致就可以,而不是時時高一致),不同于傳統關系數據庫基于的ACID模型。
ACID特性與高性能是不兼容的。比如,在網店買東西,每個客戶買東西時都會通過鎖來同步數據操作,操作完成每個客戶都可以看到一致的數據。也就是說,不允許多個客戶同時買的情況。很明顯對于大多數網上商城,尤其是大型網商來說,這個方法并不適用。
BASE思想實際上是CAP理論中AP的衍伸。通過犧牲高一致性,保證高可用性和分區容忍性。BASE思想的組成有以下3個部分:基本可用、軟狀態、最終一致性。BASE模式指的是一個應用在任意時間首先應該能完成最基本化的工作(即基本可用),并不需要總是一致(即軟狀態),但最終應該是一致(即最終一致性)的。
(3)最終一致性
數據一致性可分別從使用者和提供者角度看:從使用者的角度,如何觀察數據更新;從提供者的角度,也就是服務器端,更新如何在系統中實現。
一致性可分為強一致性和弱一致性兩種:強一致性要求更新過的數據能被后續的訪問都看到,根據CAP理論,強一致性無法和可用性、分區容忍性同時實現;弱一致性,指讀取操作能夠見到變化的數據,但不是所有變化的數據。
最終一致性屬于弱一致性的一種,即存儲系統保證如果沒有新的更新提交,最終所有的訪問都將獲得最后的更新。如果沒有故障發生,不一致性取決于通信時延、系統負載以及復制策略中涉及的副本數。
2.NOSQL數據庫產品
NOSQL(Not Only SQL)數據庫是指那些非關系型的數據庫。NOSQL數據庫分為Key-Value、Key-Document和Key-Column這3類。典型的NOSQL產品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。
NOSQL數據庫遵循CAP理論和BASE原則,大部分Key-Value數據庫系統都會根據自己的設計目的進行相應的選擇,如Cassandra、Dynamo滿足AP,BigTable、MongoDB滿足CP。
四、結束語
本文首先介紹了大數據概念,分析了關系數據庫在存儲大數據量方面的不足,并介紹了當前NOSQL數據庫的基本理論和當前產品分類。大數據時代的來臨,我們忙于如何存儲和處理這些數據,但隨著計算機互聯網、移動互聯網、物聯網等網絡的快速發展,數據量會持續大幅增長,如何長期保存這些數據以及如何處理更大級別的數據量,都需要我們思考并解決。
參考文獻
[1]王珊,王會舉,覃雄派等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011(34).
[2]黃賢立.NOSQL非關系型數據庫的發展及應用初探[J].福建電腦,2010(7):30.
篇10
大數據時代的到來,確實對傳統的數據倉庫認知產生了重大的影響。什么是大數據?大數據的“大”實際上并不是最令人關注的特征。大數據是很多不同格式的結構化、半結構化、非結構化和原始數據,在某些情況下看起來與過去 30 年來我們存儲在數據倉庫中清一色的標量數字和文本完全不同。從另外一個角度來講,小數據比較簡單,有比較成熟的技術應對它。大數據是多種類型數據的組成,需要使用多種技術對待它。每一個識別和監測它的手段和方法是不一樣的。
然而,很多大數據不能使用任何類似 SQL 這樣的工具進行分析。對于企業及應用來說,數據倉庫應用更加有效。兩者并不形成替代,特別是銀行業等行業里面,更多的是互為補充。
數據倉庫的技術特點
被稱為數據倉庫之父的BillInmon在其著作《(Building the Data Warehouse))一書這樣描述:數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化(Time Variant)的數據集合,用于支持管理決策??梢詮膬蓚€層面對數據倉庫的概念進行理解,一是數據倉庫是面向分析處理的,主要用來支持決策制定;二是數據倉庫包含歷史數據,是對多個異構的數據源數據按照主題的集成,它的數據相對固定,不會經常改動。
面向主題的:數據倉庫的數據都是按照一定的業務主題進行組織的,面向主題體現在數據倉庫的建設中,而且還包含在業務數據分析和存儲上。
集成的:數據倉庫中的數據來自各個不同的分散數據庫中,它并不是對源數據庫數據的簡單拷貝,而是按照劃分好的主題和數據分析要求,經過數據抽取、清理、匯總和整理等步驟,消除源數據中的錯誤和不一致的數據,保證數據倉庫中數據的正確性和可用性。所以,它是整合集成的。
相對穩定的:數據倉庫的穩定性體現在它的非易失性上,由于數據倉庫是面向分析的,其中的數據是從業務數據中加載過來的歷史數據,所進行的主要操作是查詢和分析,供決策分析使用,所以其修改和刪除操作很少,只需要定期的增量加載,所以具有相對穩定特征。
反映歷史變化:數據倉庫必須能夠不斷地捕捉業務系統中的變化數據,記錄企業生產過程的各個階段的信息,以滿足決策分析的需要,所以必須實時地把新變化的業務數據追加到數據倉庫中去,通過數據隨時問變化的研究和分析,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
選擇實施方法
企業級數據倉庫的實現通常有兩種途徑:一種是從建造某個部門特定的數據集市開始,逐步擴充數據倉庫所包含的主題和范圍,最后形成一個能夠完全反應企業全貌的企業級數據倉庫;另外一種則是從一開始就從企業的整體來考慮數據倉庫的主題和實施。前一種方法是各個擊破,投資少、周期短且易于見到成果,但由于該設計開始時是以特定的部門級主題為框架的,向其他的主題和部門擴充往往非常困難。而后一種方法恰恰相反:投資大、周期長,但是易于擴展。
以哪種方法進行實施,主要取決于各個行業和客戶的實際情況。如電信和銀行業,采用第二種方法比較可行,這是因為這兩個行業業務發展變化快,為了能夠適應將來的變化,整個數據倉庫架構必須是可擴展的和易于維護的。如果只是基于部門級的需求去設計,將來肯定無法適應變化。如果重新設計,勢必造成前期投入的浪費。對其他一些行業,如制造業和零售業,本著“急用先行”的原則,可以先從某一局部入手,慢慢擴展為數據倉庫。
從技術上講,以部門需求作為主要考慮因素建立的系統,它的數據量不會太大,會影響對將來數據膨脹風險的正確估計,當數據集市擴展到企業范圍的時候,由于原有技術無法支撐新的數據規模,會造成數據裝載和數據分析速度的降低,甚至達到不可用的地步。企業級的數據倉庫會涉及更多的額業務系統,只有充分研究各業務系統,才能了解如何對不同格式、不同標準、不同接口的數據進行集成。
當然,對于第二種方法,也不是說把攤子鋪的越大越好。合理的做法是“統籌規劃,分步實施”。根據業務需求,把業務的主要方面都涵蓋進去,確定彼此之間的聯系;對于次要的需求,可以預留一些接口,以備將來細化。否則,如果整個調研周期拖得太長,等進入實施階段,業務又發生變化,不得不重新修改設計,同樣會造成浪費。
所以,先搭建好一個易于擴展且穩定的架構,在此基礎上逐步實施,是一個兼顧長遠發展與合理投入的最佳方式。此外,分步實施還可以減少風險:前一階段的經驗教訓可以為下一階段提供有益的借鑒,從而使得數據倉庫的建設不斷完善,不斷發展。
結合先進技術 從業務需求出發
和其他的應用系統相比,數據倉庫對于需求分析和系統設計等前期工作要求更高,其重要性也更加突出??梢哉f,分析和設計階段決定了數據倉庫最終的失敗。因為需求不明確、設計不合理造成的根本性缺陷是以后實施階段所無法彌補的。因此在分析和設計階段,對相關的業務部門和技術部門要進行詳細的調研,在用戶和開發人員之間的迭代和反饋是必須和重要的,它決定了數據倉庫最終的成功與否。
由于數據倉庫是面向業務分析的,所以最主要的需求應該從業務部門獲取和收集,因為數據倉庫最終是要服務于業務部門的。需求抓的不準,導致將來將無法解決業務部門的問題,這個數據倉庫項目就是失敗的,技術再先進也沒有用。這是衡量數據倉庫成敗與否的唯一尺度。
實施的過程中,最好能夠把行業專家的經驗,與企業現有的需求進行整合,以期得到一個更加全面的需求范圍,有利于適應將來業務的變化和擴展。
從技術角度來講,必須建立一個可伸縮、可擴展、高性能的數據倉庫平臺,才能為將來不斷的完善、不斷發展打下一個良好的基礎;由于數據倉庫項目要涉及多個業務系統,數據量非常龐大,所以本身的投入也是很大的,在保證系統高效穩定的前提下,盡量降低成本是非常重要的。
相關鏈接
數據倉庫的類型
根據數據倉庫所管理的數據類型和它們所解決的企業問題范圍,一般可將數據倉庫分為下列3種類型:操作型數據庫(ODS)、數據倉庫(Data Warehouse)和數據集市(Data Mart)。
操作型數據庫(ODS)
既可以被用來針對工作數據做決策支持,又可用做將數據加載到數據倉庫時的過渡區域。與 DW 相比較,ODS 有下列特點:ODS 是面向主題和面向綜合的;ODS 是易變的;ODS 僅僅含有目前的、詳細的數據,不含有累計的、歷史性的數據。
數據倉庫(Data Warehouse)
篇11
通過對電力系統動態性和實時性監測可以掌握大量的實時數據,它是電力系統動態運行的具體體現,但這也嚴重制約了電力系統的長期發展?,F代電力運營監測員應充分利用電力運營監測平臺,提升系統數據利用率,建立以供電部門基礎數據處理,做好各項數據的銜接、處理,協同各部門協同問題,促進國家電網數據系統的高效運轉。
1大數據時代相關內容概述
1.1大數據時代整體發展形勢
從我國互聯網技術的快速發展,各行業企業在大數據時代中均積累了大量的經營數據,它決定了企業的長期健康發展。為了更好的完成我國電力企業在大數據時代下的發展任務,本文筆者主要從以下四方面進行了大數據時展形勢加以概括,進一步實現對電力企業數據共享,實現多種資源的優化整合:
一,促進電力各部門數據的優化整合與共享,提升企業各種資源的整體利用率;二,加快電力數據資源開放力度,擴大資源利用面;三,進行大數據基礎設施的統籌規劃,提升數據資源利用的合理性;四,構建科學的宏觀調控數據體系,進一步實現電力運營監控的宏觀調控。
1.2充分發揮大數據平臺業務優勢,進行管理短板定位
綜合考量電力運營業務流程績效指標,對業務流程整體執行效率進行綜合評價;進行執行效率較低業務流程環節的準確定位,全面分析業務流程設計的科學性與合理性,并提出綜合性流程改進建議;我們應當在整體業務流程績效指標和詳細數據的基礎上,作出有關于業務流程制度、崗位績效、職責及標準的整體改進意見和建議;提升各部門、不同業務之間的協同性,進行管理短板的準確定位。
1.3加強數據資源安全保障
數據資源的有效利用離不開數據體系的健全和完善,它是加強大數據環境網絡技術研究和安全的關鍵,只有構建大數據時代下的電力運營監測安全評估體系,才能夠使企業在大數據安全基礎上,提升電力運營監測和預警工作質量,提升電力企業服務水平。
2做好大數據時代電力運營監測系統數據處理
2.1監測數據類型
電力運營監測數據類型主要分為基礎型數據、電力企業運營數據以及電力企業管理數據幾種,基礎型數據是以電力企業生產數據為主,它包含了電壓穩定性、發電量、電能質量等,業務部門和業務系統要確?;A數據的完整性和準確性;電力企業運營數據指的是電力企業在生產過程中所產生的數據,通過對上述數據進行分析、處理,它能夠為公司整體運營決策指明方向。電力企業管理數據僅限于特定環境下的共享和使用,它主要指協同辦公、ERP及一體化平臺等方面數據,做好該方面數據分析、處理有利于推進各部門工作的開展。
2.2監測移動數據處理
針對運營監測信息支撐系統來講,異動產生、處理、統計是異動管理的主要內容,異動類型又可分為數據質量異動、接口異動和數據質量異動三種,業務異動就是通過業務數據分析出生產運營情況,業務異動又可詳細劃分為指標異動、流程異動和明細數據異動;而數據質量異動就是要分析出接入數據的準確性、完整性和及時性,并作出相關異動數據信息分析、處理。接口異動就是因接口問題產生的異動情況。
3.大數據時代下電力運營監控數據應用
3.1電力生產環節中大數據的具體應用
由于電力系統管理項目眾多,想要單純依靠人力來完成數據的分析和整體難度極大,只有充分利用現代化信息技術手段和多種業務模型才能夠不斷提升輸電線路可靠性和在線計算輸送功率,更好的完成電力生產相關技術指標,促進電壓質量管理工作的發展。常態化低電壓監測有利于實現用戶和低電壓電臺之間的協同合作,實現對低電壓運行情況的跟蹤治理。因此,電力系統相關部門應在大數據環境下,按期做好停復電監測和電壓質量分析報告。
3.2大數據在電力系統營銷中的具體應用
遠程視頻技術應用能夠幫助電力運營工作人員進行相關業務的巡查,是運營監測中心針對高壓電力作業實施的重要舉措。通過遠程視頻技術的幫助能夠極大的縮短營業窗口情況的巡視,進一步提升電力營業窗口整體服務質量,降低用戶投訴率,提升電力用戶的滿意度。積極開展工業電量預測,更好的滿足用電需求管理,促進用電系統稽查監控業務,更好的挖掘線損治理工作成效挖掘及典型案例提煉。
3.3大數據在電力檢修中的具體應用
電力系統運營中心通過大數據運營監控平臺的利用,充分實現了對電網設備運維、資產壽命周期以及資金收支等情況,并將其上報于上級在線監測分析系統中,保證電網系統的正常穩定運行,進一步完成電網設備運維績效分析。我們應當綜合利用大數據時代數據挖掘手段,做好電網生產運營過程中的操作票、工作票及缺陷記錄等相關明細的分析和靜態數據流程匹配工作,做好配電網絡設備的日常巡視、檢修處理等工作,促進各部門之間的協同,提升電網運維管理工作發展,盡早發現電網運營過程中存在的不足,全面掌握巡視、檢修、缺陷發現等流程績效分析,做好各環節定量診斷調度和檢修,進一步實現電網系統的縱向貫通和橫向協同,不斷提升我國電網運維管理水平。據相關數據統計,我國大數據時代下電力運營監控線路消缺原因、消缺時長如下圖1所示:
4結束語
經上述分析,我們可以了解到數據信息維護、處理對于電力自動化系統運用意義重大,只有充分利用大數據時代所帶來的數據分析、處理、應用方面的優勢,做好不同數據類型的準備工作,進行電力自動化系統數據準確性、快速性整合,采用科學合理的策略指導,促進大數據時代電力系統數據的長期可持續發展。
參考文獻
篇12
[中圖分類號]F270.7-TP311.13 [文獻標識碼]A [文章編號]1673-0194(2015)02-0058-01
1 數據挖掘技術的分析方法
現在作為數據挖掘的主要工作就是分析方法,只有科學、可信賴的算法才能夠幫助數據進行挖掘工作,找尋數據中隱藏的一些規律。只有利用不同的分析方法,才能解決各種不同的問題。而現在常見的分析方法有聚類分析、分類和事先推測、關聯分析。
1.1 聚類
聚類分析是將一組數據分類成相近性及有異性這樣幾個種類,這樣做的目的就是將同一種類型的數據之間的相近性發展到最大化,不同種類之間數據的相近性盡可能的降低。這項分析方法可以用到客戶團體的分類、客戶背景分析、客戶購買的事先推測、市場細分等。聚類分析廣泛的存在于心理學、醫學、數據識別等領域中。
1.2 分類及事先推測
分類是將數據庫里面的數據對象的相同點按照分類的形式將其歸為不同的類型。這樣做的目的就是經過分類的形式把數據庫中的數據項反射到特點的一個類型。這可以用到客戶的分類、特性、滿意程度、購買趨勢等。而事先的推測是建立連續值函數模型,常見的方法有局勢外推測法、時間序列法、回歸分析的方法。
1.3 關聯分析
在自然界中,每個事物之間都有一定的聯系,如果發生一件事情,肯定會關聯到其他的相應事件。關聯分析就是利用到來事物之間存在的聯系和相互之間的依賴性的規律,對于這些事件進行的預測。在數據庫中的表現就是數據項之間存在的問題之間的關聯,就是一個事物中的某一項事物可能會導致其他一系列事項的出現。對于企業的客戶管理有著非常大的幫助,對于數據庫中的數據進行挖掘,找出影響市場的因素,為各種活動提供依據。
1.4 特征
特征分析方法就是將數據庫里面的一組數據抽取出有關這組數據的特征式,這種特征式能夠表現出數據的整體的特征。就像營銷工作人員對于客戶流失數據的提取能夠了解到原因,利用這些數據找到原因后就能幫助挽留客戶。
2 數據挖掘在企業中的應用
2.1 市場營銷和經營
數據挖掘最早應用的行業就是市場營銷,市場營銷行業利用數據挖掘技術對于用戶進行分析挖掘來獲得客戶的消費習慣和特征,這樣做的目的是來提升銷售的業績。當然,現在數據挖掘不僅是在超市購物上被利用,還普及到很多的金融行業。
經營上使用的具體實例:一些郵件類的廣告上,可以根據數據挖掘幫助確定客戶可能會購買的產品,這樣可以節約很多的郵資,還能夠幫助管理客戶之間的關系,也就是經過分析那些可能走向競爭對手的客戶的特點,這樣就能針對性的來留住顧客。購買方式:利用數據挖掘技術給零售商提供方便,零售商能夠通過這一技術確定顧客會購買哪些商品,還有就是在商店中該放那樣的商品供顧客選擇,目的是方便顧客購買,這樣能夠幫助銷售量的提高。當然數據挖掘技術還能夠幫助用戶分析、評判促銷活動會產生的成效。
2.2 電力、電信行業
隨著數據挖掘技術的發展,電網業務在不斷的進步和豐富。而電信行業快速的發展,電信技術和服務成為一個巨大的混合載體,對于市場關系、技術服務有極大的影響。對于企業的資源進行有效的整體和結合,形成一個非常大的關系網和信息數據系統。對這些數據進行挖掘成為解決各種問題的有效方法,為企業的發展有著非常重要的推動作用。
2.3 互聯網和云計算機
互聯網對于數據挖掘有很多的應用,比如搜索引擎、電子商務等。這些都是利用數據挖掘技術在龐大的數據海洋中找尋能夠符合客戶要求的信息。常見的就是根據預測分類算法來預測出客戶應該需要的信息。
2.4 金融行業
銀行、通信公司、保險行業這些在評估客戶的信用等級上需要注意安全。數據挖掘的利用在金融行業是非常的重要,當然數據挖掘技術在這方面取得了很好的成績,可以幫助這些金融企業正確的識別出詐騙行為、控制風險。如2003年春天,廣東分行在進行信貸電子數據分析的時候,發現了一些異常的現象,發現除了南海華光公司的馮某對于銀行進行的詐騙行為,其中有74億元被騙取,這并不是通過舉報而獲得線索,而是經過數據挖掘技術,發現馮某公司信貸出現的異常,然后被審計人員發現并驗證這一詐騙行為,若不是數據挖掘要想發現這一詐騙可謂是難上加難。
3 結 語
篇13
大數據指非常龐大的數據集,尤其是那些沒有被整齊的組織起來無法適應傳統數據倉庫的數據集。網絡蜘蛛數據、社交媒體反饋和服務器日志,以及來自供應鏈、行業、周邊環境與監視傳感器的數據都使得公司的數據變得比以往越來越復雜。
盡管并不是每個公司都需要處理大型、非結構型數據集的技術。VeriskAnalytics公司首席信息官PerryRotella認為所有的首席信息官都應當關注大數據分析工具。Verisk幫助金融公司評估風險,與保險公司共同防范保險詐騙,其在2010年的營收超過了10億美元。Rotella認為,技術領導者對此應當采取的態度是,數據越多越好,歡迎數據的大幅增長。Rotella的工作是預先尋找事物間的聯系與模型。
HMS公司首席信息官CynthiaNustad認為,大數據呈現為一種“爆炸性”增長趨勢。HMS公司的業務包括幫助控制聯邦醫療保險(Medicare)和醫療補助(Medicaid)項目成本和私有云服務。其客戶包括40多個州的健康與人類服務項目和130多個醫療補助管理計劃。HMS通過阻止錯誤支付在2010年幫助其客戶挽回了18億美元的損失,節約了數十億美元。Nustad稱:“我們正在收集并追蹤大量素材,包括結構性與非結構性數據,因為你并不是總是知道你將在其中尋找什么東西?!?/p>
大數據技術中談論最多的一項技術是Hadoop。該技術為開源分布式數據處理平臺,最初是為編輯網絡搜索索引等任務開發的。Hadoop為多個“非關系型(NoSQL)”技術(其包括CouchDB和MongoDB)中的一種,其通過特殊的方式組織網絡級數據。
Hadoop可將數據的子集合分配給成百上千臺服務器的處理,每臺服務器匯報的結果都將被一個主作業調度程序整理,因此其具有處理拍字節級數據的能力。Hadoop既能夠用于分析前的數據準備,也能夠作為一種分析工具。沒有數千臺空閑服務器的公司可以從亞馬遜等云廠商那里購買Hadoop實例的按需訪問。
Nustad稱,盡管并不是為了其大型的聯邦醫療保險和醫療補助索賠數據庫,但是HMS正在探索NoSQL技術的使用。其包括了結構性數據,并且能夠被傳統的數據倉庫技術所處理。她稱,在回答什么樣的關系型技術是經實踐證明最好用的解決方案時,從傳統關系型數據庫管理出發是并不明智。不過,Nustad認為Hadoop正在防止欺詐與浪費分析上發揮著重要作用,并且具備分析以各種格式上報的病人看病記錄的潛力。
在采訪中,那些體驗過Hadoop的受訪首席信息官們,包括Rotella和Shopzilla公司首席信息官JodyMulkey在內都在將數據服務作為公司一項業務的公司中任職。
Mulkey稱:“我們正在使用Hadoop做那些以往使用數據倉庫做的事情。更重要的是,我們獲得了以前從未用過的切實有用的分析技術?!崩?,作為一家比較購買網站,Shopzilla每天會積累數太字節的數據。他稱:“以前,我們必須要對數據進行采樣并對數據進行歸類。在處理海量數據時,這一工作量非常繁重?!弊詮牟捎昧薍adoop,Shopzilla能夠分析原始數據,跳過許多中間環節。
GoodSamaritan醫院是一家位于印第安納州西南的社區醫院,其處于另一種類型。該醫院的首席信息官ChuckChristian稱:“我們并沒有我認為是大數據的東西?!北M管如此,管理規定要求促使其存儲整如龐大的電子醫療記錄等全新的數據類型。他稱,這無疑要求他們要能夠從數據中收集醫療保健品質信息。不過,這可能將在地區或國家醫療保健協會中實現,而不是在他們這種單個醫院中實現。因此,Christian未必會對這種新技術進行投資。
IslandOneResorts公司首席信息官JohnTernent稱,其所面臨的分析挑戰取決于大數據中的“大”還是“數據”。不過,目前他正在謹慎地考慮在云上使用Hadoop實例,以作為一種經濟的方式分析復雜的抵押貸款組合。目前公司正在管理著佛羅里達州內的8處分時度假村。他稱:“這種解決方案有可能解決我們目前正遇到的實際問題。”
2.商業分析速度加快
肯塔基大學首席信息官VinceKellen認為,大數據技術只是快速分析這一大趨勢中的一個元素。他稱:“我們期待的是一種更為先進的海量數據分析方法。”與更為快速地分析數據相比,數據的大小并不重要,“因為你想讓這一過程快速完成”。
由于目前的計算能夠在內存中處理更多的數據,因此與在硬盤中搜索數據相比,其計算出結果的速度要更快。即使你僅處理數G數據,但情況依然與此。
盡管經過數十年的發展,通過緩存頻繁訪問的數據,數據庫性能提升了許多。在加載整個大型數據集至服務器或服務器集群的內存時,這一技術變得更加實用,此時硬盤只是作為備份。由于從旋轉的磁盤中檢索數據是一個機械過程,因此與在內存中處理數據相比,其速度要慢許多。
Rotella稱,他現在幾秒中進行的分析在五年前需要花上一個晚上。Rotella的公司主要是對大型數據集進行前瞻性分析,這經常涉及查詢、尋找模型、下次查詢前的調整。在分析速度方面,查詢完成時間非常重要。他稱:“以前,運行時間比建模時間要長,但是現在建模時間要比運行時間長?!?/p>
列式數據庫服務器改變了關系型數據庫的傳統行與列結構,解決了另一些性能需求。查詢僅訪問有用的列,而不是讀取整個記錄和選取可選列,這極大地提高了組織或測量關鍵列的應用的性能。
Ternent警告稱,列式數據庫的性能優勢需要配合正確的應用和查詢設計。他稱:“為了進行區別,你必須以適當的方式問它適當的問題?!贝舜送瑫r,他還指出,列式數據庫實際上僅對處理超過500G字節數據的應用有意義。他稱:“在讓列式數據庫發揮作用之前,你必須收集一規模的數據,因為它依賴一定水平的重復提升效率?!?/p>
保險與金融服務巨頭JohnHancock公司的首席信息官AllanHackney稱,為了提高分析性能,硬件也需要進行提升,如增加GPU芯片,其與游戲系統中用到的圖形處理器相同。他稱:“可視化需用到的計算方法與統計分析中用到的計算方法非常相似。與普通的PC和服務器處理器相比,圖形處理器的計算速度要快數百倍。我們的分析人員非常喜歡這一設備。”
3.技術成本下降
隨著計算能力的增長,分析技術開始從內存與存儲價格的下降中獲益。同時,隨著開源軟件逐漸成為商業產品的備選產品,競爭壓力也導致商業產品價格進一步下降。
Ternent為開源軟件的支持者。在加入IslandOne公司之前,Ternent為開源商業智能公司Pentaho的工程副總裁。他稱:“對于我來說,開源決定著涉足領域。因為像IslandOne這樣的中等規模公司能夠用開源應用R替代SAS進行統計分析?!?/p>
以前開源工具僅擁有基本的報告功能,但是現在它們能夠提供最為先進的預測分析。他稱:“目前開源參與者能夠橫跨整個連續統一體,這意味著任何人都能夠使用它們。”HMS公司的Nustad認為,計算成本的變化正在改變著一些基礎性架構的選擇。例如,創建數據倉庫的一個傳統因素是讓數據一起進入擁有強大計算能力的服務器中以處理它們。當計算能力不足時,從操作系統中分離分析工作負載可以避免日常工作負載的性能出現下降。Nustad稱,目前這已經不再是一個合適的選擇了。
她稱:“隨著硬件與存儲越來越便宜,你能夠讓這些操作系統處理一個商業智能層?!蓖ㄟ^重定數據格式和將數據裝載至倉庫中,直接建立在操作應用上的分析能夠更為迅速地提供答案。
Hackney觀察認為,盡管性價比趨勢有利于管理成本,但是這些潛在的節約優勢將被日益增長的能力需求所抵消。盡管JohnHancock每臺設備的存儲成本在今年下降了2至3%,但是消耗卻增長了20%。
4.移動設備的普及
與所有的應用一樣,商業智能正日益移動化。對于Nustad來說,移動商業智能具有優先權,因為每個人都希望Nustad能夠隨時隨地親自訪問關于她的公司是否達到了服務級協議的報告。她還希望為公司的客戶提供數據的移動訪問,幫助客戶監控和管理醫療保健開銷。她稱:“這是一個客戶非常喜歡的功能。在五年前,客戶不需要這一功能,但是現在他們需要這一功能了?!?/p>
對于首席信息官來說,要迎合這一趨勢更多的是為智能手機、平板電腦和觸摸屏設備創建適用的用戶界面,而不是更為復雜的分析能力?;蛟S是出于這方面的原因,Kellen認為這相對容易。他稱:“對于我來說,這只是小事情?!?/p>
Rotella并不認為這很簡單。他稱:“移動計算影響著每一個人。許多人開始使用iPad工作,同時其它的移動設備正在呈現爆炸式增長。這一趨勢正在加速并改變我們與公司內部計算資源交互的方式。”例如,Verisk已經開發了能夠讓理賠人在現場快速進行分析的產品,因此他們能夠進行重置成本評估。他稱:“這種方式對我們的分析產生了影響,同時也讓每一個需要它的人隨手就能使用。”
Rotella稱:“引發這種挑戰的因素在于技術的更新速度。兩年前,我們沒有iPad,而現在許多人都在使用iPad。隨著多種操作系統的出現,我們正力爭搞清楚其是如何影響我們的研發的,這樣一來我們就不必一而再、再而三的編寫這些應用。”IslandOne的Ternent指出,另一方面,為每一種移動平臺創建原生應用的需求可能正在消退,因為目前手機和平板電腦上的瀏覽器擁有了更為強大的功能。Ternent稱:“如果我能夠使用一款專門針對移動設備的基于web的應用,那么我并不能肯定我將會對定制的移動設備應用進行投資。”
5.社交媒體的加入
隨著臉譜、推特等社交媒體的興起,越來越多的公司希望分析這些由網站產生的數據。新推出的分析應用支持人類語言處理、情感分析和網絡分析等統計技術,這些并不是典型商業智能工具套件的組成部分。
由于它們都是新的,許多社交媒體分析工具可以作用服務獲得。其中一個典型范例是Radian6。Radian6為軟件即服務(SaaS)產品,近期已經被Salesforce.com所收購。Radian6是一種社交媒體儀表盤,為TwITter的留言、臉譜上的帖子、博客與討論版上的帖子與評論中提及的特定術語以正負數顯示,尤其是為商標名提供生動的直觀推斷。當營銷與客戶服務部門購買后,這類工具不再對IT部門有很嚴重的依賴性。目前,肯塔基大學的Kellen仍然相信他需要對它們高度關注。他稱:“我的工作是識別這些技術,根據競爭力評估哪些算法適合公司,然后開始培訓合適的人員。”