根據信息處理流程,大數據在智能電網中的應用可以分為數據采集、數據清理、數據存儲及處理、數據分析、數據解讀和數據應用6個環節,其關鍵技術包括數據集成技術、數據存儲技術、數據處理技術和數據分析技術。
1、數據集成技術
智能電網大數據具有分散性、多樣性和復雜性等特征,這些特征給大數據處理帶來極大的挑戰。要想處理智能電網大數據,首先就需要對眾多數據源的數據進行集成,通過數據抽取、轉換、剔除、修正等處理,建立正確、完整、一致、完備、有效的智能電網大數據。目前通常采用的數據集成模型包括數據聯邦、基于中間件模型和數據倉庫等。
ETL是企業數據集成的主要解決方案。ETL指Extract、Transform、Load,即抽取、轉換、加載。數據抽取是從源數據源系統抽取目的數據源系統需要的數據;數據轉換是將從源數據源獲取的數據按照業務需求,轉換成目的數據源要求的形式,并對錯誤、不一致的數據進行清洗和加工;數據加載是將轉換后的數據加載到目的數據源。ETL過程中的主要環節就是數據抽取、數據轉換和加工、數據加載。為了實現這些功能,各個ETL工具一般會進行一些功能上的擴充,例如工作流、調度引擎、規則引擎、腳本支持、統計信息等。
數據集成是智能電網大數據應用的關鍵環節。智能電網大數據集成涉及眾多各類型的應用系統,這些系統類型和特征復雜,在實時性要求、數據規模、數據類型等方面存在較大的差異,在智能電網大數據集成中需要綜合考慮各種因素,在集成技術上單一技術可能很難實現,需要結合多種技術來實現智能電網大數據的集成。
2、數據存儲技術
在智能電網大數據中,絕大多數數據為結構化數據,同時也存在文本、圖像、音頻、視頻等非結構化或半結構化數據。對非結構化數據可采用分布式文件系統進行存儲,對結構松散無模式的半結構化數據可采用分布式數據庫,對海量的結構化數據可采用傳統關系型數據庫系統或分布式并行數據庫。
2.1 分布式文件系統
分布式文件系統適合存儲海量的非結構化數據,將數據存儲在物理上分散的多個存儲節點上,對這些節點的資源進行統一管理和分配,并向用戶提供文件系統訪問接口,主要解決本地文件系統在文件大小、文件數量、打開文件數等方面的限制問題。
Hadoop是大數據的一個解決方案,可以實現大數據的存儲、分析和管理。HDFS (Hadoop Distributed File System)是一個分布式文件系統,它是開源項目Hadoop的家族成員。HDFS將大規模數據分割為大小為64兆字節的數據塊,存儲在多個數據節點組成的分布式集群中,當數據規模增加時,只需要在集群中增加更多的數據節點,具有很強的可擴展性;同時每個數據塊會在不同的節點中存儲多個副本,具有高容錯性;由于數據是分布存儲的,具有高吞吐量的數據訪問能力。
2.2 分布式數據庫
大數據環境下對數據的存儲、管理、查詢和分析需要采用新的技術,傳統的數據庫在數據存儲規模、吞吐量、以及數據類型和支撐應用等存在瓶頸。分布式數據庫由于具有很好的擴展性和協同性,在大規模數據存儲和管理中得到廣泛的應用。目前主要有鍵值存儲系統、文檔數據庫、圖數據庫等。
HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,它不同于一般的有模式的關系型數據庫,HBase存儲的數據表是無模式的,特別適合結構復雜多樣的半結構化數據存儲。HBase利用HDFS作為其文件存儲系統,可利用Map-Reduce技術來處理HBase中的海量數據。
2.3 關系型數據庫系統
智能電網中很大一部分數據是結構化數據,針對一些數據和業務應用,傳統關系型數據庫可能更適合,因此在大數據環境下,傳統關系型數據庫也具有一定的應用。基于傳統數據庫如Oracle等構建數據倉庫,開展智能電網業務的分析挖掘。
智能電網大數據結構復雜、種類繁多,其數據存儲需要根據數據的特點選用適合的數據存儲方式。數據管理也是智能電網大數據的重要功能,從整體上對存儲在不同系統上的數據進行統一管理,并提供數據索引和查詢功能。綜合以上分析,數據存儲對比見表1。
3、數據處理技術
智能電網大數據的應用類型多,需要根據不同的業務需求采用不同的數據處理技術。根據大數據的數據特征和計算需求,大數據處理技術分流處理、批處理、內存計算、圖計算等。
3.1 流處理
流處理的處理模式將數據視為流,源源不斷的數據組成了數據流,當新的數據到來時就立刻處理并返回所需的結果。數據流本身具有持續達到、速度快且規模巨大等特點,因此通常不會對所有的數據進行永久化存儲,而且數據環境處在不斷的變化之中,系統很難準確掌握整個數據的全貌。目前廣泛應用的流處理系統有Twitter Storm和Yahoo S4。
Storm是分布式實時計算系統,主要用于流數據處理,可以簡單、高效、可靠地處理大量的數據流。它能夠處理源源不斷流進來的信息,處理之后將結果寫入到某個存儲中去。Storm的優點是全內存計算,因為內存尋址速度是硬盤的百萬倍以上,所以Storm的速度較快。Storm彌補了Hadoop批處理所不能滿足的實時要求,經常用于實時分析、在線機器學習、持續計算、分布式遠程調用和ETL等領域。
3.2 批處理
Google公司在2004年提出的Map-Reduce是最具代表性的批處理模式。Map-Reduce是一個使用簡易的軟件框架,用于大規模數據集的并行運算,主要用來進行大規模離線數據分析。基于它實現的應用程序能夠運行在由數千個商用機器組成的大型集群上,并以一種可靠容錯的并行處理大規模數據集。Map-Reduce的核心思想是將問題分而治之,并把計算推到數據所在的服務器,有效地避免數據傳輸過程中產生的大量通信開銷。
Map-Reduce的優點主要有2個方面:
①不僅能用于處理大規模數據,而且能將很多繁瑣的細節隱藏起來,如自動并行化、負荷均衡和災備管理等,這將極大簡化開發工作;
②伸縮性非常好,集群能夠方便的擴展。而Map-Reduce的不足是其不適應實時應用的需求,只能進行大規模離線數據分析。
3.3 內存計算
隨著內存價格的不斷下降,服務器配置的內存容量不斷增大,用內存計算來完成大規模數據處理成為可能。與Hadoop Map-Reduce批處理相比,內存計算能夠提供高性能的大數據分析處理能力。內存計算是一種體系結構上的解決方法,它可以和各種不同的計算模式相結合,包括批處理、流處理、圖計算等。比如Spark是分布式內存計算的一個典型并行計算框架,Spark基于Map-Reduce算法實現的分布式計算,擁有Hadoop Map-Reduce所具有的優點;但不同于Map-Reduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark具有更好的性能,適用于數據挖掘與機器學習等需要迭代的Map-Reduce的算法。
智能電網大數據應用根據業務特點和對處理響應的時間來選擇數據處理的方式,針對電網安全在線分析、電網運行監控等業務,數據實時性要求高、需要作出迅速響應,可以采用流處理內存計算;而對于用戶用電行為分析等業務,實時性和響應時間要求低,可以采用批處理方式。綜合以上分析,數據處理方式對比見表2。
4、 數據分析技術
數據分析是智能電網大數據處理的核心,由于大數據的海量、復雜多樣、變化快等特性,大數據環境下的傳統小數據分析算法很多已不再適用,需要采用新的數據分析方法或對現有數據分析方法進行改進。
數據挖掘方法主要有分類、關聯分析、聚類、異常檢測、回歸分析等,其中每一類包括眾多的算法。分類包括支持向量機、決策樹、貝葉斯、神經網絡等技術;關聯分析包括Apriori、FP-growth等算法;聚類分析分為劃分法、層次法、密度法、圖論法、模型法等,具體算法如k-means 算法、K-MEDOIDS算法、Clara算法、Clarans算法、SOM神經網絡、FCM聚類算法等;異常檢測包括基于統計、距離、偏差、密度等方法。在智能電網應用中需要對現有的算法進行優化和并行化改進,實現分布式處理。
機器學習是面向任務解決的基于經驗提煉模型實現最優解設計的計算機程序,通過經驗學習規律,一般應用在缺少理論模型指導但存在經驗觀測的領域中。機器學習分為歸納學習、分析學習、類比學習、遺傳算法、聯接學習、增強學習等。深度學習是機器學習研究中的一個新的領域,2006年由Hinton等提出,其目的在于建立模擬人腦進行分析學習的神經網絡,目前深度學習在語音識別、圖像識別、機器翻譯等領域進行了應用,并取得了較好的效果。
智能電網大數據挖掘主要為結構化數據,同時也存在文本、圖像、音頻、視頻等數據,在智能電網大數據應用中需要針對具體的業務采用合適的數據分析方法。
評論
查看更多