一、產品背景
油田正在開展智慧油田的規劃和建設。如何提升油田科研、生產、管理等業務智能化水平?
油田積累了以A2為基礎的大量數據資源,如何充分挖掘數據資源的潛在價值,發揮數據資源在開發生產中的作用?
大數據從巨量的各種類型的數據中,快速獲得有價值信息,并整理成為幫助企業經營決策更積極目的的資訊。開展油氣生產大數據分析平臺的研究與應用,為充分利用油田數據資源,提升油田業務智能化水平提供示范和應用基礎。
對油氣生產大數據的理解
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達獲取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。 因此,從巨量的各種類型的數據中,快速獲得有價值信息的能力,就是大數據技術。
大數據有4個主要特征:數據容量大、數據種類多、信息反饋快、價值密度低
大數據與傳統方式的區別
傳統方式 |
大數據 |
說明 |
|
數據量 |
小樣本 |
大樣本 |
(1)主要是依靠數據的豐富程度提高計算精度。 如:Google的機器翻譯、象棋軟件、機票查詢, (2)用大量歷史數據的特征值,取代傳統算法中人工經驗確定的參數。如權重值、分類樣本。 (3)需要對現有的各種算法進行改進,也可新舊結合,利用大數據為傳統算法尋找最優樣本、最優參數,實現老算法、新應用。 |
數據類型 |
以結構化數據為主 |
可處理各種非結構化數據 |
(1)大量的數據來自網頁、文檔; (2)要處理大量的音頻、視頻數據。 (3)建立結構化的元數據庫(知識庫) |
計算速度 |
對速度要求不高 |
大多要求實時反應 |
為了提高速度,通常要進行復雜的數據預處理: (1)網頁、文檔等進行收集、切詞、標引、預統計; (2)預先進行特征值抽??; (3)引入高性能計算技術,如云計算、集群。 |
價值度 |
獲取的是數據的基本價值。 |
獲取的是數據潛在價值 |
傳統方式基于查詢、報表、統計分析,數據的價值用戶是已知的,只是不知道結果。大數據通過建立實時動態數據倉庫,進行智能分析,獲取數據的新價值。 |
開展油氣勘探開發大數據技術的研究和應用,具有重要的意義:
(1)提高油氣勘探開發業務的智能化水平。大數據采用新的智能計算模式,為勘探開發生產、科研、管理提供新的方法。當傳統的方法被數據模型的突破所限制,或在局部地方被部分參數所限制時,利用大數據可取得事半功倍的效果。大數據計算模式具有數據資源高度共享、計算方法相互共享,同時還需要進行海量的計算,實現快速反應,這必將促進云計算在勘探開發業務中的應用,通過各種資源和方法相互共享和補充,可實現方法的創新。這也是智能油田發展的關鍵。
(2)充分挖掘現有數據資源的價值。但當前數據資源的應用仍是一種簡單的應用,體現的數據的原始價值。通過大數據關聯分析,可對數據進行多次利用,挖掘新的價值。
(3)為實施大數據工程提供技術支撐。通過勘探開發大數據總體框架設計、關鍵技術研究、典型示范應用,解決大數據應用的基本技術問題,為進一步開展勘探開發大數據工程提供支持。
二、總體技術路線
總體架構
三、大數據分析平臺
一、數據倉庫
面向大數據分析的數據倉庫
多維度數據模型定義與管理
數據抽取:
數據抽取是從源頭數據庫中抽取數據,保存到數據倉庫中。
數據抽取的關鍵是數據映射、數據篩選、數據清洗。
數據預處理:
數據預處理也是一種數據分析,其目的是為下一步大數據分析計算提供規范的數據。
數據預處理主要有以下幾種:
數據規格化
大數據分析算法庫
通用分析方法
專用分析方法
四、大數據應用案例