數(shù)字信息時代,數(shù)據(jù)對經濟建設、社會生活和企業(yè)管理等產生了重要影響。根據(jù)高德納(Gartner)公司分析,企業(yè)近80%的數(shù)據(jù)為非結構化數(shù)據(jù)。隨著數(shù)據(jù)爆炸式增長,非結構化數(shù)據(jù)將成為數(shù)據(jù)增長主力。實施非結構化數(shù)據(jù)治理、提升數(shù)據(jù)質量、挖掘數(shù)據(jù)價值是企業(yè)邁入數(shù)字化時代的關鍵。對電網企業(yè)而言,海量智能終端所生成的文檔、圖像、語音、視頻等非結構化數(shù)據(jù)量已達到PB級。加強非結構化數(shù)據(jù)治理,實現(xiàn)非結構化數(shù)據(jù)解析與價值挖掘,對電網企業(yè)發(fā)展具有重要的意義。
何為非結構化數(shù)據(jù)及數(shù)據(jù)治理
非結構化數(shù)據(jù)是數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義模型的數(shù)據(jù)。在企業(yè)的整體數(shù)據(jù)架構中,非結構化數(shù)據(jù)往往是指不適用于數(shù)據(jù)庫二維關系邏輯表表達的數(shù)據(jù),包括所有格式辦公文檔、工程圖紙、圖像和音視頻文件等。在國家電網有限公司數(shù)據(jù)資產中,非結構化數(shù)據(jù)包括由地理信息系統(tǒng)、95598客服系統(tǒng)、項目管理系統(tǒng)、電子商務平臺等產生的地理信息數(shù)據(jù)、客服語音、項目資料、物資采購信息等數(shù)據(jù)。
數(shù)據(jù)治理是指在管理數(shù)據(jù)資產過程中行使權力,包括計劃、監(jiān)控和實施三個步驟。數(shù)據(jù)治理聚焦如何制訂有關數(shù)據(jù)的決策、人員在數(shù)據(jù)管理方面的行為方式,確保根據(jù)數(shù)據(jù)管理制度和最佳實踐正確地管理數(shù)據(jù)。
非結構化數(shù)據(jù)治理統(tǒng)籌和協(xié)調非結構化數(shù)據(jù)各項管理工作有序開展,核心要素體現(xiàn)在組織、制度、文化和考核四個方面,這些是開展非結構化數(shù)據(jù)管理工作的關鍵。
電網企業(yè)非結構化數(shù)據(jù)治理的前景和挑戰(zhàn)
公司于2019年開展數(shù)據(jù)中臺建設,2022年數(shù)據(jù)中臺邁入深化運營階段,非結構化數(shù)據(jù)通過非結構化組件基本實現(xiàn)了集中存儲,滿足基于文檔全周期的存、取、用需求。電網企業(yè)的非結構化數(shù)據(jù)貫穿于發(fā)電、輸電、變電、配電、用電和調度所有環(huán)節(jié),也幾乎存在于企業(yè)經營管理的所有業(yè)務應用當中。隨著人工智能等信息處理技術發(fā)展,非結構化數(shù)據(jù)管理的內涵及外延都在發(fā)生深刻變化,有必要重新審視當前企業(yè)非結構化數(shù)據(jù)管理現(xiàn)狀,規(guī)劃新時期非結構化數(shù)據(jù)管理體系及實施路徑。電網企業(yè)非結構化數(shù)據(jù)治理工作主要面臨著以下挑戰(zhàn):
存在信息孤島。電網企業(yè)在日常經營管理和業(yè)務管理過程中使用功能各異的應用系統(tǒng)或信息化管理平臺,產生各種非結構化數(shù)據(jù)。這些非結構化數(shù)據(jù)具有來源多、格式多、涉及專業(yè)多等特點,這一方面是由于信息系統(tǒng)的建設具有階段性,另一方面是由于各個系統(tǒng)自成體系,導致系統(tǒng)之間的數(shù)據(jù)呈現(xiàn)孤立狀態(tài),數(shù)據(jù)標準不統(tǒng)一,缺少數(shù)據(jù)貫通接口。
管控體系不完善。電網企業(yè)部分系統(tǒng)之間實現(xiàn)了文件之間的流轉,但是非結構化數(shù)據(jù)管理方法和制度仍然不夠完善,如部分文件在各個系統(tǒng)內歸檔管理、流轉主要基于數(shù)據(jù)導出方式,難以進行統(tǒng)一檢索和共享利用。
存在數(shù)據(jù)黑盒。當前電網企業(yè)文檔管理制度并非建立在徹底理清數(shù)據(jù)的基礎上。非結構化數(shù)據(jù)缺少必要的分類和元數(shù)據(jù)項,缺乏清晰和規(guī)范的管理流程和要求,數(shù)據(jù)量和數(shù)據(jù)內容難以掌握,影響非結構化數(shù)據(jù)價值發(fā)揮。
電網企業(yè)非結構化數(shù)據(jù)治理工作探索與實踐
國網大數(shù)據(jù)中心遵循公司數(shù)據(jù)發(fā)展戰(zhàn)略,以充分發(fā)揮數(shù)據(jù)作用、驅動企業(yè)數(shù)字化轉型為目標,按照“基于中臺、統(tǒng)籌推進、統(tǒng)一納管、安全共享”的工作原則,把核心非結構化數(shù)據(jù)資源匯聚至數(shù)據(jù)中臺,形成全生命周期和全業(yè)務系統(tǒng)端到端非結構化數(shù)據(jù)治理思路,建立從非結構化元數(shù)據(jù)體系研究與數(shù)據(jù)資源目錄構建到非結構化數(shù)據(jù)協(xié)同治理的工作模式,推動中臺非結構化數(shù)據(jù)質量提高,為業(yè)務工作賦能。
非結構化數(shù)據(jù)的全生命周期管理包括非結構化數(shù)據(jù)采集、傳輸、存儲、交換等各個環(huán)節(jié)的數(shù)據(jù)集整體管理,以及各個數(shù)據(jù)項處理方法。
基于數(shù)據(jù)中臺開展非結構化數(shù)據(jù)統(tǒng)一存儲?;跀?shù)據(jù)中臺非結構化組件集中存儲和管理所有接入業(yè)務應用系統(tǒng)的非結構化數(shù)據(jù)。將非結構化存儲空間劃分為存儲區(qū)和共享區(qū),其中存儲區(qū)用于接入、存儲源業(yè)務系統(tǒng)非結構化數(shù)據(jù),相關數(shù)據(jù)滿足各專業(yè)系統(tǒng)對本系統(tǒng)非結構化數(shù)據(jù)全生命周期的存、取、用需求。共享區(qū)匯聚具有高共享價值的非結構化數(shù)據(jù),相關數(shù)據(jù)經數(shù)據(jù)盤點、業(yè)務部門確認,用于跨專業(yè)跨系統(tǒng)數(shù)據(jù)共享和構建數(shù)據(jù)服務,并在數(shù)據(jù)資源目錄可視可查。
建立元數(shù)據(jù)管理體系。將非結構化數(shù)據(jù)的元數(shù)據(jù)分為基礎元數(shù)據(jù)和增強元數(shù)據(jù),梳理形成非結構化數(shù)據(jù)元數(shù)據(jù)體系。其中基礎元數(shù)據(jù)參考國家標準《信息與文獻都柏林核心元數(shù)據(jù)元素集》(GB/T25100-2010),實現(xiàn)對非結構化數(shù)據(jù)對象的規(guī)范定義,如標題、來源、摘要等。增強元數(shù)據(jù)依據(jù)應用業(yè)務需求進行設計,包含源端系統(tǒng)業(yè)務元數(shù)據(jù)、管理元數(shù)據(jù)及操作元數(shù)據(jù)。采用統(tǒng)分統(tǒng)管原則,基礎元數(shù)據(jù)統(tǒng)一管理,增強元數(shù)據(jù)按需設計,形成一套完整的元數(shù)據(jù)管理體系。
打造中臺非結構化數(shù)據(jù)共享區(qū),實現(xiàn)文件流轉與共享。新建應用系統(tǒng)基于數(shù)據(jù)中臺建設,存量業(yè)務應用系統(tǒng)逐步按需將非結構化數(shù)據(jù)遷移至數(shù)據(jù)中臺,基于數(shù)據(jù)中臺非結構化組件,統(tǒng)籌不同應用系統(tǒng)的文件在數(shù)據(jù)中臺流轉與共享。通過數(shù)據(jù)中臺構建文件智能分析能力,使各使用方可以快速檢索并在不同應用系統(tǒng)之間傳遞所需文件,保證文件的準確性、一致性、及時性、安全性等,支撐非結構化數(shù)據(jù)在不同專業(yè)之間、端到端有序高效地傳遞和交互。
開展質量管理。依據(jù)數(shù)據(jù)在生命周期各個階段的特性,建立數(shù)據(jù)質量控制機制,及時發(fā)現(xiàn)非結構化數(shù)據(jù)質量問題,提升數(shù)據(jù)可用性。數(shù)據(jù)使用方在使用過程中提出數(shù)據(jù)質量需求或數(shù)據(jù)質量問題,協(xié)同數(shù)據(jù)管理方、數(shù)據(jù)提供方進行數(shù)據(jù)質量治理,開展非結構化數(shù)據(jù)治理流程管控,實現(xiàn)非結構化數(shù)據(jù)治理閉環(huán)管理。
建立常態(tài)運營機制,建設多元化應用樣板間。完善非結構化數(shù)據(jù)運營機制,常態(tài)開展非結構化數(shù)據(jù)需求受理、解決方案制訂、數(shù)據(jù)接入、數(shù)據(jù)溯源、數(shù)據(jù)共享等工作。專項推進建設多元化應用樣板間,聚焦制度標準管理體系開展數(shù)字化賦能建設,擴大技術資料、標準制度等公開數(shù)據(jù)接入范圍,滿足基層用戶查數(shù)據(jù)、用數(shù)據(jù)需求;圍繞項目中臺智能化提升工作,構建非結構化數(shù)據(jù)提取功能和專題檢索服務,輔助項目過程材料智能審查,改變現(xiàn)有線下傳遞、低效審閱的局面。
?。ㄗ髡邌挝唬簢译娋W有限公司大數(shù)據(jù)中心)
評論