尊敬的各位領導、在座的同行們大家上午好!非常感謝電子學會給我這樣一個機會來談一談對大數據的認識,我還是非常認真地做了一次準備,這次所有的內容是全新準備,第一次亮相。過去我談技術和應用比較多,最近我想結合最近的一些思考,談談大數據治理的問題。這方面我自己也是一個外行,還在學習當中,所以說這中間如果說有什么不對的地方,僅僅是個人觀點,供大家批評。
我想談兩個方面,如果我們要回顧一下大數據的發展和現狀,然后就大數據治理體系談一些認識。
大數據的發展和現狀
我想以這張圖,把Gartner從2011年開始,整個對技術的預測來回顧一下大數據的技術發展。大家知道Gartner新型技術成熟度曲線圖,頂點就是炒作的高峰,然后逐步回歸底線。2011年,大數據還在山腰爬坡,最左邊的那張。然后到2012年的時候,快爬到坡頂,2013年到了頂峰,2014年下來,2015、2016年就不存在了,為什么?整個平面圖就說明一件事情,對大數據的認識已經趨于理性,大家在喧囂以后找里面真正的東西。
再以另外一張圖來展示,就是大數據產業生態圖。這個圖是最早2012年彭博社發展的。這張圖是把大數據整個的產業,就是小的已經隱掉了,就是一些企業,將這些企業分為基礎設施類、分析類、應用源的跨基礎設施分析的,還有開源項目,這里面涉及的很多。時間關系,大家后面再看,我不做一一地解釋。我這里將它列出來,可以看到2012年是風險投資人Matt Turck繪制了1.0的版本,然后10月份正式發布了大數據產業地圖。
從這張圖可以看到這是第一次出現大數據基礎設施是當時的研發重點。有了大數據基礎設施,主要是指以信息技術為支撐的,怎樣處理和管理大數據相關的基礎設施。基礎設施相關的業務和企業發展是比較快的,生態系統正在逐步地形成,同時也在快速的演化過程中。2014年出了新的版本,這時候大數據分析就成為了生態系統里面最火熱的部分。我們看到分析成為熱點,有大批的公司成立并快速發展,風險投資大量涌入。應該說這個時候生態系統還處于一個初級階段。
2016年大數據應用成為發展的重點,面向行業和領域的應用型企業發展迅猛,生態系統逐步形成,向更為成熟的程度發展。2017年又出現一個新的重點,2017年的重點是把數據治理、數據安全,我這里看到,這里面的數據治理還是相對狹義的治理,數據治理、數據安全首次納入基礎設施的范疇。數據資源、數據安全成為重要的基礎設施,整個生態系統發展全速推進。大家看到右下角出現的東西,是以前圖里面沒有的,就是關于RD資源,將研發資源當成重要的生態系統的環節出現。
從當前來看,IDC有一個報告,2014年全球大數據市場規模是285億美元,同比增長50%。2015年,達到384億,同比增長34.7%,2017年是市場規模達到721億,未來五年,行業的年均復合增長率在40.98%,2021年,全球大數據規模將回答道2347億,這是他們的估算。還有一個對數據總量的估算,這也蠻有意思,2014年IDC的報告。說2020年前全球數據量將保持每兩年就翻一倍的速度增長,預計2020年全球數據量將達44ZB。
結果在2017年4月,IDC發布了《DATA Age2025》報告,預計,2020年全球的數據量要晁蓋50ZB左右,又超出了6個ZB,6個ZB什么概念?說明這件事情數據量的增長本質上是超出我們的預期。當然因為它這個估算只是按照它自己存儲設備的量來算,這種算法我們大量的數據都是重復的,拷貝存在的,還有大量的實際上沒有用的數據。
2025年,大數據量將達到160ZB。在他新的報告里面有一句話我一直在琢磨“Do not Focus on Big data;Focus on the data that is Big!“我們不要在抽象層面上或者是宏觀層面上再去討論大數據,大數據未來就是無處不在。我們每個人生活中所遇到的都是大數據,所以我們關注的是數據本身,至于數據大了怎樣將它分析好、應用好,這里面就體現了一個非常關鍵性的變化。
這張圖也是易觀智庫發表的我們國家大數據生態狀況圖,2015年從三個技術層次主要是被5—8家國際廠商主導,國內廠商多出現在數據使用層當中的數據可視化領域,極少數涉及到數據的升級和管理。國內的大數據生態系統,也在向著細分的大數據服務方面發展,可以看到基礎技術和系統方面缺乏原創,分析方法與算法應用牽引不足,研究實用性和易用性偏弱,互聯網大數據的應用水平和效果接近國際先進水平,其他行業和企業的大數據應用水平和效果是明顯落后。
這是2016年的,我們可以看到大數據領域,國際上仍然占主導,基于物聯網的數據采集與數據管理初現,各內容類互聯服務竟相成為數據源,垂直化與行業化應用發展迅猛,應該說我們水平提升,開始積累大量的原始數據,已經成為數據的收集和管理,已經成為我們國家大數據產業發展的重要和關鍵的點。總書記講數據經濟,數據是關鍵的資源,所以這塊大家的重視度日益增高。
從國家總量來看,2015年,中國大數據市場規模達到115.9億元,同比增長38%;2016年是168億,同比增長45%。但是預計2018年會達到280億,未來五年年均復合增長率約為27.29%,2022年將達到735億元。IDC給出中國的量,2020年按照44ZB來算,中國會占到18%。從2013年的指數,我們以一個iPad裝的數據累積起來大海就這么一點點,到2020年可以到月球上一下,這是打一個形象比喻。
前面我們回顧了一下大數據的發展,主要是從產業角度來看。應該可以看到從產業地圖展現和技術研發走向是有這樣一個趨勢和階段,從基礎技術和系統,以及大數據基礎設施的構建,分析方法和算法,到領域行業應用,現在涉及到大數據資源管理安全的成為一個新的熱點,由于大數據作為戰略資源的地位越來越重要,我們管理、安全隱私、開放共享成為當前的重點,因此要建立數據的治理體系,成為當前一項緊迫的任務。
對大數據治理體系的認識
下面我談談對治理體系現狀和未來的一些認識。
先說說相關的概念,我也在學習,什么是治理,什么是管理?治理本身是源自于拉丁文的“掌舵”一詞,它是指政府掌握和操作的某種行動。它是聯合行動的過程,強調協調而不是控制,治理是存在著權力依賴的多元主體之間的自治網絡,治理的本意是服務,通過服務來實現管理的目的,治理是決定誰來進行決策,管理了就是制定和執行,這中間還是有細微劃分。
在大數據治理里面,當前可以看到有很多的實踐。但是我梳理了一下,不管是從微觀、中觀、宏觀層面,我們談到的這件事情它的定義內涵是一致的,從微觀層,主要是從策略和程序角度定義。有一個定義是說大數據治理是描述數據怎樣在它的生命周期內有用,和經濟管理的組織策略和程序。
而從中觀層面,大數據治理是企業數據可獲得性、可用性、完整性和安全性的部署和全面管理。從信息治理計劃,過去有一個IT治理、信息治理的說法,廣義信息治理計劃的一部分,制訂與大數據有關的數據優化、隱私保護和數據變現的做法。從體系框架角度也有,說是對組織的大數據管理進行評估,指導和監督這樣一個體系框架。通過制訂戰略方針,明確公等待實現大數據的安全可控、價值提升提升創造,并提供不斷創新的大數據服務。大家看到各種各樣的都有它的道理,但是他們的內涵是不一致的,也就是在這個領域認識不一樣。
總結來看,他們的具體落實是落在組織層面,我們是講一個群體,不管是企業還是法人代表。這是國內和國外總結的東西,第一個是從大數據類型、產業與功能、治理來定義大數據治理框架,他講企業可以根據框架,制訂自己的準則。另外一個是從原則、范圍、實施與評估三個維度。
實際上我們可以看到現在的工作基本上是在企業層面。如果真正地來看,大數據這件事情作為一個國家的戰略資源,單靠企業、單靠組織層面實際上是不可能構成一個完整的體系,所以說我們梳理了一下,這是個人的觀點。我認為現在的大數據治理有很多很好的工作,但是僅僅落實在企業層面是遠遠不夠的。而且它中間很多方面本質上也沒有覆蓋到一個整體多方位、多源。
我梳理一下是有幾個問題,第一,我認為大數據的治理體系涉及到組織,也涉及到行業,更涉及到國家,至少這三個層面。在這三個層次,我們怎樣去定義構建一個完整的曲線,大家想一想國家層面沒有法律法規的溝通,你下面任何的治理體系都完不成。
第二,大數據治理體系需要完善的法律法規,全面的標準體系支撐,是否需要圍繞“數據”為主體來制訂制度法規和標準規范,現在我們信息安全、全世界研究的包括數據的隱私,探討的很多。前段Facebook事件給大家一個警醒,很多人都開始關注隱私的問題。在這一問題,這些東西的層面上,我們有沒有必要圍繞數據這件事情來構建一套相關的體系,實際上現在全世界也都沒有。
第三,大數據的治理的重要性已得到較為廣泛的認識,已有不少成功實踐,但是我們可以看到現在的實踐還尚不足支撐一些共識的形成,還是盲人摸象,或者是自己站在自己的點上講道理。
第四,大數據治理體系技術支撐需要涵蓋大數據管理、存儲、質量、共享與開放、安全與隱私保護等多個方面,當前相應的技術研究關聯性和系統性還存在欠缺,都是在點上,整個將技術關聯起來還有問題。
第五,大數據資產地位得到廣泛認同,但是如果沒有有效的管理和應用,這種數據實際上會成為負擔,這對任何層面都是一樣的。
第六,大數據管理的相關方法與技術已有不少成熟產品與技術,但還是缺少完善的多層級的管理體制和高效的管理機制。單有技術,沒有管制體制和機制也完不成。
第七,大數據共享與開放已經成大數據成功應用的關鍵,怎樣將技術和標準有機結合,能夠建立在不同層級上的良好的大數據的共享與開放環境。像政府現在做的就是推廣政務的工作。
再就是大數據安全與隱私保護意識不斷加強,除了向卷技術需要不斷發展以應對各種新型攻擊挑戰外,因為技術發展,各種不斷的黑客技術為我們發展帶來挑戰。但是單靠技術本身是不可能解決安全問題,我們還需要企業、組織機構的安全保障的制度完善以及行業治理的監管也成為關注的重點,所以我們很多企業沒有將這個作為重點,國家層面在弄,但是國家層面立法出來相對是比較慢的,所以從這一程度上來講,我斗膽地提出大數據管理體系應該是這樣的。
大數據治理體系的內容涉及到數據資產地位的確定,相應的管理體制和機制,共享和開放的原則和機制,安全與隱私保護的政策和相關的東西。那么它的層次呢?涉及到每一個法人組織,也涉及到相應的行業。比如說我們的同盟,我們協會召集了這么多的企業。還有是國家層面,三項層次四項內容,同時做好這個事情是四管齊下,涉及到制度法規、法律法規是國家層面的,制度是企業行業的,涉及到標準規范,我們一定要有共識,涉及到應用實踐,在實踐當中來回磨合,還有一個我們必須要有技術支撐,沒有技術支撐這些東西做不到,所以我認為這個體系是這樣的狀況。
治理體系我們簡單說一下國家層面,資產地位確立,需要國家法律法規層面明確數據資產地位。管理體制機制,需要建設良好的管控協調機制,促進數據產業的健康發展。去年制訂數據開放共享的政策,建設政府主導的數據共享平臺,還有需要出臺數據安全與隱私保護的法律法規,保障國家、組織和每個個人的數據安全。
實際上這在現在已經有很多的工作可以做,數據資產的確定,什么叫資產?上面有一個定義,能夠產生價值的東西就叫資產,明確將數據作為資產,就可以將數據的歸屬、估值、交易、管理等納入到人類社會的一般資產管理體系,這樣對確權、流通、交易、保護就具有支持性的東西。
實際上大家都在做,比如說美國在《消費者權益保護法》就明確了消費者對于自身管數據的所有權和控制權,也描繪了消費者有權控制企業對個人信息的收集和使用,有權控制企業對個人信息的收集和使用。歐盟有一個更強的法令,規定了數據的歸屬權,并制定了嚴格規范的個人信息保護法律框架,要求各加盟國保證個人數據在加盟國之間自由流通。中國新的《消費者權益保護法》也提出了個人信息依法得到保護的權利,同時要求經營者采取技術措施和其他必要措施,確保個人信息安全,防止消費者個人信息泄露、丟失,但是沒有所有權的問題。
管理體制機制上,我們說良好的數據管理體制是促進產業發展的關鍵,也是國家掌控數據安全的保障。目前來看是有兩種模式,歐盟是有專門的數據機構和官員進行管理。美國是采用政府引導行業自律的管理,而對中國而言,我們在這中間應該建設什么樣的管理模式?
毫無疑問我們既要符合我們的國情,基于我們的現狀,同時還要考慮發展,這一個度的拿捏還是比較講究的數據共享方面,大家可以看到它產生價值,但是這個數據由于規模性、權威性、公益性和全局性等特點,蘊含巨大價值,因此國外數據開放首先在政府數據上落地,2013年美國開放數據,還有八國集團的開放數據憲章等,這些都在數據的共享開放上做出了努力,我們國家也對這個東西實現共享開放有明確安排。
2015年9月5號國務院發布的促進大數據發展行動綱要的,共享59處,一個是盤活現有數據存量,第二個是規劃未來的數據發展,有明確的時間節點。我們的工作是要建立政府為主導的數據平臺,在部分領域開展試點應用。2017年完成跨部門數據資源的共享、共用,去年國辦系統已經將所有的數據目錄、政務信息目錄已經基本上匯集完畢,2018年就要統一開放,完成政府內的共享。2020年要實現政府數據級的普遍開放,這個時間節點還有兩年的時間,工作量還是比較多。實際上包括政府今年要完成的政府數據的全面共享,難度比較大。
安全與隱私保護,大規模的數據泄露以及數據艦艇、竊取事件引發了數據安全、隱私保護等問題,對世界安全、國家安全都產生威脅,世界主要國家和地區也加強大數據安全保障,澳大利亞制訂了法律,美國的《網絡安全法》,歐盟的《通用數據保護條例》。美國2015年出臺的《網絡安全法》規定了安全信息共享的參與主體、共享方式、實現和審查監督程序、組織機構、責任豁免及隱私保護等。歐盟是最高,如數據被遺忘權、可攜帶權等,全面提升個人數據保護力度。而我們國家,由互聯信息辦公室發布的《國家網絡空間安全戰略》,同時我們也有《網絡安全法》。
組織層面需要企業通過規定將數據規定為核心資產,我相信大部分的企業都這樣做,都認識到了這一問題,但是怎樣建立數據資源,完善價值實現、質量保障保證等方面的組織結構和過程規范,提升企業能力。共享開放,企業越大部門之間相互封閉更厲害,企業內部的數據共享對老板也是問題,對外就是數據流通和交易的問題,安全保護,怎樣保證自身的安全,還要保護客戶的安全,這對企業都是很重要的挑戰,這里面也有很多的數據管理的成熟度模型。Gartner、IBM都在推,時間關系不多講,這都是針對企業層面的。
這是來自于中國大數據報告,就是國家信息中心做的調研,就是數據管理方面我們所面臨的問題,應該說結論是說大數據管理環節漏洞很多,是大數據發展面臨的主要問題,包括由于這一問題引發的運營成本高,資源利用率低,擴展差等難點,還有數據資源保護的相關法律法規和保障信息安全開放的標準規范仍然缺乏,多數企業對數據管理不足,尚未建立完善的體系。
相關還有很多的工作,比如說標準管理的工作,比如說國際的標準ISO的,咱們的大數據標準委員會代表中國在工信部的指導下也一直參與相關的工作,中國是主體單位,大數據標準工作組在2018年4月份也發布了《數據管理能力成熟度評估模型》,目前也在很多地方試點,我是該小組的組長我做個廣告,有愿意采用這一模型的人可以和我們工作組聯絡,我們幫助它在企業里面實施數據管理成熟度能力的逐步提升。
數據管理機制里面,還有一個重點,就是數據質量提升成為趨勢。Gartner分析,由于數據質量不佳,組織每年平均損失9.7億美元,預計到未來,數據復合增長率會到17%,共享和開放很多,共享管理規則,數據方案的實施,再就是安全與隱私保護,大數據加重了安全和隱私保護的問題。我們可以看到這一例子,我把它放在這兒,相信在座的都關系到的,就是Facebook的事件,這是小扎進入國會聽證的照片。Gartner預測,2017年來全球IT安全產品和服務的支出將同比增長7%,達到864億美元,到2018年將達到914億美元。
最后是行業層次,行業因為它帶有自組織方式,行業大數據治理,我感覺是在國家相關管理框架下,考慮到本行業中企業的共同利益和暢銷發展,怎樣建設完善的行業大數據治理規則。也就是說如何規范行業管理,建立相關的組織機構制訂行業數據管理制度,這是所有的協會聯盟面臨的問題,也需要制訂行業內數據了共享與開放的規則,構建數據共享交換平臺,因為畢竟數據是有隱秘性的,怎樣為行業提供服務,安全隱私方面,怎樣制訂行業內部的數據安全制度,確保行業內數據共享、開放等相關活動有序展開,我想這個事情還是需要大家的共同努力。
總體而言,大數據治理體系是涉及到國家實施大數據戰略的重要基礎和保障,也是發揮大數據作用,做強做大大數據產業的重要因素。大數據治理體系建設,已經成為了大數據相關的管理規則,相關的技術和產品研發的重點。我認為分層次多維度推進大數據治理體系的建設,需要得到重視,但是任重道遠。
(審核編輯: 智匯小新)
分享