一篇文章詳解大數(shù)據(jù)技術(shù)和應(yīng)用場景
點擊:2770
A+ A-
所屬頻道:新聞中心
什么是大數(shù)據(jù)
說起大數(shù)據(jù),估計大家都覺得只聽過概念,但是具體是什么東西,怎么定義,沒有一個標(biāo)準(zhǔn)的東西,因為在我們的印象中好像很多公司都叫大數(shù)據(jù)公司,業(yè)務(wù)形態(tài)則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大數(shù)據(jù),在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大數(shù)據(jù)時代》提到了大數(shù)據(jù)的4個特征:
一個是數(shù)量大
一個是價值大
一個是速度快
一個是多樣性
第一個是數(shù)量比較大,只有數(shù)據(jù)體量達到了PB級別以上,才能被稱為大數(shù)據(jù)。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024個G的數(shù)據(jù)。
第二個是價值大,你如果有1PB以上的全國所有20-35年輕人的上網(wǎng)數(shù)據(jù)的時候,那么它自然就有了商業(yè)價值,比如通過分析這些數(shù)據(jù),我們就知道這些人的愛好,進而指導(dǎo)產(chǎn)品的發(fā)展方向等等。如果有了全國幾百萬病人的數(shù)據(jù),根據(jù)這些數(shù)據(jù)進行分析就能預(yù)測疾病的發(fā)生,這些都是大數(shù)據(jù)的價值。
第三個就是多樣性,如果只有單一的數(shù)據(jù),那么這些數(shù)據(jù)就沒有了價值,比如只有單一的個人數(shù)據(jù),或者單一的用戶提交數(shù)據(jù),這些數(shù)據(jù)還不能稱為大數(shù)據(jù),所以說大數(shù)據(jù)還需要是多樣性的,比如當(dāng)前的上網(wǎng)用戶中,年齡,學(xué)歷,愛好,性格等等每個人的特征都不一樣,這個也就是大數(shù)據(jù)的多樣性,當(dāng)然了如果擴展到全國,那么數(shù)據(jù)的多樣性會更強,每個地區(qū),每個時間段,都會存在各種各樣的數(shù)據(jù)多樣性。
第四個是速度快,就是通過算法對數(shù)據(jù)的邏輯處理速度非常快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
大數(shù)據(jù)的行業(yè)應(yīng)用
大數(shù)據(jù)無處不在,大數(shù)據(jù)應(yīng)用于各個行業(yè),包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內(nèi)的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。
制造業(yè),利用工業(yè)大數(shù)據(jù)提升制造業(yè)水平,包括產(chǎn)品故障診斷與預(yù)測、分析工藝流程、改進生產(chǎn)工藝,優(yōu)化生產(chǎn)過程能耗、工業(yè)供應(yīng)鏈分析與優(yōu)化、生產(chǎn)計劃與排程。
金融行業(yè),大數(shù)據(jù)在高頻交易、社交情緒分析和信貸風(fēng)險分析三大金融創(chuàng)新領(lǐng)域發(fā)揮重大作用。
汽車行業(yè),利用大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)的無人駕駛汽車,在不遠(yuǎn)的未來將走入我們的日常生活。
互聯(lián)網(wǎng)行業(yè),借助于大數(shù)據(jù)技術(shù),可以分析客戶行為,進行商品推薦和針對性廣告投放。
電信行業(yè),利用大數(shù)據(jù)技術(shù)實現(xiàn)客戶離網(wǎng)分析,及時掌握客戶離網(wǎng)傾向,出臺客戶挽留措施。
能源行業(yè),隨著智能電網(wǎng)的發(fā)展,電力公司可以掌握海量的用戶用電信息,利用大數(shù)據(jù)技術(shù)分析用戶用電模式,可以改進電網(wǎng)運行,合理設(shè)計電力需求響應(yīng)系統(tǒng),確保電網(wǎng)運行安全。
物流行業(yè),利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡(luò),提高物流效率,降低物流成本。
城市管理,可以利用大數(shù)據(jù)實現(xiàn)智能交通、環(huán)保監(jiān)測、城市規(guī)劃和智能安防。
生物醫(yī)學(xué),大數(shù)據(jù)可以幫助我們實現(xiàn)流行病預(yù)測、智慧醫(yī)療、健康管理,同時還可以幫助我們解讀DNA,了解更多的生命奧秘。
體育娛樂,大數(shù)據(jù)可以幫助我們訓(xùn)練球隊,決定投拍哪種題財?shù)挠耙曌髌罚约邦A(yù)測比賽結(jié)果。
安全領(lǐng)域,政府可以利用大數(shù)據(jù)技術(shù)構(gòu)建起強大的國家安全保障體系,企業(yè)可以利用大數(shù)據(jù)抵御網(wǎng)絡(luò)攻擊,警察可以借助大數(shù)據(jù)來預(yù)防犯罪。
個人生活, 大數(shù)據(jù)還可以應(yīng)用于個人生活,利用與每個人相關(guān)聯(lián)的“個人大數(shù)據(jù)”,分析個人生活行為習(xí)慣,為其提供更加周到的個性化服務(wù)。
大數(shù)據(jù)的價值,遠(yuǎn)遠(yuǎn)不止于此,大數(shù)據(jù)對各行各業(yè)的滲透,大大推動了社會生產(chǎn)和生活,未來必將產(chǎn)生重大而深遠(yuǎn)的影響。
大數(shù)據(jù)使用的技術(shù)
說起大數(shù)據(jù),大數(shù)據(jù)有三個層數(shù)據(jù)采集、存儲、計算三層。
第一個是數(shù)據(jù)采集層,以App、saas為代表的服務(wù)。
大數(shù)據(jù)基礎(chǔ)階段需掌握的技術(shù)有:Linux、Docker、KVM、MySQL基礎(chǔ)、Oracle基礎(chǔ)、MongoDB、redis以及hadoopmapreduce hdfs yarn等。
第二個數(shù)據(jù)存儲層,比如云存儲,需掌握的技術(shù)有:hbase、hive、sqoop等。
比如:Hadoop作為一個開源的框架,專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計,HDFS作為其核心的存儲引擎,已被廣泛用于數(shù)據(jù)存儲。HBase,是一個分布式的、面向列的開源數(shù)據(jù)庫,可以認(rèn)為是hdfs的封裝,本質(zhì)是數(shù)據(jù)存儲、NoSQL數(shù)據(jù)庫。
HBase是一種Key/Value系統(tǒng),部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標(biāo)主要依靠橫向擴展,通過不斷增加廉價的商用服務(wù)器,來增加計算和存儲能力。
第三個是數(shù)據(jù)計算應(yīng)用層,以數(shù)據(jù)為基礎(chǔ),為將來的移動社交、交通、教育,金融進行服務(wù),涉及到大數(shù)據(jù)架構(gòu)設(shè)計階段需掌握的技術(shù)有:Flume分布式、Zookeeper、Kafka等,以及大數(shù)據(jù)實時計算階段需掌握的技術(shù)有:Mahout、Spark、storm。
大數(shù)據(jù)的崗位
1.數(shù)據(jù)分析師Data analyst
指熟悉相關(guān)業(yè)務(wù),熟練搭建數(shù)據(jù)分析框架,掌握和使用相關(guān)的分析常用工具和基本的分析方法,進行數(shù)據(jù)搜集、整理、分析,針對數(shù)據(jù)分析結(jié)論給管理銷售運營提供指導(dǎo)意義的分析意見。
2.數(shù)據(jù)架構(gòu)師Data architect
對Hadoop解決方案的整個生命周期進行引導(dǎo),包括需求分析,平臺選擇,技術(shù)架構(gòu)設(shè)計,應(yīng)用設(shè)計和開發(fā),測試和部署。深入掌握如何編寫MapReduce的作業(yè)及作業(yè)流的管理完成對數(shù)據(jù)的計算,并能夠使用Hadoop提供的通用算法, 熟練掌握Hadoop整個生態(tài)系統(tǒng)的組件如: Yarn,HBase、Hive、Pig等重要組件,能夠?qū)崿F(xiàn)對平臺監(jiān)控、輔助運維系統(tǒng)的開發(fā)。
3.大數(shù)據(jù)工程師Big DataEngineer
收集和處理大規(guī)模的原始數(shù)據(jù)(包括腳本編寫,網(wǎng)頁獲取,調(diào)用APIs,編寫SQL查詢等);將非結(jié)構(gòu)化數(shù)據(jù)處理成適合分析的一種形式,然后進行分析;根據(jù)所需要的和專案分析商業(yè)決策。
4.數(shù)據(jù)倉庫管理員
Data warehousemanager:指定并實施信息管理策略;協(xié)調(diào)和管理的信息管理解決方案;多個項目的范圍,計劃和優(yōu)先順序安排;管理倉庫的各個方面,比如數(shù)據(jù)外包,移動,質(zhì)量,設(shè)計和實施。
5.數(shù)據(jù)庫管理員Database manager
提高數(shù)據(jù)庫工具和服務(wù)的有效性;確保所有的數(shù)據(jù)符合法律規(guī)定;確保信息得到保護和備份;做定期報告;監(jiān)控數(shù)據(jù)庫性能;改善使用的技術(shù);建立新的數(shù)據(jù)庫;檢測數(shù)據(jù)錄入程序;故障排除。
6.商業(yè)智能分析員Businessintelligence analyst
就工具,報告或者元數(shù)據(jù)增強來進行傳播信息;進行或協(xié)調(diào)測試,以確保情報的定義與需求相一致;使用商業(yè)智能工具來識別或監(jiān)測現(xiàn)有和潛在的客戶;綜合目前的商業(yè)只能和趨勢數(shù)據(jù),來支持采取行動的建議;維護或更新的商業(yè)智能工具,數(shù)據(jù)庫,儀表板,系統(tǒng)或方法;及時的管理用戶流量的商業(yè)情報。
(審核編輯: 智匯胡妮)
分享