Runsen在KFC買早餐,偶然聽見一句話,男孩對朋友說,“你每在手機(jī)上下一次訂單,就給肯德基的大數(shù)據(jù)做了一次貢獻(xiàn)。”
想來有趣,在網(wǎng)上購物、訂外賣、手機(jī)支付已成為很多人日常生活的一部分,可穿戴設(shè)備、智能家居設(shè)備等風(fēng)頭正旺的現(xiàn)在,我們每天的吃飯、睡覺、工作,甚至娛樂產(chǎn)生的“數(shù)據(jù)”都會通過某種手段被保留和集中起來。根據(jù)IBM調(diào)研的說法,人類每天生成的數(shù)據(jù)涵蓋我們發(fā)送的文本、上傳的照片、各類傳感器數(shù)據(jù)、設(shè)備與設(shè)備之間的通信的所有信息等,相當(dāng)于從地球到月球的距離。
將這樣量級的數(shù)據(jù)稱為“大數(shù)據(jù)”可一點(diǎn)也不為過。最早提出“大數(shù)據(jù)”時代到來的全球知名咨詢公司麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。”今天我們就來說說大數(shù)據(jù)。
一、什么是大數(shù)據(jù)
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》 中,大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理的分析方法;而研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn);根據(jù)維基百科的定義,大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。
我們這里主要采用第三種定義,即所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到獲取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策的目的資訊。
湖畔大學(xué)曾鳴老師曾列舉的的大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)最大的差別是:
在線、
實(shí)時與
全貌。
①在線:首先大數(shù)據(jù)必須是永遠(yuǎn)是在線的,而且在線的還得是熱備份的,不是冷備份的,不是放在磁帶里的,是隨時能調(diào)用的。不在線的數(shù)據(jù)不是大數(shù)據(jù),因?yàn)槟愀緵]時間把它導(dǎo)出來使用。只有在線的數(shù)據(jù)才能馬上被計(jì)算、被使用。
②實(shí)時:大數(shù)據(jù)必須實(shí)時反應(yīng)。我們上淘寶輸入一個商品,后臺必須在10億件商品當(dāng)中,瞬間進(jìn)行呈現(xiàn)。如果要等一個小時才呈現(xiàn),我相信沒有人再上淘寶。十億件商品、幾百萬個賣家、一億的消費(fèi)者,瞬間完成匹配呈現(xiàn),這才叫大數(shù)據(jù)。
③全貌:大數(shù)據(jù)還有一個最大的特征,它不再是樣本思維,它是一個全體思維。以前一提到數(shù)據(jù),人們第一個反應(yīng)是樣本、抽樣,但是大數(shù)據(jù)不再抽樣,不再調(diào)用部分,我們要的是所有可能的數(shù)據(jù),它是一個全貌。其實(shí)叫全數(shù)據(jù)比大數(shù)據(jù)更準(zhǔn)確。
二、大數(shù)據(jù)對企業(yè)有什么好處
“大數(shù)據(jù)”在物理學(xué)、
生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因?yàn)榻陙砘ヂ?lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。據(jù)統(tǒng)計(jì),企業(yè)內(nèi)部的經(jīng)營交易信息、互聯(lián)網(wǎng)中的商品物流信息、人與人交互信息、位置信息等數(shù)據(jù),每2~3年時間就會成倍增長。
而信息是現(xiàn)代企業(yè)的重要資源,是企業(yè)運(yùn)用科學(xué)管理、決策分析的基礎(chǔ)。這些數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值,但是企業(yè)所關(guān)注的通常只占在總數(shù)據(jù)量的2%~4%左右。因此,企業(yè)仍然沒有最大化地利用已存在的數(shù)據(jù)資源,以至于浪費(fèi)了更多的時間和資金,也失去制定關(guān)鍵商業(yè)決策的最佳契機(jī)。
對于一般的企業(yè)而言,大數(shù)據(jù)的作用主要表現(xiàn)在兩個方面:
1.幫助企業(yè)了解用戶
大數(shù)據(jù)通過相關(guān)性分析,將客戶和產(chǎn)品、服務(wù)進(jìn)行關(guān)系串聯(lián),對用戶的偏好進(jìn)行定位,從而提供更精準(zhǔn)、更有導(dǎo)向性的產(chǎn)品和服務(wù),提升銷售業(yè)績。典型的例子就是電商。像阿里淘寶這樣的電子商務(wù)平臺,積累了大量的用戶購買數(shù)據(jù)。在早期的時候,這些數(shù)據(jù)都是累贅和負(fù)擔(dān),存儲它們需要大量的硬件成本。但是,現(xiàn)在這些數(shù)據(jù)都是阿里最寶貴的財(cái)富。
大數(shù)據(jù)也可以對業(yè)績產(chǎn)生直接影響。它的效率和準(zhǔn)確性,遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的用戶調(diào)研。除了電商,包括能源、影視、證券、金融、農(nóng)業(yè)、工業(yè)、交通運(yùn)輸、公共事業(yè)等,都是大數(shù)據(jù)的用武之地。
2.幫助企業(yè)了解自己
除了幫助了解用戶之外,大數(shù)據(jù)還能幫助了解自己。企業(yè)生產(chǎn)經(jīng)營需要大量的資源,大數(shù)據(jù)可以分析和鎖定資源的具體情況,例如儲量分布和需求趨勢。這些資源的可視化,可以幫助企業(yè)管理者更直觀地了解企業(yè)的運(yùn)作狀態(tài),更快地發(fā)現(xiàn)問題,及時調(diào)整運(yùn)營策略,降低經(jīng)營風(fēng)險(xiǎn)。總而言之,“知己知彼,百戰(zhàn)百勝”。大數(shù)據(jù),就是為決策服務(wù)的。
三、大數(shù)據(jù)有什么特點(diǎn)
大數(shù)據(jù)的特點(diǎn)有4個層面:
1.Volume(海量化):數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;
2.Variety(多樣化):數(shù)據(jù)的形式是多種多樣的,包括數(shù)字(價(jià)格、交易數(shù)據(jù)、體重、人數(shù)等)、文本(郵件、網(wǎng)頁等)、圖像、音頻、視頻、位置信息(經(jīng)緯度、海拔等),等等,都是數(shù)據(jù);
3.Velocity(時效性):處理速度快,1秒定律,從數(shù)據(jù)的生成到消耗,時間窗口非常小。數(shù)據(jù)的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現(xiàn)在的按秒甚至毫秒變化;
4.Value(價(jià)值密度):大數(shù)據(jù)的數(shù)據(jù)量很大,但隨之帶來的,就是價(jià)值密度很低,數(shù)據(jù)中真正有價(jià)值的,只是其中的很少一部分。只要合理利用數(shù)據(jù)并對其進(jìn)行正確、準(zhǔn)確的分析,將會帶來很高的價(jià)值回報(bào)
四、大數(shù)據(jù)的開發(fā)
1.數(shù)據(jù)采集
數(shù)據(jù)采集有線上和線下兩種方式,線上一般通過爬蟲,通過抓取或者通過已有應(yīng)用系統(tǒng)的采集。
在這個階段,我們可以做一個大數(shù)據(jù)采集平臺,依托自動爬蟲(使用Python或者Node.js制作爬蟲軟件),ETL工具、或者自定義的抽取轉(zhuǎn)換引擎,從文件中、數(shù)據(jù)庫中、網(wǎng)頁中專項(xiàng)爬取數(shù)據(jù)。如果這一步通過自動化系統(tǒng)來做的話,可以很方便的管理所有的原始數(shù)據(jù),并且從數(shù)據(jù)的開始對數(shù)據(jù)進(jìn)行標(biāo)簽采集,可以規(guī)范開發(fā)人員的工作,同時目標(biāo)數(shù)據(jù)源可以更方便的管理。
數(shù)據(jù)采集的難點(diǎn)在于多數(shù)據(jù)源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。還有本地文件、excel統(tǒng)計(jì)文檔、甚至是doc文件。如何將它們規(guī)整、有方案地整理進(jìn)我們的大數(shù)據(jù)流程中也是必不可缺的一環(huán)。
2.數(shù)據(jù)匯聚
數(shù)據(jù)的匯聚是大數(shù)據(jù)流程最關(guān)鍵的一步,你可以在這里加上數(shù)據(jù)標(biāo)準(zhǔn)化,你也可以在這里做數(shù)據(jù)清洗,數(shù)據(jù)合并,還可以在這一步將數(shù)據(jù)存檔,將確認(rèn)可用的數(shù)據(jù)經(jīng)過可監(jiān)控的流程進(jìn)行整理歸類,這里產(chǎn)出的所有數(shù)據(jù)就是整個公司的數(shù)據(jù)資產(chǎn),到了一定的量就是一筆固定資產(chǎn)。
數(shù)據(jù)匯聚的難點(diǎn)在于如何標(biāo)準(zhǔn)化數(shù)據(jù),例如表名標(biāo)準(zhǔn)化,表的標(biāo)簽分類,表的用途,數(shù)據(jù)的量,是否有數(shù)據(jù)增量?數(shù)據(jù)是否可用?
這些需要在業(yè)務(wù)上下很大的功夫,必要時還要引入智能化處理,例如根據(jù)內(nèi)容訓(xùn)練結(jié)果自動打標(biāo)簽,自動分配推薦表名、表字段名等,還有如何從原始數(shù)據(jù)中導(dǎo)入數(shù)據(jù)等。
3.數(shù)據(jù)轉(zhuǎn)化與映射
經(jīng)過數(shù)據(jù)匯聚的數(shù)據(jù)資產(chǎn)如何提供給具體的使用方使用?在這一步,主要就是考慮數(shù)據(jù)如何應(yīng)用,如何將兩、三個數(shù)據(jù)表轉(zhuǎn)換成一張能夠提供服務(wù)的數(shù)據(jù)。然后定期更新增量。
經(jīng)過前面的那幾步,在這一步難點(diǎn)并不太多了,如何轉(zhuǎn)換數(shù)據(jù)與如何清洗數(shù)據(jù)、標(biāo)準(zhǔn)數(shù)據(jù)無二,將兩個字段的值轉(zhuǎn)換成一個字段,或者根據(jù)多個可用表統(tǒng)計(jì)出一張圖表數(shù)據(jù)等等。
4.數(shù)據(jù)應(yīng)用
數(shù)據(jù)的應(yīng)用方式很多,有對外的、有對內(nèi)的,如果擁有了前期的大量數(shù)據(jù)資產(chǎn),是通過restful API提供給用戶?還是提供流式引擎 KAFKA 給應(yīng)用消費(fèi)? 或者直接組成專題數(shù)據(jù),供自己的應(yīng)用查詢?這里對數(shù)據(jù)資產(chǎn)的要求比較高,所以前期的工作做好了,這里的自由度很高。
五、大數(shù)據(jù)、數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別
大數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘的區(qū)別是,大數(shù)據(jù)是互聯(lián)網(wǎng)的海量數(shù)據(jù)挖掘,而數(shù)據(jù)挖掘更多是針對內(nèi)部企業(yè)行業(yè)小眾化的數(shù)據(jù)挖掘,數(shù)據(jù)分析就是進(jìn)行做出針對性的分析和診斷,大數(shù)據(jù)需要分析的是趨勢和發(fā)展,數(shù)據(jù)挖掘主要發(fā)現(xiàn)的是問題和診斷:
1.大數(shù)據(jù)
指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
2.數(shù)據(jù)分析
是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動。
3.數(shù)據(jù)挖掘
又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
根據(jù)信息存儲格式,用于挖掘的對象有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及Internet等。
大數(shù)據(jù)是范圍比較廣的數(shù)據(jù)分析和數(shù)據(jù)挖掘。按照數(shù)據(jù)分析的流程來說,數(shù)據(jù)挖掘工作較數(shù)據(jù)分析工作靠前些,二者又有重合的地方,數(shù)據(jù)挖掘側(cè)重?cái)?shù)據(jù)的清洗和梳理。數(shù)據(jù)分析處于數(shù)據(jù)處理的最末端,是最后階段。數(shù)據(jù)分析和數(shù)據(jù)挖掘的分界、概念比較模糊,模糊的意思是二者很難區(qū)分。大數(shù)據(jù)概念更為廣泛,是把創(chuàng)新的思維、信息技術(shù)、統(tǒng)計(jì)學(xué)等等技術(shù)的綜合體,每個人限于學(xué)術(shù)背景、技術(shù)背景,概述的都不一樣。
六、大數(shù)據(jù)的應(yīng)用
數(shù)據(jù)在行業(yè)中的應(yīng)用的越來越廣泛,我們先看看大數(shù)據(jù)在當(dāng)下有怎樣的杰出表現(xiàn):
1.大數(shù)據(jù)幫助政府實(shí)現(xiàn)市場經(jīng)濟(jì)調(diào)控、公共衛(wèi)生安全防范、災(zāi)難預(yù)警、社會輿論監(jiān)督;大數(shù)據(jù)幫助城市預(yù)防犯罪,實(shí)現(xiàn)智慧交通,提升緊急應(yīng)急能力;電力企業(yè)會通過大數(shù)據(jù)實(shí)時做數(shù)據(jù)的監(jiān)測和預(yù)測,讓我們更好、更方便做這種電力的調(diào)度;
2.醫(yī)療中更是有著比較廣泛的應(yīng)用,現(xiàn)在的基因工程以及疾病的預(yù)測分析和每個病人的手術(shù)方案等等,可能都會用到大數(shù)據(jù)。 大數(shù)據(jù)幫助醫(yī)療機(jī)構(gòu)建立患者的疾病風(fēng)險(xiǎn)跟蹤機(jī)制,幫助醫(yī)藥企業(yè)提升藥品的臨床使用效果,幫助艾滋病研究機(jī)構(gòu)為患者提供定制的藥物;
3.大數(shù)據(jù)幫助電商公司向用戶推薦商品和服務(wù),幫助旅游網(wǎng)站為旅游者提供心儀的旅游路線,幫助二手市場的買賣雙方找到最合適的交易目標(biāo),幫助用戶找到最合適的商品購買時期、商家和最優(yōu)惠價(jià)格;
4.大數(shù)據(jù)幫助企業(yè)提升營銷的針對性,降低物流和庫存的成本,減少投資的風(fēng)險(xiǎn),以及幫助企業(yè)提升廣告投放精準(zhǔn)度;大數(shù)據(jù)幫助社交網(wǎng)站提供更準(zhǔn)確的好友推薦,為用戶提供更精準(zhǔn)的企業(yè)招聘信息,向用戶推薦可能喜歡的游戲以及適合購買的商品;
5.大數(shù)據(jù)幫助娛樂行業(yè)預(yù)測歌手,歌曲,電影,電視劇的受歡迎程度,并為投資者分析評估拍一部電影需要投入多少錢才最合適,否則就有可能收不回成本;另外電影其實(shí)都是需要渲染的,之前每渲染一分鐘可能就需要上千臺機(jī)器、可能需要一兩個月,現(xiàn)在通過云計(jì)算、大數(shù)據(jù)的方式,可能渲染一個一分鐘的電影鏡頭就縮短成了一秒或者兩秒。
6.大數(shù)據(jù)幫助航空公司節(jié)省運(yùn)營成本,幫助電信企業(yè)實(shí)現(xiàn)售后服務(wù)質(zhì)量提升,幫助保險(xiǎn)企業(yè)識別欺詐騙保行為,幫助快遞公司監(jiān)測分析運(yùn)輸車輛的故障險(xiǎn)情以提前預(yù)警維修,幫助電力公司有效識別預(yù)警即將發(fā)生故障的設(shè)備;
七、大數(shù)據(jù)的展望
其實(shí),除了以上大數(shù)據(jù)的應(yīng)用外,未來大數(shù)據(jù)的身影應(yīng)該無處不在,就算無法準(zhǔn)確預(yù)測大數(shù)據(jù)終會將人類社會帶往到哪種最終形態(tài),但我相信只要發(fā)展腳步在繼續(xù),因大數(shù)據(jù)而產(chǎn)生的變革浪潮將很快淹沒地球的每一個角落。
比如,Amazon的最終期望是:“最成功的書籍推薦應(yīng)該只有一本書,就是用戶要買的下一本書。”Google也希望當(dāng)用戶在搜索時,最好的體驗(yàn)是搜索結(jié)果只包含用戶所需要的內(nèi)容,而這并不需要用戶給予Google太多的提示。
而當(dāng)物聯(lián)網(wǎng)發(fā)展到達(dá)一定規(guī)模時,借助條形碼、二維碼、RFID等能夠唯一標(biāo)識產(chǎn)品,傳感器、可穿戴設(shè)備、智能感知、視頻采集、增強(qiáng)現(xiàn)實(shí)等技術(shù)可實(shí)現(xiàn)實(shí)時的信息采集和分析,這些數(shù)據(jù)能夠支撐智慧城市,智慧交通,智慧能源,智慧醫(yī)療,智慧環(huán)保的理念需要,這些都所謂的智慧將是大數(shù)據(jù)的采集數(shù)據(jù)來源和服務(wù)范圍。
未來的大數(shù)據(jù)除了將更好的解決社會問題,商業(yè)營銷問題,科學(xué)技術(shù)問題,還有一個可預(yù)見的趨勢是以人為本的大數(shù)據(jù)方針。人才是地球的主宰,大部分的數(shù)據(jù)都與人類有關(guān),要通過大數(shù)據(jù)解決人的問題。
聲明:本文由網(wǎng)站用戶香香發(fā)表,超夢電商平臺僅提供信息存儲服務(wù),版權(quán)歸原作者所有。若發(fā)現(xiàn)本站文章存在版權(quán)問題,如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,請聯(lián)系我們刪除。