發(fā)布時(shí)間:2016-12-01 作者:admin
大數(shù)據(jù)成為這個(gè)時(shí)代的熱點(diǎn)詞匯,無論是大企業(yè)、小企業(yè)、傳統(tǒng)抑或新興行業(yè),每一家公司都成為大數(shù)據(jù)的擁躉,好像有了大數(shù)據(jù)就能解決所有問題。
企業(yè)通過社會、天氣、政府?dāng)?shù)據(jù)來預(yù)測供應(yīng)鏈會否中斷。各大網(wǎng)站爭向搶奪用戶數(shù)據(jù),一些公司甚至開始利用大量的文本交流數(shù)據(jù)建立算法,從而與客戶進(jìn)行對話。
但事實(shí)上呢,我們對大數(shù)據(jù)重要性的癡迷,往往會產(chǎn)生誤導(dǎo)。在一些情況下,從數(shù)據(jù)中能獲取有價(jià)值的東西,但對于創(chuàng)新者來說,數(shù)據(jù)量和規(guī)模不是關(guān)鍵的因素,找到正確的數(shù)據(jù)才是關(guān)鍵。
在《大數(shù)據(jù)時(shí)代》一書中,邁爾-舍恩伯格給出了著名的關(guān)于大數(shù)據(jù)時(shí)代的三大特征:1)不是隨機(jī)樣本,而是全體數(shù)據(jù);2)不是精準(zhǔn)性,而是混雜性;3)不是因果關(guān)系,而是相關(guān)關(guān)系。本文解讀一把為什么“不是隨機(jī)樣本,而是全體數(shù)據(jù)”?!?/span>
但其實(shí)這個(gè)推斷是有陷阱的,所謂的全體數(shù)據(jù),在絕大多數(shù)情況下并不是“全體”。即便那些絕對重量級的互聯(lián)網(wǎng)企業(yè),比如說谷歌、百度、FACEBOOK、淘寶天貓,它們也不可能擁有所謂全體數(shù)據(jù)。
有時(shí)候正確的數(shù)據(jù)規(guī)模也很大,也有的時(shí)候正確的數(shù)據(jù)規(guī)模很小。對于創(chuàng)新者,關(guān)鍵在于哪些關(guān)鍵的數(shù)據(jù)對企業(yè)最有幫助,要找到正確的數(shù)據(jù)。
像我們一說大數(shù)據(jù)就想到的Uber和滴滴里這個(gè)例子里,為了完成自動化指派司機(jī)工作,從而減少資源的閑置,他們需要知道潛在的乘客可能在城市的哪些位置對于尋求降低成本的保險(xiǎn)公司,他們想知道一個(gè)糖尿病患者血糖下降的時(shí)候,以幫助自動化進(jìn)行圍繞病人的干預(yù)措施,減少不善疾病的影響。
這就是你所需要的數(shù)據(jù),通過處理大量的信息找到他們是很好的,如果你通過建立一個(gè)新的應(yīng)用程序來捕獲它們更好。
大部分公司花了太多的時(shí)間提倡大數(shù)據(jù),但是卻幾乎沒有花時(shí)間去想清楚哪些數(shù)據(jù)才是正確的有價(jià)值的數(shù)據(jù),這樣就得不償失了。