王曉陽/復旦大學計算室內設計機學院院長
  大數據應用思路其實很簡單,就是要註重數據,註重採集、管理、利用。採集、管理、利用以後要乾什麼,要做到虛擬化,就是把事物虛擬化,把過程虛擬化,把任何的東西都虛擬化了,商務中心才能做到所謂的瞭如指掌,才能做到精準的理解、精準的預測、精準的控制。
  瞭如指掌的澎湖民宿大數據
  技術是為人服務的,人占主導地位,就是說人類的需求其實是另外一個驅動。“瞭如指掌”是哪裡來的?是《論語》里的,《論語》里有人問孔子,皇帝的禮義是怎麼回事?孔夫子就說我也不知道,他指指自己的手說,知道的人就等於像知道手掌一樣知道天下了。 (註:“孔子謂或人言知褅禮之說者,於天下之事,如指示掌中之物,言其易了。 ”出自《論語·八佾》何晏集解)這就是後人所謂的瞭如指掌。這其實是我們對瞭解世界有這樣一個需求。比方說在商業運營的時候,想知道這個商業怎麼運營、物流怎麼流的、哪裡被卡住了等。掌握這整個的交易流程就像瞭如指掌的話,怎麼能做到這一點?如果想要對物理世界達到這樣一個瞭如指掌的效果,我們怎麼做?有一個辦法,也就是虛擬化。把它轉褐藻糖膠化成數字的過程,用數字的過程來描述物理的過程、邏輯的過程、化學的過程等等,使它們虛擬化了以後我們就能夠做到或者說能夠接近於做到瞭如指掌。其實我們老祖宗就想要瞭如指掌,現在我們想要能做到、真正能做到,是一個非常大的進步。
  大數據預測,要先瞭固態硬碟解客戶
  我們都知道所謂的power law(註:冪律分佈)在哪裡都適用,就是富的更富,窮的更窮。蘋果手機就是一個power law,做手機的人有很多,不光是華為、小米,光我們上海就有好多做手機的,這些就是窮人,他們做的產值1億、2億就高興得不得了。蘋果做到幾十億、幾百億這樣的還覺得不夠,這就是一個所謂窮人和富人的差別。那個窮人是在哪裡呢?把他們放在所謂的長尾理論裡面,就是大部分的人其實是在統計數據的尾巴裡面,在統計數據尾巴裡其實隱藏了非常多的所謂的零散需求,海量的零散需求其實可以做出一種新的模式出來。這個在數據採集到一定程度以後完全可以做出一些大的分析使我們能夠做到這一點,如果沒有一個技術支撐的話,海量的零散需求我們找不到、沒法找。所以這是一個新的效益,在數據當中可以挖掘出來,這是從商業角度來看這個新的應用。
  傳統的數據也可以很大,但一般比較清晰,清晰是好事,但也是壞事,清晰有的時候並不能表達全意,因為在很多情況下模糊其實是表達了全部的意思,而不是清晰。這是我們中國人的思維方式,模糊一點其實更表達全部,清晰反而更註重於局部。大數據的應用其實是可以分成幾類,一個是關於人、關於物,還有其它。關於人是什麼呢?其實關於人這個大數據用得非常多,就是我們在協助搜索推薦的時候其實是預測興趣度,就是我怎麼知道我的用戶他興趣在哪裡,怎麼樣去預測,這是一個例子。社會現象的預測,比方總統選舉,奧斯卡得獎的情況。還有人群現象的預測,比方流感的預測、交通流量的預測。然後商業應用其實也很多,很大的一個方面是它對人群的理解,對人、對用戶理解了才能做好生意。
  怎樣利用大數據來預測所謂的流感流行?美國的疾病控制中心也有數據,是到醫院里去調查,一般這個調查數據出來以後做了統計,然後就告訴大家說哪裡流感來了,這一般要有個延遲,就是幾個星期之後才知道兩個星期前流感在這裡發生了。谷歌這個公司非常有意思,有一個人突發奇想說能不能用搜索的關鍵字來預測流感在哪裡發生?因為谷歌是被人用得很多的引擎。有一個基本假設是,流感發生的時候用戶就會去查癥狀是不是流感、藥從哪裡買、哪的醫生比較好等等。怎麼樣來用這個假設得到一個模型呢?如果這種關鍵字搜索多的話,可不可以就可以反過來說,流感就在這裡發生了?用這樣一個非常簡單的東西來做這個預測,結果發現很好。跟美國疾病控制中心的預測沒什麼大區別。第二個好處是快,非常快,是實時把所有人進行搜索的關鍵詞統計一下,做一些分析就出來了,隨時可以做這件事情。所以谷歌流感預測現在有個網站,可以告訴你哪裡有流感等等。中國數據沒有,因為中國人不用谷歌搜索。百度給中國也做了同樣的一個東西,好壞我就不知道了。
  註重數據是創新的關鍵因素
  大數據應用思路其實很簡單,就是要註重數據。數據是今後所有的革新、創新一個很關鍵的因素。註重採集、管理、利用。採集、管理、利用以後是要乾什麼,要做到虛擬化,就是把事物虛擬化,把過程虛擬化,把任何的東西都虛擬化了,才能做到所謂的瞭如指掌,才能做到精準的理解、精準的預測、精準的控制。
  還有一個就是說快速,快速實驗。它思考快使得我們各種各樣的試驗可以不斷地進行,能夠使我們的創新得到很高的效率。所以從這個角度來講,大數據的應用思路其實重點在數據,技術也很重要,但數據是一個根本的東西。所以以後會不會出現數據市場,就是買賣數據。數據其實是最難得到的東西,買賣數據可能是一個好的商業。但大數據有一些問題,不是全部是好的地方。就是因為樣本不是在控制的情況下採集的時候,樣本的Bias(註:乖離率,是測量股價偏離均線大小程度的指標。 )其實會很大,這個怎麼處理其實是一個問題。這個很重要的。它有很多的錯誤,很多的乖離、很片面、很模糊、很多的噪音、很多的錯誤,這個怎麼把它去掉,不能閉著眼睛用大數據,這個絕對不行。
  還有一個問題是隱私問題,怎麼保護人們的隱私,在大數據應用時,隱私的問題怎麼來保護,什麼情況下需要保護等等。在大數據應用的情況下其實人的作用非常大,越來越大,並不是說我們有了機器以後就可以自動地把什麼事情都做出來了。其實不然,因為有各種各樣的問題,我們人的作用非常重要,我們的所謂教育的作用非常的重要。怎麼樣讓人們理解大數據有什麼好處,有什麼問題,我們怎麼樣來解決,我們人的辨識能力在大數據應用裡面非常重要,我們需要有一整代的所謂的數據科學家。數據科學家的意思是說他知道這個數據應該怎麼去用,這個是非常重要的。
  大數據可以總結一下,虛擬化、數字化的需求,這是我們所需要的,由於我們的數據分析能力的提升使得我們的精準的科學、精準的醫學、精準的商業都是可以做到的,這是不是一場革命呢?我不知道,有人說是,有人說不是,我們就拭目以待。
  (本文為王曉陽在復旦大學講座輯錄,晚報記者施平整理)
  (原標題:大數據應該是為人服務的)
創作者介紹

江若琳

qr66qrdhba 發表在 痞客邦 PIXNET 留言(0) 人氣()