「大數據」是近幾年產官學界的熱門議題之一,但許多人雖然聽過「大數據」這個名詞,卻對於其內涵不甚理解,有的人認為大數據就是「量很大」的數據,更有人以為凡是蒐集數據加以分析就是大數據。
大數據讓你能分析利用來自許多管道、豐富多元的即時串流資訊量。大數據對企業貢獻良多,其中很重要的一點便是「創新」。
大數據在營運各階段協助公司創新經營的方式,不論是市場調查、產品開發,還是產品上市,都能讓企業保持競爭優勢。透過本文一起來了解大數據的魅力。
以數據為基礎來解決問題
要了解大數據前,我們要先了解「數據」,同時了解數據、「資訊」(Information)、「知識」(Knowledge)、「智慧」(Wisdom)彼此的關聯性。
「數據」是無組織的事實和統計,通常以數字、文字或其他形式存在,例如:某個班上統計同學數學考試的準備時間,分別得到8小時、10小時、12小時等數字,這些準備數學考試的時數就是數據。
將數據進一步處理,使其在組織、分析、解釋後變得有意義,就成了「資訊」,例如上述班上同學數學考試的準備時間的例子,我們可以針對考試及格與不及格的人的準備時間進一步做統計,得到「數學考試及格的人平均準備時數是12小時,不及格的人平均準備時數只有6小時」這樣的資訊。
而「知識」則是對資訊再進一步的理解與應用,例如:從上述數學考試及格與不及格的同學平均準備時數的資訊中,老師可以得到「增加準備時數確實可以提高成績」的知識。
而「智慧」則是指在特定情境下明智地應用知識,做出明確的、基於經驗和判斷的決策。老師如果知道準備時數可以提高同學成績,那麼老師要如何進行課程和活動的安排,在不增加同學壓力和負擔的狀況下提高他們準備的時數呢?在實際的情境下妥善應用知識,就是智慧。透過以上的描述,我們知道,以數據為基礎,從數據出發,可以解決很多問題。
經常和數據一起同時被提到的是「演算法」(Algorithm),演算法指的是一系列用於解決特定問題或執行特定任務的指令或步驟,例如:線性回歸、決策樹、深度學習等。把數據加上演算法加上計算(訓練與預測)就形成了「模型」(Model),模型可以用來描述或預測新的事物,例如:線性回歸模型、決策樹模型、深度學習模型等。
大數據是數據驅動時代下的產物
數據非常有用,數據透過演算法的訓練形成的模型尤其有用。可是被用來訓練模型的數據是基於樣本,而樣本有質與量的問題,所以就會產生誤差。而經過科學家長期的研究發現,在數據品質可以確保的前提下,數據量越大,某一個變量對於預測的結果造成的影響越小,白話文就是數據越多,結果越準,這在數學上稱為「切比雪夫不等式」。在實務上,少量的數據搭配複雜的模型,對於結果預測的準確度,往往不如大量的數據搭配簡單的幾個模型,後者也是現代數據驅動方法的基礎,數據驅動是目前IT領域解決問題主流的方法,也是大數據興起的原因。
大數據不僅僅指的是數據的規模大,它也意味著數據有「多維度」和「完備性」,某些情況下,它也有「即時性」的意涵。所謂「多維度」,指的是一筆數據有多個維度的數據,例如:某個購物網站的一筆購買記錄,除了購買者與購買的商品之外,可能還同時記錄使用者購買的路徑、上站的裝置、做成決定所花的時間等數據,由於數據是多維度的,可以分析的角度相對地就比較多,也更有機會產生特別的洞察。
所謂「完備性」,就是讓樣本數盡可能接近母體,著名的例子是Google當年開發翻譯系統時,並沒有採用傳統在兩個語言間撰寫眾多的規則進行轉譯的方法,而是在兩個語言間提供盡可能完備的翻譯讓系統學習,而經過實測後者確實取得了更好的效果。「即時性」不是大數據的必備條件,但在某些應用上很重要,例如:導航系統,如果沒有辦法即時取得路況的數據的話,那導航的功能根本無法運作。
大數據是在什麼條件下形成的呢?主要的原因是網際網路的興起與行動網路時代的到來,讓我們有更多的管道和設備收集數據,並且在儲存與運算成本大幅降低的情況下,我們可以有效地利用這些數據。
簡單地說,世界充滿不確定性,大數據的本質就是要用資訊消除不確定性。前面說過,大數據是數據驅動時代下的產物,在數據品質確保的前提下,數據越多,預測結果越準確。
人工智慧的來臨,是機器還是人類勝利?
人工智慧早期的方法是模擬人類的行為,但因為缺乏突破,進入了長期的低谷期,直到數據驅動的方法與大數據的出現,讓智能問題變成了數據問題。最典型的例子就是AlphaGo在圍棋上戰勝人類世界冠軍的例子,如果單單只是模擬人類下棋的思路,AlphaGo是無法戰勝人類的。但AlphaGo在模仿人類棋步的基礎之上,又使用強化學習與自己大量對奕,最終透過結合幾種不同的演算法與大量的數據戰勝了世界冠軍。
很多人說AlphaGo戰勝世界冠軍是機器的勝利,但這其實是人類的勝利,因為在大數據、演算法、計算能力三者大幅進化的帶動下,人工智慧領域有了突破,進入了全新的時代。所以當我們在探索大數據這個領域時,必須了解到,大數據的意義不在於它能幫助我們把模型描述得更精準,也不在於幫我們把一些規律認識得更深刻,它最大的意義是讓機器可以做到一些人類能做到的事,也就是驅動人工智慧的突破。