4/20/2017

大演算

網路發達的今天大家對人工智慧、機器學習、演算法或大數據這些名詞有所耳聞,卻很難說出這些東西在做什麼?跟自己有什麼關係?有些人對人工智慧就停留在「全民公敵」中機器人進化,反過來要取代人類的情境。但事實上,機器學習早已深入我們的生活,不管是你上Amazon買書、上網使用 Google 搜尋,在facebook 收到廣告訊息,觀賞 Netflix 推薦的電影,這一切的背後都有機器學習的作用。

 

這本書幫助我們了解機器學習背後的「概念模型」。就是簡單說明幾種演算技術,給我們基本知識,讓我們知道人工智慧跟機器學習的關係。機器學習的演算法能夠自己找出執行方法,並從大數據中進行推論,來改善自己的運作邏輯,只要擁有越多的數據,學習器就能在分析後得出更好且更精準的結果,這也是「大數據」被稱為是現代的黃金的原因。擁有大數據,再搭配上一個好的演算法,就能做到許多超越一般人想像的事。

 

機器學習演算法大致分為五大學派:符號理論學派,類神經網路學派,演化論學派貝氏定理學派和類比推理學派,

(1)    符號理論學派(Symbolists)利用歸納法,或決策樹假設某些條件不發生情況下歸納出某些規則讓機器根據這些規則來運作。歸納法另一種解釋叫做逆向演繹先看什麼叫演繹法A1(蘇格拉底是人)+B1 (人都會死)=C1(蘇格拉底會死), A2+B2=C2… 再看歸納法知道很多A1,A2,A3,… C1,C2,C3…, 推出在Ax, Cx發生的情況下, Bx 將會發生.  A1, C1 反推B1叫做逆向演繹.  逆向的演繹法(Inverse Deduction),可以找出哪些知識是欠缺的,以便能做出邏輯的演繹推論,然後使其盡可能地被通則應用。

(2)    類神經網路學派(Connectionists參考大腦的學習網路大腦同時間接受到不同神經元的信號必須判斷那些信號強那些弱那裡的刺激需要反應那些要放棄。類神經網路學派的主要演算法是倒傳遞理論演算法(Back propagation),它會比較系統的輸出與期望的輸出,然後依次改變一層又一層的神經元連結,以便使得輸出結果可以更接近於它應該呈現的。他是不斷微調的過程,讓機器人從蒐集的資料不斷調整但因為來源很多如何判斷強弱優先可能會有落差。這邊調整的是對於inputs 的權重以及修正output levels.

(3)    演化論學派(Evolutionaries),演化論學派的主要演算法是一種遺傳程式規劃(genetic programming),就像大自然會交配與演化生物一樣;同樣地,遺傳程式規劃也會以相同的方式,繁衍與演化電腦程式系統。他的方式在同時跑很多程式來分析然後篩選這些程式淘汰錯誤率高的,優化較好的程式最後慢慢找出,在什麼清境下哪種程式最適合物競天擇的結果。

(4)    貝氏定理學派(Bayesians)則著重在各種事件發生的機率和人們主觀的前驗假設下,將其複製到演算法的邏輯上,這門學派主張所有學到的知識都是不確定的,而且學習本身就是一種不確定的推理形式。那麼這個問題就變成如何處理雜訊、不完整,以及相互矛盾的資訊,而不會造成分崩離析。解決的辦法就是機率推理。

(5)    類比推理學派(Analogizers)學習的關鍵是認識各種情況之間的相似之處,從而推斷其他情境的相似地方。如果兩位患者都有相似的症狀,也許他們患有相同的疾病,問題的關鍵是要判斷兩件事情之間是如何相似。類比推理學派的主要演算法就是支持向量機(Support Vector Machine,簡稱SVM),它可以找出哪些經驗是需要記住的,以及如何結合這些經驗,做出新的預測。

 

機器學習擁有許多不同的形式,而且也有許多不同的名稱,例如:樣式辨識(pattern recognition)、統計模式(statistical modeling)、資料探勘(data mining)、知識發現(knowledge discovery)、預測分析(predictive analytics)、資料科學(data science)、自我調適系統(adaptive systems)、自我組織系統(self-organizing systems)等。機器學習被不同的領域廣泛地使用,而在這本書中,作者統一使用「機器學習」這個術語,來泛指所有的機器學習。

 

作者提到肉食性動物來描寫機器學習對比靜態的分析。這類似先前討論的傳統的數據分析是分析過去靜態的而大數據分析則是加入對未來的預測是動態的。在資訊處理生態系統中, 學習器是「超級食肉動物」(superpredators);統計演算法(Statistical algorithms)、線上分析處理(online analytical processing)等,就像是肉食性動物。而資料庫(Databases)、資訊採集器(crawlers,又稱檢索器)以及分析索引子(indexers)等,都可以說都是草食動物,它們有耐性地在一望無際的資料領域進行探勘挖掘(munging);

 

在生態系統中,草食動物的存在是必要的,沒有牠們,其他動物便不可能存活,同時間,超級食肉動物也讓我們的生活更精采。資訊採集器就好比一頭乳牛,而網路則是遍及全球的牧草地,每一個網頁都是一根小草,當資訊採集器完成網頁探勘時,網站的副本會儲存在它的硬碟空間中,然後透過分析索引子針對每個出現的字詞,制定一個網頁的索引清單,很像是一本書後面所附的索引一樣。而資料庫就如大象,又大又笨重,而且資料會永遠儲存,不會忘記。整個資訊處理程序便是在這些有耐性的動物們之間,投以統計和分析演算法,執行壓縮和資料檢選,再把數據資料轉化為資訊。然後學習器會接收吃下這些資訊,負責逐量消化它,最後再把這些資訊轉化為知識。

 

作者把人工智慧當成新的時代來臨,

(1)    工業革命(Industrial Revolution)是人力自動化的作業。Automation of labor.

(2)    資訊革命(Information Revolution)是自動化腦力工作的作業流程, automation of knowledge.

(3)    機器學習則是自動化機器本身的新型態發展。Automation of machines.


從我的 iPhone 傳送

沒有留言: