相關(guān)閱讀

統(tǒng)計學(xué)習(xí)那些事

3. 結(jié)語

最后我想以討論“模糊系統(tǒng)”和“統(tǒng)計學(xué)習(xí)”來結(jié)尾。這個話題非常具有爭議,我就冒天下之大不諱吧,談一談我這幾年的學(xué)習(xí)體會。記得十年前,立新老師曾經(jīng)寫過一篇文章《模糊系統(tǒng):挑戰(zhàn)與機遇并存——十年研究之感悟》,發(fā)表在2001年《自動化學(xué)報》上。我2005年看到的時候,敬仰之情,猶如滔滔江水。立新老師曾經(jīng)有這么一句話:“If a method works well in practice, there must be some theoretical reasons for its success.”2005年的時候,我開始問自己什么使模糊系統(tǒng)的成功?立新老師認為有如下幾個原因:1.模糊系統(tǒng)的通用逼近性能(Universal Approximator);2.模糊系統(tǒng)快速的構(gòu)造算法,比如他自己的WM方法,Roger Jang的ANFIS等等;3.結(jié)果的可解釋性;4.利用各種不同形式的信息。

下面我談?wù)勛约旱目捶?,第一,通用逼近性能當然是一個好的性質(zhì),它表明模糊系統(tǒng)是很flexible的,但flexible的結(jié)構(gòu)太多了,比如神經(jīng)網(wǎng)絡(luò)。問題往往不在flexible,而在太flexible導(dǎo)致overfitting。就如同SVM一樣,沒有L2-norm regularization,實踐中的性能就會變得很差。第二,快速算法,這是好的方法必備的,SVM,Boosting,Random Forest的算法都很快,而且可以直接用到高維,這一點上,我沒有看到模糊系統(tǒng)的優(yōu)勢。第三,可解釋性:模糊系統(tǒng)對低維數(shù)據(jù)(比如2-4維)的確具有好的解釋性(因為IF-THEN規(guī)則的前提和結(jié)論都很簡潔),但這個時候其它工具也可以做得到,比如Gradient Boosting和Random Forests(很多例子可以在ESL這本書里看到)。第四,充分的利用各種信息。立新老師指的是IF-THEN規(guī)則可以比較自由靈活的加入先驗知識,并在他的書里面詳細給出實例。遺憾的是,這些例子都在處理低維空間的問題。如何用IF-THEN規(guī)則解構(gòu)高維空間呢?我個人看不到它們特殊的優(yōu)勢。然而,在統(tǒng)計學(xué)習(xí)里,利用不同的先驗知識處理高維空間的例子比比皆是,比如Sparsity,group-structure,smoothness等等?,F(xiàn)在舉一個Gradient Boosting machine(GBM,也叫MART)的例子來說明我的觀點。根據(jù)Lasso和Boosting的關(guān)系,可以知道GBM已經(jīng)用到了Sparsity的性質(zhì)(L1-norm regularization)。GBM有兩個參數(shù)可以反映我們的先驗知識。第一個參數(shù)是深度(depth),控制每棵決策樹的深度 。如果深度為1,即樹樁結(jié)構(gòu)(Stump),表明GBM將采用加法模型(Generalized Additive model),即不考慮變量之間的交互式作用(Interaction);如果深度大于1,則考慮交互式作用。因為交互式作用在非線性建模中比較重要,如異或(XOR)問題,沒有考慮交互式作用將失敗得很慘,所以這個參數(shù)設(shè)置反映了對非線性建模的先驗。第二個參數(shù)是Shrinkage的大小。假設(shè)深度選取是合理的,在噪聲比較小的時候,沒有Shrinkage會比較好;噪聲比較大的時候,有Shrinkage會好一些。實踐中,使用GBM對高維數(shù)據(jù)分析,試錯法(Trial and error)很容易使用,因為就這兩個參數(shù)(通常depth=3~4;實際數(shù)據(jù)的噪聲往往比較大,推薦設(shè)置Shrinkage=0.01)。模型構(gòu)建好之后,GBM會告訴你哪些變量是重要的,變量之間的交互式作用如何等等,這樣模型的結(jié)果也是比較容易理解。Random Forests也有相似的功能。好了,最后借Hastie教授的一幅圖來總結(jié)一下,無疑,GBM(MART)是他們的最愛,也是我的最愛。

 

[1]   [2]   [3]   [4]   [5]   [6]

 

分享到: