123,123,123

相關(guān)閱讀

統(tǒng)計學(xué)習(xí)那些事

3. 結(jié)語

最后我想以討論“模糊系統(tǒng)”和“統(tǒng)計學(xué)習(xí)”來結(jié)尾。這個話題非常具有爭議，我就冒天下之大不諱吧，談一談我這幾年的學(xué)習(xí)體會。記得十年前，立新老師曾經(jīng)寫過一篇文章《模糊系統(tǒng)：挑戰(zhàn)與機遇并存——十年研究之感悟》，發(fā)表在2001年《自動化學(xué)報》上。我2005年看到的時候，敬仰之情，猶如滔滔江水。立新老師曾經(jīng)有這么一句話：“If a method works well in practice, there must be some theoretical reasons for its success.”2005年的時候，我開始問自己什么使模糊系統(tǒng)的成功?立新老師認為有如下幾個原因：1.模糊系統(tǒng)的通用逼近性能(Universal Approximator);2.模糊系統(tǒng)快速的構(gòu)造算法，比如他自己的WM方法，Roger Jang的ANFIS等等;3.結(jié)果的可解釋性;4.利用各種不同形式的信息。

下面我談?wù)勛约旱目捶?，第一，通用逼近性能當然是一個好的性質(zhì)，它表明模糊系統(tǒng)是很flexible的，但flexible的結(jié)構(gòu)太多了，比如神經(jīng)網(wǎng)絡(luò)。問題往往不在flexible，而在太flexible導(dǎo)致overfitting。就如同SVM一樣，沒有L2-norm regularization，實踐中的性能就會變得很差。第二，快速算法，這是好的方法必備的，SVM，Boosting，Random Forest的算法都很快，而且可以直接用到高維，這一點上，我沒有看到模糊系統(tǒng)的優(yōu)勢。第三，可解釋性：模糊系統(tǒng)對低維數(shù)據(jù)(比如2-4維)的確具有好的解釋性(因為IF-THEN規(guī)則的前提和結(jié)論都很簡潔)，但這個時候其它工具也可以做得到，比如Gradient Boosting和Random Forests(很多例子可以在ESL這本書里看到)。第四，充分的利用各種信息。立新老師指的是IF-THEN規(guī)則可以比較自由靈活的加入先驗知識，并在他的書里面詳細給出實例。遺憾的是，這些例子都在處理低維空間的問題。如何用IF-THEN規(guī)則解構(gòu)高維空間呢?我個人看不到它們特殊的優(yōu)勢。然而，在統(tǒng)計學(xué)習(xí)里，利用不同的先驗知識處理高維空間的例子比比皆是，比如Sparsity，group-structure，smoothness等等?，F(xiàn)在舉一個Gradient Boosting machine(GBM，也叫MART)的例子來說明我的觀點。根據(jù)Lasso和Boosting的關(guān)系，可以知道GBM已經(jīng)用到了Sparsity的性質(zhì)(L1-norm regularization)。GBM有兩個參數(shù)可以反映我們的先驗知識。第一個參數(shù)是深度(depth)，控制每棵決策樹的深度。如果深度為1，即樹樁結(jié)構(gòu)(Stump)，表明GBM將采用加法模型(Generalized Additive model)，即不考慮變量之間的交互式作用(Interaction);如果深度大于1，則考慮交互式作用。因為交互式作用在非線性建模中比較重要，如異或(XOR)問題，沒有考慮交互式作用將失敗得很慘，所以這個參數(shù)設(shè)置反映了對非線性建模的先驗。第二個參數(shù)是Shrinkage的大小。假設(shè)深度選取是合理的，在噪聲比較小的時候，沒有Shrinkage會比較好;噪聲比較大的時候，有Shrinkage會好一些。實踐中，使用GBM對高維數(shù)據(jù)分析，試錯法(Trial and error)很容易使用，因為就這兩個參數(shù)(通常depth=3～4;實際數(shù)據(jù)的噪聲往往比較大，推薦設(shè)置Shrinkage=0.01)。模型構(gòu)建好之后，GBM會告訴你哪些變量是重要的，變量之間的交互式作用如何等等，這樣模型的結(jié)果也是比較容易理解。Random Forests也有相似的功能。好了，最后借Hastie教授的一幅圖來總結(jié)一下，無疑，GBM(MART)是他們的最愛，也是我的最愛。

[1] [2] [3] [4] [5] [6]

分享到：