剪枝
在決策樹學(xué)習(xí)過程中,為了盡可能正確分類訓(xùn)練樣本,結(jié)點(diǎn)劃分過程將不斷重復(fù),有時會造成決策樹分支過多,從而把訓(xùn)練集自身的一些特點(diǎn)當(dāng)作所有數(shù)據(jù)都具有的一般性質(zhì),即出現(xiàn)過擬合。剪枝是主動去掉一些分支來降低過擬合的風(fēng)險,是決策樹學(xué)習(xí)算法對付過擬合的主要手段。只有少量問題有此類算法。
決策樹剪枝的基本策略有預(yù)剪枝(prepruning)和后剪枝(postpruning)。預(yù)剪枝是指在決策樹生成過程中,對每個結(jié)點(diǎn)在劃分前先進(jìn)行估計,若當(dāng)前結(jié)點(diǎn)的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)。后剪枝則是先從訓(xùn)練集生成一棵完整的決策樹,然后自底向上地對非葉結(jié)點(diǎn)進(jìn)行考察,若將此結(jié)點(diǎn)對應(yīng)的子樹替換為葉結(jié)點(diǎn)能夠帶來決策樹泛化能力的提升,則將此樹替換為葉結(jié)點(diǎn)。常用的后剪枝策略包括:降低錯誤剪枝(reduced error pruning,REP)、悲觀錯誤剪枝(pessimistic error pruning,PEP)、基于錯誤剪枝(error based pruning,EBP)、代價復(fù)雜度剪枝(cost complexity pruning,CCP)和最小錯誤剪枝(minimum error pruning,MEP)等。
通常后剪枝決策樹比預(yù)剪枝決策樹保留更多的分支。在一般情形下,后剪枝決策樹的欠擬合風(fēng)險很小,其泛化性能往往優(yōu)于預(yù)剪枝決策樹。但是,后剪枝過程是在生成完整決策樹之后進(jìn)行的,并且要自底向上地對樹中的所有非葉結(jié)點(diǎn)進(jìn)行逐一考察,因此其訓(xùn)練時間開銷比未剪枝決策樹和預(yù)剪枝決策樹都要大得多。