Machine Learning 三種演算法比較
演算法 | 核心概念 | 優點 | 缺點 | 適用場景 |
---|---|---|---|---|
Random Forest | 結合多個決策樹,每棵樹使用不同的子樣本和特徵。最終通過多數投票(分類)或平均(回歸)進行預測。 |
- 抗過擬合能力強 - 對高維數據表現穩定 - 可評估特徵重要性 |
- 訓練和預測時間較長 - 無法處理不平衡數據集表現較差 |
- 高維數據分析 - 特徵重要性評估 - 泛化性能要求高的場景 |
Bagging | 通過對原始數據進行有放回抽樣,生成多個子數據集,並在每個子數據集上訓練弱模型。最終對結果進行平均或投票。 |
- 降低模型的方差 - 增加穩定性 - 易於並行化計算 |
- 偏差可能無法顯著減少 - 對單個弱模型依賴較強 |
- 高方差模型(如決策樹) - 注重穩定性的場景 |
Boosting | 按序列方式訓練多個弱分類器,每次迭代關注前一輪錯誤分類的樣本,逐步提升模型性能。 |
- 偏差大幅降低 - 對小樣本和不平衡數據集表現好 - 生成高準確率模型 |
- 訓練時間較長 - 對噪聲敏感 - 易過擬合(尤其是弱分類器過強時) |
- 小樣本數據集 - 不平衡數據場景 - 高準確性要求 |
沒有留言:
張貼留言