見出し画像

【XAI】SHAP系5種(KernelSHAP・TreeSHAP・DeepSHAP)

「SHAPファミリー」とは、モデルの予測に対する 特徴量の寄与度(重要度) を定量化するための一連の手法の総称です。SHAPは元々 Shapley値(協力ゲーム理論における貢献度分配)に基づき、個々の特徴量が予測にどれだけ影響したかを公平に評価することを目指しています。ここでは代表的な手法(TreeSHAP、DeepSHAPなど)について整理します。


1. SHAPの基本概念

  • 目的:ブラックボックスモデルの予測を説明可能にする。

  • 手法の本質:ゲーム理論の Shapley値を応用。

    • 全ての特徴量の組み合わせに対して、ある特徴量を加えたときのモデル出力の変化を平均する。

    • 公平性の原則:

      1. 効率性:全ての特徴量の寄与を合計すると、予測値−平均予測値になる。

      2. 対称性:同じ貢献度の特徴量は同じ値を持つ。

      3. 線形性:複数モデルの寄与は加算できる。

  • 課題

    • 全ての組み合わせを試すと計算量が 2M2^M2M(M:特徴量数)で爆発的に増える。

    • そのため、モデルや構造に応じた高速化手法が開発されている。


2. 代表的手法の一覧


3. 主要手法の目的と違い

  • KernelSHAP:どんなモデルでも使える「汎用型」

  • TreeSHAP:決定木系モデルに特化し「高速・正確」

  • DeepSHAP:ニューラルネット専用、勾配に基づき「層ごと寄与を可視化」

  • GradientSHAP / Integrated Gradients:入力勾配を利用して説明、DeepSHAPと似た役割

  • LinearSHAP:線形モデル専用、理論的に正確


4. 共通の課題

  1. 計算コスト

    • 特に KernelSHAP は特徴量が増えると爆発的に増加。

  2. 近似誤差

    • DeepSHAPやGradientSHAPは近似に依存。

  3. 相関する特徴量

    • SHAP値は独立を前提に計算されることが多く、相関が強いと解釈が難しい。

  4. 高次元データでの安定性

    • 特徴量が多いと寄与値が分散しやすく、解釈が困難。


まとめると、SHAPファミリーは「公平な特徴量寄与の算出」を目指す手法群であり、モデルの種類や計算効率に応じて各手法が最適化されています。選択は モデルの種類+計算リソース+精度要求 によります。

いいなと思ったら応援しよう!