MobyDigsは, 回帰モデルの計算と評価を行うためのソフトウェアパッケージです. 予測モデルの中から最適なモデルを探し出すため, 変数選択に遺伝アルゴリズムを採用しており, 独立変数の数が100, 500, 1000, 2000と多い場合でも, 信頼性の高い回帰モデルを構築することができます.
MobyDigsの最新バージョンは 1.0であり, Windows用のMobyDigs Professional のみリリースされています.
候補変数となる説明変数(X)の組(上限2000)と目的変数(Y)を定義し,
最小二乗法(OLS)による遺伝アルゴリズム(Variable Subset Selection - Genetic Algorithm(VSS-GA)法)
を使用して, 最適な回帰モデルを探索します.
遺伝アルゴリズムでは, ある解集団(population)は候補変数の1つの組み合わせとみなされ(集団の遺伝的継承物), 個々の解(つまり1つ以上の集団変数からなるモデル)から構成されています.
データセットアップ画面から, 説明変数を複数の解集団に割り当てることができます.
GAセットアップ画面から, GA発展を制御するGAパラメータの調整と,7つの適合度関数の中から任意の1つを選択することができます.
モデルの探索は, 異なる解集団上で同時に行われます.
また, それぞれの解集団は, 集団の遺伝的継承物(変数)によって構成された
個々の解(モデル)によって特徴づけられます.
GA発展中に, 他の解集団の遺伝的継承物から新しい解集団を作成することができ,
また既存の解集団を独自の遺伝的継承物を備えた別の解集団に移動(migrate)することもできます.
この結果, より質の高い解集団を発生させることができ, より大きなモデル空間を探索することが可能になります.
解集団が全て発生されれば, 解集団と対応する変数の部分集合から,
最終モデルを選択することができます.
得られた最終モデルに, ブートストラップテクニック, Yスクランブリング, 外部検証ツール等の複数の
バリデーションツールを適用することができます.
また, テーブルにモデル毎の予測値やレバレッジの値を出力できるので, これらの値を一括して評価することができます.
ユーザが選択した信頼性の高いモデルをベースにしたコンセンサス解析により, 平均予測(average predictions)が可能です.
最終モデルの類似性/多様性は, "モデル距離(model distance)"の可視化により, 数値的かつ視覚的(多次元スケーリング)に評価することができます.
最終モデルで採用された説明変数を用いて,
主成分回帰(PCR)を行い最良のPCsを持つモデルを評価することができます.
主成分回帰では, スコアおよびローディング図を利用することができます.
1つの目的変数(Y)と50の説明変数(X)によって表わされる100の標本があり,
候補説明変数は, 20のマクロ経済変数と30の社会経済変数に分けられるとします.
最初に, 2種類の変数の組を異なる解集団(populations)に振り分け,
2種類の変数候補に基づいたモデルの構築を行います.
データのセットアップ後でも, 2種類の説明変数を結合した3番目の解集団を作成することができ,
両方の候補変数を含むモデルを新規に構築することができます.
GA発展の後に, 3種類の解集団から最終モデルのサブセットを保存することができ,
3種類の条件に対応するモデルを得ることができます.
最後まで残った変数の組は, 少なくとも1つの解集団に組み入れられた,
全ての変数によって構築されたものになります.
| パラメータ | 意味 |
|---|---|
| Q2 loo | 一点除外(leave-one-out)Q2 |
| R2 adj | 自由度調整済みR2 |
| SDEP | 予測誤差の標準偏差(Standard Deviation Error in Prediction) |
| AIC | 赤池情報量規準(Akaike Information Criterion) |
| FIT | クビニ(Kubinyi)適合度関数 |
| LOF | フリードマンの不適合度(Lack-Of-Fit) |
| RQK | 上記関数に複数の基準(DK, DQ, RP, RN)を追加 |
MobyDigsの詳細情報は, 開発元ウェブページ(Talete社) をご確認ください.