Affinity Science Corporation
製品紹介

MobyDigs 製品概要

MobyDigsは, 回帰モデルの計算と評価を行うためのソフトウェアパッケージです. 予測モデルの中から最適なモデルを探し出すため, 変数選択に遺伝アルゴリズムを採用しており, 独立変数の数が100, 500, 1000, 2000と多い場合でも, 信頼性の高い回帰モデルを構築することができます.

MobyDigsの最新バージョンは 1.0であり, Windows用のMobyDigs Professional のみリリースされています.



MobyDigsでできること


  • 最小二乗法(OLS)と遺伝アルゴリズムによる単・重回帰モデルの計算
  • 最終モデルのバリデーション
  • データに新規オブジェクトや変数を追加可能
  • 得られた回帰モデルによる外部データ予測
  • モデルに使用した変数の部分集合の獲得と外部利用
  • モデリング変数の部分集合から計算されたPCsを用いた主成分回帰(PCR)モデルの作成
  • 回帰モデル解析用の診断・可視化ツール
  • 最終モデルの類似性/多様性評価
  • コンセンサス解析(複数の最終モデルから平均予測を評価)
  • 強力なグラフツールと統計パラメータによる変数解析
  • タブ区切りテキストファイルへ各種結果を保存
  • 画像付きレポートの自動作成

MobyDigsの理論的側面

候補変数となる説明変数(X)の組(上限2000)と目的変数(Y)を定義し, 最小二乗法(OLS)による遺伝アルゴリズム(Variable Subset Selection - Genetic Algorithm(VSS-GA)法) を使用して, 最適な回帰モデルを探索します.

遺伝アルゴリズムでは, ある解集団(population)は候補変数の1つの組み合わせとみなされ(集団の遺伝的継承物), 個々の解(つまり1つ以上の集団変数からなるモデル)から構成されています.

データセットアップ画面から, 説明変数を複数の解集団に割り当てることができます.

GAセットアップ画面から, GA発展を制御するGAパラメータの調整と,7つの適合度関数の中から任意の1つを選択することができます.

モデルの探索は, 異なる解集団上で同時に行われます. また, それぞれの解集団は, 集団の遺伝的継承物(変数)によって構成された 個々の解(モデル)によって特徴づけられます.

GA発展中に, 他の解集団の遺伝的継承物から新しい解集団を作成することができ, また既存の解集団を独自の遺伝的継承物を備えた別の解集団に移動(migrate)することもできます. この結果, より質の高い解集団を発生させることができ, より大きなモデル空間を探索することが可能になります.

解集団が全て発生されれば, 解集団と対応する変数の部分集合から, 最終モデルを選択することができます.

得られた最終モデルに, ブートストラップテクニック, Yスクランブリング, 外部検証ツール等の複数の バリデーションツールを適用することができます. また, テーブルにモデル毎の予測値やレバレッジの値を出力できるので, これらの値を一括して評価することができます. ユーザが選択した信頼性の高いモデルをベースにしたコンセンサス解析により, 平均予測(average predictions)が可能です. 最終モデルの類似性/多様性は, "モデル距離(model distance)"の可視化により, 数値的かつ視覚的(多次元スケーリング)に評価することができます.

最終モデルで採用された説明変数を用いて, 主成分回帰(PCR)を行い最良のPCsを持つモデルを評価することができます. 主成分回帰では, スコアおよびローディング図を利用することができます.




適用例

1つの目的変数(Y)と50の説明変数(X)によって表わされる100の標本があり, 候補説明変数は, 20のマクロ経済変数と30の社会経済変数に分けられるとします. 最初に, 2種類の変数の組を異なる解集団(populations)に振り分け, 2種類の変数候補に基づいたモデルの構築を行います.

データのセットアップ後でも, 2種類の説明変数を結合した3番目の解集団を作成することができ, 両方の候補変数を含むモデルを新規に構築することができます.

GA発展の後に, 3種類の解集団から最終モデルのサブセットを保存することができ, 3種類の条件に対応するモデルを得ることができます. 最後まで残った変数の組は, 少なくとも1つの解集団に組み入れられた, 全ての変数によって構築されたものになります.


概略

  • ASCII形式データのインポート機能
  • 最大標本数:2000
  • 説明変数の上限:2000
  • 解集団(populations)の上限:10
  • 保存可能な最終モデルの上限:100
  • モデル最適化のための7つの回帰パラメータ(Q2, R2ad, LOF, ...)
  • GA発展プロセスのオンライン管理機能
  • 最終モデルのバリデーション機能:ブートストラップ, Y-スクランブリング, 外部ツール
  • タブーリストによる候補変数の除外
  • タブーリストに設定した候補変数の復帰
  • コンセンサス解析(各モデルの平均値を用いた予測)
  • 最終モデルの類似性/多様性の評価
  • GAを用いない単回帰モデル(回帰パラメータと係数、予測、レバレッジ、診断ツール、可視化)
  • 変数やモデルの可視化、統計機能(BMPなど複数の画像形式でエクスポート可能)
  • モデル作成計画、最終モデル、検証結果、予測、グラフ等の関連情報を格納可能なレポート作成機能
  • 包括的なユーザーマニュアル




GAによるモデル最適化に利用可能な適合度関数

パラメータ 意味
Q2 loo 一点除外(leave-one-out)Q2
R2 adj 自由度調整済みR2
SDEP 予測誤差の標準偏差(Standard Deviation Error in Prediction)
AIC 赤池情報量規準(Akaike Information Criterion)
FIT クビニ(Kubinyi)適合度関数
LOF フリードマンの不適合度(Lack-Of-Fit)
RQK 上記関数に複数の基準(DK, DQ, RP, RN)を追加


MobyDigsの詳細情報は, 開発元ウェブページ(Talete社) をご確認ください.

gotop
sitemap