回帰分析(3)〜回帰診断

ここでは回帰診断について説明します.回帰分析がうまくできたかどうかは,先に挙げた4つのポイントから判断することができますが,それ以外にも見ておくべきポイントがあります.

残差の確認

推定された回帰式が適正なものであるかどうかを確認するものとして,決定係数や係数の有意性をチェックすることを前回学んだが,「残差」も確認する必要がある.回帰式(単回帰)は,

Y=a+bx

であるが,説明変数xを上式に代入して求めた被説明変数Ŷと実際のデータから読み取れるYには誤差が存在している.これを残差という.残差uは,

u=Y-Ŷ = Y-a-bx

回帰分析(最小2乗法)ではこのuに関して以下の仮定を置いている.

  1. uの平均は0
  2. uの分散は一定
  3. uはxと無相関
  4. uは互いに無相関

残差を確認するには,これを散布図で視覚化すると良い.「回帰分析」ツールの中に残差を計算する箇所があるので,この「残差」と「残差グラフの作成」チェックしてみる.実行すると,回帰結果の他に各残差の値,残差のグラフが表示される.

zansa.gif

例では残差はランダムに現れている(すなわち,良好な推定ができた)ように見える.uがxと共に増加(減少)している,uが規則性を持っているように観察される,などの傾向が観察されるのなら,推定がうまく行っていない,あるいは他に有力な説明変数がある,など回帰式そのものを見直す必要がある.

その他,残差から分かる問題

一般にクロスセクションデータについては誤差項の分散が不均一に,時系列データでは系列相関が生じやすいのだという.

■等分散性
残差と予測値,あるいは残差と説明変数による散布図を描いてみて,0を中心に均一に散らばっていれば,等分散性に問題ない.

等分散性が疑われる場合

が,例えば残差に上記のような傾向が観察された場合,回帰分析がうまくいっていないことが想像される.上記のケースはXが増加するにつれ,残差のばらつきが増加するケース.
チェック方法としてはBreusch-Paganテスト,Whiteテストなどがあり,対応策として,加重最小二乗法,Box-Cox変換などがあるが,その方法については統計のテキスト参照.

■独立性
特に時系列データの場合,データの並び方に意味があり,隣り合うデータから生じた残差に相関が存在することがある.これを系列相関といい,残差の独立性が失われることを意味する.例えば,下図のような残差が観察されている場合,残差に系列相関が存在すると考えられる.

系列相関を疑われる場合

系列相関は所得,物価など経済データに多く観察されている.系列相関が存在する場合,標準誤差を過小評価することで,回帰係数の検定で本来有意でない結果までも有意とする結果を生む可能性がある.ダービン・ワトソン比(DW)はこれをチェックする方法として知られている.

誤差項間に系列相関が存在するかどうかは得られたDWの値と判別のために数表(統計学より,計量経済学のテキストに付いてることが多い)により判断するが,大まかには,

DWが2前後系列相関なし
DWが2よりかなり小さい正の系列相関あり
DWが2よりかなり大きい負の系列相関あり

系列相関が存在する場合の対応としては,ダミー変数を用いて除去する他に,コクラン・オーカット法,一般化最小二乗法(GLS),最尤法などがある.具体的は方法については統計のテキストを参照.


外れ値の検討

データ全体から見て,分布から極端に離れているデータを外れ値と呼ぶ.外れ値はデータの集合において極端に違うデータ.外れ値がある場合,

  1. データ入力が誤っている→修正する
  2. データは本物
ということがいえる(当然のことだが).で,正しいデータであるならば,
  1. 取り除いて分析してみる
  2. 取り除かず分析に組み込んでみる(ダミー変数を用いる)
という対処法が考えられる.外れ値を取り除いて回帰分析をやり直してみると良い結果を得られることがある.ダミー変数が使えるなら,これを組み込むことで良い結果が得られることがある.

外れ値の見つけ方

  1. ざっくり見つけたい場合(1)
    標本となったデータが正規分布していると仮定し,平均値から2〜3σ以上離れたデータを外れ値とします.
  2. ざっくり見つけたい場合(2)
    データを並べ替えして,上位,下位何パーセントかを外れ値と見なす,という方法です.
  3. スミルノフ・グラブス検定
    同じく正規分布を仮定して行われる検定.詳細は省略します.


多重共線性

■多重共線性とは何か:説明変数の間に強い相関関係が存在する場合,回帰分析により得られる結果に悪い影響がでることがある.これを多重共線性という.
具体的には,


などの症状が生じる.

■VIF
多重共線性を見つける方法の1つとして,VIF(Variance Inflation Factor,分散拡大要因)がある.説明変数がX1,X2という2変数の場合,VIFは以下の式で求められる.

VIF=1/(1-r2x1x2)

VIFが大きいほど,多重共線性の影響があることを意味する. r2x1x2はX1とX2の相関係数の2乗.10より大きいVIFであれば,明らかに多重共線性が存在するといって良い.

■対応
多重共線性がある場合,最も簡単な回避の方法の1つは,共線性にある説明変数の片方を回帰式からのぞくこと

あるいは,回帰式Y=a+b1X1+b2X2+b3X3において,X2=cX3の関係があることが予想される場合には,これを回帰式に組み込んで,

Y=a+b1X1+(b2c+b3)X3

とし,X2を除いた回帰分析を行うことにより多重共線性を処理することができる.しかし,新たに推定された係数は元の回帰式と異なることに注意.


Copyright(C) 1997-2014 by ABE Keiji
All rights reserved.