分散分析

分散分析の必要性

2つのグループ(水準)の平均の違いを調べる方法がt検定といわれる方法でした.ところで,グループ数が3つ(例えばA,B,C)になったらどうしたらよいでしょう.

AとB,BとC,そしてCとAのペアでそれぞれt検定を行ない,どこかで帰無仮説が棄却されたならば,3つのグループの平均は等しくない,と結論づけることができます.

ですが,このやり方には欠点があります.

  1. グループ数が増加するとペアの数が増加する
    グループの数をAとすると,ペアの数はA*(A-1)/2となります.疲れます.
  2. 有意水準の解釈が難しくなる
    ここでは省略します.統計の本を参照して下さい.
と,いうわけで(1)に限ってみてもt検定の繰り返しは面倒です.そこで,グループ(水準)が3つ以上の場合に,変数の各水準の母平均に違いがあるかどうかを「分散」の大きさの違いで検定を行なうものを分散分析(Analysis of Varience)といいます.
厳密には3つ以上の水準の平均が互いに等しいという仮説を検定するもので,水準の間で少なくとも1つの平均が他と異なっているかどうかをこの分析では調べることになります.

つまり,全体の中のどこかに差が存在していることを示すだけで,具体的にどれとどれが異なっているかを知るには,多重比較という分析を行なう必要があります.多重比較はt統計分析ソフトの分散分析におけるオプションとして与えられることが多いようです.

また,分散分析では検定統計量がF分布という分布に従うことが知られていることを利用して検定を行ないます.


分散分析の種類

分散分析には大きく分けて一元配置と多元配置(二元配置)といわれる分析方法があります.

一元配置

例えば,3カ国の男性の平均身長の違いは国籍に関係あるのかといった場合,国籍がグループを識別する(唯一の)要素になります.このように,グループを識別する要素が1つのものを一元配置のデータと呼び,これのデータを用いた分散分析を一元配置の分散分析といいます.

アメリカフランス 日 本
 ○○cm ○○cm ○○cm

二元配置

先のデータに対し,「父親の身長が高いか高くないか」という要素を加えて,各人を2つの要素(国籍と父親の身長)で識別できるようになっているものを二元配置のデータといいます.これを用いた分散分析を二元配置の分散分析といいます.

 アメリカフランス 日 本
父親の身長高い ○○cm ○○cm ○○cm
父親の身長低い ○○cm ○○cm ○○cm

この分析では例のデータを考えた場合,分析の目的は,

  1. 国籍によって平均身長に違いはあるのか
  2. 父親の身長の高低によって平均身長に違いはあるのか
  3. 2つの要素による相乗効果はあるのか
という3つになります.とくに3つめのような「交互作用」を分析することが二元配置の分散分析の主要な目的になります.

多元配置

より多くのグループ分けの要素からなる分散分析です.詳しくは統計のテキストを見て下さい.


Excelによる分散分析〜一元配置

例えば,このようなデータを分析してみましょう.これは男女100人の身長,体重のデータ(仮想)です.以下の様にExcelの表の上にデータが並んでいたとします.
※データはこの後にもならんでいます.

uni-0.gif

データは,性別,国籍,身長,父親の身長の順にならんでいます.ここでは国籍(つまり民族)の違いによって身長には違いがあるかを調べてみましょう.

ただし,このままのデータの並びでは分散分析に適さないので,以下のように並び替えをします.メニューバーの「データ(D)」→「並べ替え」などを使って国毎にソートすると良いでしょう.

anova1.gif

実習
練習用データで実習する.国ごとの平均身長データについて分散分析を行い,有意な差があるかどうかを検定する.差があった場合,2か国(3通り)について平均値の検定(t検定)を行い,どの国に差があるかを確認する.

でもっていよいよ分散分析を行ないます.今回は一元配置の分散分析を行ないます.

【手順】

  1. メニューバーの「ツール(O)」
  2. 「分析ツール(D)」
  3. 「一元配置の分散分析」
の順で選択をすると,以下のダイアログが現れます.そこで,例えば次のようにデータ範囲,出力範囲を設定し,「OK」ボタンをクリックします(図の例ではそれぞれの国の男性についてのみ分散分析を試みています).

anova2.gif


(出力結果)

実行すると以下の分析結果が出力されます.

anova.gif

「概要」ではそれぞれのグループ毎に平均と分散が計算されます.「分散分析表」では,グループ間,グループ内の自由度,分散が出力されます.「観測された分散比」というのがいわゆる「F値」になります.

(1)P値<実験者が設定する棄却域の確率帰無仮説を棄却
(2)F 境界値<観測された分散比 帰無仮説を棄却

この分析における帰無仮説は「国籍にかかわらず身長の平均は等しい」という内容です.検定結果の解釈は,

  1. P値「3E-6」は1%や5%といった棄却域と比較して十分小さいです.
  2. 観測された分散比「14.54」という数値と「F境界値」(5%)を比べると分散比(F値)が上回っています.
したがって,例ではこの仮説は正しくないことが分かります.つまり,国籍によって身長の平均には差があることが分かりました.

実習
練習用データで実習する.今度は男女別に国ごとの平均身長に差があるかを検定する.

実習
講義中指示する企業群の株価より月次の収益率(変化率)を求め,それぞれの収益率が互いに等しいかを分散分析により検定する.株価データはこちら


Excelによる分散分析〜ニ元配置

ここでは,身長に影響を与える要因を性別と父親の身長の2つを考えます.2つの要因の組み合わせごとに得られた測定値の数を「繰り返し」の数と呼びます.

この例では,性別(2種),父親の身長(2種)の4つの条件でデータを分類します.残念ながらExcelでは,繰り返しの数が等しいデータ(バランスデータ)による2元配置の分散分析しか対応していません.そこで,サンプルデータを上記の4分類についてそれぞれ15人ずつ選びました.

  1. 元データを父親の身長(昇順)でソートし,父親の身長によりサンプルを2分割し,それぞれ1(低いほう),2(高いほう)とラベルを付ける.

  2. 性別と父親の身長により,以下のように15人ずつの身長を取り出してデータセットを作成する.

     女性男性
    低いデータデータ
    高いデータデータ

画面にもあるように,グループを識別するラベルも必要になります.わざと色を付けたのですが,各グループの並び方が分かるでしょうか?

anova2-1.gif

【手順】

  1. メニューバーの「ツール(O)」
  2. 「分析ツール(D)」
  3. 「繰り返しのある二元配置」
の順で選択すると画面のようなダイアログが現れます.画面にあるように,範囲(ラベルの部分も含めます),1標本あたりの行数も入力(この例では15)します.


(出力結果)

分散比,P値の見方は1元配置と同じです.標本は父親の身長による効果,列は性別による効果,交互作用は両者による効果になります.結果からはどちらの分類でも差が出ていることが分かります.

anova2-2.gif


Excelの関数で算出する分散分析

上記のように「分析ツール」を使っても良いのですが,算出した統計量をさらに次の分析に移したいときや,マクロを書くときなどには「分析ツール」よりも関数を用いたほうが便利です.

F分布に従う確率ftest(配列1,配列2)
F分布の値fdist(値,自由度1,自由度2)
F分布の逆関数の値finv(確率,自由度1,自由度2)

ftest関数は検定結果として帰無仮説が棄却できる確率(P値)を算出します.けど,これだと2つのグループに対してしか機能しないような気がします.>MS社様

fdist関数はF分布表の代わりに用います.算式通りに計算して得られたF値を指定することで帰無仮説が棄却できる確率(P値)を求めることができます.
自由度1は分子,自由度2には分母のものを入力します.

finv関数もF分布表の代わりに用います.棄却域(何%の有意水準で…というときの数値)と自由度を指定することで,そのときのF値(境界値)を求めることができます.
自由度1は分子,自由度2には分母のものを入力します.


Copyright(C) 1997-2005 by ABE Keiji
All rights reserved.