平均値の検定

統計的検定とは何かを解説した後,具体的な検定方法について解説,実際にデータを用いて実習を行なう.


1.検定とは何か

実際の分析では,行なう前に母集団の特性についてなんらかの予想がなされているのが普通 .こうした仮説が分析で得られた結果(つまり,標本統計量)と整合的であるかを調べるのが仮説検定.

森田[1974]によれば,仮説検定は以下の手順で行われる.

  1. 検定する仮説を設定する.
  2. 検定で用いる統計量と検定する際の判定基準を決定する.
  3. 標本から検定統計量を計算し,判定基準に照らして仮説の採否を決める.

帰無仮説の検定

棄却

対立仮説が真
帰無仮説の検定

採択

帰無仮説が真

両側検定と片側検定

例えば,帰無仮説H0がθ=θ0の時,考えられる対立仮説は,

となる.これが両側検定(≠),片側検定(> or <).
どちらを選択するかは,分析をする者がその分析の目的に応じて決める.

検定における判断基準

検定統計量(の絶対値)>境界値帰無仮説を棄却
検定統計量に対するp値<棄却域の確率(1% or 5%が普通)帰無仮説を棄却


2.平均値の検定

標本から得られた平均値が母集団の平均値と等しいと考えてよいか,という検定.計算上,母集団の分散が既知の場合と未知の場合がある.

(例)
 和歌山の某梅干し工場では,塩分7%の梅干しを生産している.品質をチェックするため,30個の梅干しをピックアップし,検査したところ,平均は7.2%,標準偏差は0.6だった.
帰無仮説:7%である
対立仮説:7%でない

母分散が既知の場合
母平均をμ,母分散をσ ,標本平均をx.gifとすると,

test_avg_1.jpg

は平均0,分散1の標準正規分布に従うことを利用して検定する.帰無仮説はH0:x.gif= μである.ここで,nは標本数である.

母分散が未知の場合
大抵の場合,母分散は分からない.ここでは,母集団が正規分布に従っていることが仮定されている.母集団が正規分布である場合,

test_avg_2.jpg

は自由度n-1のt分布に従うことを利用して検定する.ここでも帰無仮説はH0:x.gif= μである.また,sは標本標準偏差である.

Excelで求める

操作関数名(引数)
平均値の検定ztest(データ範囲,μ,σ)
標準正規分布の逆関数の値norm.s.inv(確率)
t分布の逆関数(両側)の値t.inv.2T(確率,自由度)
t分布の逆関数(左片側)の値t.inv(確率,自由度)

 和歌山の某梅干し工場では,塩分7%の梅干しを生産している.品質をチェックするため,30個の梅干しをピックアップし,検査したところ,平均は7.2%,標準偏差は0.6だった.
帰無仮説:7%である
対立仮説:7%ではない

母集団の分散が未知のケースの式に数値を代入すると,
t=((7.2-7)*√30)/0.6=1.826
この例では7%から高くても低くても製品としては不合格なので,両側検定を考える.自由度29(=30-1),有意水準5%のtの境界値はt.inv.2t関数を用いて
=T.INV.2T(0.05,29)=2.045 なので,「検定統計量(の絶対値)<境界値」より,
帰無仮説は5%の有意水準で棄却されない,つまり帰無仮説が採択され,梅干しの塩分濃度は7%である,という結論を得る.


3.分散の検定

分散の検定
得られた分散がある水準にあるのかの検定です.
母分散σ2に対する帰無仮説H0: σ202は標本分散s2を用いて,検定統計量,

test_var_1.jpg
が自由度n-1のχ2分布に従うことを利用して行われる.

母分散の比の検定
2つのグループの分散が等しいかの検定.後述する平均値の差の検定の場合,それぞれが正規分布であることと,等分散であるという条件を満たさなくてはならない.そのため,この検定方法についても確認しておこう.
データX,Yの標本数をそれぞれ,m,nとし,標本分散をそれぞれsx2,sy2とすると,帰無仮説H0 : sx2=sy2に対して,

test_var_2.jpg
が自由度m-1,n-1のF分布に従うことを利用して検定を行う.

Excelで求める
分散が等しいかの検定にはf.test関数がある.これはp値を出力する.定義通りに計算した場合には,棄却域にあたる確率,自由度を,それぞれの分布の逆関数の値を求める関数に代入して境界値を算出する.

操作関数名(引数)
等分散の検定f.test(データ範囲1,データ範囲2)
カイ2乗分布の逆関数(左側)の値chisq.inv(確率,自由度)
カイ2乗分布の逆関数(右側)の値chisq.inv.rt(確率,自由度)
F分布の逆関数の値f.inv(確率,自由度1,自由度2)

Excelの分析ツールを使う方法についてはこちらを参照


4.平均値の差の検定

2つのグループの分散が等しいとき
同じ母集団からの2つの標本X,Yの大きさm,n,平均,分散をそれぞれ(x.gif, sx2),(y.gif, sy2)とすると,平均値の差の検定は,
帰無仮説H0 : x.gif=y.gifに対して,統計量

t-test_1.jpg
が自由度m+n-2のt分布に従うことを利用して検定する.ここで,s2は合算された分散で,

t-test_2.jpg
と定義する.
Excelの「分析ツール」では『分散が等しいと仮定した2標本による検定』がそれにあたる.

2つのグループの分散が異なるとき
上の場合は2つのグループの分散が等しいことを前提としたが,当然,グループ間で分散が異なるケースがある.その場合はこちらの式を採用する.
この計算は上記の分散が等しい場合を含むので,常にこちらの計算方法で構わない.

t-test_3.jpg
検定はこのtが近似的に得られる自由度νのt分布に従うことを利用して行う.vの算式はここでは省略する.この検定はウェルチの検定と呼ばれるものである.
Excelの「分析ツール」では『分散が等しくないと仮定した2標本による検定』がそれにあたる.

一対の標本を用いたt検定

イメージとしては,この前後の平均の差が0であるかどうかを検定する.帰無仮説H0 : D=0に対して,統計量,

t-test_4.jpg
がn-1のt分布に従うことを利用する.ここで,Dは対応のあるサンプルの差の平均,sD2は差の分散である.


Excelによるt検定

例えば,このようなデータを分析してみよう.これは男女100人の身長,体重のデータ(仮想)です.以下の様にExcelの表の上にデータが並んでいたとする.※データはこの後にもならんでいる.

uni-0.gif

分かりきったようだが,男女の身長の平均が異なっていることを検定してみよう.帰無仮説,つまり直接検定する仮説は「男女の身長の平均に差がない(ゼロ)」となる.

ただし,このままでは分析に適さないので,例えば以下のように並べ替えをしたデータに対して分析を行なう.

t-test1.gif

でもっていよいよ分析を実行する.

【手順】

  1. メニューバーの「ツール(O)」
  2. 「分析ツール(D)」
  3. 「t検定」(ここでは,分散が等しくないと仮定した2 標本による検定)

の順で以下のダイアログが現れる.そこで,例えば次のようにデータ範囲,出力範囲を設定し,「OK」ボタンをクリック.

図中にあるように,「二標本の平均の差」には「0」を入力(両者の差はないことを帰無仮説にしているから).

データの範囲指定にデータの名前を含めていれば,「ラベル」もチェック.

「α」の部分は,棄却域の確率です.この確率に基づいてt境界値が表示される.

t-test3.gif


Excelによるt検定(出力結果)

先の分析を実行すると以下の結果が出力される.

t-test2.gif

検定結果を評価する際には(1)「P(T<=t)」あるいは,(2)「t」と「t 境界値」を見る.

(1)P(T<=t)<実験者が設定する棄却域の確率帰無仮説を棄却
(2)t 境界値<「t」の絶対値 帰無仮説を棄却

  1. 仮に棄却域を5%(0.05)としたとき,片側,両側のP(T<=t)はどちらも0.05よりも小さいことが分かります.
  2. t境界値は片側,両側とありますが,どちらの数値よりも「t」の絶対値9.65はこれを上回っている.

したがって,この例では「2つのグループの平均は等しい」という帰無仮説を棄却する.よって,2つのグループの平均身長は異なるということが分かった(あたりまえか).


Excelの関数で算出するt検定

上記のように「分析ツール」を使っても良いが,算出した統計量をさらに次の分析に移したいときや,マクロを書くときなどには「分析ツール」よりも関数を用いたほうが便利.以下ではt検定についての関数を挙げておく.

t分布に従う確率ttest(配列1,配列2,尾部,検定の種類)
t分布の値t.dist.2t(値,自由度)
t分布の逆関数(両側)の値t.inv.2t(確率,自由度)

ttest関数は検定結果として帰無仮説が棄却できる確率(p値)を算出する
尾部は両側:2,片側:1を指定する
検定の種類は対をなすデータ:1,分散の等しい2標本:2,分散の等しくない2標本:3を指定する.

t.dist.2t関数はt分布表(両側)の代わりに用いる.算式通りに計算して得られたt値を指定することで帰無仮説が棄却できる確率(p値)を求めることができる.
片側の場合は,t.dist.rt関数を用いる(右側)

t.inv.2t関数もt分布表の代わりに用いる.棄却域(何%の有意水準で…というときの数値)と自由度を指定することで,そのときのt値(境界値)を求めることができる.結果は両側検定の場合の数値(片側の場合の数値が欲しいときはt.inv関数(左側)).


Copyright(C) 1997-2008 by ABE Keiji
All rights reserved.