比率の検定・独立性の検定
1.母比率の検定
標本におけるある比率が母集団の比率と等しいかどうかを検定する方法です.
標本における比率をp,母集団における比率をp0とすると,帰無仮説H0: p = p0に対して検定統計量,
![]()
が標準正規分布に従うことを利用して検定します.判断基準は以下のようなものでした.
検定統計量(の絶対値)>境界値 帰無仮説を棄却 検定統計量に対するp値<棄却域の確率(1% or 5%が普通) 帰無仮説を棄却
2.比率の差の検定
2つのグループのある比率が等しいかどうかを検定する方法です.2つのグループの標本数をそれぞれm,n,比率をp1,p2としたとき,帰無仮説H0: p1 = p2に対して検定統計量,
![]()
が標準正規分布に従うことを利用して検定を行います.分子がマイナスになる場合は絶対値で考えて下さい.ここで,pは2つのグループの比率の加重平均値で,
![]()
となります.この検定は2×2分割表に対する独立性の検定(X2検定)と同等なものである.Excelで求める
- 求めたZを以下の関数を利用して,p値を求めます.
関数名 使い方 norm.s.dist 1-norm.s.dist(z,true) ※この↑計算式で算出されるp値は片側です.
両側の場合はこの値を2倍して下さい.例題
金融教育の担い手として期待しているのはどちら?という質問をしました.下の表がその結果です.
男女で回答の傾向が違うのかを検証します.
学校 金融機関 合計 比率 男性 34 17 51 0.67 女性 11 7 18 0.61 合計 45 24 69
- 帰無仮説は男女2グループでの回答の比率が等しい,というものです.
- 加重平均値をp求めます.
![]()
- 検定統計量をZ求めます
![]()
- Zをnorm.s.dist関数に入れて,p値を求めます.
=(1-NORM.S.DIST(0.4255))*2=(1-0.6648)*2=0.6705帰無仮説を棄却できませんので,男女2グループでの回答の比率は等しい,という結論になります.
3.独立性の検定
- データについて考えられる属性(変数)2つに基づいたクロス集計表(分割表)を作成したとき,この2属性に関連性があるのかを検定します.
※分割表の例
20代 30代 40代 合計 男性 … … … … 女性 … … … … 合計 … … … … - 比率の差の検定で用いた例も分割表の一種です.
- 属性の分割数により,k×m分割表と呼びます.
- 帰無仮説H0 : 2つの属性に関連はない(独立である)に対し,次の検定統計量,
![]()
が自由度(k-1)×(m-1)のX2分布に従うことを利用して検定を行います.上の例では,性別と選択肢(学校,金融機関)の間には関連性がない(例えば,女性だから学校,とかの特徴はない)ことを調べます.
記号の関係は下の表の通り.
B1 B2 … Bj … Bm 合計 A1 f11 f12 … … … … f1. A2 f21 f22 … … … … f2. … … … … … … … … Ai fi1 fi2 … fij … … fi. … … … … … … … … Ak … … … … … … … 合計 f.1 f.2 … f.j … f.m n Excelで求める
- 分割表に対する検定には上記の定義通りに計算する方法の他,chisq.test関数がある.これはp値を出力する.この関数を用いるには,実測値テーブル(元の表)の他,期待値のテーブルを用意する必要がある.
- 比率の差の検定で用いた例で,chisq.test関数を使う手順を例示します.
- 元の表(実測値テーブル)は,
となります.
学校 金融機関 合計 男性 34 17 51 女性 11 7 18 合計 45 24 69 - これを元にした期待値テーブルは,
となります.各セルに入る数字(期待度数)は,
学校 金融機関 合計 男性 33.3 17.7 51 女性 11.7 6.3 18 合計 45 24 69 - 期待度数=(行合計×列合計)÷総合計
で求められます.例えば,左上の33.3は,(51×45)÷69 で求められました.- chisq.test関数の書式は次の通りです.
chisq.test(観測値セル範囲,期待値セル範囲) ※数値が入っている部分(合計は除く)を指定します.- ちなみに,上記データの場合,chisq.test関数の結果は,0.6705を返します.これはp値なので,帰無仮説は棄却されない,となります.したがって,性別と選択肢の間には関連性がない,ということになります.
- 定義通りに計算した場合には,棄却域にあたる確率を,χ2分布の逆関数の値を求める関数に代入し,境界値を算出します.
- X2値は,上記の定義の他に,期待値テーブルを利用して求めることができます.
X2=(観測値セルの数値−期待値セルの数値)2÷期待値セルの数値をすべてのセルについて求め,これの合計を求めることで得られます.- 左上(男性・学校)のセル(0.0164)は,(34−33.3)2÷33.3で求めています.
学校 金融機関 男性 0.0164 0.0308 女性 0.0465 0.0873
これを合計して,X2=0.181を得ました.- p値はX2値からも求めることができます.chisq.dist.rt関数を用います.この関数の引数は,chisq.dist.rt(X2値,自由度)です.
自由度は,(列数−1)×(行数−1)となります.2×2の分割表だと,自由度は1です.
目的 出力されるもの 関数名(引数) 分割表の検定 p値 chisq.test(観測値セル範囲,期待値セル範囲) カイ2乗分布の右側確率 p値 chisq.dist.rt(X2,自由度) カイ2乗分布の逆関数の値 境界値 chisq.inv.rt(確率,自由度)
Copyright(C) 1997-2017 by ABE Keiji
All rights reserved.