基本統計量の算出

平均,標準偏差など基本統計量の算出方法とその意味について理解します.Excelの関数についての説明では,引数は断りがない限りセル範囲です.


母集団・標本・記述統計・推測統計・標本数・最大値・最小値


平均値・中央値・最頻値


データの分布〜ヒストグラム〜

度数分布表

観測値の取りうる値をいくつかの値に分け,それぞれの階級で観測値がいくつあるか(度数)を数えて,表にしたもの.
階級値は階級を代表する値.通常,階級値には階級の上限と下限の中間値を用いる.

度数分布表やヒストグラムを作成する場合,何個の階級を作れば良いか,という問題がある.これに関してはスタージェスの公式というものがあるとのこと.あくまでも目安だが,階級数kは,

k≒1+(log10n)/(log102)

で求められる.nはデータの数

で求められる.nは標本数.

相対度数
観測値の総数を1とみなしたときの,各階級に属する観測値の割合.データの大きさが異なる複数のデータ分布の比較に便利.
また,累積度数は度数を下の階級から惇に積み上げたときの度数の累積和.

ヒストグラム
度数分布をグラフにしたもの.測定値の存在する範囲をいくつかの区間に分けた場合, 各区間を底辺とし,その区間に属する測定値の度数に比例する面積を持つ長方形を並べた図(Excelのヒストグラムは区間の取り方が微妙に違う).

【手順】

  1. Max,Min関数でデータの上限と下限を確認する.
  2. データ区間(階級)を入力する.ここで階級が多い場合は,メニューの「編集」→「フィル」→「連続データ」が便利.
  3. メニューバーの「ツール」→「分析メニュー」→「ヒストグラム」
  4. 「入力範囲」,「データ区間」,「出力先」のセルを選択,「グラフ作成」もチェックしておこう
  5. 「OK」をクリックして完成
  6. 出力されたヒストグラムは棒の間隔が空いているので,間隔をゼロに設定して完成

calc_graph_15.jpg

横軸は対象の変量の値が適当な区間(階級)でまとめてあり,縦軸にはその区間に入った変量が全体の何%になったかが示されている.例ではまんなかが一番高く,両側に行くにしたがって低くなっていることが読み取れる.

ヒストグラムは必ずしもキレイな山型をしている訳ではなく,データの分布に応じて様々な形を取る.

calc_graph_16.jpg
家計資産額階級別世帯分布(2人以上の世帯・全世帯)
総務省:平成16年全国消費実態調査より

このように,貯蓄額や資本金など,金額に関連するデータは右に歪んだ分布をよく持つ.このとき,一般的に,

最頻値<中央値<平均値

となる傾向がある.


分散・標準偏差


尖度・歪度


EXCELによる基礎統計量分析

Excelのアドインにある「分析メニュー」を使うと,上記基礎統計量をまとめて計算することができる.

【手順】

  1. メニューの「データ」
  2. 「データ分析」
  3. 「基本統計量」

すると,次のダイアログが現れます.

基本統計量
uni-1.jpg

入力範囲,出力先,その他オプションを設定します.画面ではすでに範囲の指定が終わっています.「統計情報」をチェックしておくと,詳細な統計量を得ることができます.


Excelによる基礎統計量分析(分析結果)

uni-2.jpg

サンプル数,平均,標準偏差,分散,歪度,尖度などの統計量のほかに,四分位ごとの情報も出力されています.


Excelの関数で算出する基礎統計量

上記のように「分析ツール」を使っても良いのですが,算出した統計量をさらに次の分析に移したいときや,マクロを書くときなどには「分析ツール」よりも関数を用いたほうが便利です.以下ではいくつかの基礎統計量についての関数を挙げておきます.

標本数count(範囲)
平均average(範囲)
(標本)分散var(範囲),母集団の場合はvarp
(標本)標準偏差stdev(範囲),母集団の場合はstdevp
中央値median(範囲)
最頻値mode(範囲)
尖度kurt(範囲)
歪度skew(範囲)
最小min(範囲)
順位(小)small(範囲,順位)
最大max(範囲)
順位(大)large(範囲,順位)
合計sum(範囲)


Copyright(C) 1997-2015 by ABE Keiji
All rights reserved.