統計量について

統計とは「ある条件に基づいた集団について調べた結果を集計加工して得られた数値」である。 例として、Lesson 4 では、あるテストの点数が用いられている。 テスト結果の点数データそのものでは、その受験者集団の習熟度、ばらつき具合いは わからないが、統計処理を行うことにより傾向をつかむことができる。

統計量の定義

平均値
各データの和をデータ数で割ったもの。受験者集団のテスト結果を代表する値である。
平均値:
分散
各データの平均値からのずれの二乗和をデータ数で割ったもの。
分散:
標準偏差
分散の平方根。データのばらつき具合いを示す指標。分散は次元が異なるために 平方根を取った標準偏差を用いることが多い。
標準偏差:

その他、分析ツールの基本統計量として出力されるものには次のようなものがある。

標準誤差
母集団から、標本を選ぶ際の組合わせによる統計量のばらつきの程度
中央値(メジアン)
データを順序づけて並べたときに中央に位置する値
最頻値(モード)
度数分布においてもっとも高い度数を示す値
尖度(せんど)
標準偏差からのずれを示すもの。平均の周りでとがり、すそを引くような分布で値が大きくなる。
歪度(わいど)
分布の非対称性の度合いを示すもの。平均値の上側と下側での分布の違いが大きいと値が大きくなる。

なお、偏差値は、データのばらつき具合いを標準化し、各データの全体中の位置を表わす指標であり、 厳密には統計量ではない。定義より、偏差値については常に、平均値が 50、標準偏差は 10となる。

偏差値:

推計

全集団をについて調べることが不可能な場合や意味がない場合、その集団から いくつかについて代表して調べ、その結果を元に元の集団(母集団という)に ついての統計量について推計を行う。例としては、工場出荷製品の製品寿命などがある。

この場合、母集団の統計量は実際には得られないが、統計/推計学の結果を用いると 標本のデータから次の式によって推定できる。

平均値
標本データの平均値と一致すると推定される。すなわち
平均値:
母分散
各データの平均値からのずれの二乗和を自由度で割ったもの。ばらつき具合いを示す。
母集団の平均値は得られないため、標本の平均値で代用する。そのため、n 個のデータのうち 1個は平均値と残りのデータから求めることができるので自由度は (n-1) となる。
母分散:
母標準偏差
母分散の平方根。母集団のばらつき具合いを示す指標。
母標準偏差:

度数分布

データの傾向を把握するために、データの区間を幾つかに区切り、 各区間に含まれるデータの個数を調べることがある。 このような場合に、各小区間の事を「階級」、各階級に含まれるデータの個数を「度数」と呼び、 この階級と度数を表としたものを「度数分布表」と呼ぶ。 また、度数分布をグラフ化したものをヒストグラムとよぶ。

度数分布を求める際に、区間の数が多すぎると度数が少なく元のデータを取り扱うのと大差なくなる。 一方、区間の数が少ないと情報量が少なくなり変化を見るのは困難となる。 したがって、元のデータの個数に応じて適切な階級数を選択することが重要である。

しかしながら、適切な階級数や階級の幅を求めるような一般的な公式は存在せず、 経験的に次のようなものが用いられている。(c.f.: http://en.wikipedia.org/wiki/Histogram)

提案者 方式
Sturge 階級数 = 1 + log2(n)
Scott 階級幅 = 3.5 σ n -1/3
Freedman-Diaconis 階級幅 = 2 * IQR n -1/3

Freedman-Diaconisの式に現れる IQR とは、四分位範囲(Inter Quartile Range)と呼ばれるもので、 第1四分位値(Q1: データを昇順に並べた際の小さい方から 1/4 のところの値)、 第3四分位値(Q3: データを昇順に並べた際の大きい方から 1/4 のところの値)を用いて

IQR = Q3 - Q1

と表される。エクセルでは QUARTILE関数を用いることで、Q1, Q3 は簡単に求められる。

これ以外にも、データ数 n の平方根を階級数とする方法も良く使われている。

いずれにしろ、万能な値は存在しないし、幅の選び方によって捉えられるデータの特徴が変わるので、 ヒストグラムを作成する際にはある程度の試行錯誤を行ってみると良い。


戻る


$Id: toukei.html,v 1.1 2009/01/12 16:36:40 tacha Exp tacha $
ogaito at fpu.ac.jp