統計とは「ある条件に基づいた集団について調べた結果を集計加工して得られた数値」である。 例として、Lesson 4 では、あるテストの点数が用いられている。 テスト結果の点数データそのものでは、その受験者集団の習熟度、ばらつき具合いは わからないが、統計処理を行うことにより傾向をつかむことができる。
はじめに、集団に対する全データが与えられた場合を取り上げ、 各統計量の意味について復習する
その他、分析ツールの基本統計量として出力されるものには次のようなものがある。
なお、偏差値は、データのばらつき具合いを標準化し、各データの全体中の位置を表わす指標であり、 厳密には統計量ではない。定義より、偏差値については常に、平均値が 50、標準偏差は 10となる。
全集団をについて調べることが不可能な場合や意味がない場合、その集団から いくつかについて代表して調べ、その結果を元に元の集団(母集団という)に ついての統計量について推計を行う。例としては、工場出荷製品の製品寿命などがある。
この場合、母集団の統計量は実際には得られないが、統計/推計学の結果を用いると 標本のデータから次の式によって推定できる。
与えられたデータを母集団から取り出した標本とみなして母集団の統計量を推計する場合と、 母集団全体が与えられたとみなしてその統計量を計算する場合で用いられる用語について 文献によっては異なる物が用いられているので、注意が必要である。
母集団全体が与えられて計算するというのは、母集団から取り出した標本そのものについて計算するのと 同義であるので、標本分散、標本標準偏差という用語も用いられる。
データの傾向を把握するために、データの区間を幾つかに区切り、 各区間に含まれるデータの個数を調べることがある。 このような場合に、各小区間の事を「階級」、各階級に含まれるデータの個数を「度数」と呼び、 この階級と度数を表としたものを「度数分布表」と呼ぶ。 また、度数分布をグラフ化したものをヒストグラムとよぶ。
度数分布を求める際に、区間の数が多すぎると度数が少なく元のデータを取り扱うのと大差なくなる。 一方、区間の数が少ないと情報量が少なくなり変化を見るのは困難となる。 したがって、元のデータの個数に応じて適切な階級数を選択することが重要である。
しかしながら、適切な階級数や階級の幅を求めるような一般的な公式は存在せず、 経験的に次のようなものが用いられている。(c.f.: http://en.wikipedia.org/wiki/Histogram)
提案者 | 方式 |
---|---|
Sturge | 階級数 = 1 + log2(n) |
Scott | 階級幅 = 3.5 σ n -1/3 |
Freedman-Diaconis | 階級幅 = 2 * IQR n -1/3 |
Freedman-Diaconisの式に現れる IQR とは、四分位範囲(Inter Quartile Range)と呼ばれるもので、 第1四分位値(Q1: データを昇順に並べた際の小さい方から 1/4 のところの値)、 第3四分位値(Q3: データを昇順に並べた際の大きい方から 1/4 のところの値)を用いて
と表される。エクセルでは QUARTILE関数を用いることで、Q1, Q3 は簡単に求められる。
これ以外にも、データ数 n の平方根を階級数とする方法も良く使われている。
いずれにしろ、万能な値は存在しないし、幅の選び方によって捉えられるデータの特徴が変わるので、 ヒストグラムを作成する際にはある程度の試行錯誤を行ってみると良い。