「平均値」という言葉を知らない人はいないのではないでしょうか?日常でも「平均〜」とよく言われていますよね。
しかし、中央値については意外と知られていません。
データをみたり、統計解析では、ノンパラメトリックの方法では中央値を使うなど、「平均値」と「中央値」の違いを理解しておくことは必須になります。
簡単そうで実は理解されていないことがある「平均値」と「中央値」についてまとめてみました。
スポンサードサーチ
目次
代表値(平均値、中央値)
代表値とは、データの中心を表す値のことです。
一般的な代表値には、平均値と中央値があります。
平均値:データ数の総和/データ数
中央値:データを小さい順に並べ変えたとき、真ん中に位置する値(データの個数が偶数ならば、中央の2つの値の平均値が中央値になります。)
平均値と中央値は同じようになりそうですが、データの分布によって大きく変わることもあります。
以下の図を参考にしてみてください。
グラフでみると、データによって平均値と中央値に乖離がでるのがわかりやすいですよね。
そのため、統計解析を行うときは、データの分布によって使用できる代表値が変わってきます。
テキストが入ります。
○データが正規分布していると仮定できる(外れ値がない)場合 →平均値≒中央値→どちらも使える
○データが正規分布していると仮定できない(外れ値がある)場合 →平均値≠中央値→中央値
このように取り扱いたいデータの分布を把握してから、「平均値」を使用するのか「中央値」を使用するのかを決定できます。
平均値と標準偏差
もう少し細かく平均値について考えていきたいと思います。
平均値(mean)
「平均値=データ数の総和/データ数」ですので、全ての値が反映されることになります。つまり、1つでも値が変化したら平均値も変化します。
そのため、平均値はデータの変化を比較するときに使用しやすいと言われています。
一方、外れ値の影響を受けやすいというデメリットがあります。
例)例として使用されやすいのが、年収の平均です。5人の年収の平均を出したいと思います。
A,B,C,D,Eさんがいたとします。A〜Dさんは全員年収が400万、Eさんは2400万だとします。
そうすると平均値は,(400+400+400+400+2400)/5=800万になります。
このように、平均値だと、Eさんの年収(外れ値)に引っ張られてしまいます。
世の中の現状を表すには不適応ですよね。
そのため、平均値は上記の図のように正規分布に従っているデータに対して用いられることが一般的なわけです。
*研究論文などのデータ表記では、平均±標準偏差で示され、グラフでは以下のように棒グラフで表されます。
標準偏差(standard deviation:SD)
「散らばりの程度」を表すのが標準偏差と言われます。
論文などでは、平均値±標準偏差(mean±SD)と表記されます。
①標準偏差±標準偏差での範囲→データの68.26%
②標準偏差±2標準偏差での範囲→データの95.44%
③標準偏差±3標準偏差での範囲→データの99.74%
ということがわかります。(以下の図で参照)
例えば、「60±10歳とは、50〜70歳までに68.26%の人がいて、40〜80歳までに95.44%の人がいる」ということになります。
スポンサードサーチ
中央値と四分位範囲
中央値についても詳しくみていきます。
中央値(median)
中央値とは、データを小さな順に並べた際に真ん中にくる値のことです。
異様に大きかったり、小さかったりするデータがある場合は中央値で求めることが妥当といわれています。
データの個数が奇数ならばちょうど真ん中の人のデータが中央値になります。
データの個数が偶数ならば、中央の2人の平均値が中央値になります。
例)平均値のときと同じ年収の例で考えてみます。
A,B,C,D,Eさんがいたとします。A〜Dさんは全員年収が400万、Eさんは2400万だとします。
平均値は,(400+400+400+400+2400)/5=800万でした。
中央値は、400,400,400,400,2400となり、真ん中の400万円が中央値と算出されます。
中央値は平均値と違い、外れ値の影響を受けにくいことがメリットです。
ですので、例題のような状況であれば、中央値は現状を現せているということになります。
しかし、逆にデータの変化を比較しにくいことがあります。
例えば上記であれば、1年後にEさんだけが年収3000万円にアップしても、中央値は400万円のままで、変化が感じられません。
中央値は外れ値の影響を受けにくいので、データが正規分布に従っていないときに使用されます。
*研究論文などのデータ表記では、中央値(第1四分位点-第3四分位点)などで表記され、グラフでは以下のように箱ひげ図で表されます。
四分位範囲(inter quartile range:IQR、四分位数)
四分位範囲は、中央値に対応したバラツキの指標として使用します。
データを大きさ順に並べたときの、
1/4番目のデータを第1四分位数(25%パーセンタイル値)、
2/4番目のデータを第2四分位数(50%パーセンタイル:中央値)、
3/4番目のデータを第3四分位数(75%パーセンタイル値)と表現します。
表記例は、中央値(第1四分位数-第3四分位数)とすることが多いです。
例えば下記のようなデータ要約の場合(EZRでの連続変数の要約です)、
中央値は、76(70-80) と表記されます。
まとめ
- 代表値である、平均値と中央値についてまとめてみました。
- 平均値は一般的に使用されていますが、データの分布によって平均値と中央値を使い分ける必要があります。
- 論文などでは、平均値±標準偏差や、中央値(第1四分位数-第3四分位数)と表記されます。
一見単純そうで、以外にわかっていないところでもあります。(私がそうだったので・・・)
今回の記事で整理していただけたら幸いです。