平均値と中央値の違い〜標準偏差?四分位範囲?〜

「平均値」という言葉を知らない人はいないのではないでしょうか?

日常でも「平均〜」とよく言われていますよね。

 

しかし、中央値は意外と知られていません。

統計解析では、ノンパラメトリックの方法では中央値を使うなど、「平均値」と「中央値」の違いを理解しておくことは必須になります。

 

簡単そうで実は理解が必要な「平均値」と「中央値」についてまとめてみました。

スポンサードサーチ

代表値(平均値、中央値)

代表値とは、データの中心を表す値のことです。

一般的な代表値には、平均値と中央値があります。

 

平均値と中央値は以下のように区別されます。

平均値:データ数の総和/データ数

中央値:データを小さい順に並べ変えたとき、真ん中に位置する値

(データの個数が偶数ならば、中央の2つの値の平均値が中央値になります。)

 

平均値と中央値は同じようになりそうですが、データの分布によって大きく変わることもあります。

以下の図を参考にしてみてください。

分布の違いによる平均値と中央値

 

統計解析を行うときは、データの分布によって使用できる代表値が変わってきます。

 

選択すべき代表値

○データが正規分布していると仮定できる(外れ値がない)場合

→平均値≒中央値→どちらも使える

○データが正規分布していると仮定できない(外れ値がある)場合

→平均値≠中央値→中央値

平均値

もう少し細かく平均値について考えていきたいと思います。

平均値(mean)

「平均値=データ数の総和/データ数」ですので、全ての値が反映されることになります。

つまり、1つでも値が変化したら平均値も変化します。

そのため、平均値はデータの変化を比較するときに使用しやすいと言われています。

 

一方、外れ値の影響を受けやすいというデメリットがあります。

 

例として使用されやすいのが、年収の平均です。

5人の年収の平均を出したいと思います。

A,B,C,D,Eさんがいたとします。A〜Dさんは全員年収が400万、Eさんは2400万だとします。

そうすると平均値は,(400+400+400+400+2400)/5=800万になります。

 

このように、平均値だと、Eさんの年収(外れ値)に引っ張られてしまいます。

世の中の現状を表すには不適応ですよね。

 

そのため、平均値は上記の図のように正規分布に従っているデータに対して用いられることが一般的なわけです。

 

*研究論文などのデータ表記では、

平均±標準偏差で示され、グラフでは以下のように棒グラフで表されます。

標準偏差つき棒グラフ

標準偏差(standard deviation:SD)

「散らばりの程度」を表すのが標準偏差と言われます。

論文などでは、平均値±標準偏差(mean±SD)と表記されます。

 

正規分布している場合、

①標準偏差±標準偏差での範囲→データの68.26%

②標準偏差±2標準偏差での範囲→データの95.44%

③標準偏差±3標準偏差での範囲→データの99.74%

ということがわかります。(以下の図で参照)

例えば、

60±10歳とは、50〜70歳までに68.26%の人がいて、40〜80歳までに95.44%の人がいる

ということになります。

スポンサードサーチ

中央値

中央値についてももう少し詳しくみていきます。

中央値(median)

中央値とは、データを小さな順に並べた際に真ん中にくる値のことです。

異様に大きかったり、小さかったりするデータがある場合は中央値で求めることが妥当といわれています。

 

データの個数が奇数ならばちょうど真ん中の人のデータが中央値になります。

データの個数が偶数ならば、中央の2人の平均値が中央値になります。

 

平均値のときと同じ年収の例で考えてみます。

A,B,C,D,Eさんがいたとします。A〜Dさんは全員年収が400万、Eさんは2400万だとします。

平均値は,(400+400+400+400+2400)/5=800万でした。

中央値は、400,400,400,400,2400となり、真ん中の400万円が中央値と算出されます。

 

中央値は平均値と違い、外れ値の影響を受けにくいことがメリットです。

ですので、例題のような状況であれば、中央値は現状を現せているということになります。

 

しかし、逆にデータの変化を比較しにくいことがあります。

例えば上記であれば、1年後にEさんだけが年収3000万円にアップしても、中央値は400万円のままで、変化が感じられません。

 

中央値は外れ値の影響を受けにくいので、データが正規分布に従っていないときに使用されます。

 

*研究論文などのデータ表記では、

中央値(第1四分位点-第3四分位点)などで表記され、

グラフでは以下のように箱ひげ図で表されます。

箱ひげ図

四分位範囲(inter quartile range:IQR、四分位数)

中央値に対応したバラツキの指標として使用します。

データを大きさ順に並べたときの1/4番目のデータを第1四分位数(25%パーセンタイル値)、2/4番目のデータを第2四分位数(50%パーセンタイル:中央値)、3/4番目のデータを第3四分位数(75%パーセンタイル値)と表現します。

 

表記例は、

中央値(第1四分位数-第3四分位数)とすることが多いです。

 

例えば下記のようなデータ要約の場合(EZRでの連続変数の要約です)、

中央値は、

76(70-80)  と表記されます。

まとめ

  • 代表値である、平均値と中央値についてまとめてみました。
  • 平均値は一般的に使用されていますが、データの分布によって平均値と中央値を使い分ける必要があります。
  • 論文などでは、平均値±標準偏差や、中央値(第1四分位数-第3四分位数)と表記されます。

今回は「平均値」と「中央値」についてまとめてみました。

一見単純そうで、以外にわかっていないところでもあります。

(私がそうだったので・・・)

今回の記事で整理できたら幸いです。