「正規分布」という用語を聞いたことがありますか?
自分が集めたデータがどのような分布状況(データがばらついているか)にあるかで、統計手法が変わっていきます。
その時に知っておかないといけないのか、データが正規分布しているか、していないかです。
比較的よく聞く用語だと思うのですが、自分のデータが正規分布しているかどうかに悩むことがあると思います。
今回は正規分布についての簡単な説明と、EZRで行う正規分布の検定についてまとめてみました。
EZRの導入に関しては以下のサイトを参考にしてください。
EZRのデータのインポートに関しては以下のサイトを参考にしてください。
実際にデモデータを使用して実践していきたいと思います。
スポンサードサーチ
目次
正規分布とは?
身長など基本的なデータを大多数収集した場合、中央の階級のデータの個数が最も多くなり、左右に階級が移動するにつれて、データの個数が少なくなります。
このようにデータ分布が単一山型で左右対称の釣鐘型の形状になることを「データが正規分布に従う」と表現します。
データが正規分布に従うかどうかで、統計手法が大きく異なるので、調べたいデータが正規分布に従っているかどうかを把握することはとても重要になります。
正規分布の求め方:実践
データが正規分布に従っているかを調べる方法は2つあります。
①視覚的にデータの分布を確認する
②正規性の検定を行う
視覚的にデータの分布を確認する
調べたいデータをヒストグラムにして、上記のように正規分布しているかを視覚的に判断する方法です。
ヒストグラムは、値を横軸で示し、任意の値をとる人数などを縦軸で示されます。
EZRであれば、データを簡単にヒストグラムにすることができます。
データをグラフで示す方法は、以下のサイトを参考にしてください。
縦軸に人数、横軸に「6分間歩行距離」を示したヒストグラムです。
なんとなく釣鐘型になっていそうですが、左側にデータがずれているのでなんとも判断できません。
視覚で確認した場合は、この「なんとなく」になっていまい、主観的な要素がどうしても入ります。
一応この主観的な方法でもいいようですが、可能であれば客観的方法(正規性の検定)で正規性の分布を示したほうがいいと言われています。
次に正規性の検定についてまとめてみます。
正規性の検定を行う
正規性の検定の方法には、「Kolmogorov-Smirnov検定」や「Shapiro-Wilk検定」があります。
EZRでは簡単に正規性の検定ができなすので、実践してみます。
上記のヒストグラムと同じデータで検定を行ってみます。
EZRの統計解析→連続変数の解析→正規性の検定(Kolmogorov-Smirnov検定)を選択します。
*ここでは「Kolmogorov-Smirnov検定」と表示されていますが、実際に解析を行うと、「Shapiro-Wilk検定」も行ってくれます。
「Shapiro-Wilk検定」はデータの個数が少ない場合に使用されるようです。(実践で提示してみます)
正規性の検定を行いたいデータを選択して「OK」を押します。
このように同時にヒストグラムも作成されます。
(ここで正規性の検定と同時に、視覚的にも確認できます。)
*横軸の□□は「歩行距離」と日本語で入力していたので文字化けしています。(英語でデータ入力していれば文字化けはしません)
そして正規性の検定結果ですがこのように表示されています。
今回はサンプル数が49と少ないため、「Shapiro-Wilk検定」を使用します。
赤丸の結果をみると、p-value(P値)=0.003698と表示されています。
P<0.05ですので、正規分布していないと判断できます。
*正確な統計表現を使うと、「p値が0.05未満であればデータが正規分布に従っているという帰無仮説が棄却される」と表現されます。(ややこしいですよね・・・)
P≧0.05となった場合は「正規分布している」となるのですが、P≧0.05でも検定の質が低いので視覚的な判断と総合して正規性の検定を行うといいそうです。
また、注意してほしいのは、サンプル数の数です。
今回は49名と少なかったのですが、同じヒストグラムの形をしていても、サンプル数が多いと検定では正規性分布しているとなることもあります。
ちなみに・・・
正規性の検定には「Kolmogorov-Smirnov検定」や「Shapiro-Wilk検定」の方法があるのですが、統計ソフトによって使い分けが違うようです。
今回のEZRはサンプル数が5000以下の場合はShapiro-Wilk検定が表示されますが、JMPという統計ソフトの場合はサンプル数が2000以下の時にShapiro-Wilk検定が表示されるようです。
統計ソフトによる違いも少し理解しておくといいかもしれません。
視覚的なグラフだけでなく、サンプル数、そして正規性の検定を行って、正規分布しているかを判断する必要があります。
*どうしても判断できない場合は、「正規分布していない」と判断したほうが、後の統計解析に間違いはないと思います。
スポンサードサーチ
パラメトリックとノンパラメトリック
差の検定などを行う際に、データが正規分布に従うかどうかで、検定の方法が変わってきます。
正規分布に従うデータ→→パラメトリック検定
正規分布に従わないデータ→→ノンパラメトリック検定
となりますが、簡単に説明します。
パラメトリック検定
パラメトリックとは、母数(パラメータ)によるという意味です。
パラメトリック法は、基本的には正規分布に従うデータを扱います。
基本的には間隔尺度や比率尺度によるデータになりますが、順序尺度でも段階数が多く、平均値を比較することに意味のあるデータについても正規分布に従うデータであればパラメトリック法を使用することがあります。
データの尺度についてわからない場合は、以下のサイトを参考にしてください。
ノンパラメトリック検定
ノンパラメトリックとは、パラメータ(母数)によらないという意味です。
正規分布に従わないデータを扱います。
*正規分布に従うデータでもノンパラメトリック法を用いることは可能です。ただ、パラメトリック法が有効なデータにノンパラメトリック法を用いると、検出力が低下するといわれています。
*ノンパラメトリック法では、「平均値ではなく中央値をみる」ということにも注意が必要です。
まとめ
- データの正規分布についてまとめました。
- データが正規分布に従っているかどうかは、視覚による判断と、正規性の検定による判断があり、総合的に決定します。
- 統計手法によっては、正規分布しているデータをパラメトリック法、正規分布していないデータをノンパラメトリック法を使用することがあり、正規分布をしているかどうかで統計手法が異なります。
正規分布とはよく耳にしますが、いまいちどのように判断していいか迷います。
今回まとめてみましたので、参考にしてみてください。
**その他のEZRの使い方/統計手法について以下のサイトにまとめていますので参考にしてください**
“EZRの使い方:正規分布とは?正規分布の求め方” への10件のフィードバック