EZRの使い方:マン・ホイットニー検定(U検定)

今回は2群間の差の検定のひとつである「マン・ホイットニー(Mann-Whitney)検定」について実践してみたいと思います。

 

「マン・ホイットニー(Mann-Whitney)検定」「Mann-WhitneyのU検定」「U検定」ともいいます。

学会発表などでも使いやすい検定ですので、聞いたことがある方も多いと思います。

ノンパラメトリックな方法で、対応がないデータですので、研究がしやすいんですよね。

 

今回もデモデータを使用して分かりやすく実践していきます。

EZRを使っていきますが、EZRの導入については以下のサイトをご確認ください。

EZRの使い方:EZRの導入[Mac編] 

 

データのインポートについては以下のサイトをご確認ください。

EZRの使い方:医療統計実践編 データのインポート

 

簡単に実践できるようにまとめてみました。

スポンサードサーチ

2群間の差の検定方法の選択

2群間の差の検定については、検定方法がいろいろありますので間違えないようにしないといけません。

今回も図のフローチャートを参考に決定していきます。

今回は「マン・ホイットニー(Mann-Whitney)のU検定」を適応にした場合になります。

 

データに対応があるかどうかは、データの収集の時点で把握していると思います。

*2群の差の検定方法についてや、対応の有無については、以下のサイトを確認ください。

統計学入門:2群の差の検定〜検定方法の選び方〜

 

正規分布については、実際に確認していきます。

正規分布の確認

EZRで正規分布を確認します。

今回も正規性の検定方法を示しますが、詳しくは以下のサイトをご確認ください。

EZRの使い方:正規分布とは?正規分布の求め方

 

今回もデモデータを使用して、「6分間歩行距離」を「男性群」と「女性群」の2群に分けて差の検定を行います。

 

男性群と女性群の「6分間歩行距離」の正規分布を確認しますので、2つの変数が対象になります。

(どちらかでも正規分布に従っていなかった場合は、ノンパラメトリックの方法になります)

 

まずは、わかりやすいように「ヒストグラム」で2群を確認してみます。

グラフと表→ヒストグラムを選択します。

変数を「6分間歩行距離」にして、群別する変数を「sex」として選択します。

ヒストグラムが作成されますので、2群を比較するとイメージがつきやすいです。

今回は、sex=1が男性、sex=2が女性となっています。

視覚的には左に流れていて、正規分布には従っていなさそうですよね。

 

一応正規性の検定も行ってみます。

まずはsex=1を確認します。

統計解析→連続変数の解析→正規性の検定を選択します。

このまま変数を「6分間歩行距離」とすると、男性と女性を混ぜた全てのデータの正規性を確認してしまいます。

男性、女性、それぞれの正規分布を確認したいので、

赤丸の場所に、男性だけと絞り込みが必要です。

データ入力で、性別をsex、男性を1 、女性を2と入力していますので、

「sex==1」として男性だけを選択してもらいます。

このように男性だけのヒストグラムが作成されます。

同時に検定結果も確認します。

サンプル数が70名と少ないため、Shapiro-Wilk検定を確認します。

P<0.05ですので、正規分布に従わないと判断できます。

 

女性群の正規分布を確認してもいいですが、男性群で正規分布に従っていなかったので、ノンパラメトリックの方法になります。

今回は女性群の正規分布の確認は省略します。(正規性の検定のときにsex==2 と変更するだけです)

スポンサードサーチ

マン・ホイットニー(Mann-Whitney)のU検定

データの確認が行えましたので、実際に「マン・ホイットニー(Mann-Whitney)のU検定」を行っていきます。

統計解析→ノンパラメトリック検定→2群間の比較(Mann-Whitney U検定)を選択します。

今回は「6分間歩行距離」について、「男性群」と「女性群」についての比較ですので、

目的変数を「6分間歩行距離」、比較する群を「sex」と選択します。

このような、「箱ひげ図」と「検定結果」が出力されます。

P値=0.121となっていて、P>0.05ですので、有意差なしという検定結果になりました。

 

まとめると、

「男性:431.5(392.2-505.5) vs  女性:473.5(401.0-538.5) であり両群に有意な差はなし」

という検定結果になります。

箱ひげ図についての確認

ノンパラメトリックの方法ですので、データは中央値で示され、図は箱ひげ図になります。

中央値や、箱ひげ図、四分位範囲などについては、以下のサイトを参考にしてください。

平均値と中央値の違い〜標準偏差?四分位範囲?〜

 

今回の「箱ひげ図」では、「外れ値」として取り扱われていたデータがありましたので、外れ値について解説します。

 

外れ値とは?

データの分布において、他の観測値から大きく外れた値のことです。

測定ミスや入力ミスによる結果かどうかの確認が必要になります。

 

同じデータを「外れ値」を考えずに作成すると、以下のようになります。

グラフと表→箱ひげ図を選択します。

変数を「歩行距離」として、群別する変数を「sex」とします。

上下のヒゲの位置を赤丸のように、「最小値、最大値」と選択します。

(一般的には「最小値、最大値」か「10、90パーセンタイル」で作成します。)

以下のような箱ひげ図が作成され、解釈の仕方はこのようになります。

 

 

グラフの作成から、「外れ値」を除外して箱ひげ図を作成することもできます。

先ほど同様に変数を選択し、赤丸のところにチェックをすると「外れ値」を除外した箱ひげ図が作成されます。

これが「外れ値」を考慮した箱ひげ図です。

このグラフが、「マン・ホイットニー(Mann-Whitney)のU検定」を行った際にグラフとして出力してきた箱ひげ図と一緒になります。

 

検定を掛ける際は「外れ値」が自動的に考慮されるので、グラフも上記の箱ひげ図になるようです。

スポンサードサーチ

まとめ

  • 「マン・ホイットニー(Mann-Whitney)のU検定」は2群間の差の検定のひとつの方法です。
  • 対応の無い、ノンパラメトリックなデータを使用しますので、中央値、箱ひげ図を使用します。
  • 外れ値がある場合は、外れ値の扱いや確認が必要になります。

 

今回は比較的研究でも使用しやすい「マン・ホイットニー(Mann-Whitney)のU検定」についてまとめてみました。

検定方法を理解できていればEZRで簡単に行えますので、参考にしていただけたら幸いです。

****

その他のEZRの使い方/統計手法について以下のサイトにまとめていますので参考にしてください

EZRの使い方まとめ

****