対応のあるデータ?対応のないデータ?

統計解析の手法を調べているとわかりにくい表現が多くないですか?

「対応のあるデータの場合は・・・」

「対応のないデータの場合は・・・」

 

簡単な日本語ですが、「対応って??」と表現の意味がわかりにくいですよね。

(すごい基本的なことなんですが、私は全然理解していませんでした)

 

今回は対応のあるデータや対応のないデータを簡単に理解できるようにまとめました。

スポンサードサーチ

対応の有無

対応の有るデータ
比べたいデータが同一人物である場合、対応のあるデータと表現されます

 

例えば)

若年群vs高齢群など同一人物ではない者同士を比べる場合→対応の無いデータ

介入前vs介入後など同一人物で経過を追って比べる場合→対応の有るデータ

 

対応の有無によって検定方法が違うだけでなく、p値(有意差)の求め方も違ってきます。

検定をかけてしまえばそこまで考えなくても結果はでるのですが、概念を理解しておくと有意差の出やすさがわかりますので、簡単にまとめてみます。

 

以下に対応のないt検定と、対応のあるt検定についてのイメージ図を提示します。

今回は2群間の差の検定で示しますが、3群以上の場合は「対応の有無」の考え方は同様です。

*わかりやすいように表示していますので、データの個数は気にしないでください(t検定の場合はデータの個数はもっと必要ですが・・・)

 

対応のないt検定

2群それぞれの郡内のデータのばらつきの大きさと2群間の平均値の差を比較して有意差を算出します。

対応のないt検定 (例)


対応のあるt検定

同一人物が反復して2つの条件を行うことになるので、条件間の差が重要になります。

つまり、平均値の差ではなく、条件間の変化が重要になります。

(平均値が上がっていても、上がる人もいれば、下がる人もいるなど、バラバラでは有意差はでません)

対応のあるt検定

このように平均値が上がっていても、条件間の変化で有意差がでる場合と出ない場合があるので、検定方法の間違いには注意しないといけません。

まとめ

  • 比べたいデータが同一人物である場合、対応のあるデータと表現されます

 

簡単に説明するとこれだけなので、わかってしまえば対応のあるデータ、対応のないデータの理解はできるとおもいます。

しかし、データの対応の有無によって統計方法が違ってきますので、この理解はとても重要になります。

 

「差の検定方法の選び方」などで、図とともにアルゴリズムに示していますが、対応の有無がわかると間違えずに統計手法を選べると思います。

 

参考にしていただけたら幸いです。