論文を読むとき、研究を行うときに「相関」という言葉はよく聞きますよね。
相関は、ある2つの変数(データ)の関係をみるのでわかりやすいですよね。Aが上がればBも上がる、みたいな感じです。
ただ、「相関」を調べたいと思うと、「回帰」という言葉や「ピアソン(Pearson)の方法」や「スピアマン(Spearman)の方法」などでてきて、混乱してしまいます。(研究者には当たり前だと思うのですが、初めて私が実践したときはそうでしたので・・・)
今回は「相関」について、用語の整理をしながら、EZRで実践をしてみたいと思います。
*EZRの導入に関しては以下のサイトを参考にしてください。
*EZRのデータのインポートについては以下のサイトを参考にしてください。
今回は「デモデータ」を使用して実践していきます。
ご自分に使用したいデータベースがあれば、実践できるようにわかりやすくまとめてみました。
スポンサードサーチ
目次
相関と回帰とは?
相関と回帰はよく混同されることがあります。(私が混同していたのですが・・・)
実際には以下のように異なります。
*ちなみに、相関をみる方法を相関分析、回帰をみる方法を回帰分析と「〜分析」といいます。
相関分析:2つの変数間の関係をみたいとき
回帰分析:片方の変数から、もう一方の変数を予測したいとき
2つの変数をxとyとした具体例を使用して図にしてみます。
ここでは、x=6分間歩行距離、y=通常b歩行速度 としてみます。
xとyには関係がある
→xが長いとき、yは早い(6分間歩行距離が長い人は、通常歩行速度も早い)
xからyを導き出せる
→6分間歩行距離がわかれば、通常歩行速度が推測できる。
このように似たようで違う分析になります。
相関係数
「ある2つの変数が関係している=相関がある」と判断するには統計解析が必要です。
そして相関の強さを以下のようにして求めます。
相関係数(r)=相関の強さ
相関には、一方が増えればもう一方も増えるという場合と、一方が増えればもう一方は減るという場合があります。
前者を正の相関(r>0)、後者を負の相関(r<0)で表すことができます。
相関の強さは、絶対値が1に近いほど相関が強いといえ、以下のように相関の強さを示せます。
0〜0.25(0〜-0.25) :相関はない
0.25〜0.50(-0.25〜-0.50) :弱い相関
0.50〜0.75(-0.50〜-0.75) :比較的強い相関
0.75〜1(-0.75〜-1) :強い相関
*実際に相関があるかないかは、rだけでなく、p値をみる必要があります。(後述する実践でまた説明させてもらいます。)
スポンサードサーチ
相関分析の種類:ピアソンの方法かスピアマンの方法か
相関分析をする際には、解析したいデータによって、パラメトリックな方法と、ノンパラメトリックな方法があり、統計手法が違ってきます。
*正規分布やパラメトリック/ノンパラメトリックについては以下のサイトをご確認ください。
ピアソン(Pearson):パラメトリックな方法で相関分析・・・変数が正規分布している
スピアマン(Spearman):ノンパラメトリックな方法で相関分析・・・変数が正規分布でなくても可能
どちらも聞いたことがあるかもしれませんが、このようにパラメトリックなのかノンパラメトリックなのかで使い分けないといけません。
EZRで実践
ピアソン(Pearson)の方法
相関をみたいデータが正規分布をしている場合にピアソンの方法で行います。
2つの変数のどちらも正規分布している必要があります。
*片方だけが正規分布していた場合は、スピアマンの方法になります。
まずは正規性の検定をします。(正規分布の詳しい説明は以下を参考にしてください)
正規分布の確認について、今回は簡単に実践します。
「統計解析」→「連続変数の解析」→「正規性の検定」を行います。
まずは1つ目の変数である年齢の正規性を確認します。
「年齢」を選択して「OK」を押します。
表示されるヒストグラムを確認してみます。
次にEZRの結果から正規性の検定を確認します。
今回はサンプル数が49名と少ないため、Shapiro-Wilk検定を使用します。
P値が0.3522とP≧0.05であるため、正規分布していると判断します。(ヒストグラフも確認して)
同様にもう1つの変数である「握力」も正規性の検定を行います。
結果だけ示しますが、以下のように正規分布していることを確認します。
相関をみたいデータである「年齢」と「握力」が両方とも正規分布していることが確認できました。
→相関分析はピアソンの方法になります。(ここでやっと統計手法が決まります)
実際に統計解析していきます。
「統計解析」→「連続変数の解析」→「相関係数の検定(Pearsonの積率相関係数)」を選択します。
2つの変数えある「年齢」と「握力」を選択して「OK」を押します。
そうすると散布図が表示されます。(文字化けしているのはデータ入力が日本語のためです)
ちなみに、横軸が年齢、縦軸が握力になります。
同時に出力される、検定結果を確認します。
赤丸の「cor」(相関係数)を確認すると、-0.23となっています。
負の相関となっていて、年齢が上がるにつれて握力が減少するという結果です。
しかし、P値を確認すると、P値=0.111となっています。
P値が0.05未満であれば相関係数が有意であるといえますので、今回は有意な相関ではないという結果になりました。
スピアマン(Spearman)の方法
次に、データが正規分布していない場合のスピアマンの方法を実践してみます。
デモデータは「6分間歩行距離」と「歩行速度」としてみます。
先ほどと同様に正規性の検定を行います。(今回は結果のみ表示します)
以下のように、「6分間歩行距離」はp<0.05ですので、正規分布していないという結果になりました。
片方のデータだけでも正規分布していないことが確認できました。
→スピアマンの方法で相関分析を行います。
これで方法が決まりましたので実践してみます。
「統計解析」→「ノンパラメトリック検定」→「相関係数の検定(Spearmanの順位相関係数)」を選択します。
2つの変数である「6分間歩行距離」と「通常歩行速度」を選択して、「OK」をおします。
散布図が表示されますので、確認します。(文字化けしているのは日本語入力しているためです。)
ちなみに、横軸が歩行速度で、縦軸が6分間歩行距離です。
同時に表示される検定結果を確認します。
赤丸の「rho」(相関係数)を確認すると、0.59となっています。
正の相関となっていて、歩行速度が上がるにつれて6分間歩行距離が増大するという結果です。
EZR解析結果ではピアソンの相関係数は「cor」で表示され、スピアマンの相関係数は「rho」で表示されます。
どちらも相関係数は「r」で表すことになります。
そして、P値を確認すると、P値=0.0000065となっています。
P値が0.05未満であれば相関係数が有意であるといえますので、今回は有意な相関となります。
有意な相関であることはわかりましたので、相関の強さを確認します。
*もう一度相関係数の強さを提示します。
0〜0.25(0〜-0.25) :相関はない
0.25〜0.50(-0.25〜-0.50) :弱い相関
0.50〜0.75(-0.50〜-0.75) :比較的強い相関
0.75〜1(-0.75〜-1) :強い相関
今回の結果はr=0.59ですので、「6分間歩行距離」と「通常歩行速度」は比較的強い相関が認められるといえます。
スポンサードサーチ
相関解析の注意点
相関分析は比較的簡単に求められる統計手法です。
しかし、相関の解釈には注意が必要です。
実践のスピアマンの方法では、「6分間歩行距離」と「通常歩行速度」に有意な正の相関が認められました。
しかし、「相関は認められたが、因果関係が認められたわけではない」ということは理解しておく必要があります。
「通常歩行速度」が速くなれば、「6分間歩行距離」が延長するといえるわけではないというわけです。
その理由は3つあります。
①「6分間歩行距離」には様々な要因が関与する可能性があるということです。もしかしたら「年齢」や「FVC」が関与しているのかもしれません。このように交絡因子の存在を無視してしまう可能性があります。
②因果関係を示すには、どちらが先行するか不明ということです。原因があって結果が起こるわけですが、相関分析だけでは原因と結果を区別することができません。
③そもそも「6分間歩行試験」と「通常歩行試験」はたまたま相関しているだけで、実は無関係である可能性もあります。もしからしたら、どちらも「年齢」と因果関係がある変数なので、たまたま相関しただけかもしれません。
このように、相関分析を行ったからといって、「相関がある」とは言えても、「関連がある」とははっきりいえません。
関連をしっかり示すには、「多変量解析」で交絡因子を考慮した検定が必要になってきます。
統計手法を使って相関が認められても、2つの変数が本当に関連しているのかは、慎重に見極める必要があります。
まとめ
今回は比較的研究で使用しやすい相関分析についてまとめてみました。
同じ相関でも「ピアソン」と「スピアマン」があり混乱しますが、理解してしまえば簡単です。
参考にしてもらえたら幸いです。
**その他のEZRの使い方/統計手法について以下のサイトにまとめていますので参考にしてください**
“EZRの使い方:相関係数(ピアソンとスピアマンについて)” への2件のフィードバック