【EZRの使い方】連続変数から名義変数(カテゴリー)への変換

EZRでデータを解析しているときに、データをカテゴリーに分けて解析したくなることはありませんか?

例えば、年齢そのまま扱うのではなく、「70歳以上」と「70歳未満」と分けて解析したりすることです。

データ入力では年齢は「連続変数」ですが、「70歳以上」と「70歳未満」のような分け方では名義変数になります。

*変数については以下のサイトを参考にしてください。

EZRの使い方:医療統計実践編  変数の解析

 

このように、EZRでは取り込んだデータを、連続変数から名義変数(カテゴリー変数)へ新たに追加変換ができます。

いちいち元データのエクセルを修正すると、エクセル操作も面倒ですし、再度EZRへの取り込みが必要であったり、今までのデータ解析が消えてしまうので、変数操作をEZR上で行うことはおすすめです。

 

今回もデモデータを使用してわかりやすく実践していきます。

EZRを使っていきますが、EZRの導入については以下のサイトをご確認ください。

EZRの使い方:EZRの導入[Mac編] 

データのインポートについては以下のサイトをご確認ください。

EZRの使い方:医療統計実践編 データのインポート

簡単に実践できるようにまとめてみました。

スポンサードサーチ

連続変数をカテゴリー化する

連続変数をカテゴリー化して解析することは時に必要です。

例えば、年齢が握力に与える影響を解析する場合は、年齢をある閾値の上下で2つ(3つ以上にすることもできます)のカテゴリーにわけて解析すると、年齢の影響を視覚的にも見やすくなります。もちろん連続変数で解析する場合と、名義変数であるカテゴリーで解析する場合は方法も結果も異なってきます。

どのような目的でカテゴリー化をするかは大事ですが、閾値をどのように設定するかも重要です。

閾値の設定

中央値を使用することがあります。(中央値未満と以上のように2群にわけます。)

なんらかの意味のある数字、過去の研究結果に合わせた閾値などが用いられます。

 

実践をしてみます。

デモデータを使用して、年齢を「70歳以上」と「70歳未満」の2群にカテゴリー化します。

まずは図のように、「アクティブデータセット」を選択し、「変数の操作」、「連続変数を指定した閾値で2群に分けた新しい変数を作成する」を選択します。

次に、連続変数を選択します。今回は「age」を選択し、新しい変数名を決めます。

「agegroup」とし、連続変数を分割する閾値を「70」と設定します。

閾値は、「以上」でも「より大きい」でも選択できます。

 

これだけで「新しい変数」が作成できました。

「データセットを表示」で確認することができます。

このように新しい変数である「agegroup」が追加されています。

 

こんな簡単に変数を追加できるので、必要時は大変便利です。

いちいち元データから直すと手間がかかりますからね。

 

ちなみに、連続変数を3群以上にカテゴリー化することも可能です。

先ほどとほとんど同じで、「アクティブデータセット」から「変数の操作」、「連続変数を指定した閾値で3群以上に分けた変数を作成する」を選択して入力していくだけです。

まとめ

今回は、連続変数から名義変数(カテゴリー変数)へ新たに追加変換する方法をまとめてみました。

とても簡単に操作できるので、元データを直すより正確で簡単です。

データベースを作成するときにカテゴリー化していない場合は、是非活用ください。

簡単ですが、参考になれば幸いです。

 

**その他のEZRの使い方/統計手法について以下のサイトにまとめていますので参考にしてください**

EZRの使い方まとめ