« [その他]Barnum | トップページ | [その他]NFL-ディビジョナルプレーオフ »

2008.01.11

[統計][R]順序尺度の説明変数

 Rで、カテゴリカルな変数を説明変数にして、広い意味での回帰をすると(たとえばglmやlmを使うとき)、名義(分類)尺度ならダミー変数がその変数の水準数より1つ少ないだけたち、それぞれのダミー変数の効果がかえってくる。ダミー変数に慣れてしまえば(ほかにも便利なので、慣れた方がいい場合が多いだろう)、とくにわかりにくいということもない(一連の[(水準数-1)個の]ダミー変数全体の効果を見る必要はあるが)。
 一方、カテゴリカルな説明変数が順序尺度のときには、はじめて使うと人によってはあれと思ったりぎょっとするような結果が出力される。説明変数の名前らしきものが、L、Q、・・・といったものなのである。このLとかQとかが水準の名前とは関係ないことは、水準の名前がどうであっても、いつもL、Q、・・・であることからわかる。
 水準数を増やしていくと。L,QのつぎはCでつぎは^4、その次は^5なので、このあたりで、どうもLはlinearで一次のこと、Qが2次で、Cが3次らしいと想像がついてくる。L,Q,Cはそれぞれ1,2,3というわけである。
 さて、問題は、結果で、LとかQとかの効果としてかえってくる値は、何なのだということだろう。結論的には対比である。各水準に対して与えられた係数をその水準の平均と掛け算して、全水準に対して合計したものである。たとえば、5水準の順序尺度の説明変数の場合なら、
Lの係数は第1の水準から順に
-6.324555e-01 -3.162278e-01 -3.287978e-17 3.162278e-01 6.324555e-01
なので、Lについての対比は
-6.324555e-01×(第1の水準の目的変数の平均)
-3.162278e-01×(第2の水準の目的変数の平均)
-3.287978e-17 ×(第3の水準の目的変数の平均)
3.162278e-01×(第4の水準の目的変数の平均)
6.324555e-01×(第5の水準の目的変数の平均)
を合計したものである。

 この係数全体は、 contr.poly(水準数)で見ることができる。たとえば、5水準なら

      .L          .Q       .C       ^4
[1,] -6.324555e-01 0.5345225 -3.162278e-01 0.1195229
[2,] -3.162278e-01 -0.2672612 6.324555e-01 -0.4780914
[3,] -3.287978e-17 -0.5345225 1.595204e-16 0.7171372
[4,] 3.162278e-01 -0.2672612 -6.324555e-01 -0.4780914
[5,] 6.324555e-01 0.5345225 3.162278e-01 0.1195229

である。それぞれの係数を見ると、たとえば、Lについての係数の合計は0で二乗の合計は1(QとかCとかでも同じ)であることがわかる。また、横軸に水準の番号(1,2,3,4,5:順序尺度だから順番は決まっている)をとり、縦軸に係数をとると、Lは直線、Qは第3水準のところが頂点でもっとも下がっている放物線、Cは第3水準のところについて点対称な3次曲線、^4は第3水準について対称な4次曲線上に、それぞれ乗っていることがわかる。
 たとえば、Lで計算される対比は何を計算しているのだろうか。x(横軸)に各水準の番号の値(1,2,3,4,5といったもの)をとり、y(縦軸)に各水準の平均をとったとき、yとxの積和にあたるものを計算していることになる。x側の合計は0で二乗の和は1なので、結局、Lについての対比で計算されるのは、水準の番号の値をxにして回帰直線を引いたときの傾きのようなものということになる。つまり、Lについての対比は、水準の番号の数字とともに直線的に目的変数がどれだけ変化するかを見ていることになる。同様にQは2次については、Cは3次についてはどれだけ変化するかを表していることになる。
 対比の係数をみると、対比たちは直交するようにとられていることがわかる(対比の直交の説明はこちらも見てください)。
  つまり、目的変数の変化を、直線的なもの(L)、2次のもの、3次のもの、に分けて見ようとしているのだった。
 この、順序尺度の説明変数のときの扱い方については、helpにもどうも詳しい説明があまりないのだが、Crawleyの『R Book』が詳しく、『Sと統計モデル』(Chambers&Hastie(eds.))にも解説はある。

 さて、この取り扱いでは順序尺度の説明変数が間隔尺度であってしかも同じ間隔で並んでいるかのように扱われていて、順序尺度の情報を越えてしまっていて、あまり素直ではないという印象を持った。順序尺度なので、各水準にダミー変数を割り振ってもあまり意味はないし、隣り合っている2つの水準の比較と離れた2つの比較では意味が違うから片っ端2水準間の比較をするのは相当に変だろう。それらよりはまだいいのかもしれないがどうもすっきりした感じがない。
 順序制約のある推論の方がずっと素直だと感じた。こちらについては別に書くことにする。


|

« [その他]Barnum | トップページ | [その他]NFL-ディビジョナルプレーオフ »

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: [統計][R]順序尺度の説明変数:

« [その他]Barnum | トップページ | [その他]NFL-ディビジョナルプレーオフ »