[統計][R]交互作用があるときー2つのサンプルへの直線回帰(計算例・続々)
2つのサンプルがあって、それぞれのサンプルに別々の回帰式をあてはめたときと、1つにまとめて交互作用を入れたときでは、意味している回帰式はどちらでもそれぞれ同じだった。では両者はまったく同じだろうか。少し例を変えて、見てみる。
> ff01
[1] 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1
これはサンプルのちがいを表現するための2値的変数で、0が第1のサンプル、1が第2のサンプルを表す。それぞれ標本数は12である。
データ自体は、説明変数xと目的変数yで、以下がyであり、
> yy10
[1] 2.2488221 1.9799937 3.7504875 3.5454482 5.2465367 5.2569419
[7] 5.3512673 2.8108693 9.4631050 2.5486629 8.4183612 2.9300625
[13] 16.8921915 14.6140562 11.4044017 10.2141847 15.3765631 18.5378851
[19] 16.0148672 -0.0994805 2.2876513 12.9308352 4.9445873 15.0245021
最初の12個が第1のサンプル、後半が第2のサンプルである。
次にxで、
> xx10
[1] 1.901628 1.189416 2.497983 2.970987 3.958775 4.822747 4.565434 1.689338
[9] 8.571783 1.564368 7.491317 2.822647 9.980802 8.324157 6.803240 6.054728
[17] 8.228597 8.778725 7.613337 1.163588 2.651272 7.439294 3.565445 7.699280
こちらも、前半と後半の各12個のデータが、それぞれのサンプルになる。
前半(第1のサンプル)だけで回帰すると、
Coefficients:
(Intercept) xx1
0.7528 1.0107
後半(第2のサンプル)だけで回帰すると
Coefficients:
(Intercept) xx2
-2.869 2.204
となる。両方一緒にして、交互作用ありだと、
Coefficients:
(Intercept) xx10 ff01 xx10:ff01
0.7528 1.0107 -3.6216 1.1932
となる。先の例と同じく、交互作用のある場合の意味する回帰式はそれぞれ別々に当てはめた場合と同じである。
次に、対数尤度を見てみる。前半だけだと、
'log Lik.' -4.414788 (df=3)
後半だけだと
'log Lik.' -19.02389 (df=3)
両方一緒にして、交互作用ありだと、
'log Lik.' -30.73781 (df=5)
となる。別々に当てはめた場合の和の方がだいぶ大きい。この対数尤度がどのように計算されているのか、以下少し見てみる。
前半だけの回帰の結果(関数glmないしlmの結果)をresc1に入れておき、残差平方和を割り算して出した分散から計算した標準偏差(esd1とする、0.3495742だった)を使って、対数尤度を求める、
> sum(dnorm((fitted(resc1)-yy1),mean=0,sd=esd1,log=TRUE))
[1] -4.414788
と、上記と同じである。同様に、後半だけだと(標準偏差esd2は、 1.181028だった)、
> sum(dnorm((fitted(resc2)-yy2),mean=0,sd=esd2,log=TRUE))
[1] -19.02389
であり、これも上記と同じである。
両方一緒にして交互作用ありだと(分散esd10i1は0.8709278だった)、
> sum(dnorm((fitted(resc10i1)-yy10),mean=0,sd=esd10i1,log=TRUE))
[1] -30.73781
となる。これも同じである。
それぞれに別の回帰式という場合には、両サンプルで回帰式のみならず正規分布の分散(目的変数yの予測値からの外れ方を表す正規分布の分散)にもちがう値を使っているのに対して、両方一緒にして交互作用ありという場合には、両サンプルで正規分布の分散に共通の値を使っていることがわかる。これが対数尤度のちがいの原因となっている。
結局、それぞれに別の回帰式という場合と、両方一緒にして交互作用ありという場合は、確率モデルとしてみると別のものであった。前者は3パラメーター×2で6パラメーター、後者は傾きと切片が2つずつだが正規分布の分散は共通の1つだけで5パラメーターを持つモデルである。
| 固定リンク
この記事へのコメントは終了しました。
コメント