« [その他]NFL-ディビジョナルプレーオフ | トップページ | [その他]北京の広さ »

2008.01.12

[統計]尤度比検定としての中央値検定

 よく使われる検定の枠組みに尤度比検定がある。さて、中央値検定(メディアン検定)といえば、ノンパラメトリック検定の中でも依存している仮定の少ない、ノンパラメトリック検定の中のノンパラメトリック検定といえそうなものであるが、これと尤度比検定との関係を考えてみる。

 まず、使う確率モデルであるが、母中央値を境に大きなものも小さなものも同じ確率で得られるはずだから、それぞれ0.5の確率という、とてもとてもシンプルなものを考えることになる。1サンプル(サンプルサイズnは偶数としておく)の場合、データをyiとして、小さい方から大きい方にy1,y2・・・とならべる。母中央値がyjとyj+1の間にあるとすると、尤度はnCj・(0.5)^nである。nCjとnCj+1の比は(j+1)/(n-j)だから、j=n/2つまりサンプルのデータを二分するところに母中央値があると推定するのが最尤推定となる。母中央値は異なっていもいいから、パラメーターは2つである。
 母中央値がちがう(対立仮説に対応)モデルでは、この1サンプルの場合をそれぞれのサンプルについて行なったものが最大尤度を与えるから、サンプルサイズをn1,n2(いずれも偶数とする)として、最大尤度は、n1Cn1/2・(0.5)^n1×n2Cn2/2・(0.5)^n2となる。

 母中央値が同じ(帰無仮説に対応)するモデルでは、両方を一緒にした(n1+n2)個を大きい半分と小さい半分に分けることになる。
第1のサンプルは、小さい方にx1個、大きい方に(n1-x1)個
第2のサンプルは、小さい方にx2個、大きい方に(n2-x2)個
と分かれたとする(x1+x2=(n1+n2)/2である)。母中央値は同じなので、パラメーターは1つである。
第1のサンプルについてのこちらのモデルの最大尤度は、n1Cx1・(0.5)^n1、第2のサンプルについては、n2Cx2・(0.5)^n1となる。
 最大対数尤度の差は、log{n1Cn1/2}+log{n2Cn2/2}-log{n1Cx1}-log{n2Cx2}で、整理すると、
log{x1!}+log{(n1-x1)!}+log{x2!}+log{(n2-x2)!}-2log{(n1/2)!}-2log{(n2/2)!}となる。スターリングの公式で近似すると、たとえば、最初の項はx1・log(x1)-x1となり、整理すると
x1・log{x1/(n1/2)}+(n1-x1)・log{(n1-x1)/(n1/2)}+x2・log{x2/(n2/2)}+(n2-x2)・log{(n2-x2)/(n2/2)}
となる。この2倍が対数尤度比統計量で、この場合、(パラメーター数の差は2-1=1なので)自由度1のカイ2乗分布と比べることになる。この対数尤度比統計量は、2×(実測値)log(実測値/帰無仮説のもとでの期待値)の合計という形である。

 中央値検定では2×2分割表を作って検定するが、その際には、Fisherの検定やいわゆるカイ2乗検定、G検定などが使われる。上記の対数尤度比統計量はG検定するときのG統計量と同じである(G検定は、尤度比に基づくものだから、意外性は薄いが)。中央値検定は、尤度比検定とみることもできるというわけである。

|

« [その他]NFL-ディビジョナルプレーオフ | トップページ | [その他]北京の広さ »

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: [統計]尤度比検定としての中央値検定:

« [その他]NFL-ディビジョナルプレーオフ | トップページ | [その他]北京の広さ »