« [本]『ゴールデン・トライアングル秘史』 | トップページ | [大学]地名が最後につく学校名 »

2008.04.24

[統計]一致性

 統計で一致性(consistency)といえば、推定で、サンプル数が大きくなると推定値が真の値に近づいていくこと、別の言い方をすればサンプル数無限大では推定値が真の値と一致することである。一致性は、推定量が持つべき性質と考えられていることが多い(たとえば『・・・推定量が持つべき性質として一般に要求される;』と「正規分布」(柴田義貞著、東大出版会)にある)。
 少し話を広げてサンプル数つまりデータの量(一致しない場合もあるが)が増えていくと推論の結果が正しいものに近づき無限大になれば必ず正しいものに到達できることを、一致性と考えてみる(直感的でもあり、よくある使い方で、別に珍しいものではありません)。[以下は、尤度比検定やAICを自分でデータ解析に使って、あれこれといろいろ頭をひねって考えた人はきっと通過していることだと思います]

 統計的検定には一致性があるかと考えてみる。帰無仮説にあたるモデルが正しいときに、有意水準をαとすると、100α%では対立仮説が選ばれる。100α%は正しくない方が選ばれることになるのだから、上記の意味では、統計的検定には一致性がないことになる。

 モデル選択ではどうだろうか。たとえば、モデル選択の代表格と考えられることが多いAICで、サンプル数がすごく大きくなると正しいモデルが選ばれるようになるのだろうか、と考えてみる。単純な場合を考えてみる。2つのモデルに包含関係が成り立っていて(つまり尤度比検定も可能な状況ということになる)、単純なモデルが正しく、サンプル数はとても大きいというケースを考えてみる。尤度比検定の議論から、両モデルの対数尤度の差の2倍(対数尤度比統計量)は、自由度がパラメーター数の差であるようなカイ2乗分布する。AICの差と対数尤度の差の2倍の関係はシンプルなので、整頓すると、このケースで正しいモデルが選ばれるのは、自由度=(パラメーター数の差)であるカイ2乗分布で、パラメーター数の差の2倍より小さな値の場合である。カイ2乗分布の分布関数から、このケースの正しいモデルが選ばれる確率は、たとえば、パラメーター数の差が1のとき0.84つまり84%くらいになる。サンプル数がとても大きくても正しいモデルが選ばれない確率は1割を超えており、やはり上記の意味では、一致性はないことになる。

注記1:なお、わかりきったことかもしれませんが、上に書いた統計的な推論(AICも推論に仮に含めています)が変なものだという意味で書いてはおりません(その人のその時の使用目的に合わないものであるということは当然ありえますが)。

注記2:カイ2乗分布の分布関数は、表を引いてもいいのだが、Rで以下のようにすぐ計算できます。
> pchisq(2,df=1)
[1] 0.8427008
なお、パラメーター数の差が大きくなれば、確率は大きくなりますが、ここでの議論には影響がありません。

|

« [本]『ゴールデン・トライアングル秘史』 | トップページ | [大学]地名が最後につく学校名 »

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: [統計]一致性:

« [本]『ゴールデン・トライアングル秘史』 | トップページ | [大学]地名が最後につく学校名 »