« [統計]同じ略語 | トップページ | [鳥だの森だの]写真の撮影場所を記録する »

2006.12.09

[統計]欠測値

 実際のデータ解析で使われる統計モデルは以前に比べるとだいぶ複雑なものになっている(もちろん単純な2標本の比較の場合のような単純なモデルも依然としてよく使われはするが)。すると、起こりやすい誤りもちがってくるだろう。欠測値のために、実はちがったデータの尤度を比べて(喜んで)しまうというのも増えた誤りだという気がする。同じデータについて、複数の統計モデルの尤度などを比べるということは、AICのようなモデル選択にせよ尤度比検定にせよ今では普通の操作である。欠測値があることが珍しくないデータを多く扱っていると、欠測値の取り扱いに端を発するかんちがいで泡をふくことは何度か経験しているだろう。たとえば、「目的変数とすべての説明変数の値がそろっているものだけ計算に使え」という設定(とくに珍しくはないと思うが)だと、説明変数の数が多いモデルほど使っているデータ点の数が減っても何の不思議もない。もちろん同じデータについて異なるモデルの尤度(やそこから計算される量)をくらべるべきときに、ちがうデータの尤度を比べてもただただ意味がない。
 私の経験(私だけかもしれないが)では、比べている統計モデルのうち簡単なものが複雑になるにつれて、この手の、欠測値の取り扱いのためちがったデータの尤度を計算しているのに同じデータを使っているつもりになっているという状態は発見(発覚?)しにくくなっているように思える。データの個数を書き出してみればすぐ気づきそうなものだが、結果が喜ばしいとなかなか発見できない。また、いわゆる締め切りが迫っていると、どうしても基本的な確認の手を抜くのでさらに発見しにくくなる。
 何度か泡をふいて次第にこの種の問題で泡を吹く回数が減ってきた。他人のデータ解析の結果を見ているとき、気が付くと、自由度やデータの個数などのつじつまがあっているのか一通りチェックを終えている自分がいる。 

|

« [統計]同じ略語 | トップページ | [鳥だの森だの]写真の撮影場所を記録する »

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: [統計]欠測値:

« [統計]同じ略語 | トップページ | [鳥だの森だの]写真の撮影場所を記録する »