« [進化]血縁選択・・・ | トップページ | [大学]すでに「助教」の任期制が »

2005.06.24

[統計]速くなった計算機のご利益ーパラメトリック・ブートストラップの場合

 計算機が速くなった(速い状態から始まった人には速くなった実感など無いだろうが)ことがよくわかる実例はいろいろあるが、パラメトリック・ブートストラップ(前にも少しふれた)はその最たるものだろう。名前こそブートストラップだが、あまり元祖ブートストラップには似ていないと思う。パラメトリック・ブートストラップの理由付けは、検定とはこういうもの、ということがおおざっぱにわかっていれば一直線のわかりやすさであろう。それでいて使用可能範囲はかなり広いので、”伝家の宝刀”的に使えるときも多い。5年くらい前からの修士課程の授業では必ず話すようにしている。
 2つの確率モデル(モデル1と2とする)を最尤法であてはめ、それぞれのパラメーターを推定し、最大尤度を求めておく。最尤推定したので、そのパラメーター値を持つモデル1は、データにもっともよくあっているモデル1だと考えていいだろう。また、モデル1とモデル2の、そのデータでの最大対数尤度の差は、どちらのモデルがデータによくあっているかを示している量だと見ることができるだろう。データで最尤推定したパラメーター値のモデル1を使って、(乱数で)データと同じサイズのデータを作る。この作った(モンテカルロ的に作った)データもどきにまたモデル1とモデル2を最尤法であてはめ、最大対数尤度を求める。2つのモデルの最大対数尤度の差をデータのそれとくらべてやる。データがモデル1はあまりあっておらずモデル2には非常によくあっているなら、データの(モデル2の最大対数尤度-モデル1の最大対数尤度)は、モデル1で作ったデータもどきの(モデル2の最大対数尤度-モデル1の最大対数尤度)よりも大きくなりやすいだろう。データもどき生成を多数回(10000回とか)やって、両モデルの最大対数尤度の差の分布(モデル1が正しいときの、ということになる)をデータのそれとくらべてみれば検定できる、というわけである。大切なのは毎回、最尤推定することである。もとのデータとデータもどきは同じではないし、データもどきは毎回ちがう。データから最尤推定したパラメーター値のモデル1の、データもどきでの、最大対数尤度を求めるのではなく、毎回、モデル1を最尤法であてはめる。
  両モデルの最大対数尤度の差を検定統計量のようにみなすのも素直だし、モデル1で生成したデータもどきは帰無仮説が正しいとき、と同じである。尤度と検定がだいたいわかっていると、かなり直感にもうったえて、わかりやすいように思う。
 最初は、離散量でサンプルサイズがあまり大きくないときに使い始めたが、相当な威力だと思う。確率モデルがないとだめではあるが。

 10000回データもどきを生成すると、最尤推定を20002回もすることになるので、非線形の最大化1つでひいひい言っていたのでは話にならない、計算量だ。(この項、続く予定)
 

|

« [進化]血縁選択・・・ | トップページ | [大学]すでに「助教」の任期制が »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: [統計]速くなった計算機のご利益ーパラメトリック・ブートストラップの場合:

» Parametric Bootstrapとは [幾霜]
粕谷セソセイの解説キターー! いや、すごくよくわかりました。あー大体こんな感じかなというところまで来ていたのですが、名前が邪魔をして「氷解」に至らなかったのですが、おかげさまでようやく到達できましたよ!... [続きを読む]

受信: 2005.06.24 11:53

» [Science] parametric bootstrap検定の手順 [幾霜]
理解はしたが詳細な手順をすぐに思い出せなかったので粕谷先生の説明を簡単に箇条書きにしてみた。元データにおいてモデル1(対立仮説)とモデル2(帰無仮説)のパラメータ値とlnLmaxを求める(当然lnLmaxはモデル1の方が大きい)モンテカルロ法でモデル2に基づいてデータもどきを生成する(パラメータ値は1で推定した値にする)各デ...... [続きを読む]

受信: 2006.10.22 08:21

« [進化]血縁選択・・・ | トップページ | [大学]すでに「助教」の任期制が »