« 2007年11月 | トップページ | 2008年1月 »

2007.12.31

[九大]電子メール

 もう授業は冬休みに入ってから、びっくりするようなお知らせがいきなり電子メールでやってきた。大学にいる研究者(でも研究者ではない人も)にとって、基本的な連絡手段は電子メールになっており、各大学ではその大学(あるいはもっと細かい単位ということもありうる)のメールサーバーの電子メールアドレスを発給するのが普通である(日本の場合、サーバーアドレスの末尾が.ac.jpということになる)。私が勤めている大学でもそうなのだが、そのサーバー(大学内での通称mbox)を「あと3ヶ月ほどでもうやめるので、あなたのアドレスは使えなくなります」という通知が数日前に来たわけである。一応、通知には、移行する他のサービスは簡単に書いてあるのだが、あまりに簡単なので、どんなことになるのか想像するのも難しい。こういう場合、凶事の知らせを受け取った人は悪い想像に走り、書いていないことはしばしば考えられる中では悪い方向で現実化することも多い。今回の場合、たぶんこの通知を受けとった人数は4桁のかなりのところだろうから、休み明けには善後策と説明とで相当の人数の、相当の時間とエネルギーが費やされるだろう。アドレスが変わると、各人はいろいろなところに変わりましたという手続きをしなければいけない(しかも普段は意識していないものも相当数あるだろう)。まさかとは思うが、あと3ヶ月で現アドレスがなくなり、現アドレスに出されたメールはサーバーがありませんというエラーで返されるようなら、被害の総計はかなり大きいだろう。
 今回のメールサーバーやめますという通知は、決定しましたというものだった。あらかじめユーザーに予告とか意見聴取とかはなかったようで(だいぶ聞いてみたが、うわさとして知っていた人がごく少数いただけ)、寝耳に煮え湯の、電撃戦であったといえそうである。事前に兆候を察知されないことは、奇襲かくあるべし(風林火山?)というものなのだろうか。
 最終的に、細かい単位でメールサ-バーを持たざるをえなくなり、管理が行き届かないサーバーが出て(たぶん必然的?)、セキュリティレベルの大幅低下と関係者(いったん低下すると一般ユーザーだと自分は思っている人のかなりも関係する)のさらなる疲弊[すでに全般的にだいぶ疲弊はしている]につながらないといいのだが。

 

| | コメント (0) | トラックバック (0)

2007.12.28

[九大]図書館

 中央図書館に行ったら閉まっていた。27日が年内最後、年明けは5日からだそうだ。年末年始に使えるのは医系の図書館だけであらかじめ手続きをしておいた人だけらしい。

| | コメント (0) | トラックバック (0)

2007.12.27

[統計]GLMの交互作用-数値例と3次元の交互作用

 3つの説明変数(x1,x2,x3)と1つの目的変数(y1)からなる、以下の10個のデータ点を例としてみる(乱数で作成した仮想的なもの)。正規線形モデル(いわゆる普通の重回帰で、計算はR2.6.1でしてみた)で考えてみる。

  x1       x2        x3      y1
10.904732 13.411570 5.175551 18.83955
12.329137 8.514455 5.956906 23.57670
9.705621 10.552619 5.116896 20.22385
12.408564 10.345858 5.039443 13.44492
12.477303 8.429955 5.071569 22.74618
9.713946 11.562903 5.541890 25.57536
8.731251 9.179998 5.500887 22.24150
11.343812 8.210893 4.114083 24.07884
8.484146 7.093054 3.905116 23.58360
11.716928 2.608302 5.869322 21.85729

説明変数としてx1とx2およびその交互作用を入れたとき、
回帰式は、切片 -4.3753 x1: 2.5988 x2: 4.0601 交互作用: -0.3999
である。
 x1の代りにx1マイナス10を使うと、
切片21.61315 x1: 2.59885 x2: 0.06122 交互作用: -0.39989
で、x1と交互作用の回帰係数は変わらず、x2の回帰係数は変化して、その差は交互作用の係数の値×10で前項でおおまかに見たとおりになっている。他の場合も同様だが、一応やってみると、
 x2の代りにx2マイナス9を使うと(x1はx1のまま)、
切片32.1654 x1:-1.0001 x2: 4.0601 交互作用: -0.3999
となり、今度は、x2と交互作用の回帰係数は変わらず、x1の回帰係数は変化している。
  x1の代りにx1マイナス10を、x2の代りにx2マイナス9を、使うと、
切片22.16413 x1:-1.00012 x2: 0.06122 交互作用: -0.39989
で、交互作用の回帰係数だけは変わらないが、x1もx2も回帰係数が変化している。
 
 さて、ここまでは説明変数2つだった。説明変数が3つあるときには、2つの説明変数の間の交互作用とともに、3つの説明変数間の交互作用(以下、3次元の交互作用)が出てきて、これがなかなかイメージしにくい。2説明変数の結果から考えると、1つの説明変数の値が定数だけ変化すると、主効果と交互作用がみな入った回帰式では、のこりの2つの説明変数の回帰係数(主効果)とのこりの2つの説明変数間の交互作用の回帰係数で、合計3つの回帰係数の値が変わるだろうと想像がつく。

| | コメント (0) | トラックバック (0)

2007.12.26

[その他]NFL-レギュラーシーズンもうすぐ終わり

 もうおもな興味はプレーオフという感じ(ニューイングランドの全勝とピーターソンの新人でのリーディング・ラッシャーなるかという2つは別格として)だが、最終的にどのような顔ぶれと組み合わせになるにせよ(可能性のあるチームはジャクソンビルとは1回戦ではあたりたくないだろうが)、ニューイングランドとインディアナポリス、ダラスとグリーンベイというカンファレンスチャンピオンシップというのが普通の予想だろうか。グリーンベイに行くチームは大変そうだ。
 と気がつくと、スコット・スカイルズ(NBA、シカゴ・ブルズ)が首になっている。

| | コメント (0) | トラックバック (0)

[統計]GLMの交互作用-続々

 前項の、説明変数2つの(しかも正規線形モデルを念頭においた)、そのうえ決定論的なところだけに注目したものでも、「2つの説明変数の値の積を新しい説明変数にしたものが交互作用」という取り扱いをしたときの、交互作用と検出されるものの挙動はある程度わかる。
  やはり、説明変数はx1とx2とし、目的変数をyとする。2つの説明変数に加えて、交互作用として積の項が入った場合には、決定論的な式は以下のように書ける、

(y-my)=d1(x1-m1)+d2(x2-m2)+d3(x1x2-m12)

となる。m1はx1の、m2はx2の、myはyの、m12は(x1かけるx2)の、それぞれ平均である。
 x1=w1+c1、x2=w2+c2とすると、上の式は、w1の平均をa1、w2の平均をa2、(w1かけるw2)の平均をa12として、

(y-my)=d1(w1-a1)+d2(w2-a2)+d3{w1w2-a12+c2(w1-a1)+c1(w2-a2)}

となるわけだが(ここまでは前項と同内容)、変形すると、

(y-my)=(d1+d3・c2)(w1-a1)+(d2+d3・c1)(w2-a2)+d3(w1w2-a12)

となる。ここから、説明変数の値が定数だけ変化すると、交互作用の回帰係数は変わらないが、”もとの”説明変数の回帰係数(いわば主効果)は変わるだろうということがわかる。「”もとの”説明変数も組み込んでいるが交互作用だけが問題で”主効果”はどうでもいい」ということはあまりないだろうから、説明変数が全部、比率(比)尺度でそろってはいなくて、中に間隔尺度であっても比率尺度ではないものがまじっていたりするときには要注意といえそうである。また、片方の説明変数の値だけが定数だけ変化して、もう片方の説明変数の値は変わらない場合には、定数だけ変わった方ではなく変わらなかった方の説明変数の回帰係数が変化するらしいこともすぐわかる(数日以内にいま手元にある数値例を載せるつもりです)。
 こんな関係が成り立つのは2つの説明変数と交互作用(積として)がはいっている場合で、片方の説明変数&交互作用(積として)とか交互作用(積として)だけ、といった場合にはそうはならない。
 

| | コメント (0) | トラックバック (0)

2007.12.23

[統計]GLMの交互作用-続

 昨日書いたように、交互作用が2つの説明変数の値の積という新しい説明変数の効果だと、回帰の性質としてよく知られていることからみると変なことが起こるのではないかとはすぐ考えられる。2つの説明変数が両方とも負の値の場合に積は正の値になったりもする。
 たとえば、簡単な直線回帰(正規線形モデルを念頭におく)を考えてみる。簡単といっても交互作用を考えるので2つの説明変数は最低必要で(直線回帰ではなく)重回帰になる。説明変数はx1とx2とし、目的変数をyとする。まず交互作用の項がない場合、決定論的な式は以下のように書ける、

(y-my)=b1(x1-m1)+b2(x2-m2)

ここで、m1はx1の、m2はx2の、myはyの、平均である。すべてのデータ点でx1が同じ値だけ変化しても、回帰係数つまり傾きb1,b2には影響がない。x2についても同じである。x1=w1+c1、x2=w2+c2と、すると、上の式は、w1の平均をa1、w2の平均をa2として、

(y-my)=b1(w1-a1)+b2(w2-a2)

と書き直せて、(y-yの平均)={偏回帰係数(説明変数-説明変数の平均)}の和というかっこうになっている。
これは直線回帰などについてはよく知られた性質である。
 次に交互作用として積の項が入った場合、

(y-my)=d1(x1-m1)+d2(x2-m2)+d3(x1x2-m12)

となる。m12は(x1かけるx2)の平均である。交互作用がない場合と同様にすると、

(y-my)=d1(w1-a1)+d2(w2-a2)+d3{(w1+c1)(w2+c2)-(w1+c1)(w2+c2)の平均}

となる。(w1かけるw2)の平均をa12とすると、

(y-my)=d1(w1-a1)+d2(w2-a2)+d3{w1w2-a12+c2(w1-a1)+c1(w2-a2)}

となって、(y-yの平均)={もとと同じ値の偏回帰係数(新しい説明変数-新しい説明変数の平均)}の和、というかっこうにならない。

 つまり、説明変数の測定値の単位のとり方が変わるなどで、値が定数だけ増える(減る)と、回帰係数(偏回帰係数)の値は保存されないことがわかる。積の項が入ってない重回帰とはだいぶちがうわけである。(上の式の比較からうかがえることは他にもあるがそれは別項で) 説明変数が日付(適当な基点日からの日数)などのときに、基点となる日をを変えると結果が変わって、あれと思った経験のある人も少なくないだろう。
(12月25日に加筆しました)

| | コメント (0) | トラックバック (0)

2007.12.22

[統計]GLMの交互作用-余

 先に書いたようなGLMでの交互作用の扱い方は、1980年代はじめくらいまでの(いまでも場所によってはそうみたいだが)、「正規線形モデルこそ統計的方法」時代(t検定、分散分析、[線形の重]回帰の時代である)には教えられることがあまりない内容だったと思うのだが、その年代に統計的な方法の教育をうけたとおぼしい人から、GLMでの交互作用の扱いについて聞かれたり話されたりしたおぼえはほとんどない。一方、たぶんGLMがかなり普通の方法になった時期に大学院生(わりと最近ということになる)だったであろう方々からは何度か質問されたことがあるのだが。

 今週は、忘年会(のようなもの)が二日続くところがあって、元気に飲み食いしてしまった。しかし、昼間は各種業務山積なので、やはり疲れはする。やや公式的な忘年会めいたものは、これで終わりのはずである(以前よりも格段に減ったような気がする。大学では時間と余裕が激減しているからだろうー『モモ』など読むと身の回りの現実にぞぞぞっとするかもしれない)。

| | コメント (0) | トラックバック (0)

[統計]GLMの交互作用

 分散分析などで交互作用(interaction)といえば、各要因つまり説明変数の一次式で説明できない、目的変数の期待値と実際の平均の”ずれ”のことである。そこで、”ある説明変数の効果が他の説明変数の値により異なること”といった表現もされる。二元配置分散分析などのよく教科書での説明に出てきた例では、ある説明変数たちの値に対する目的変数の期待値と平均の差として交互作用が説明されている。一般化線形モデル(GLM)でも交互作用は簡単に導入できるが、1つの説明変数として扱われているように見え、回帰係数なども推定されている(以下は、GLM用のソフトウェアの関数などでの交互作用の扱いをご存知の方にとっては、決まりきった・わかりきった内容だろう)。
 Rの関数glm(一般化線形モデルによるデータ解析ではたぶん相当広く使われているだろう)では、説明変数x1と説明変数x2の交互作用は、あいだにコロンをはさんで、x1:x2と書かれる。その意味は、x1とx2の積を新しい説明変数として、あとは普通に(というのは1つの説明変数として、とくに他のものとちがった取り扱いをすることなく、という意味である)回帰[広義]したもののようだ。
 以下はR内蔵のデータセットの1つであるairqualityを使った計算例である。MonthとDayの積であるMDという変数を追加しておく、
> airquality$MD<-airquality$Month*airquality$Day
MDの最小値は以下のように5になっている(5月1日から始まるデータだから)、
最小値 5.0  Median 105.0 Mean 110.4 最大値270.0

 正規線形モデル(線形の重回帰)でもポアソン回帰でも同様の結果になるのだが、以下はガンマ回帰の例である(結果はRで表示されるものを一部省略して簡単にしてある)、
> resultG1<-glm(Temp~Day+Month+MD,family=Gamma,data=airquality)
> resultG2<-glm(Temp~Day*Month,family=Gamma,data=airquality)
 まず2説明変数の積を説明変数として加えたもの
> summary(resultG1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.748e-02 1.213e-03 14.409 < 2e-16 ***
Day -8.848e-05 6.761e-05 -1.309 0.1926
Month -7.037e-04 1.659e-04 -4.241 3.89e-05 ***
MD 1.556e-05 9.311e-06 1.671 0.0969 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 次に交互作用を入れたもの
> summary(resultG2)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.748e-02 1.213e-03 14.409 < 2e-16 ***
Day -8.848e-05 6.761e-05 -1.309 0.1926
Month -7.037e-04 1.659e-04 -4.241 3.89e-05 ***
Day:Month 1.556e-05 9.311e-06 1.671 0.0969 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


2つの結果(とくにDay:MonthとMDのところ)を見比べると同じである。

 さて、交互作用を検討する際、目的によっては、2説明変数の積を新しい変数にしてその効果を見るのは不適当なこともあるだろう。ある説明変数ともう1つの説明変数の効果が独立でないとは積で効くということとはちがうこともけっこうありそうである。交互作用に限ったことではないが、式をいったんは書いてみて、自分の目的に合っているかどうかひとしきり(×2くらいは)考えてみた方がいいだろう。
 

| | コメント (0) | トラックバック (0)

2007.12.19

[その他]NFL

 マイアミの開幕以来負けっぱなしはとまったが、ニューイングランドの勝ちっぱなしはなおとまらない。パーフェクトシーズンはなるのか?と考えると、1991年のサンフランシスコを思い出す。この年は好調でたしか開幕10連勝(くらい)結局2敗だけでレギュラーシーズンを終えたが、NFCチャンピオンシップでジャイアンツに最後フィールドゴールを決められて破れ、スリーピートも逃すのだった。ちなみに日本での中継(長嶋茂雄氏が出ていたところを見ると日本テレビ系列か?)では、モンタナの試合中負傷後(たしかマーシャルにサックされた)もサンフランシスコの勝ちすなわちスーパーボウル進出を疑っていなかった。QBとプレースキックのホルダーはホステトラーだったと記憶している(シムズがけがしていたため)。残念ながら、今年はゲームを見る時間がまるでない。

 UFOの国会質問と町村長官についても新聞の見出しをながめる程度しかできないのが残念。

| | コメント (0) | トラックバック (0)

2007.12.18

[統計]二項分布のベイズ推定-続

 ついでに事後分布の中央値の場合も少し計算してみた。 
 事前分布がBe(α、β)で、データはn回のうち成功x回で失敗(n-x)回だと、事後分布はBe(α+x、β+(n-x))だから、フラットな事前分布(すなわち一様分布)であるBe(1、1)なら事後分布はBe(1+x、1+(n-x))となる。
 n=5の場合について計算してみると、
x=5のとき、0.891(最尤推定値は1)
x=4のとき、0.736(最尤推定値は0.8)
x=3のとき、0.579(最尤推定値は0.6)
x=2のとき、0.421(最尤推定値は0.4)
x=1のとき、0.264(最尤推定値は0.2)
x=0のとき、0.109(最尤推定値は0)
となる。
 今日は忘年会である。

| | コメント (0) | トラックバック (0)

[統計]二項分布のベイズ推定

 ベイズ統計の入門的な教科書などには、たいてい出てくる例として、二項分布のベイズ推定がある。二項分布は生存と死亡とか、メスであるかオスであるかといった、二つの結果のどちらかになる現象を扱うときに基礎になる分布で(ここでは、成功と失敗という2つの結果にした)、分布を決めるパラメーターは確率が1つだけである。n回のトライのうちx回成功する確率は、1回の成功確率をθとすると、
 n!/x!/(n-x)!・θ^x・(1-θ)^(n-x)
である。
 データが二項分布の場合、事前分布(prior)をベータ分布にすると事後分布もベータ分布になる。ベータ分布を2つの母数を使って、Be(α、β)とあらわすとすると、平均(期待値)はα/(α+β)、分散はαβ/(α+β)^2/(α+β+1)となる。モード(最頻値)は、α,β>1のとき(α-1)/(α+β-2)である。

 事前分布がBe(α、β)で、データはn回うち成功x回で失敗(n-x)回とすると、事後分布はBe(α+x、β+(n-x))となる。
 点推定値を事後平均とすると、(α+x)/(α+β+n)となるわけである。たとえば、フラットな事前分布(一様分布)はBe(1、1)だが、このとき、点推定値は(1+x)/(2+n)となる。事前分布をBe(0.5、0.5)とすると、0.5をはさんで対称で両端(0と1)が高いものになるが、このとき、点推定値は(0.5+x)/(2+n)となる。nが大きくないときには、このどちらも最尤推定値(当然のようにx/n)とは異なっている。事後平均がx/n(最尤推定値と同じ)となるのは、Be(0、0)に相当する場合で、1/{φ(1-φ)}のような形になる(0と1という両端がそびえたった形)。フラットな事前分布だと点推定値は最尤推定値と言われていることもあるが、この場合にはちがっている
  事後モードだと、(α+x-1)/(α+β+n+2)で、事前分布がフラットなBe(1、1)ならx/n、事前分布をBe(0.5、0.5)とすると(x-0.5)/(n-1)である。
 もっとも、どの場合でもnがすごく大きければx/nみたいなものなので(分散を計算するときにn-1で割って不偏分散を計算するといった話題のように)、細かいことといえば細かいことではある。

 さて、n回の全部が失敗(ないし全部が成功でも同じ、その場合には、フリースローかPATの連続成功でも想定してください)という場合を考えてみよう。nが5回(つまり5連続失敗)と50回の場合を比べてみると最尤推定値ではどちらの場合もθは0である。シーズン当初から5打席連続凡退のバッターよりも50打席連続凡退の打者の方が打てなそうな気がするのだが。ベイズ推定だと、Be(0,01)にあたるような事前分布を考えない限り、事後平均は1回の失敗ごとにしだいに左つまり0方向に寄ってくる。この方が直感(私の場合)に近いような気がしている。

| | コメント (0) | トラックバック (0)

2007.12.07

[鳥だの森だの]虫の目レンズ

 なぜか毎日のように会議があり、しかも1日に複数が普通という今週だが、他にも生態学会大会が足音高く迫ってきて次々時間をはぎとっていく。時間がかかることは苦しいので、15分と区切って、虫の目レンズの簡単なものを作って(?)写真を撮ってみた。別目的で使っているものをあわせるとできるのではないかと思いついた。全部、普通の市販品で、もちろん初歩的なものである。レンズ[対物側]はWatecのミニチュアレンズ(いわゆるM13マウント)、その後ろにM13をCマウントにつなぐアダプター、両方がCマウントの延長チューブはいろいろあった(市販のものもたくさんある)ので適当に組み合わせ、それをM42-M57とつないで(ここはボーグのもの)58ミリにしてキャノンのマクロレンズ(フィルター径が58mmのMP-E65)につないで、キャノンの古いデジタルカメラ(D60)に付けた。ねじをしっかりしめると15分ですまなくなりそうだったので、あまりしっかりしめずに手持ちでとったのが、これMushi01
である。
 カメラに付けるレンズのワーキングディスタンスと対物側のレンズの結像位置をはかっておけば、ひとまずうつるところまではあっさりできてしまった。15分にはまだ余裕があったので、El-Nikkorを1つ引っ張り出してリバースで使ってみたら、これでもすぐできた。ふと見ると、うちのカメラまわりは中古が多い。

| | コメント (0) | トラックバック (0)

2007.12.02

[その他]福岡国際マラソン

 今日は福岡国際マラソンである。ほとんどマラソンの世界選手権という位置づけの大会だったこともあり、私のような年齢層には、マラソンといえば福岡国際をすぐ連想する人も多いだろう。福岡国際といえば、1960年代に世界ではじめて10分を切ったクレイトン、1970年代に4連覇のショーター、そして、”雨の福岡”の中山だろう。クレイトンの頃は、雁ノ巣折り返しだから、やはりとんでもない記録である。
 そろそろ、オリンピックの代表決めの時期になってきた。私の印象でこれまでに一番強烈だったのは、ソウルオリンピックの男子マラソン代表選考、”雨の福岡”である。どしゃぶりにもなり気温は低かった。複数レースで代表選考するとどうしてもすっきりしないから、福岡国際での一発勝負、一発選考と言われる中で、当時の有力候補の一人であった瀬古は走らなかった(中山が、自分なら這ってでも出ると言ったのが、いわゆる”這ってでも出てくるべきだ”発言)。中山の走りは見ていて鬼気迫るものだった。あとで中山は、瀬古が出ないので誰もできないことをしなければオリンピック代表になれないと思ったという内容のことを言っている。(結局、別レースが代表選考会に指定され、瀬古は代表になった)。
 オリンピックの3位と4位のあいだには不思議な極端な評価の差がある。階段型の評価関数であるかのようだ。中山はマラソンで4位2回である(男子マラソンでの2回連続入賞はたぶん中山と君原だけ)。
 ”雨の福岡”に続く迷走の伏線というか遠因は、モスクワオリンピックへの不参加だろう。モスクワオリンピック前後の瀬古は本当に強く、負けそうな感じがしなかった。そして後から見ると、モスクワオリンピック前後が瀬古の頂点だった。瀬古はもちろん、いわゆる幻の代表だった。イタリアやオーストラリアだったら(オリンピックに参加したから)、瀬古はモスクワのときにメダルを取れていた可能性が大きい。
モスクワオリンピックのテーマソング?はジンギスカンの「めざせモスクワ」だった。
 さて、今の家は、福岡国際マラソンのコースの最寄り地点(香椎参道の折り返しそば)まで徒歩5分ほどである。交通規制の予告が出ているが、千鳥橋から香椎参道(折り返し)の間の規制時間は1時間半ほどのようである・この間を往復1時間半みればいいのだから、トップレベルのマラソンランナーは、速い。

| | コメント (0) | トラックバック (0)

« 2007年11月 | トップページ | 2008年1月 »