« 2004年9月 | トップページ | 2005年3月 »

2005.02.26

[統計]Rの本

 ”統計のソフトは何がいいですか”という質問は、コンピューターは何がいいですか、という質問くらいには回答がむずかしいと思う。最近は、よほど変わった用途だということが感じられる人以外には、”Rでどうでしょうか”と答えている。
 Rは、フリーの統計ソフトの1つで、いろいろなことができる点では(フリー、有料含め)これにまさるものはないように思う。命令はコマンドを入力するのだが(もちろんログも残る)、しばらく使ってみると、むしろ、すべてプルダウンメニューなどのものより、他人の解析手順がそのまま使える、以前の解析手順がリサイクルできるなどの長所のため、使い勝手がよいことがわかる。
 初めて使うときには、年齢が20代なら1.5日、30代なら2日、40代以降なら2.5日くらい、まとめて時間をとり、データの読み込みやデータいじりの小技類と基本的な分析法のうち自分がよく使うもの[基本的な分析法をひと通り習得するというような目標は立てない方がいいだろう、多くの人が考えるよりも基本的な分析法は膨大だから]、いま自分がいちばん関心がある分析、をやってしまうのがいいと思う。必要なものは、インターネットにつながったコンピューター(普通のものでよい)と、必要なら参考書だろうか。
 いろいろなことができる点では、S-plusに匹敵するないしはまさると思う(ということは、ほとんど最高度ということだが)。
 以前は、Rについての本が少なく、コマンドがかなり共通しているSやS-plusの本を見ていたが(いまでも使えはする)、最近はむしろRについての本が次々出ている。生態関係でも、Sのプログラムの電話帳みたいな本や10年以上前にGLMの本を書いていたM.J.CrawleyがRの本を出すようだ。また、離散的なデータの本はじめいろいろ書いているEverittも A Handbook of Statistical Analyses Using R というのを共著で出すらしい(この本はしばらく前はEverittの単著でアナウンスされたものと同じだろうか)。

| | コメント (0) | トラックバック (0)

2005.02.20

[本]インパール

 戦中(もちろん1945年8月に日本が負けた第二次世界大戦のこと)、日本軍(大日本帝国の軍隊のことである)はおそろしく遠くまで攻め込んでいたことがある。西はインドまで攻め込んでいたーそして負けた。紅茶で有名なインドのアッサム地方(厳密に言えばちがうのかもしれないがだいたい)にインパールという町があるが、ここを攻めて、語りつがれる激戦をおこし、”東京への白い道”(日本兵の白骨が道のようだったということらしい)を残して敗れ去った。これを描いたノンフィクションが高木俊朗の「インパール」「抗命」「全滅」「憤死」「戦死」 (いずれも文春文庫)である。
 いまでも充分にプレモダンな日本での人間関係が、上の命令に従わされる軍隊のような組織に持ち込まれたらどうなるかもよく示している。日本が好きと自覚のある方には、いかにも日本的な情景を描いているので必読だ。

| | コメント (0) | トラックバック (0)

2005.02.10

[統計]Mann-WhitneyのU検定と不等分散

以前、別のサイトに掲載していたものを書き直したものです(どこかに移してしまおうと計画していましたがようやく移しました)。

発端

 Mann-WhitneyのU検定(Wilcoxonの順位和検定)は独立な2標本を比較するノンパラメトリック検定の1つです。たぶん、もっとも使用頻度の高いノンパラメトリック検定でしょう。だいぶ前になりますが、不等分散のときにMann-WhitneyのU検定を使っている例がかなりあることに気がつきました。

問題

 しかし、Mann-WhitneyのU検定は帰無仮説での検定統計量の分布を求めるときに、2標本が同じ母集団からサンプリングされたと仮定しています。、U統計量の分布は、2標本がサンプリングされる母集団の分散が異なるときと同じ母集団からサンプリングされたとき(後者の場合がU検定用の表になっています)とはちがいます。1つの母集団は1つの分散しか持ちえません。そこで、Mann-WhitneyのU検定は等分散を仮定していることがわかります。しかも、等分散でないことは検定結果に影響を与えます。このことは、統計の本ではかなり前から言われています(たとえばSiegelの教科書など)。しかし、不等分散のときに好んでU検定を使っている例がかなりあるようです。
 下記の論文を書きました。「えっ、ノンパラメトリック検定なのに不等分散が影響するの?」(←ギャグではなく実際に聞いた)、とか、「本当かよ?信じられない」、とか、「どうすればいいの」とかいう方はそちらをごらんください。

Kasuya, E.(2001) Mann-Whitney U test when variances are unequal. Animal Behaviour,61:1247-1249.

上記「」内のようなご質問にはお答えしておりません。

不等分散と等分散

 こういう場合、不等分散と等分散ということばの意味は、標本分散がちがうことでも、標本分散に有意な差があることでも(直接的には)ありません。母分散がちがうことを指します。これはt検定などの場合も同じです。実は不等分散のときにU検定を使うと起こることは、定性的には不等分散のときに普通のt検定を強行したときの症状とよく似ています。

他の検定

 すぐに同じことが起こるとわかるのは、Mann-WhitneyのU検定の多標本版である Kruskal-Wallisの検定です。

| | コメント (2) | トラックバック (0)

2005.02.06

[その他]スーパーボウル

 明日はスーパーボウル。毎年、見てはいるのだが、ここ10年ほどは仕事の都合で、休暇をとって生放送を見ることはできていない。アメリカンフットボール(と書いておく)は、細切れのセットプレーの連続という点では野球にそっくりで、ルールも野球ほどにはむずかしくないと思う。野球がかなり広く受けている日本には、もっと大量のファンを獲得できる素地があると思う。それとは別に、デンプシーなどもっと知られてもいいと思う。
 私がいつも気になってしまうチームはマイアミでありまず思い出すプレイヤーはジェイク・スコット(出身地と歳がわかってしまう)だ。いちばん印象に残っている試合は、モンタナのサンフランシスコの3連覇の夢をうちくだいた、NYジャイアンツとのNFCチャンピオンシップである。ローレンス・テイラーすごかった。マーク・ババーロも目立たないがよかった。日本での中継は、日本テレビ系で、解説は長嶋茂雄、彼はサンプランシスコの勝利を最後の方まで疑っておらず終わりごろは言葉少なだった。
 明日はやはり生ではみられそうもない。

| | コメント (0) | トラックバック (0)

[統計]ノンパラメトリクスと分散

 統計的方法にノンパラメトリクスと呼ばれる一群がある。多くの人に好まれている4文字略語では、「ノンパラ」となる。統計的方法には、”こういうときに使うために考えました”という、取扱説明書にある正しい使い方みたいなものがほとんど必ずあって、仮定と呼ばれている。そこから、外れても、わりと大丈夫なことをrobustとよぶわけである。
 20年ほど前(大学によってはもっと後でも)までは、正規分布&等分散という仮定をしている方法(t検定とか分散分析とか直線回帰とか)を中心に教えるのが普通だった。だが、世の中そんなデータばかりではないーどころかそうではない方がたぶんずっと多い。そこで、分布の形についてとくに仮定しないノンパラメトリクスがよく使われるようになったのだろう。
 分布の形についてとくに仮定しないのだから、ノンパラメトリクスならくらべるものの分散がちがってもいいのだろう、というようなことを言っている人が意外に多いことに気づいたのは、かなり前になる。ノンパラメトリクスの検定の理屈そのものは驚くほどシンプルで、統計の入門書にも載っていることが少なくない。それを理解していれば、ノンパラメトリクスのかなりの部分(U検定とか)は、不等分散のときはうまくないということがあまりに明白だ。
 数理統計学の本ではなく、ユーザー向けの統計の本でも、不等分散がまずいということは書いてあることが少なくない。Siegelと言う統計学者の、行動科学向けの統計の本は、やや古典的なベストセラーである。この本には、1節使って書いてある。
 いまでもときどき新しい論文で”分散がちがうので、ノンパラメトリクスにしました”というような記述を見ると、ギャグとは言え論文にこの手のまちがいを書くのはよくないと感じる。Siegelの本のような、入門的代表的教科書にもあることで、逆のことを論文に書くのは普通ではないから、そこに暗い情念を感じてしまう。著者はきっと、この論文の結果は信じてはいけませんよ、といっているのだろう。あるいは、著者はeditorのうらみを買っているのかもしれない。論文に”なんだこりゃ”という記述を見つけても、著者が誰かを気にすることはあっても、editorが誰かを気に留める人は少ないからだ。
 U検定の理屈を理解している人にとっては蛇足だが、同じように考えるとランダマイゼーション検定にも不等分散の時にはまずいものがかなりあることがわかるーこれについてはまた別の機会に。

| | コメント (0) | トラックバック (0)

[機材]夢の自動車

 自動車を買うときにお金のことを気にしないような身分ではないが、もしそうだったらと夢想することはたまにある。子供のころ、ランチァのストラトスがほしかった。その後、ビアシオン(ミキ)の乗っていたフォードエスコートRS(こんなものは買えないでしょうが)がほしいと思ったり、まだプロトタイプが出ていたころの三菱パジェロ(こっちも売っているパジェロとは名前と外観が似ているだけのようですが)がほしいと思ったこともある。市販しているものだと、しばらく前から、誰かが後腐れなく買ってくれるならフェラーリモデナと言ってきたが、実は結構横幅が広くてもしあっても下手をすると私の立ち回り先では停めるところにこまるのに気づいた。M5(BMW)やRS6(アウディ)もいいかもしれない。でもGT2(ポルシェ)ということになりそうだ。誰かがくれることなどないのだから、車幅とか最低地上高とか気にしてもしかたがないのだが。

| | コメント (1) | トラックバック (0)

2005.02.05

[機材]伝説のスコープ

 野外で鳥や昆虫などを見るときに望遠鏡のようなものを使うことがある。バードウォッチャーが使っているものといった方が早いかもしれない。”スコープ”とか、人によってはプロミナー(コーワの製品名)とか呼んだりもする。
 携帯の手間とか、使わないときの収納とか考えなければ、スコープは(だいたい)口径が大きいほうがいいわけだが、実際には80ミリくらいが普通の上限である。双眼鏡やカメラのレンズと同様、スコープの値段も高いものと安いものの差が大きい。
 さて、このスコープには、相当長い間、欲しがられ、大きなモデルチェンジはなく、うらやましさを抜きには語られない、”伝説のスコープ”がある。(言うまでもないかもしれないが)Questar社のBirderである。いろいろなところに、envyとかexpensiveといったことばと一緒に現れる。また、かなりよいスコープがあると、poorman's questarとかquestar for the rest of usといった形容がされたりもする(あとの方は昔のMacintoshのコピーにそっくりですが)。私は写真でしか見たことがないが、口径約90ミリのマクストフカセグレンで2kgくらいらしい。
 私の研究上の同業者に聞いてみると日本では、マクストフカセグレンやシュミットカセグレンに限らず、反射や反射屈折のスコープはほとんど使われず、屈折式だけがほとんど使われているらしい。雑誌の解説記事などでもまずみない。
 何か、日本では屈折にこだわる(屈折してるからとか)理由があるのかとも思ったが、天体望遠鏡では反射屈折全盛だから、実はご禁制の品ということもないようだ。
 調べてみると、他にもバードウォッチングなど用の反射屈折のスコープは作られていた。メーカーは、天体望遠鏡の2大メーカーであるM社やC社も含んでいるから、有名メーカーではないからということでもないようだ。また、値段も90ミリで、(QuestarのBirderのようなことはなく)1000ドルかそれ以下で、高い屈折のスコープに比べるとむしろ安い。
 なぜ反射屈折は使われないのだろうか? 自動車の280馬力規制や180キロ規制のようなものがあり、鳥見のアウトサイダーである私が知らない(教えてもらえない)という仮説は説得力がいくらかある(でもきっと他の理由だろう)。

| | コメント (0) | トラックバック (0)

« 2004年9月 | トップページ | 2005年3月 »