« 2007年12月 | トップページ | 2008年2月 »

2008.01.28

[九大]コンビニ・スーパー・・・

 九大(箱崎キャンパス)の東側ほど近くにセブン・イレブンができてしばらく経つ。正門と農学部門の間はかなりの距離だが門はない。米一丸付近にあると便利なのだが(いまなら可能だと思う)。吉塚駅からJRのすぐ西側(海側)の道(県道550)を箱崎方向に走っていき、箱崎駅(香椎よりに移転したわけである)を過ぎてさらに北に向かうと、10年前とは風景が大きく変わっていることに気がつく。
 さて、コンビニができて、(大学からの)もよりコンビニがどんどん遠くなるのは避けられたが、一方では、スーパーなどがなくなったりもしているらしい(ダイエー関係の店舗リストを見るとない店が・・)。

 ダイエー(グルメシティ)原田店は、近くに住んでいる方々によると閉店したそうです(2008.1.29加筆)。
 ダイエー(グルメシティ)松崎店は、看板が白くなっていました(2008.2.3加筆)。

| | コメント (0) | トラックバック (0)

2008.01.27

[その他]スティーヴン・グールド

 スティーヴン・グールドの『ジャンパー』が映画化される。かなり読まれていると思う。うまく映像化されるといいのだが。

| | コメント (0) | トラックバック (0)

2008.01.25

[統計]順序制約のある統計-Jonckheereの検定

 順序制約のある(order-restricted)統計的な方法としてよく使われるものに(といっても使用される頻度は実際の問題の多さから比べるとかなり小さいだろう)、ノンパラメトリックな、Jonckheereの検定がある。いくつかの処理(2つの場合は2標本の検定で片側検定をすればいいので3つ以上)があって、目的変数がだんだん大きくなるとか小さくなるとかいった傾向的変化があるという内容を検定したいときのものである(傾向性仮説ということがあり、または処理に自然な順序があるということもある)。つまり目的変数が、
 第1の処理<第2の処理<第3の処理<・・・(以下略)
  とか
 第1の処理>第2の処理>第3の処理>・・・(以下略)
といったようになっているかどうかを問題にするときである。なお、下の場合は処理の番号をひっくり返せば上の場合と同じになるのでどちらか片方だけ考えればよいことになる。
 この検定では(というより順序制約のある場合は)、説明変数を順序尺度とみている。もし、間隔・比率尺度なら回帰(広義)で考えればいいことになる。

 Jonckheereの検定では検定統計量は以下のようである。第1の処理<第2の処理<第3の処理といった傾向的変化が目的変数にあるかどうかを問題にするときには、異なったの処理のデータを2つずつくらべて、処理の番号が小さいほうのデータが小さいという(上記の傾向的変化)と合致しているものの数を数える。


たとえば、
第1の水準 55 66
第2の水準 81 64
第3の水準 87 79 84
というのが目的変数の値だったら、
1vs2 第2が大きいのは4つのうち2つなので、2
2vs3 第3が大きいのは81vs79以外のすべてなので、5
1vs3 第3が大きいのは6つすべてなので、6
合計して13が検定統計量となる(Jという記号になることが多い)。数え方は、Mann-WhitneyのU検定やKendallの順位相関係数とよく似たものである。

| | コメント (0) | トラックバック (0)

2008.01.24

[その他]カリフラワーのクミン炒め

 クミンをオリーブ油で炒めておき、そこに1房ごとに切り分けたカリフラワーを入れて歯ごたえが残るくらいに炒め、味付けは塩とコショウでというものなのだが、時に食べたくなると頭に居座ることがある(さめても結構おいしいし、ややこしい手順はなく、ここのところカリフラワーがよく出ているので作ることが多い)。追加する香辛料として、ニンニク、ターメリック、コショウ、ショウガなどは気分で入れることが多い(全部を入れることはまずない)。他に、チリパウダーとかカレー粉とかコリアンダーとか入れてみたことがある(どっと入らなければどれもおいしいとは思う)。蒸し煮にしてみたり、酸味を加えてみたり(カボスとかライムとか)したこともあるが、今では『ベジマニア』(長尾智子著)の作り方に近いものになっている。
 もともと、確か、留学生の方に教えてもらい、その後、今はつくばにいるK君(留学生はこの方ではない)による香辛料の使い方のアドバイス(というよりガイダンス)を経て、時々よく作る時期を迎える。

| | コメント (0) | トラックバック (0)

[統計]順序制約のある推論

 説明変数が順序尺度の変数というときには、説明変数に伴って目的変数の平均的な値が増えていく(あるいは減っていく)という傾向的な変化を対立仮説として考えたいということがよくおこる。たとえば、動物の攻撃性の強さを1,2,3,4,5という5段階で記録し、数字が大きい段階ほど攻撃性が強いのは確実だが、段階を表す数の差が等しくても(たとえば、1と3、3と5、いずれも差は2)、その違いは同じであるとは言えないとき、攻撃性は間隔や比率尺度でなく、順序尺度で測られているということになる。「攻撃性が強いとその個体の体重減少量は大きい」という仮設は、そういう傾向的な変化の対立仮説の例である。
 こういった対立仮説を表現するときに、説明変数のi番目の段階(一般的な用語としては水準だろうか)における目的変数の平均をμiとして、  
 μ1≦μ2≦μ3≦μ4・・・ただし、少なくともどこか一箇所では<が成り立っている
とすることがよくある。帰無仮説の方はμ1=μ2=μ3=μ4=・・・というわけである。目的変数が減少するような傾向的変化なら、 μ1≧μ2≧μ3≧μ4・・・ ということになるが、水準の番号をひっくり返して割り当てればいいので、μ1≧μ2≧μ3≧μ4・・・ と μ1≦μ2≦μ3≦μ4・・・ のどちらか片方だけ考えておけば十分ということになる。
 目的によっては、平均ではなく別の位置母数(たとえば中央値とか)を使いたいこともあるだろう。
(途中のj番目の水準における目的変数の平均が一番大きい場合、たとえば、μ1≦μ2≦μ3≦μ4≧μ5≧μ6≧μ7といったものをアンブレラ仮説ということがある)

| | コメント (0) | トラックバック (0)

2008.01.23

[その他]総長

 総長といえば山南敬助という人が多いだろう。しかし、いまでも総長というポストはいろいろなところにある。大学などで総長というポストをおいてあることがある。もともとは、東京帝大などが、複数の大学からなるという制度(学部みたいなものがそれぞれ1つの大学)だったとき、いまでいう学長を総長という別の名前で呼んだことに始まっているようだ。いまでも、総長という名前は何かなつかしいものを引き起こすらしく、いくつかの大学(など)でそういう呼び方をしていることがニュースでも取り上げられ、いわゆる全国区になっている。あるいは、総長といえば「総長賭博」という人もいるかもしれない(山南敬助だ、という人よりも年齢層が狭いだろう)。
 ポスト名よりも大学名でノスタルジアしちゃう人はいないのだろうか(まぎらわしい名前ははた迷惑だが)。昔、漫画では東京帝大学、略して東京帝大という私立大学を作ってしまう人が登場していたが。
 さて、ニュースを聞いていて、東京福祉大学という大学を知らないのに気づいた。最近はともかく東京に多少の土地勘はあるつもりなのだが、見当がつかなかった(福祉系の大学といえば、日本社会事業大学とか日本福祉大学とかは前を通ったことはあり、すぐ思いつくのだが)。東京福祉大というのは、学生がいる場所としてのおもなキャンパスは群馬県の伊勢崎にあるのだった(伊勢崎駅や新伊勢崎駅からは2-3kmあるらしい)。

(2008.2.12追記)上記の総長のうちお一人は読売のサイトで教育のキーパーソンとして特集されていました。『変革の時代をリードする』とのことでした。

| | コメント (0) | トラックバック (0)

2008.01.22

[その他]NFL-チャンピオンシップ

 寒い中、センター試験の翌日が過ぎていくと、カンファレンス・チャンピオンシップが終わっていた。NFCの方がきわどいだろうと思っていたが、OTとはいえジャイアンツが勝つとは(シード#1と#2を破ったことになる)。今のジャイアンツの選手で名前を知っているのは、EliにBurress、StrahanにUmenyioraくらいである。
 レギュラーシーズンのニューイングランド対ジャイアンツはきわどい勝負だったが、ニューイングランド優位は変わらないように思う。

| | コメント (0) | トラックバック (0)

2008.01.19

[九大]センター入試

 今日と明日はセンター入試。大学は昨日からすでに、目に見えるところも入試の色である。寒い朝だ。九大が担当している試験会場は九ヶ所あり、西は西新から東は香住ヶ丘まであるそうである。

| | コメント (0) | トラックバック (0)

2008.01.18

[その他]NFL-ディビジョナルプレーオフ終了

 ディビジョナルプレーオフの後のほう2試合は両方とも番狂わせだった。ペイトン兄弟で弟だけ残るとは。
 サンディエゴvsインディアナポリスでは、サンディエゴはそう運がよかったわけでもないのに、エースQBもエースRBも途中でいなくなっても、勝った。しかもエースRBはトムリンソン。スタッツを見ると、結局、ターンオーバーの差で、そうめずらしいものではありませんでした。ノブ・ターナーがプレイオフでこんな難敵に勝ったのはいつ以来だろう?
 次はチャンピオンシップだが、トムリンソンとリバース(とくにトムリンソン)が戻ってこないと、さすがにサンディエゴに勝ち目はないだろう。NFCは寒さで地元グリーンベイでなかろうかと思っている。
 さて、トムリンソンは今期のリーディング・ラッシャーだったわけだが、第2位がルーキーのピーターソンだった。ピーターソンは上位のRBの中では1回あたりの獲得ヤードが長い。

 

| | コメント (0) | トラックバック (0)

2008.01.17

[統計]Mann-WhitneyのU検定と”Efronのサイコロ”

 2個体のどちらが強いのかに比べると、2つのグループのどちらが強いのかははるかに複雑な問題である。2つのグループのどちらが強いかを決めたい時、総当たりで対戦してその勝率で決めるというのは決しておかしくないだろう。第1のグループが(A,B,C)の3人、第2のグループが(E,F,G)の3人なら、3×3で9つの対戦をしてその勝敗で決めるわけである。たとえば、Aは相手のグループの3人(E,F,G)のそれぞれと対戦することになる。「一番強い個体同士の対戦」とか「真ん中の強さの個体同士の対戦」とか「それぞれのグループで順番(先鋒、副将、大将)を決めて3試合の出場成績」よりも全体を見ているだけよいような印象がある(最後の例に似たものは孫子[後の方]に出てくる)。
 広く使われているMann-WhitneyのU検定は、ちょうど総当たり対戦の考え方で、2つのサンプルのどちらの方が平均的には大きな値かを見る。第1のサンプルが(1、2、5)の3つのデータ、第2のグループが(3、6)の2つのデータなら、比較して大きい方が”勝ち”とすると、第1のサンプルは、1が0勝2敗、2も0勝2敗、5は1勝1敗だから、1勝5敗となる。第2のサンプルから見れば5勝1敗となる。この5と1がUである。U検定では通常の場合である両側検定の時は、サンプル数が決まっていれば片方のUの値がわかればもう片方もわかるので、Uのうち小さい方を検定統計量として使う。
 サンプルサイズをn1,n2として、”勝ち数”がn1・n2/2より大きい方を、平均的には大きいと考えることは理にかなっているように思える。だが、以下のような例を考えると、(場合によっては狭い)ある条件を満たしたときしかその印象は正しくないことがわかる。

 サンプルA:4.0、3.9、1.5
 サンプルB:3.2、3.0、2.8
 サンプルC:5.5、2.2、2.1

AはBに対して6勝3敗、BはCに対して6勝3敗、AはCに対して4勝5敗だから、(推移的ではなく)循環的になってしまい大小関係にはふさわしくない。
 これは”Efronのサイコロ”の例でもあり、U検定の仮定とも対応している。

| | コメント (0) | トラックバック (0)

2008.01.14

[その他]地元の原料

 ヤマザキナビスコから、(バターとしては)北海道のバターだけを使ったクッキーというのが発売されるそうだ。宣伝文から見ると、六花亭のマルセイバターサンドのようにバターは北海道、粉など他の原料はそうではないというものだと見える(六花亭はそうでないところもはっきり書いていたが、ヤマザキナビスコの方は他の原料の由来の記述は見つからなかった)。

| | コメント (0) | トラックバック (0)

2008.01.13

[その他]NFL-ディビジョナルプレーオフ半分終了

 グリーンベイとニューイングランドがそれぞれ、NFCとAFCのチャンピオンシップ進出を決めた。ランボーフィールドは試合が始まって少ししたら、相当の吹雪になったようで、ときにはレシーバーがパスをうまく視認できないこともあったらしい。

| | コメント (0) | トラックバック (0)

[その他]北京の広さ

 行政区画としての「北京市」はかなり広いことに気づいた。北京市は”省”と同格であるわけだが、福岡付近だと、福岡・佐賀・大分・長崎の4県合わせたくらいの面積である。中国の市で一番広いのは重慶市(やはり”省”と同格)で、九州全部と中国地方をみな合わせたより少し広いくらいである。

| | コメント (0) | トラックバック (0)

2008.01.12

[統計]尤度比検定としての中央値検定

 よく使われる検定の枠組みに尤度比検定がある。さて、中央値検定(メディアン検定)といえば、ノンパラメトリック検定の中でも依存している仮定の少ない、ノンパラメトリック検定の中のノンパラメトリック検定といえそうなものであるが、これと尤度比検定との関係を考えてみる。

 まず、使う確率モデルであるが、母中央値を境に大きなものも小さなものも同じ確率で得られるはずだから、それぞれ0.5の確率という、とてもとてもシンプルなものを考えることになる。1サンプル(サンプルサイズnは偶数としておく)の場合、データをyiとして、小さい方から大きい方にy1,y2・・・とならべる。母中央値がyjとyj+1の間にあるとすると、尤度はnCj・(0.5)^nである。nCjとnCj+1の比は(j+1)/(n-j)だから、j=n/2つまりサンプルのデータを二分するところに母中央値があると推定するのが最尤推定となる。母中央値は異なっていもいいから、パラメーターは2つである。
 母中央値がちがう(対立仮説に対応)モデルでは、この1サンプルの場合をそれぞれのサンプルについて行なったものが最大尤度を与えるから、サンプルサイズをn1,n2(いずれも偶数とする)として、最大尤度は、n1Cn1/2・(0.5)^n1×n2Cn2/2・(0.5)^n2となる。

 母中央値が同じ(帰無仮説に対応)するモデルでは、両方を一緒にした(n1+n2)個を大きい半分と小さい半分に分けることになる。
第1のサンプルは、小さい方にx1個、大きい方に(n1-x1)個
第2のサンプルは、小さい方にx2個、大きい方に(n2-x2)個
と分かれたとする(x1+x2=(n1+n2)/2である)。母中央値は同じなので、パラメーターは1つである。
第1のサンプルについてのこちらのモデルの最大尤度は、n1Cx1・(0.5)^n1、第2のサンプルについては、n2Cx2・(0.5)^n1となる。
 最大対数尤度の差は、log{n1Cn1/2}+log{n2Cn2/2}-log{n1Cx1}-log{n2Cx2}で、整理すると、
log{x1!}+log{(n1-x1)!}+log{x2!}+log{(n2-x2)!}-2log{(n1/2)!}-2log{(n2/2)!}となる。スターリングの公式で近似すると、たとえば、最初の項はx1・log(x1)-x1となり、整理すると
x1・log{x1/(n1/2)}+(n1-x1)・log{(n1-x1)/(n1/2)}+x2・log{x2/(n2/2)}+(n2-x2)・log{(n2-x2)/(n2/2)}
となる。この2倍が対数尤度比統計量で、この場合、(パラメーター数の差は2-1=1なので)自由度1のカイ2乗分布と比べることになる。この対数尤度比統計量は、2×(実測値)log(実測値/帰無仮説のもとでの期待値)の合計という形である。

 中央値検定では2×2分割表を作って検定するが、その際には、Fisherの検定やいわゆるカイ2乗検定、G検定などが使われる。上記の対数尤度比統計量はG検定するときのG統計量と同じである(G検定は、尤度比に基づくものだから、意外性は薄いが)。中央値検定は、尤度比検定とみることもできるというわけである。

| | コメント (0) | トラックバック (0)

2008.01.11

[その他]NFL-ディビジョナルプレーオフ

 今週末はディビジョナルプレーオフで、いよいよ4チームに絞られる。順当に行けば、待っている4チームの勝ちあがりとなるのだろうが、”番狂わせ”があるとすれば、ダラスvsジャイアンツだろうか。レギュラーシーズンは確かダラスがかっていたと思うが。ニューイングランドもジャクソンビルは楽な相手ではないと思うが、インディアナポリスはレギュラーシーズンではサンディエゴに僅差とはいえ負けていた。

| | コメント (0) | トラックバック (0)

[統計][R]順序尺度の説明変数

 Rで、カテゴリカルな変数を説明変数にして、広い意味での回帰をすると(たとえばglmやlmを使うとき)、名義(分類)尺度ならダミー変数がその変数の水準数より1つ少ないだけたち、それぞれのダミー変数の効果がかえってくる。ダミー変数に慣れてしまえば(ほかにも便利なので、慣れた方がいい場合が多いだろう)、とくにわかりにくいということもない(一連の[(水準数-1)個の]ダミー変数全体の効果を見る必要はあるが)。
 一方、カテゴリカルな説明変数が順序尺度のときには、はじめて使うと人によってはあれと思ったりぎょっとするような結果が出力される。説明変数の名前らしきものが、L、Q、・・・といったものなのである。このLとかQとかが水準の名前とは関係ないことは、水準の名前がどうであっても、いつもL、Q、・・・であることからわかる。
 水準数を増やしていくと。L,QのつぎはCでつぎは^4、その次は^5なので、このあたりで、どうもLはlinearで一次のこと、Qが2次で、Cが3次らしいと想像がついてくる。L,Q,Cはそれぞれ1,2,3というわけである。
 さて、問題は、結果で、LとかQとかの効果としてかえってくる値は、何なのだということだろう。結論的には対比である。各水準に対して与えられた係数をその水準の平均と掛け算して、全水準に対して合計したものである。たとえば、5水準の順序尺度の説明変数の場合なら、
Lの係数は第1の水準から順に
-6.324555e-01 -3.162278e-01 -3.287978e-17 3.162278e-01 6.324555e-01
なので、Lについての対比は
-6.324555e-01×(第1の水準の目的変数の平均)
-3.162278e-01×(第2の水準の目的変数の平均)
-3.287978e-17 ×(第3の水準の目的変数の平均)
3.162278e-01×(第4の水準の目的変数の平均)
6.324555e-01×(第5の水準の目的変数の平均)
を合計したものである。

 この係数全体は、 contr.poly(水準数)で見ることができる。たとえば、5水準なら

      .L          .Q       .C       ^4
[1,] -6.324555e-01 0.5345225 -3.162278e-01 0.1195229
[2,] -3.162278e-01 -0.2672612 6.324555e-01 -0.4780914
[3,] -3.287978e-17 -0.5345225 1.595204e-16 0.7171372
[4,] 3.162278e-01 -0.2672612 -6.324555e-01 -0.4780914
[5,] 6.324555e-01 0.5345225 3.162278e-01 0.1195229

である。それぞれの係数を見ると、たとえば、Lについての係数の合計は0で二乗の合計は1(QとかCとかでも同じ)であることがわかる。また、横軸に水準の番号(1,2,3,4,5:順序尺度だから順番は決まっている)をとり、縦軸に係数をとると、Lは直線、Qは第3水準のところが頂点でもっとも下がっている放物線、Cは第3水準のところについて点対称な3次曲線、^4は第3水準について対称な4次曲線上に、それぞれ乗っていることがわかる。
 たとえば、Lで計算される対比は何を計算しているのだろうか。x(横軸)に各水準の番号の値(1,2,3,4,5といったもの)をとり、y(縦軸)に各水準の平均をとったとき、yとxの積和にあたるものを計算していることになる。x側の合計は0で二乗の和は1なので、結局、Lについての対比で計算されるのは、水準の番号の値をxにして回帰直線を引いたときの傾きのようなものということになる。つまり、Lについての対比は、水準の番号の数字とともに直線的に目的変数がどれだけ変化するかを見ていることになる。同様にQは2次については、Cは3次についてはどれだけ変化するかを表していることになる。
 対比の係数をみると、対比たちは直交するようにとられていることがわかる(対比の直交の説明はこちらも見てください)。
  つまり、目的変数の変化を、直線的なもの(L)、2次のもの、3次のもの、に分けて見ようとしているのだった。
 この、順序尺度の説明変数のときの扱い方については、helpにもどうも詳しい説明があまりないのだが、Crawleyの『R Book』が詳しく、『Sと統計モデル』(Chambers&Hastie(eds.))にも解説はある。

 さて、この取り扱いでは順序尺度の説明変数が間隔尺度であってしかも同じ間隔で並んでいるかのように扱われていて、順序尺度の情報を越えてしまっていて、あまり素直ではないという印象を持った。順序尺度なので、各水準にダミー変数を割り振ってもあまり意味はないし、隣り合っている2つの水準の比較と離れた2つの比較では意味が違うから片っ端2水準間の比較をするのは相当に変だろう。それらよりはまだいいのかもしれないがどうもすっきりした感じがない。
 順序制約のある推論の方がずっと素直だと感じた。こちらについては別に書くことにする。


| | コメント (0) | トラックバック (0)

2008.01.10

[その他]Barnum

American MuseumのBarnum(P.T. Barnum)と言えば 、全国○○コンテストというアイデアを思いついたということでも知られるが、ゾウのジャンボでも有名である。”There's a sucker born every minute”(ばかはどこにでもいるもんだ、とか、だまされるやつは次々現れる、といった意味であろう、このことば自体がwikipediaの項目になっている)ということばも有名だが、本人の言ったものではないらしい。

| | コメント (0) | トラックバック (0)

2008.01.09

[鳥だの森だの]RAW現像ソフトウェアのレンズ収差補正機能

 考えてみると、できてもおかしくないのだが、レンズの収差といわれるもののうち、周辺光量の低下とか歪曲収差とか色収差の一部を(画像が得られた後で)補正する機能が、いわゆるRAW現像ソフトには備えられていることがある。Silkipixにもあるし、AdobeのCameraRawにもあるそうである。少し前に、キャノンが自社のデジタル一眼レフにつけているDPP(Digital Photo Professional)というソフトにこの機能を入れて、いろいろなところでニュースになっていたり、雑誌にも載っていたりする。

| | コメント (0) | トラックバック (0)

2008.01.02

[その他]NFL-レギュラーシーズン終わり

 ニューイングランドはかなりひやひやながら全勝でレギュラーシーズン終了。あと3勝で”パーフェクトシーズン2”ということになる。プレーオフの対戦も決まり(トップシードのチームが低いほうのシードのチームとディビジョナルプレーオフで対戦という恒例の不確定性を除き)、4強(ニューイングランドに、インディアナポリス、グリーンベイ、ダラス)がディビジョナルプレーオフで待つわけである。クリーブランドが10勝6敗でプレーオフに出られないのは不運だった。タンパベイは故障者も相当抱えた中ではよくプレーオフまで来たと思うが、ワイルドカード(NYジャイアンツ)でも勝ったりはしないだろうか。

| | コメント (0) | トラックバック (0)

« 2007年12月 | トップページ | 2008年2月 »