« 2009年1月 | トップページ | 2009年3月 »

2009.02.27

[その他]広島は”こちら側”

 新刊の文庫本などが発売されて、東京で書店の店頭に並んでから、福岡で書店に並ぶまでには遅れがある。紀伊国屋の店頭検索で見ると、よくあるパターンは、北から見ていくと、札幌から東京・大阪ときて岡山・高松まではあるが、広島、松山、九州はまだ、というものである。広島と岡山の間、松山と高松の間に”境”があるらしい。

| | コメント (0) | トラックバック (0)

2009.02.26

[統計]CFI

 CFIは、Comparative Fit Indexの略で共分散構造分析(構造方程式モデリングとか、それを略してSEM[走査型電子顕微鏡みたいであるが]とも呼ばれる)での、いろいろあるモデルの適合性の指標の1つ。この種のモデルの適合性の指標には、{(nullモデルの外れ具合)-(そのモデルの外れ具合)}/(nullモデルの外れ具合)という形のものがあるが、CFIは外れ具合を、カイ2乗-自由度にしたものとのことである。

| | コメント (0) | トラックバック (0)

[統計][R]交互作用があるときー2つのサンプルへの直線回帰(計算例・続)

 先の例では、fとして1と2を使った。今度は-1と+1にしてみると、
> f02
[1] -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 1 1
> lm(y01~x01*f02)

Call:
lm(formula = y01 ~ x01 * f02)

Coefficients:
(Intercept) x01 f02 x01:f02
6.28428 2.56110 -0.01917 -1.35431

となる。また、0と1なら以下のようになる、
> f03
[1] 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
> lm(y01~x01*f03)

Call:
lm(formula = y01 ~ x01 * f03)

Coefficients:
(Intercept) x01 f03 x01:f03
6.30345 3.91541 -0.03834 -2.70863

一見すると、xの回帰係数やサンプルのちがいを表す回帰係数の値は、fとしてどんな値を使うかにより、ちがう。だが、先の例同様にそれぞれのサンプルでの回帰式を計算してみると、どれでも意味している回帰式は変わらないことがをわかる(これはfにどの値を使っても何も変わらずすべて同じという意味ではなく、yとxの間の回帰式が2つあるとみれば、その回帰式はfにどの値を使っても2つとも同じ、いう意味である)。また、交互作用の項の回帰係数は、fの2つの値の差が1なら-2.70863で、2ならそのちょうど半分である。

 ついでにfが名義変数の場合もやってみる。まずは
> f0Af
[1] A A A A A A A A A A B B B B B B B B B B
Levels: A B
> lm(y01~x01*f0Af)

Call:
lm(formula = y01 ~ x01 * f0Af)

Coefficients:
(Intercept) x01 f0AfB x01:f0AfB
6.30345 3.91541 -0.03834 -2.70863

で、これは0と1と同じである。次に

> f0Bf
[1] B B B B B B B B B B A A A A A A A A A A
Levels: A B

> lm(y01~x01*f0Bf)

Call:
lm(formula = y01 ~ x01 * f0Bf)

Coefficients:
(Intercept) x01 f0BfB x01:f0BfB
6.26511 1.20678 0.03834 2.70863

これはいままでにはないパターンに見えるが、すぐ想像はつく;1と0と同じではなかろうかと。

> f031
[1] 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
> lm(y01~x01*f031)

Call:
lm(formula = y01 ~ x01 * f031)

Coefficients:
(Intercept) x01 f031 x01:f031
6.26511 1.20678 0.03834 2.70863

確かに同じである。


| | コメント (0) | トラックバック (0)

[香椎・千早]スバル(香椎浜団地入口交差点)

 周りで区画整理の整地がすすみ周囲の店がどんどんなくなりながら、ずっとほぼ同じ場所(香椎浜団地入口交差点、つまり3号線バイパスをまっすぐ北上した道<交差するあたりはバイパスではなく松崎千早線か>と国道3号線とが交差する十字路の南東側)で営業していた、スバル(自動車のディ-ラー)の千早店が、3月の末にいったん閉店するらしい。秋に新装開店とのことだ。
 ところで、先日、飛行機から見たら、水谷から山越えして香椎参道をまたぐ、3号線バイパスの工事もかなりすすんでいるようだ。一度行って見なければ。

| | コメント (0) | トラックバック (0)

2009.02.24

[統計][R]交互作用があるときー2つのサンプルへの直線回帰(計算例)

 『交互作用があるときー2つのサンプルへの直線回帰』を簡単な例でRを使って計算してみる。

 xとyに以下のデータを例として使ってみた(両サンプルともn=10)、
第1のサンプルのx(Rでのオブジェクト名x1)
 5.497154 4.679102 5.993321 5.568748 4.394412 9.398079 5.550540 3.464335 3.446320 7.062823
第1のサンプルのy(Rでのオブジェクト名y1)
  29.27799 24.57128 29.47380 28.16811 22.08665 43.34353 27.72029 19.30471 21.16511 33.48546
第2のサンプルのx(Rでのオブジェクト名x2)
  3.976618 10.523270 5.643818 9.577025 6.395386 7.786664 7.074220 7.125215 5.651161 9.544041
第2のサンプルのy(Rでのオブジェクト名y2)
  12.54959 18.91492 13.19487 19.00219 11.14012 16.34512 17.03215 14.58150 11.59017 16.75461

 両サンプルを1つにしたものも準備し、xはx01、yはy01というオブジェクトに入れておく。以下は関数lm()を使っているが、関数glm()ならfamilyをgaussianでlinkをidentityとすることになる。(以下、結果表示を単純なものにしていますが、詳しくはsummary()などを使ってください)

【別々に回帰した場合】
サンプル1
> lm(y1~x1)

Call:
lm(formula = y1 ~ x1)

Coefficients:
(Intercept) x1
6.303 3.915

サンプル2
> lm(y2~x2)

Call:
lm(formula = y2 ~ x2)

Coefficients:
(Intercept) x2
6.265 1.207

2つのサンプルのちがいを、第1のサンプルが1、第2のサンプルが2という数値(名義変数ではないことに注意)で表してみる。こんな変数を準備する。
> f01
[1] 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2

【傾きが同じで切片は異なる場合】
> lm(y01~x01+f01)

Call:
lm(formula = y01 ~ x01 + f01)

Coefficients:
(Intercept) x01 f01
31.939 2.355 -17.045

第1のサンプルでの回帰式は、ここから、y=2.355x+31.939+(-17.045)、第2のサンプルの方は同様にy=2.355x+31.939+(-17.045)×2となる。


【1つの回帰式の場合】
> lm(y01~x01)

Call:
lm(formula = y01 ~ x01)

Coefficients:
(Intercept) x01
18.3883 0.4825

【別々に回帰した場合:交互作用】
 別々に回帰した場合は、以下のようにもできるはずである、
> lm(y01~x01*f01)

Call:
lm(formula = y01 ~ x01 * f01)

Coefficients:
(Intercept) x01 f01 x01:f01
6.34179 6.62404 -0.03834 -2.70863

この表示された結果が先の別々にあてはめたときの回帰式と同じであることは(当たり前といえば当たり前ですが)
第1のサンプルの回帰式
 y=( 6.62404+(-2.70863))x+6.34179+(-0.03834)
第2のサンプルの回帰式
 y=( 6.62404+(-2.70863)*2)x+6.34179+(-0.03834)*2
と計算してみるとわかる。

| | コメント (0) | トラックバック (0)

[統計]交互作用があるときー2つのサンプルへの直線回帰

 2つのサンプルで、説明変数xと目的変数yが測られているとき、xとyの間の関係式をどうあてはめるかという問題にはときどき遭遇する。正規分布&等分散では、よく教科書に出てくる問題で、複数のサンプルへの回帰式の当てはめだったり、回帰式の比較だったり、あるいは(正確には違うと思うが)共分散分析という名前で呼ばれていることもある。このケースは、交互作用とはなんだろうか?と考えるときの格好の練習場の1つである。
 それぞれのサンプルに別々の回帰式をあてはめる、共通(1つ)の回帰式をあてはめる、回帰式の一部のパラメーターは共通で一部はサンプルによってちがうものをあてはめる、といったことが可能である。直線回帰の場合には、最後の場合(つまり回帰式の係数のあるものは共通の値で、他のものはサンプルによりちがう値)としては、傾きつまりxの回帰係数は共通で、切片は異なるというのを考えるのが普通である。このとき、切片は高さと呼ばれることもある。
 一般線形モデル(正規線形モデル)や一般化線形モデルで考えると、サンプルの違いを表す説明変数(ここではfとする、サンプルは2つなので二値的変数)を使えば、
共通(1つ)の回帰式をあてはめる:説明変数はxのみ
傾きは共通で切片は異なる2つの回帰式:説明変数はxとfの2つ
 そして、
それぞれのサンプルに別々の回帰式:説明変数はxとfと(xとfの交互作用)の3つ
よいう対応関係になる。それぞれのサンプルに別々の回帰式をあてはめる場合、1つの回帰直線は傾きと切片という2つのパラメーターで決まるから、2本では合計4つのパラメーターが必要である。説明変数をxとfと交互作用の3つとしたとき、推定されるパラメーターはxとfと交互作用の3つについての回帰係数と定数項(つまり切片)の4つでつじつまがあっている。
 これをRで計算してみる(次項)。

| | コメント (0) | トラックバック (0)

2009.02.22

[統計]positive jackknife

 普通の jackknifeは1つのデータを除いて(観察されたデータがn個なら、(n-1)個を使うことになる)何らかの量を計算するわけだが、positive jackknifeとは逆にどれかのデータを2個あるとして計算するものである((n+1)個を使うことになる)。positive jackknifeに対して、普通のjackknifeがnegative jackknifeと呼ばれていることがある。

| | コメント (3) | トラックバック (0)

2009.02.19

[統計]circular variance

 レイリーの検定で使われている、平均を表すベクトルは、データのばらつきが大きければ長さが短くなり、データが揃っていてバラつきが小さければ長くなるので、circularなデータのばらつきの指標に使える。個々のデータを長さ1のベクトルとし、ベクトルの和を求めてその長さをサンプル数(nとする)で割ると、最大はすべてのcircularなデータが同じであるときで1であり、最小は0となる。そこで、ベクトルの和の長さをnで割ったものをRとすると、(1-R)はばらつきの大きさの指標として使える。
 (1-R)はcircular varianceと呼ばれているのをよく見かけるが、その2倍である2(1-R)をcircular varianceと呼んでいることもある。

| | コメント (0) | トラックバック (0)

2009.02.18

[統計]レイリーの検定

 方向(東西南北とか)や1日の中の時間帯のデータは、通常のデータとはだいぶちがった取り扱いが必要である。通常のデータでは、あるデータから遠ざかっていけばどんどんその差が大きくなるだけだが、方向や時間帯のデータでは、たとえば、13時から後の方にどんどん遠ざかっていくと一周してむしろ近づいてしまう。そのため方向や時間帯のデータ(circularとかdirectionaという)では、通常のデータ(circularに対してはlinearと呼ばれる)とは平均を求めるにもちがったことを考える必要がある。circularなデータでは、1つのデータを決まった長さのベクトルだと見て、平均を求めるにはベクトルの和(やはりベクトル)を求めてその長さをサンプル数で割ることになる。
 circularなデータでときどき使われる分析法にレイリーの検定がある。この検定は一様分布であるかどうかを検定するものである。ここで一様分布とは方向ならばどの方向にも同じようにということになる。一様分布なら、平均を表すベクトルの長さは0と期待されるので、0という仮説を検定するのがレイリーの検定である。一様分布ではないが平均を表すベクトルの長さは0という例はすぐ思いつく、そういう場合にはレイリーの検定は感じない。
 この検定の名は物理学者のレイリー(RayleighつまりJohn William Strutt、大学の授業で量子論登場の付近で名前が出てきた記憶がある)による。レイリーは貴族(お祖母さんが男爵になって以来)の子で、自分も3代目としてあとをついで(襲爵)Rayleighとよばれる。

| | コメント (0) | トラックバック (0)

2009.02.08

[その他]メルボルン46℃

 メルボルン(オーストラリア、ビクトリア州)の気温が、7日に46℃になったそうだ(たとえば、こちら)。前日などに比べると20℃近くも高い。これまでの最高気温の記録も43℃ほどらしい。

| | コメント (0) | トラックバック (0)

2009.02.02

[NFL]もうすぐスーパーボウル

 まもなくスーパーボウル。普通には、ピッツバーグがかなり有利だろう(ディフェンスが弱いチームがスパーボウルで勝つのはとくにむずかしいことでもあるし)。フィッツジェラルドがディフェンスがつこうとも何回か驚くようなキャッチを見せないことにはアップセットはないと思う。ここのところ毎年のことだが、休むわけにはいかない仕事があるので、生で見ることができない。

| | コメント (0) | トラックバック (0)

2009.02.01

[その他]『このサイトはコンピュータに損害を与える可能性があります。』

 このサイト(niftyのココログ)も、昨日くらいからgoogleの『このサイトはコンピュータに損害を与える可能性があります。』に引っかかっている。この『』内のフレーズでgoogleを使い検索を掛けると、google自体による説明のページとおぼしきところもヒットするのだが、そちらも『このサイトはコンピュータに損害を与える可能性があります。』となっている。
(追記)googleによると、human errorとのことである。

| | コメント (0) | トラックバック (0)

« 2009年1月 | トップページ | 2009年3月 »