« [統計][本]Ecological Models and Data in R | トップページ | [九大]トイレからの声 »

2006.10.26

[統計][鳥だの森だの]データの読み合わせ

 測定誤差などの誤差について書かれた本には、たいていまちがえてとんでもない値を記録してしまうというのが誤差が生じる原因(錯誤による誤差、などと呼ばれる)の1つとしてあげてある。これがあまり重要でないこととして読み飛ばされていることが多いのに気づいたのは、10年くらい前だっただろうか。データとして数値が得られ、(今なら)コンピューター上のファイルになるまでの間に人が介在するなら、とんでもない人為的間違いは、どこかの別世界の不幸な人の事件ではなく、あなたの目前の現実だと言っていいだろう。小数点を抜かす、1つデータを飛ばす、前のデータをもう一回入れてしまう、数字を追加してしまう(25.2といれるべきところで125.2とか)、数字を抜かす(525.3といれるべきところで55.3とか)、次の項目の数値を書いてしまった(気温なのに湿度の値をかいてしまい気温が摂氏95度とか)などはよく起こるー私の経験ではこういった間違いを犯す人の割合は、(1-[”私はそんなばかげた間違いをすることはありえない”と主張する人の割合])よりもだいぶ高い。さらに、なぜそう間違ったのか不思議になるような数値をまちがって書いてしまうこともそう珍しくは無い。疲れ果てて”小人さん”が仕事をしている状態になっていなくても、そこそこ間違いは起こる。自動的にコンピューター上のファイルにデータが入っていくような測定でも、測定条件はノートに手書きする必要があるということもある。そういったときにも間違いは入り込む。こういうときには口にして確認してみたり(旧国鉄の指差確認みたいに)指でさして確認すると多少は間違いの率が減るようだ。口に出して確認していて”一人暮らしが長いと独り言が多くなるんですね”と言われ、そう言われてもなお確認するのをやめなかったので(誤り軽減につながるのでそう簡単にやめるわけにもいかないし、気分は「その円を踏むな」というようなものである)、おかしいと言われたことがこれまでに何度かあった。
 入力してしまった後のファイルになったものなら、変な値を検出するプログラムを走らせる、散布図、ヒストグラムなどの図を描いてみるといった手もある(そんなことは、当たりまえだろ、と言われそうである)。手書きや手入力の部分があって、その前後の記録が残っているなら、2人以上でデータを声に出して読みながら照合する作業(私の実家では”読み合わせ”といっていた)は欠かせない。

さて、10月にはいって多忙の上に多忙を重ねたような状態で、ほとんど日々山積する業務の表面を処理するだけで翌日になっているが、まだしばらくは続きそうだ。恒例の研究費申請書類シーズンはほぼ終わったので、来週後半になって少し楽になったらいいのだが。

この項は続く予定です。

|

« [統計][本]Ecological Models and Data in R | トップページ | [九大]トイレからの声 »

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: [統計][鳥だの森だの]データの読み合わせ:

« [統計][本]Ecological Models and Data in R | トップページ | [九大]トイレからの声 »