統計解析を行う際にデータに正規性があるかどうかちゃんと調べていますか?
ぼくは今までやっていませんでした。
本当にレベルの低い話でブログにupするのもためらうのですが、後輩の先生方にはぼくみたいな失敗はしてほしくなく、反省をこめてここに書き留めておきます。
今までは度数分布表を作ってみて視覚的に判断して、パラメトリックまたはノンパラメトリックな解析にするかを判断していました。
Shapiro-Wilk検定というのを使えばデータからきっちり判断できるというところまでは情報収集を行えていたのですが、その時はツールを持ち合わせていませんでした。
最近RやEZRというフリーの解析ソフトを使って、グラフの作成などを行っていますが、どちらもShapiro-Wilk検定ができるようでした。
実際にやってみると男性骨粗鬆症の母集団は正規性がありました(それまでは度数分布から視覚的に正規性なしと判断し、ノンパラメトリックで統計解析をやっていました)。
この検定ではp値が0.05より大きいと正規分布に従うということになります。
下記にRとEZRの解析結果を添付します。
例えば、年齢の分布が下のようにやや二峰性があるようであってもp値は0.23で正規性ありとなるようです。
男性骨粗鬆症の統計解析を再度やり直してみても結果に大きな影響はなく安心したのですが、今回もやはり時間をロスしてしまったと思います。
統計解析のスタートの部分なので、多少時間はかかってでも納得するまで調べればよかったのですが、早く解析を結果を出したいと焦っていた(抄録の締め切りが迫っていた)、そして「正規性があるかの確信がもてなければ、”とりあえず”ノンパラメトリックで解析」という情報を鵜呑みにしていました。
今後大学院等で研究をスタートする予定のみなさまへ
・最初は時間がかかってでも納得いくまで調べたり、先輩に聞いたりすることをお勧めします
・中途半端な状態で先に進んでしまうと、それまでの労力と時間が無駄になるかもしれません(それもいい経験なのかもしれませんが・・)
・抄読会等では統計部分はサラッと流すことも多いですが、行っている統計解析方法など少しずつ勉強しておくといいと思います
今回触れたフリーソフトRやEZRは次回のブログでupしたいと思います。

EZR

R
Comments