"さん"づけはよして

思ったことを何も考えずに書き殴る。備忘録ともいう。

外れ値

注:
専門外のことについて、感じたことを書きなぐっているだけなので、間違っている所や、怪しい記述が多々あります。
コメント欄でご指摘頂けると幸いです。

授業で、大通りのマツの葉の汚れと田舎のマツの葉の汚れを比較しました。まず、基本統計量(平均値、分散、標準偏差)を求め、二群間に有意差があるかどうか調べるためにt検定をし、外れ値をスミルノフ・グラブス検定で外してから再度t検定をするということをやってみました。

外れ値を外す前は有意差が無かったのに対して、外れ値を外した後は有意差があるとなっていて、適切に外れ値を外さないと差を見過ごしてしまうことがあるんだなあと感じました。

それから、nをたくさんとっとくのは大事だなあと。どんなに頑張っても、多い少ないの差はあれど、データにバラつきがあるのは仕方ないわけで。最低でも、値を外しても問題無く取り扱える程度には必要だなあと。あと、数うちゃ当たるというわけで、nを増やした方がより、真実の値にも近づくだろうと(雑)


調べ物をするときの常套手段で「とりあえずwikiる」というのがあって、今までは結構信用していました。

だけど、もう少し疑ってかかろうかなと思いました。レポートの参考文献にwikiはいけないという理由もわかりましたね。

スミルノフ・グラブス検定のwikiの式(外れ値という項目にあったはずです。)がどうにもあやしくて、確か、有意水準とデータ数だけの式になっていたような……。外れ値なのかどうか調べるから、どう考えても平均と分散は使うだろうと思うわけで、実際、別のサイトにはそのような式もあったわけで……。wikiって信用できないんだなあと……。それからwikiには再帰的に外れ値を求めていくという趣旨の記述がありましたが、なぜ、再帰なのかよくわからないです。外れ値かどうか全ての値で見るのであれば逐次調れば……。

まとめると
・外れ値を適切に外そう!
・nをたくさんとっとこう!(まあ、限界はあるけど)
wikiを過信してはいけない
ということで。

それでは、長々と失礼致しました。