データ捏造


卒論や修論のシーズンということで,データ捏造,といった単語が会話の中に見られることがあります.やっているということではなくて,データ捏造したい,とかそういうニュアンスであることがほとんどなのですけれど.今のところ,個人的にはデータを捏造して論文など出したことはないので,こういった話題にも触れて良いかと思っている次第.

で,データの捏造なんですが,今日テレビを見ていて,2つの種類があるのだなということをふと思いました.以下.

  1. 実際には存在しないデータを作り出す
  2. 実際に存在するデータの一部を隠す

これ以外にもあるかもしれませんが,とりあえずこの2点について.

まず1つ目は,捏造と聞いてすぐに思い浮かべるものですね.研究者としてはやってはいけない行為の最上ではないかと思いますが,トップレベルの研究所ですら行われたりすることもあるようです.当然,そういうものはばれるので,その世界からは追放されるわけですが.

2つ目は,自分にとって都合の悪いデータを隠すというもの.これもまぁすぐに思いつくんでしょうか.例えば100個のデータをとって,どうにもおかしな値が出たデータが5つ出たので,無かったことにしてそれを排除したり.まぁ,外れ値が出ることもあると考察すれば問題ないからこういうことをする必要は本来ないんですけどね.むしろそれを改善することがひとつの研究対象なわけです.



ところでテレビを見ていて思ったことなんですけど.ニュース23がネットオークション被害増加について報じていたわけですが,ここでのデータがふと気になりました.

データの内容としては,ここ8年ぐらいのネットオークションのトラブルに関する警察への届け出の件数みたいなものでした.それが,まぁ近年急増しているという報道だったわけなんです.これを普通に聞き流すと,やっぱりインターネットって不信感があるよね,という感想を抱きかねないわけで,メディアもそういう意志をもって報道してるわけなんですが.

何がデータの捏造かというと,ここで気になるのは,全体のオークションの件数です.

例えば年間5000件の被害届が出たとして,年間の取引件数が1万件だったとするとそれはもう大問題なわけですが,もし年間の取引件数が1000万件だったとするとちょっと話は別です.また,昨年の被害件数が1000で今年の被害件数が5000だとしても,昨年の全体取引が1万件で今年の全体取引が1000万件だとするとどうでしょう.絶対数を見る必要がある場合,確率を見る必要がある場合,どの見方に意味があるのか,これは重要なポイントです.

しかも上の2つ目のデータ捏造と比較してみても,この被害届の件数というデータ自体は,捏造されたものではないのです.何の問題もない,正しいデータ.

しかし,これと関係のある別のデータを示さないだけで,データから得られる意味というものが変わってくるのです.これも立派なデータの捏造なのかもしれません.



さてこういう観点で見ると,自分がデータ捏造をしていないかと言われると,うーむと黙ってしまうわけです.それは自分の意志とは別に知らず知らずのうちにやっているかもしれないですし.データ自体で嘘を言っているわけではないのですし,難しいですね.

ともかく,マスコミが示すデータは鵜呑みにしてはいけない事だけは事実です.嘘を言っていなくても,意味が変えられている場合があります.あくまで,それを信じるのは自分の責任である,という認識を忘れない必要がありそうです.研究関連でテレビの取材なんかを受けると,どれも実際に放映されている映像は,よく作りこまれているなぁと感服させられますから......