世の中ナナメに見てみよう ~楽しい数字、怪しい数字、卑しい数字~:情報機構 講師コラム
よくあるお問合わせよくあるお問合せ リクエストリクエスト セミナー会場セミナー会場へのアクセス
セミナーのメニュー

化学・電気系 その他各分野
一覧へ→
  ヘルスケア系
一覧へ→
情報機構 技術書籍情報機構 技術書籍
技術書籍 一覧技術書籍 一覧
   <新刊書籍>
  洋上風力発電
  バイオリアクター
  高分子添加剤【改訂版】
電子書籍電子書籍
化学物質管理化学物質管理
通信教育講座通信教育講座
LMS(e-learning)LMS(e-learning)
セミナー収録DVDDVD
社内研修DVD
セミナー講師のコラムです。講師コラム
  ↑2024/7/17更新!!
お申し込み・振込み要領お申込み・振込要領
案内登録案内登録
↑ ↑ ↑
新着セミナー、新刊図書情報をお届けします。

※リクエスト・お問合せ等
はこちら→



SSL GMOグローバルサインのサイトシール  


トップ講師コラム・取材記事 一覧> 世の中ナナメに見てみよう ~楽しい数字、怪しい数字、卑しい数字~:情報機構 講師コラム


講師コラム:大橋 渉 先生


『 世の中ナナメに見てみよう! ~楽しい数字、怪しい数字、卑しい数字?~ 』





講師コラムテーマ
第1回 データ<情報の意味?
第2回 視聴率一考
第3回 必勝法に関する疑問
第4回 もう一つの必勝法
第5回 ウソは言っていない!(1)
第6回 ウソは言っていない!(2)
第7回 相関関係と因果関係
第8回 同じ土俵か?
第9回 数字が語れば科学的?
第10回 平均こそが全て?


コラムへのご意見、ご感想がありましたら、こちらまでお願いします。





第10回 平均こそが全て? (2010/5/25)



 少々古いデータではありますが、平成17年度の世帯当たりの金融資産保有額は、おおよそ1085万円でした。2612世帯を満遍なく、それこそ無作為抽出による調査であったということなので、前回お話させて頂きましたバイアスなどの心配は無さそうです。この記事を実際にご覧になられた方もいらっしゃるかと存じますが、正直、筆者は「私はそんなに資産を持っていない」と思いました。

 私が見た新聞は平均値だけではなく、マジメに内訳まで提示してくれていたのですが、それがこちらの図でございます。


 



   よ~く見ますと、0円が全体の3分の1以上を占めていることがわかります。500万円までは100万刻みだった階級が、以後200万刻み→300万→500万→1000万→2000万刻みに変化しております。カンペキに、高額層が多いように見せるトリックですね。最後は5000万以上とありますが、ここには5000万円の人も、さらには1兆円(居ればの話ですが)の人も含まれます。ここには出てきておりませんが、マイナス(借金)のある人々は全て0円扱いになりますので、本当の意味での資産保有状況は見えにくくなっております。

 つまり、この1085万円は一部の資産家に引っ張られていることが一目瞭然です。500世帯以上、調査票本全体の約20%は5000万円以上なわけですから、このような人々が平均値を底上げすることで、冒頭の1085万円という金額が出てきているわけです。

 ならばどうすればいいのか・・・となりますと、平均値(Mean)の他にも、最大値(Max)、最小値(Min)、中央値(Median)、標準偏差(Standard Deviation)、最頻値(Mode)などの基本統計量を示すのがスジではないでしょうか? 特に最頻値ですが、明らかに0円ですので、せめて見出しに「0円が3分の1と最多!」ぐらいは入れるべきでしょう。さらに、グラフの階級幅を全て100万単位とするのもお願いしたいところですが、横幅が足りないということで却下でしょう。ならば、せいぜい「1億円以上」「10億円以上」などの項目があれば、一部の資産家に引っ張られていることを推測は出来たのではないかと思います。

 まあ、おなじみの平均値ではありますが、これだけでは明らかな情報不足であることがよく分かります。この国のカリキュラムでは中学校で平均値を習ったら最後、高等学校では統計学は学習しないので、一般の方々が知る統計用語は平均値が最後になります。

 平均年収2000万円の会社からスカウトされたとしたら、まずは中央値と最頻値、それから最大値を尋ねてみましょう! 社長が数十億円で社員の平均は360万円? なんてことは現実に存在しますので要注意ですね。お返事は条件を確認してからにしましょう!

 以上で筆者のコラムは終了です。また機会があればどこかでお会いしましょう!

[topへ]




第9回 数字が語れば科学的? (2010/5/11)



 皆様はサッカーくじ(通称ToTo)を購入されたことはありますでしょうか? 現在もキャリーオーバーが大量に発生している模様で、筆者も「もしかしたら6億円?」なんて期待をしつつ購入したりしております。このくじ(ToTo BIG)は自身で予想することは出来ませんので、本当の意味の宝くじです。他にもBigよりは対象が1試合少ないもので、自身で予想することができるくじもありますが、こちらは各試合についてホームチームの勝ち・負け・引き分けの3通りから予想しなければなりません。参考までに全ての組み合わせ数は、各試合3通りで13試合の予想を行なうと・・・(計算中)、3の13乗 = 1594323通りになります。一口 100円で全通りを購入すると、何と1億5943万2300円! 最高賞金額は2億円ですから、もしかしたら儲かることもあるかもしれません。ただし、それなりの売上があって、さらに当選者が少ない(= 番狂わせが起きる)ことが2億円の条件ですので、全通りの購入は損をする可能性の方が高いのは言うまでもありません。

 以上、現在はそれなりに市民権を得られているサッカーくじではありますが、導入に至るまでは、実に多方面からの反対があったそうです。既にサッカーくじが導入されていた海外におけるトラブル(八百長や殺人事件など)の事例や、各団体が独自に行なった調査結果など、まあ自分たちに都合の良いデータをこれでもかと集めてきておりました。結構笑えた(?)のは、渋谷の街角で道行く人にサッカーくじの賛否を尋ねたところ、約80%の人が反対だったと主張した某団体の話でした。「サッカーくじ反対!」と大きく書かれたタスキや鉢巻きで武装(?)した人々からの問いに、わざわざ立ち止まって回答する人々は、反対だから立ち止まるということなのです。むしろ、わざわざ立ち止まって賛成を訴えた20%の人々にこそ、私は敬意を表したく存じます(笑)。その団体曰く、「この通り科学的に、数字で証明されている!」と主張をしていたようですが、まあこの調査には明らかなバイアスが入り込んでおります。
 この事例は、意図的に都合の良い人々のみから意見を収集してきたのは明らかなのですが、時にはバイアスを掛けようとしなくても(掛けたくなくても)、普通にバイアスが掛かってしまうことがあります。たとえば電話による世論調査を平日の昼間に行なった場合、意見を聴取できるのは専業主婦の皆様か自営業者、もしくは無業者の意見が中心になることは容易に想像できます。これらの結果を、国民の代表的な意見として公表するには少々・・・(大いに?)無理があります。

 ある新聞社による1998年の調査によれば、何と中学生の約50%がナイフを持ち歩いているのだそうです。調査方法は、ある平日の昼間に、渋谷、新宿、池袋、北千住の駅前に座り込んでいた中学生から聞き取りをしたとのことで、さらにそのときにガムを噛んでいる子が多かったそうです。その新聞社曰く、今度はガムと非行の関係について検討すると申しておりました。
 さらに、某教育系の大学教授が上記の調査結果を見て一言・・・

 「中学生も物騒になったものだ!」

 * 今回のネタは、私の尊敬する谷岡一郎先生(大阪商業大学学長)が執筆されました、「社会調査」のウソ―リサーチ・リテラシーのすすめ (文春新書)を参照させていただきました。数字を扱う人々にとっては、間違いなく必読本です!


[topへ]




第8回 同じ土俵か? (2010/4/20)



 以下は国内で行なわれたある医学系学会における発表です。

 「治療法Aを施した患者さんの5年生存率は60%、治療法Bでは同様に30%でした。よって、治療法Aの効果が高いと言えます」

 (最後に拍手喝采)

   しかしながら、よ~く (?)調べてみますと、治療法Aを施された患者の平均年齢は60歳で、過去に大きな手術を経験した患者は一人もいませんでした。同様に治療法Bを施された患者の平均年齢は80歳で、しかもそのうちの多くが過去に何らかの手術を受けていました。元々状態が悪く、しかも年齢が高い人々ばかりが集まった治療法Bの群において、5年生存率が短くなるのはある意味当たり前であり、実は治療法の差によるものではない可能性があります。元々各群のプロフィールが違いすぎて、これでは同じ比較の土俵に立っているとは言えませんね。

 (筆者の内なる声:普段は必要のなさそうな項目(例:がん患者の調査において好きな歌手等)まで大量に収集している割には、このような場合に限って年齢や既往歴の情報を公表しないのは不思議だったのですが・・・)

 上記の事例は実際にあったお話であり、上記のようにたった一つの要因による単純比較により結論付けられてしまうようなお話も、世の中には結構存在します。数字だけを見ていると、いや、むしろ数字で示されたり、時に大学の先生方が発表したりすると、尚のこと信じてしまいたくなるようなものが多かったりします。一方、それらは言われてみれば「なるほど」と思えるようなものもまた多いのです。というわけで、皆様はその「なるほど」の部分を言われてみる前に見破ることが出来れば、きっと人生も楽しくなる・・・かもしれません。

 上記の事例であれば、本当に治療法AがBよりも優れている可能性もあります。ところが、研究デザインや調査企画の段階で比較したい事柄以外の条件(年齢や既往歴など比較したい事柄に影響を及ぼしそうなもの)を揃えておかなければ、たとえ本当に治療法Aが優れていてもそれを証明することは出来ません。本当に優れていた場合にはたいへん勿体無いことになってしまいます。

 勿論、見せかけのテクニックとして使っている人もおりますが・・・。


[topへ]




第7回 相関関係と因果関係 (2010/4/6)



 1組以上の数字が密接に関連していることを「相関がある」と言います。相関係数rは-1≦r≦1 の数値によって現され、-1もしくは1に近いほど相関が強いとされています。r値がいくつ以上であれば相関があると言えるような、明確な数学的な基準は存在しませんが、0.5以上で「相関が見られる」、0.7以上で「強い相関が見られる」などと言う場合が多いようです。

 

 マスコミやマーケティング関係者の中には妙に相関係数を好み、実は全く関連が無いような事柄を強引に結び付けることによって、いかにも「世紀の大発見」をしたかのような騒ぎを演じる(確信犯か大マジメかは不明なので、一応演じるとしておきましょう)人々もいるようです。流行のデータマイニング(Data Mining)は、関連の見えないところに何らかの関連性を見つけ出す手法として、マーケティングの現場を中心として紹介されてきました。米国のWall Mart(実はこれは都市伝説で、正確にはOsco Drugsという説があります)における、缶ビールと紙おむつの関係は非常に有名で、まったく関連が見えないこの2つの商品を何故か同時に購入する人が多いということでした。で、その2つの売り場を近づけたら両方とも売上が増加した(らしい)というのも有名な話だったりします。

 まあ、このような大発見も稀にあることはありますが、時にこのデータマイニングという言葉は、こじつけや自身に都合の良い主張の道具に用いられることもあるようです。例えば、CMで頻繁に見かける「朝食を食べる習慣のある子どもは成績が良い」などというお話もありますが、コレについて少し考えて見ましょう。テストの合計点(y)と、1ヶ月のうち朝食を食べてきた回数(x)で相関係数を求めることは出来ますが、そこに因果関係があるかどうかは全く別物です。実は、


 朝食をきちんと食べる習慣がある=物事をキチンと習慣付けている=学習習慣がある=成績の向上につながる


という可能性も考えられますので、朝食の習慣=成績であるとは言い切れません。私もかつて学生に対するアンケートの結果、


 塾や家庭教師のアルバイトに一生懸命な学生ほど成績が悪い


という傾向を発見しましたが、あくまで相関係数の段階までです。必ずしも「塾や家庭教師のアルバイトは学業成績を落とす」という結論は導けません。まず、バイトの結果として成績が悪くなっているのか、そこに合理性はあるかなどを証明出来なければ因果関係があるとは言えないのです。

 相関係数自体を求めることなどは、数字さえあればいくらでも出来ますが、それだけでは何の役にも立ちません。因果関係が求められなければ、使い物にならないシロモノであることは言うまでもありません。


[topへ]




第6回 ウソは言っていない!(2) (2010/3/23)



 本題の前に質問です。内定率、打率・・・等々、○○率と名乗るものは多いのですが、そもそも率とは何でしょう? 似たような言葉で、「割合」とはどう違うのでしょうか? まず率ですが、これはある単位(時間・場所・面積・体積等)当たりの測定結果に対する言葉になります。決して例えは良くありませんが、死亡率などと言った場合には必ず年間、月間、などの単位が示されなければなりません。それに対し割合は、全体に対して該当部分がどれだけを占有するかということです。こうして考えますと、野球の打率は限られた時間内にヒットを何本・・・ではなく、打席に立った総数(正式には四死球や犠打は除かれますが)のうち何本の安打があったかということですので、「打割合」と言った方が良いことになりますが、実際にはそれほど厳密な使い分けはされていないようです。疫学などではかなり厳密に使い分けているようですが、詳しく知りたい方は、佐藤俊哉先生の著書「宇宙人しまりす 医療統計を学ぶ(岩波科学ライブラリー)」などをご参照願います。

 やっと本題です。まずは前回の就職内定率のお話ですが、通常は時期ごとに何度か公表されますが、時点が変化すれば当然数字も変化します。8月よりは12月、12月よりは翌3月の方が高いのは言うまでもありませんが、多くの高等学校や大学は3月の卒業時点での内定率(あえてそう記載します)を公表しております。

 当然のことですが、卒業してしまった学生・生徒がどうなろうと学校には無関係でございますので、3日で辞めてしまっても就職は就職なのです。ある専門学校で就職率90%超、凄いなと思ったら・・・就職出来なかった卒業生を自校が持っている系列の会社にいったん就職させて数ヶ月後に全員解雇する・・・こんな方法もあったりします。しかし一方では、就職が決定するまで卒業生を学費無しで徹底指導して、就職決定まで何年でもサポートする学校もありますので、「今時高い 就職率 = 数字 の操作、インチキ、イカサマ」のように考えてしまうのも早合点です。

 以上が量の部分ですが、一方で質の部分もあります。○%の学生が就職決定した、○%の学生が進学したというのも非常に大切かも知れませんが、やはり「どこに就職・進学したのか」という情報は非常に重要であり、就職ならば一部上場企業、進学ならば有名大学であればかなりの説得力になります。

 主な就職先・・・(略:一部上場企業名多数)、主な進学実績・・・(略:有名大学名)、でも調べてみたら就職および進学該当者がいなかったようです。


 「本年度と言った覚えはございません!」


 (学校関係者の内なる声:実は、開校以来数十年間の全ての実績を合わせたものですが、そのような事実を説明する義務はございません!でも、実績は実績ですので、ウソは申しておりません!)


[topへ]




第5回 ウソは言っていない!(1) (2010/3/9)



 今朝のニュースによれば、今春(2010年3月)卒業の大学生の就職内定率(2009年12月末現在)は73.1%と、過去最低であるというお話でした。参考までに、高等学校でも30%とこちらも同様に過去最低であるとのことでした。ニュースは「一昨年のリーマンブラザーズ事件による世界的不況」「高卒者の非正規雇用の増大による」云々と申しておりましたが、残念ながら内定率の算出方法につきましては何一つ触れられませんでした。というわけで、今回は少しばかり内定率の算出方法について考えてみましょう。

 そもそも○○率と言うからには、必ず分母が必要になります。例えば高等学校就職率の場合ですと、全ての卒業生から進学者および進学希望者を除き、就職希望者を分母として算出しています。進学希望者とありますのは、将来的な進学希望者(いわゆる浪人生)も含まれますので、極端な話では数年後の進学希望であっても分母からは除かれます。明日から数年間ニートをやった後、数年後に進学希望を持っているとしても進学希望には間違いありませんので、就職希望者の分母には含まれないことになります。

 大学の場合も、当然大学院進学者、進学希望者等は分母から除かれますので、あくまで就職希望者が分母になります。大学卒業後に専門学校に行き直す学生や、大学院に行きたいと希望している人々は全て分母から除かれますので、就職課の説得によりやむを得ず進学希望を持つようになった人々は全て分母から除かれます。勿論、就職率とは当該年度の卒業生に対する率ですので、就職不可能そうな学生・生徒を学校側が留年させた場合には、そのような人々は全て分母から除かれます。

 就職率として公表される数字が恣意的に捏造されているということは、多分少ないでしょう。仮にそのようなイカサマを行なえば、文部科学省をはじめとしたお役所から指導・警告を受けることになりますので、それこそ大きなマイナスイメージを背負うことになり、将来の学生・生徒の獲得に大きく影響することは必至です。そのようなリスクを冒してまで行なうことは、決してメリットがありません。

 ですが、事例のように分母を公表するかしないかは、あくまで各学校の判断によるものです。上記の事例のような内情があったとしても、確かに「ウソは言っていない」のも、また事実なのです。勿論、ウソさえ言わなければ良いというものではありませんが。

 (次回、Part(2)掲載予定)


[topへ]




第4回 もう一つの必勝法 (2010/2/23)



 前回に続き、必勝法をもう一つ伝授(?)致しましょう! 例えば筆者が、

 「俺は超能力者であり、俺がお祈りを捧げたら必ず雨を降らせることができる!」

と申しましたら皆様は信じますでしょうか? 信じる人は皆無だと思われますが、それでも筆者は出来るといい続けます。雨を降らせる方法? 実は非常に簡単で、誰でも今から即実践できると思います。

 その方法は、雨が降るまで祈り続ければ良いのであり、その瞬間に「俺の祈りが通じたから降ったのだ!」と言い続ければ良いだけの話です。それが偶然であり、多分お祈りの効果ではないことは誰の目にも明らかでしょう。ところが雨が偶然であることも、もしかしたら(万に一つでも)本当にお祈りの効果があったかもしれないことも、実は両方とも100%証明する方法は存在しません。それゆえ、筆者が偶然であることを認めさえしなければ、お祈りの効果を筆者以外は誰にも完全否定することが出来ません。それこそインチキと分かっている当の筆者にも、実は本人の知らない特別な力が存在していて、本当に効果があったかもしれないことさえも否定はできないのです。

 実は社会に存在する予言の多くはこの程度の物であり、偶然に発生し得るようなことに対し、どのようにでも解釈することが可能な抽象的な予言しか行なっていないものに、後から理由をこじつけたようなものが大半だったりします。大規模な自然災害の発生後には、週刊誌や夕刊、ワイドショーには自称予言者が溢れるのはいつものことであり、猫の鳴き方から雲の形まで、ありとあらゆる予言方法が出てくるのです(勿論、これらの予言が100%デタラメであるとは誰にも言い切れませんが・・・)。

 統計的有意水準とは、この確率以下であれば「p値の偏りは偶然に発生したのではない。意味があるから発生したのだ!」と考えるようにしましょうと、いうなれば予定調和のための約束事です。通常は0.05を用いますから、p値がそれ以下であれば、実は偶然の偏りであっても「偶然ではない」と見なしましょうと言っているわけです。意図的なインチキではないにしても(中にはそういうものもあります)、統計的検定を何度も繰り返せば、いつかは意味が無くても偶然にp<0.05となります。

 雨が降るまでお祈りするのが面倒な人のために、手っ取り早いイカサマ方法を伝授しましょう。

 「俺は超能力者であり、俺がお祈りを捧げたら明日必ず雨を降らせることができる!」

 もしも居住している地域で、それこそ日本国内でどこにも振らなかったら言って下さい。

 「世界のどこでとまでは言っていない!」


[topへ]




第3回 必勝法に関する疑問 (2010/2/9)



 皆様は「必勝法」について考えたことはありますか? 主にギャンブルに関するものが多いようで、近年では、パチンコの必勝法をめぐるトラブルが相次いでいるようです。それ以外にも、スポーツ新聞などに掲載されている競馬の必勝法や、株、先物取引・・・いずれにしても必勝法を名乗るものは多いようです。ある作家曰く、ギャンブルの必勝法は「やらないこと」であるとお話されておりましたが、それについては筆者も深く同意したく存じます。ギャンブルに投資するお金は「夢を買うお金」ということで・・・。

 昔、筆者が見かけた必勝法のお話です。確か「ルーレットの必勝法は赤と黒のいずれかに賭け続ければ良い」というものでした注)。いずれはどちらかが出るのだから、あれこれ迷わずに一方に賭け続ければ良くて、負けたら次の勝負は掛け金を2倍にすれば、今までの負けは全て取り返せるというものでした。なんだかよく分かりませんので、とりあえず実験してみましょう。

   1)最初に10円を賭けて負けた。次回は20円を賭ける
  2)次に20円を賭けて負けた。次は40円を賭ける
  3)3回目に40円を賭けて勝った。配当は80円なので、80-40-20-10=10円の儲け!

 どうです。カンペキな必勝法でしょう・・・って? ならばこのパターンで5連敗した場合を考えてみますと、10,20,40,80,160円と負けているわけですから、次の掛け金は320円です。それで勝った場合の配当金は640円ですから、儲けは640-320-160-80-40-20-10=10と、コレも同じく10円なのでした。まあ、10円でも儲けは儲けと割り切れるのであれば良いのですが・・・。では10連敗ならば、10,20,40,80,160,320,640,1280,2560,5120円負けているわけですから、今度の掛け金は10240円です。それで勝った場合の儲けは10240-5120-2560-1280-640-620-160-80-40-20-10=10・・・って、コレもまた10円の儲け? 掛け金はどんどん大きくなっていくのに、儲けはたったの10円だけって、何か割に合わない気がしませんかね? いや、もっと重要な問題があることにそろそろ気付いて下さい!

 そもそもルーレットの掛け金は、カジノによっては最低10$、どんなに低くとも1$ぐらいからでないと受けてくれません。ならば1$=100円で計算してみますと、いかなる場合も儲けは100円ということになるわけですが、その場合には5連敗時の掛け金は3200円になります。さらに10連敗時には102400円ということになりますので、余程のお金持ちでも無い限りは賭けるのを躊躇してしまうのではないでしょうか? もしもスタートが1000円であれば掛け金はさらに10倍、10000円であればさらに100倍の資金が必要になります。

 実はこの必勝法のからくりは、無限に掛け金を用意できる人にのみ有効な方法なのであり、実用性は皆無なのです。Easy come, easy go とはよく言ったものですね。


注) 参考までにルーレットの基本ルールは、赤もしくは黒に賭けて予想が当たった場合、プレーヤーには掛け金の2倍が払い戻されます。


[topへ]




第2回 視聴率一考 (2010/1/26)



 日本国内における視聴率の測定は、現在はビデオリサーチ社の単独により行なわれているそうです。視聴率の測定器が置いてある世帯は、関東地区では600世帯を抽出しているというお話ですが、これは国勢調査により推計された関東地区の世帯数15,000,000世帯の25,000分の1に相当します。実はこの視聴率データ、テレビ関係者にとっては0.1%の増減が命取りになると聞いたことがあります。僅かな視聴率の減少でスポンサーに逃げられたり、担当者のクビが飛んだりするのも日常茶飯事なのだとか・・・。

 5年以上前の話でしょうか。某局プロデューサーによる視聴率の操作が問題になったことがありました。本来は極秘であるはずの視聴率測定器を設置している家庭を、探偵業者を雇うことで割り出して、自社の番組を視聴するように金銭による買収工作を行なったというのが、事件のおおよその概要です。最終的には23世帯が何らかの干渉を受け、実際に応じた世帯は12世帯だったと言われておりますが、真相は定かではありません。

 皆様はこの事件、どのように思われますか? 「皆様の前にお前はどうなんだよ!」とツッコミが入って来る前に、もしも私がプロデューサーの立場でしたら、そういうことはしなかったでしょう。不正に対する良心云々以前に、そんなことをやっても何の意味も無いという理由からです。意味の無いって、0.1%の増減が命取りって行っているじゃないかと、更なるツッコミを食らってしまう前に・・・。

 第一に、視聴率はサンプル調査です。サンプル調査である限りは誤差が付き物であり、600サンプル程度による調査では、1~2%程度の変動を「意味のある変動」とするには無理があるということです。もしも視聴率が15%であった場合、600サンプルの調査における95%信頼区間は、

 

と、実は±2.9%の変動の範囲は、統計的に「誤差」であることを否定できません。仮に買収に応じた世帯が12世帯であったと仮定すると、600世帯のうちの12世帯ならば12÷600=0.02と、視聴率を2%上昇させたことになります。本来の視聴率15%+買収による2%でも17%程度であり、残念ながら(?)今回の工作では誤差の範囲を脱することは出来なかったのです。工作費にどれだけ掛かったのかは不明ですが、少なくとも信用崩壊のリスクを侵してまでやるべきことではないということです。もしもこのような考え方が出来ていれば、あのような不正な行為に及ぶことも無かったかも・・・などと考えるのは余計なお世話でしょうか? もちろん当のプロデューサーだけではない、業界全体がという意味なのですが・・・。

 この95%信頼区間の考え方は、医学の統計処理などでよく用いられます。これは、100回測定したら95回は「真の値」をその範囲に含むであろう区間のことであり、その区間に「真の値」を含む確率が95%という意味ではありません。95%信頼区間はサンプル数が多ければ多いほど狭くなりますので、それだけ予測は正確になります。600サンプルでは±2.9%もの幅があったものが、10,000サンプルでは実に±0.9%にまで狭められます。

 0.1%の変動で命取りにするには、10,000サンプルでもダメだってことになりますね。百万サンプルぐらいでようやく意味を持ちそうです。


[topへ]




第1回 データ<情報の意味? (2010/1/12)



 今回から10回シリーズでということで、講義同様に大変緊張しております(ウソ?)。くれぐれも余計なコトを言い過ぎて打ち切りにならないように留意いたしますので、どうぞ最後までお付き合い下さいませ。

 さて、先日銀行に行きましたところ、処理中の画面にいきなり「暗証番号を変更することをお勧めします」と出てきました。銀行のお話によれば、ある一定期間暗証番号が変更されていない場合に自動的に表示されるということで、聞けば半年ですとか、3ヶ月ですとか、間隔は金融機関により異なるのだそうです。変更自体はやぶさかではありませんが、実は結構難しいのかも知れません。当の金融機関からは、暗証番号には「誕生日」「電話番号」「住所・番地」「自動車のナンバー」などの推測されやすいものは避けて下さいとのアナウンスがあります。絶対に他者から推測されることがなく、しかも忘れることがない4桁を設定するとなりますと…どうやって決定するべきなのでしょうか? 意味の無い4桁の文字列では忘れてしまいかねませんし、かと言って意味のある数字(?)は使いたくありませんし…どうしましょう?

 1356、2203、2410…これらは一見何の意味の無い文字列です。ATGC(以下略)…も、一見何の意味のない文字列に見えてしまうのでしょうけれども、例えば前者は最寄り駅の時刻表、後者はアデニン、チミン、グアニン、シトシンの塩基配列であると気付いて頂ければ、その段階で無意味な文字列はデータに出世します。データとは、「物事の推論の基礎となる事実。または参考となる資料(小学館大辞泉より)」のことであり、例えば意味のない文字列、数字列などはデータとは見なされません。誕生日や電話番号など、意味のある数字列はデータになりますが、それ以外にも文章は勿論のこと、意味のある画像や映像、音声などの情報もデータとなります。早い話が、データは必ずしも数字だけとは限らないので、特に「データが示している!」などという言葉と共に、やたらと数字を提示するのが大好きな人は要注意です。アンケートの自由記述などを「データ化しろ!」と申す方もいらっしゃいますが、そんなときには「元々データです!」と切り返してあげると喜ばれる・・・かもしれません(笑)。その方の申すところの「データ化」とは、(多分ですが)集計可能な形にしろということだと思うのですが、筆者としては余りお勧めしません。文章の内容から、「この人は賛成」「この人は反対」などとカテゴライズしたいのでしょうけれども、読む人によって判定が微妙になることもありますので、自由記述は参考程度ということで対応しましょう。

 (話が逸れました)さらにデータを利用することにより、自身の生活や業務に役立てることが出来れば、データは情報に出世します。情報とは、「ある特定の目的について、適切な判断を下したり、行動の意志決定をしたりするために役立つ資料や知識(goo辞書)」と定義されていますので、どのようなデータであっても役に立たなければ情報とは言えません。先に提示した意味の無さそうな4桁の番号でも、これが最寄り駅の時刻表であると分かったときには、駅の利用者にとっては、ただの文字列からイキナリ情報にまで出世することになりますが、その駅を利用しない人にとっては情報とはなりません(データではありますが)。銀行のロビーに4桁の数字が記載された紙が落ちていただけでは、単なる文字列か、せいぜい役に立たないデータの域を抜けません。が、それがキャッシュカードと一緒に落ちていれば、(悪用の有無は別物としても)誰しもがお金を得ることが出来る情報になるわけです。

 以上、混同されがちなデータと情報ですが、実は全く別のものです。役立ててこそデータは生きるのであり、生かしてこそ情報になるわけです。アンケートや社会調査で、やたらと大量の質問項目を並べ立てて「念のために」「無いよりはマシ」と大量のデータを収集するパターンが見受けられますが、それらのデータは、生かすことが出来なければ収集する意味がありません。それだけ時間と労力、時にコストも余計にかかりますし、収集の前に、本当に必要なのかどうかを考えてみましょう。

 ・・・と、まあこんな感じで、巷に氾濫するデータや情報、特に数字との付き合い方についてお話させて頂ければと存じます。数字で語られたり、それっぽい数字を見せられたりするとつい信じてしまいそうになるのですが、願わくば騙されないように、そのような数字の見破り方を身に付けて頂ければ何よりです。急には無理でも、数字だからと言って安易に信じないようにする「姿勢」を持つことが大事だったりします。


[topへ]



大橋 渉 先生のご紹介


■本テーマ関連の学会・協会等でのご活動
日本統計学会(主として統計教育分科会)、日本計量生物学会、日本医学教育学会、日本医療情報学会、国際医学教育学会、日本乳幼児教育学会、日本看護科学学会、日本臨床検査自動化学会等

■今までのご経歴・ご研究内容
東京学芸大学・大学院修了後民間企業において社会調査、マーケティングデータ等の解析業務、解析統計解析・臨床開発に携わった後、大学での教鞭を経て現在に至る。医学・生物・保健統計の教育方法論、統計的手法の適正化、遺伝薬理学等を専門とする国際学会発表(医療情報、医学教育系)多数
月刊モダンフィジシャン(新興医学出版)にて生物統計学の連載「サルでもわかるSAS教室」連載(2008.2月~2009年9月)、近日単行本にて発刊予定。SAS Institute Japan 「SAS tech News」にて「SAS四方山話~アンケート四方山話~」連載




会社概要 プライバシーポリシー 特定商取引法に基づく表記 商標について リクルート
Copyright ©2011 技術セミナー・技術書籍の情報機構 All Rights Reserved.