2020年11月07日

内閣支持率はウソの数字!? 統計学が教える「騙されないデータの読み方」

内閣支持率はウソの数字!? 統計学が教える「騙されないデータの読み方」
11/6(金) PHPオンライン衆知(高橋信)

ビッグデータ、データサイエンス、データドリブン経営など、最近のビジネス界隈では、なにかにつけて「データ」という言葉がついてまわる。
そのときしばしば一緒に姿を現すのが、「統計学」だ。

数学に苦手意識のある文系人間からすると難しく感じる統計学だが、理解できればビジネスで相当な武器になり疎ければダマされてしまう恐れもあると指摘するのが、『データ分析の先生!文系の私に超わかりやすく統計学を教えてください!』(かんき出版)の著者である高橋信氏だ。

それはなぜか、また、ダマされないためにはどうするべきかを聞いた。

「内閣支持率」は嘘の数字!?
菅内閣の発足から1か月ほどが経過しました。
パンケーキや携帯電話料金の値下げ、日本学術会議の任命についてなどいろいろありますが、ともかく、今後の内閣支持率の推移が気になるところです。
さて、ご存じでしたか。

実は主要メディアが報道している内閣支持率の値って、嘘なのです。
たとえばNHKの調査による2020年10月分の内閣支持率は、55%でした。
私は、この値が嘘だと断言できます。
なぜならNHKは、内閣を支持するかどうか、有権者である私(47歳です)に聞いていないからです。
おそらくNHKは、10月どころか人生で1度も、みなさんのうちの大多数にも聞いていないはずです。
というわけで、NHK による55%という値は、嘘です。
ただし、嘘ではあるものの、決してデタラメではありません。

統計学では、調査対象者全員からなる集団を「母集団」と言います。
内閣支持率の例で言うと、有権者全員です。
もしNHKが真の内閣支持率を本気で知りたいなら、有権者全員に聞かなければいけません。
ですが、夥しい人数からなる有権者全員に「いまの内閣を支持しますか?」と質問して回答を得るのは、言うまでもなく、不可能です。
ではNHKはどうしているかと言うと、母集団から何人かを選び出してきて、その人たちにおける内閣支持率を調べているのです。
この、選び出された人々からなる集団を、統計学では「標本」と言います。
ちなみに統計学では、選び出すことを「選出」ではなく「抽出」と言います。

そもそも統計学とは?
ところで、そもそも統計学はどういう学問なのか。
統計学とは、標本のデータから母集団の状況を推論する学問です。
つまり統計学では、母集団から偏りなく抽出された標本における内閣支持率が▲%であったなら、「母集団の内閣支持率も▲%くらいであろう」と推論するのです。

気をつけるべきは、「母集団の内閣支持率も▲%くらいであろう」という推論が成立するためには、母集団から標本が偏りなく抽出されていなければならないことです。
それはつまり、標本が「W新聞の読者だけ」とか「80歳以上の人だけ」とか「年収250万円未満の人だけ」とかからなるのは不適切であることを意味します。

“調査もどき”に注意!
Twitterの投票機能を使うなどして「パートナーが浮気したら許せる?」とか「好きな女子アナは?」とか「当社が開発中のゲームの、このキャラの名前はどれがいい?」といった質問に対する回答を受け付ける、言わば“ネット投票”をしばしば目にします。
そのようなネット投票の集計結果には気をつけてください。
娯楽として楽しむのであればまだ許せなくもないのですが、間違っても「そうか、これが世間の声か!」といったぐあいに、集計結果を額面どおりに受け取ってはいけません。

いえ、やっぱり、そんないい加減な“調査もどき”を実施したりその集計結果を公表したりすること自体が良識を欠く行為である、そう強く言っておきましょう。
私がそのように否定的に論じるのには理由があります。なぜならネット投票の回答者は、インターネットで投票を受け付けているのをたまたま知った人にすぎないのであり、母集団から無作為に抽出されたわけではないからです。

そもそも母集団の定義が不明です。
言いかえると、ネット投票の企画者は、母集団の定義をすることなく、いったい誰の声を集めようというのでしょうか。
もしかすると、こう思った人がいるかもしれません。
「でも回答者数が数万人規模とかだったら、そのネット投票の集計結果はそれなりに信用に値するのでは?」と。残念ながら、その判断は誤りです。
たとえばです。
「パートナーが浮気したら許せる?」というネット投票で1万人の回答が得られたとします。
母集団からの抽出でなくネット投票ゆえ回答者の属性を企画者も知りようがないわけですが、実はその1万人の全員が「1度も結婚したことのない、九州地方に住む40代男性」であったならと想像してください。
その集計結果が「世間の声」であるとは決して言えませんね。

そう、「世間の声」の「世間」とは具体的に誰を指すのかまず定義し、それに該当する人々を無作為に抽出して調べないことには、回答者数がどんなに多かったところで、集計結果は信用できないどころでなく無価値なのです。

学術論文も例外ではない
学術論文にも気をつけてください。
研究者自身は真摯に取り組んでいるつもりでも第三者から見て非常に不可思議というものがあります。
突然ですが、みなさんに質問します。
昨日の朝と昼と晩に、何をどれくらい食べましたか?
スラスラ答えられる人もいるでしょうが、うまく思い出せず、えーっとなんだったっけと悩む人も少なくないはずです。
いまの話を踏まえて想像してください

高齢者の健康についての研究者が、対面なり電話なりで、被験者と次のやりとりをしたとします。
――昨日の晩は何を食べましたか? 「白いごはんをたくさん食べたよ」
――どれくらい食べましたか? 「小さいお茶碗で2杯……あれ、3杯だったかなぁ」
このやりとりから得られたデータについて、どう思いますか。
最後の発言に出てきた「小さいお茶碗」の具体的な大きさがわかりませんし、そもそも被験者の記憶が怪しげで、信用できそうにないですね。

ところが、残念ながら、信用できそうにないこういったデータを集計してグラフを描いたりしている学術論文もないとは言えない現実があるのです。
大手製薬会社が新薬開発時にとるようなデータは、不適切だと会社が潰れかねないですから、ちゃんとしているはずです。

私が言いたいのは、学術論文というか研究の結果が主要メディアで紹介されていたとしても、ひとまずは疑ってかかったほうがいいということです。

“分母”に注目してみる
ネット投票の集計結果を額面どおりに受け取ったり学術論文を鵜呑みにしたりするのは、真実ではない数値を真実であると誤認してしまうわけですから、危険です。
では誤認しないようにするにはどうしたらいいのか。
それは、自分でデータを適切に集計したり分析したり、あるいは他者が集計したり分析したりしたものを適切に読み解けるようになる、言わば“データリテラシー”を身につければいいのです。

データリテラシーを身につけると、ネット投票のようなものへの違和感を自然と覚えるようになります。
のみならず、テレビなどでニュースを見る際の奥行きが広がります。
たとえば感染症について、 (検査を受けた人のうちで陽性だった人の数)/ (検査を受けた人の数)でなく、その分子である「検査を受けた人のうちで陽性だった人の数」だけを報道するのはおかしいことに気づくはずです。
言うまでもなく、7/10と、7/10000とでは大違いですよね。

データリテラシーを身につけるためには、統計学の勉強が有益です。
今回を契機に、ぜひ、統計学に目を向けてみてください。
posted by 小だぬき at 00:00 | 神奈川 ☁ | Comment(0) | 社会・政治 | このブログの読者になる | 更新情報をチェックする