〈5分でわかる統計学入門〉全員から回答を集めなくても、なぜ信頼できるデータが得られるのか?
集英社オンライン / 2024年7月4日 8時0分
〈貧困は「増えている」とも「減っている」とも言える!? 統計データはいくらでも都合のいいように使えるという事実〉から続く
政府統計などの調査では、すべての調査対象にアンケートを取っているわけではない。ごく一部の対象者にだけ質問をするという、「標本調査」という手法が採用されるのが普通だ。それでは、このような方法で得られたデータはなぜ信頼できるのだろうか? 話題の書籍『ヤバい統計』から一部を抜粋して紹介する。
ケンブリッジ大学の名数学者も統計調査を「代表値の科学」とみなしていた
統計調査の革命的方法を編み出した功労者
物事の実態を正確に摑めないときは、推測に頼らなければならない。日常生活のなかで、私たちはいつも推測している。
支出の計画を立てるときは、各項目にどれくらいの金額を確保すべきかの見積もりが基本になる。仕事で家を出る時間を決めるときや、何かの予約を取るときは、目的地まで通常かかる時間を計算し、さらには移動する時間帯の混雑状況なども考慮しているはずだ。
こうしたことを、人はただやみくもに推量しているわけではない。たとえば、「いつもは職場まで30分だが、雨のときはもう少し時間がかかる」といったことまで想定している。
つまり、私たちは自分が知っていることを、ちょっとした理屈と直感とともに活用している。ただし、そうした推測がいつも正しいとは限らない。
統計データで推測を立てる場合も、予備知識、推論、仮定という、人間がつくりだす基本情報に同じく頼っている。ただし、統計データの分野では、より系統立った手法で進めるための明確なルールがつくられていて、それらが品質管理の役割も果たしている。
ヴィクトリア時代のイングランドの若き数学者アーサー・ボウリーも、現状を把握するための手法について考えを巡らせていた。
伝えられるところによると、熱心なサイクリストでもあったボウリーは、サイクリングの同行者から数学の質問をされると(どうやらケンブリッジ大学ではよくあることのようだ)、とたんにスピードを上げて走り去ってしまったという。
そんなボウリーは、統計調査を「代表値の科学」とみなしていた。そして、統計データとは、それを見た人が状況を一目で理解できるような情報でなければならないと考えていた。そうした意味では、全数調査(注:対象となるものすべてを調べる手法)は情報量が多すぎた。
このボウリーこそが、統計学の最も重要な手法の一つである「標本調査」を編み出した功績者だ。
「標本調査」とはどのような統計手法か
標本調査とは、ある集団に関するデータを系統立てて収集する調査方法であり、通常はその集団全体(母集団)の特徴を捉えられるようなかたちで行われる。実際には、集団全体から幅広く抽出された人々に同じ質問をする。
対象者全員に同じ質問をするというのは、全数調査と変わらない。では、何が大きく違うかというと、標本調査では全員に尋ねるわけではないという点だ。
たとえば、「マーマイト」という英国の伝統的な発酵食品が好きな人の割合はどれくらいなのかを調べたいと思ったとしよう。
その場合の方法として、「マーマイトについてどう思いますか?」という質問の答えを、「大好き」「大嫌い」「どちらでもない」から選んでもらう標本調査を行い、回答を集計し、このペースト状の発酵食品の熱心な愛好者の割合を出すという方法がある。
これは妥当なやり方に思える。とはいえ、どうやって対象者を選べばいいのだろうか。
標本調査の目的は、母集団の全員に尋ねた場合と同じ情報を得ることだ。そのためには、母集団全体をまんべんなく表せるような人々を回答者に選ばなければならない。この回答者集団のことを「標本(サンプル)」という。
刑事裁判の陪審も標本だ。陪審員は成人から選ばれるが、これは「事件の証拠を説明された陪審員団が出す有罪または無罪の結論は、英国のすべての成人に同じ検討を依頼した場合に出されるであろう結論を反映したものだ」という考えに基づいている。
標本調査の標本に対する考え方も、同じようなものだ。標本調査での注意点は、回答者の答えに影響を及ぼしかねない要因がある場合、標本の分布が実際より大きくなりすぎたり、小さくなりすぎたりしないよう考慮しなければならないことだ。さもなければ、正確な全体像を描けない。
マーマイトは味に癖があるので、好きだという小さな子どもはおそらく少ないはずだ。また、現在より50年前のほうが、塩味の効いたこのペーストがずっと人気があった点を考えれば、質問に対する答えの傾向は世代間で異なると思われる。
そうして、マーマイトが「大好き」または「大嫌い」な人の割合を調べる方法を探るなかで、「小さい子どもを除いた標本を選ぶ」と決めたり、「標本の年齢層別の比率を、母集団のものと合わせなければならない」ことに注意したりするようになる。
さらには、味覚といったものは家系ごとに伝わると考えられるので、「一つの家族だけを標本に選ぶ」のは好ましくないとも判断するだろう。
標本(サンプル)を集めるときに重要なこと
たまたま近くにいた人や、興味を示した人を標本に選ぶだけでは不十分だ。統計職員がおもに用いる手法は、標本となる人を「無作為(ランダム)」に選ぶことである。
何かを無作為に選ぶとはどういうことなのかは、誰もが直感的にわかっているのではないだろうか。袋に手を入れて賞品を摑み取る「ラッキーディップ」や、お菓子が入った容器に手を突っ込んで取り出すことは、何かを無作為に抽出する行為だといっていい。
よく切られたトランプの束からカードを一枚選んだり、名前が書かれた紙でくじ引きをしたり、ボードゲーム「スクラブル」のコマを袋から取り出したりするのも無作為な作業だ。同様に、透明なドラムのなかでぐるぐる回っている数字入りのボールを機械が選び出すという、英国国営宝くじの抽選方法もそうだ。
これらの例に共通しているのは、選ぼうとしているものがなんらかの規則に沿って並んでいないようにするために、全体をよく混ぜるという手順が含まれている点だ。そうすることによって、どんなふうに取り出しても、特定の菓子、カード、数字が出る確率は同じになる。
無作為抽出についてよく使われるたとえは、「塩加減を確認するために、鍋に入ったスープを味見する」ことだ。
料理人はスープの塩加減を見るのに、鍋のスープを飲み干さなくてもいい。きちんとかきまぜられているなら、スプーン1杯分を味見すれば十分だ。
無作為抽出は、「調査を行う母集団において選ばれる確率が全員等しければ、選ばれた標本は母集団を適切に表すものになる」という考えに基づいて行われている。
実際の例を挙げると、英国の全世帯の住所をリスト化して、なんの規則性もないように順序を入れ替えたのち、数千世帯や数十万世帯を上から順に選ぶという方法がある。
世帯状況に関するデータを毎年約8万世帯分集めることになっている「年次人口調査」では、基本的にこの抽出方法が使われている。
また、産業、職業、労働形態といった、就業状況に関する公式統計データの元になる一連のデータセットを収集するための「労働力調査」も、この方法に基づいて行われている。
ちなみに、調査会社のユーガブ社は、無作為に選んだ人々に電話調査を行って、マーマイトが嫌いな人より好きな人のほうが多いという結果を得た。
具体的に説明すると、ユーガブ社は約1300人の標本の回答に基づいて、「マーマイトを肯定的に評価する人は約45%、否定的な人は約36%、どちらでもない人は約17%」と見積もった。
つまり、「マーマイトは好きか嫌いかのどちらかにはっきり分かれるもの」という有名な広告宣伝活動によって、私たちがいくらそう思い込まされていても、実際には好き嫌いがそこまではっきり分かれていないことが判明したのだった。
ユーガブ社によると、マーマイトよりも『アプレンティス』というテレビ番組や、「レッドブル」というエナジードリンク、それに不思議なことに、マーマイトと似た味の 「トゥイグレッツ」というスナック菓子のほうが、好き嫌いがより明確に分かれていたという。
標本調査で注意すべき「落とし穴」とは
ただし、注意しなければならないのは、無作為に人を選ぶ場合には、同じような顔ぶれが揃ってしまう可能性も覚悟しなければならないということだ。
陪審員はまったく無作為に選ばれため、「全員男性」「全員女性」「みな同じような年齢」「みな似たような経歴」といった陪審団になる可能性だってある。可能性はきわめて低いが、ありえなくはない。
さらに、陪審員団が被告人といわゆる「同輩」である保証もどこにもない(注:「被告人は被告人と年齢や地位、経歴などが同じ人によって裁かれるべき」だという、陪審についての古くからの考え方を指す)。まったく同じでない可能性だってある。
一方、標本調査で集団同士を比較する場合には、多様性のある標本を用意しなければならない。
たとえば、「ミレニアル世代(1981〜1996年生まれ)よりもベビーブーマー世代(1946〜1964年生まれ)のほうが、マーマイト好きが多い」というのが本当かどうかを調べるための標本調査を行おうとしたとき、抽出された標本がたまたま全員Z世代(1997〜2012年生まれ)だったら、調査を続ける意味がない。
とはいうものの、そうした多様性を実現するには、全人口に関する知識がすでにある程度得られていることが前提となる。
その出発点として有効なのは国勢調査のデータだが、この調査は10年ごとにしか行われないため、そのあいだに直近のデータと現状が年々ずれていく点を考慮しなければならない。
「グッドデータ」(注:統計学的に理想的な良質のデータ)が手に入らない場合には、真実が何であると思われるかについて、なんらかの仮説を立てざるをえない。つまり、人が判断するという人的要素が含まれてしまうことは避けられないのだ。人的エラーが起こる可能性についても同じことがいえる。
写真/shutterstock
外部リンク
この記事に関連するニュース
-
貧困は「増えている」とも「減っている」とも言える!? 統計データはいくらでも都合のいいように使えるという事実
集英社オンライン / 2024年7月3日 8時0分
-
イギリスで壮大な「国民IDカード」構想がまさかの頓挫! 政府はなぜ根拠に乏しい計画を強引に進めようとするのか
集英社オンライン / 2024年7月2日 8時0分
-
鹿児島県知事選 情勢調査 塩田氏先行、米丸氏・樋之口氏が追う
MBC南日本放送 / 2024年7月1日 19時35分
-
「空き家が増える=マンション価格が下がる」わけではない…大学教授が「空き家問題は虚像」と断言する理由
プレジデントオンライン / 2024年6月28日 8時15分
-
SNSでの誹謗中傷、13%が「ある」 人格を否定するような悪口が最多 民間会社調査
産経ニュース / 2024年6月20日 12時54分
ランキング
-
1定年後に、見落とすと厄介な出費「3選」とは?
オールアバウト / 2024年7月3日 21時40分
-
210位寝言、6位歯ぎしり、3位常夜灯をつけた…40~60代1012人調査で判明「早死にした人の睡眠特徴ワースト10」
プレジデントオンライン / 2024年7月3日 17時15分
-
3Q. 納豆をより健康的に食べるには、どのような食べ合わせがおすすめですか? 【管理栄養士が解説】
オールアバウト / 2024年7月2日 20時45分
-
4アレルギー表示漏れ→体調不良者発生…… ビアードパパが限定シュークリームの販売を中止「深くお詫び」
ねとらぼ / 2024年7月3日 14時1分
-
5痩せたい人は注目!実は有能なきゅうりの痩せ効果&食べ方
つやプラ / 2024年7月3日 12時0分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください