さて、お待ちかねの「推測統計学」。
『マンガでわかる統計学』冒頭の、
一部のデータをもとに全体を推測する「推測統計学」。
これこそ、統計の醍醐味!
というあおり文句で、
一気にテンションも上がるというものだ。
その勢いのまま、前のめりにページをめくると、
「全部調べるのがムリなものの例」として、
缶詰の賞味期限
〜食えなくなるまで待っていたら、ぜんぶ腐っちゃいました。
とか
一本のボールペンで何m線を引けるか耐久試験
〜全商品でやったら、何売りましょー
おい!
と、笑いから始まっていて、
少しクールダウン。
でも、
そもそも、少しのデータで全体を推測するなんてできるのか。
たとえば、
NHKの世論調査。
「東京五輪・パラ「開催すべき」16% 先月より11ポイント減」(NHKホームページ 2021年1月13日)
という結果が出たとしているが、
調査の対象となったのは、2168人で、59%にあたる1278人から回答を得ました。
とあった。
えっ? これって少なくない?
たった1,278人の意見を聞いて、
およそ80%が「中止すべき」または「さらに延期すべき」と考えている、
と言っていいのだろうか?(数字は下記参照)
しかし、そこは、無理を承知の推測統計学。
その前提として、
1.もとの分布が正規分布であること
2.ランダムサンプリング
が確保されていれば、いいのだ(そうだ)。
とくに、2のランダムサンプリングについては、
全国の18歳以上を対象にコンピューターで無作為に発生させた固定電話と携帯電話の番号に電話をかける「RDD」という方法で世論調査を行いました。
と、この世論調査でもカバーされていた。(*)
まずは、
この2つの前提を頭にたたき込んで、
先へ進もう。