北村 禎宏

2019 24 Jun

数字を正しく取り扱う

 2000万円という数字が空中戦を繰り広げた。そこでは、算術平均が必ずしも母集団を代表していないことが忘れ去られている。

 エクセルの分析ツールをアドインして、基本統計量というコマンドを使ってみると以下の項目がないと母集団を推し量れないことがわかる。「平均」「標準偏差」「最大値」「最小値」「中央値」「最頻値」「尖度」「歪度」だ。
母集団が正規分布(ベルカーブ)を描いている場合に限って、算術平均と中央値と最頻値が一致する。そして尖度、歪度とも0で左右対称の尖りすぎてもなく寝すぎてもいない美しい集合だ。

 コンビニが700円のスクラッチをするには合理的訳がある。平均約630円の客単価で最頻値はもう少し下にあるはずだ。そうするとマジョリティを形成する大半の消費者があと1点買い足せば届くハードルが700円だ。算術平均より左に最頻値があり右のすそ野が広い母集団の代表が小売りでは客単価であり、消費者にとっては世帯当たりの貯蓄額がそれにあたる。およそ1000万円と言われても、ウチはそんなに貯めてないというのが多くの人々の実感であろう。それはそうだ。相対的にはごく少数の右のすそ野の富裕層が算術平均を大きく上に引っ張るからだ。最頻値や中央値を合わせて説明してくれれば、「ウチ普通やん」となる。

 2000万円の根拠となった25万‐20万=▲5万×30年という数式のすべてが平均値によるものだ。そもそも60歳のシニア夫婦というサンプル自体がどんな母集団を代表しているというのかとも疑ってかかる必要がある。マーケットにはラウドマイノリティとサイレントマジョリティが存在するが、前者が市場の声を代表していると勘違いして施策を見誤る事例は少なくない。

 アンケートやインタビューは、それに答えてくれた人というフィルターを介していることからすでに代表性は怪しい。さらに答えるにあたってバイアスやスタンドプレー的発言を誰が止めることができようか。ことほど左様に誰でもわかるシンプルな会話に平均はもってこいの数字であるが、それは何も説明できていないに等しいことを忘れてはならない。

 さらに数字の出所がどのように選別されて、どのような偏りが可能性として考えられるのかにも敏感であらねばならない。勤労統計だろうが、家計消費支出だろうが、全数調査ではない数字は要注意だ。ファクトをニュートラルに把握することより、時の力や意思に対して都合のよいデータを選別して誤解を恐れずとの断りもない妖怪がそこらじゅうを闊歩している。

 半世紀以上も前の「統計でウソをつく法」(ダレル・ハフ)がボディブローのように、いやカウンターパンチになりかねないデータ社会になっていることを肝に銘じて数字を正しく取り扱わなければならない。