北村 禎宏

2019 01 Sep

データ分析の効用と限界

 データを伴うファクトのグリップと分析が不可欠な時代となった。その一方で注意も必要だ。

 大手CVSが正反対の主張をしている。片や24時間営業を廃すれば利益が損なわれると、反対に売上は減少するものの利益が増大する月もあったと。データで嘘をつく、社会調査のウソなど様々な議論があるのは、一見して客観的に見える数値データの分析には大きな落とし穴があるからだ。

 CVSという小商圏のビジネスモデルでは、地域における行事や天候などのミクロなイベントによる影響が比較的大きいと考える必要がある。さらに、それを月単位で切り取ればイレギュラーな誤差が紛れ込む余地はより大きくなる。さらに、時短営業の事前告知や認識が広まることで顧客の購買行動に変化がもたらされることも起こりうる。さらにコントローラーを設定しなければ厳密な違いは明らかにできないが、それも実際の市場では無理な話しだ。

 つまり、リアルなマーケットで純粋な実験室を再現することは不可能に近いということだ。それでも私たちはデータを取得して、それを分析して、そこから仮説を導き出さなければならない。

 プロファイリングによって内定を辞退する確率が高い学生を特定できたとしよう。企業側がその情報に基づいて内定者に対するリテンション活動を行ってそれが功を奏したとしたらどうなる。当該内定者の行動はもともとの素の動きではなく企業側から色を施された新しい行動パターンが発現したことになり、それがデータとして蓄積される。

 そうなると次なるフィルタリングの結果は異なったものになる。まさにウロボロス状態で、どこが頭でどこがしっぽで、なにが全体なのか線の引きようがなくなる。物理学でいうところの観察者効果のようなもので、社会学においても対象の実態をありのまま観測することはできないのだ。

 ありのままに生きようとしたアリが、蟻のままだった昭和の古きわかりやすい時代から、ものすごく遠いところまで来たものだ。そこで鈴木敏文氏の名言が効いてくる。「POSデータは何が売れたかは示してくれるが、なぜ売れたのかまでは教えてはくれない」

 その“なぜ”というところまで見ることができるようになりはじめたいま、データサイエンティストの人々にはアナリシスに偏りすぎることなく、適切なシンセシスのセンスとスキルを身につけることが求められている。