マーケティング
製造業の単品通販〜データベースマーケティングって何だ
POINT
『テキストマイニングとは』
『1,データベースマーケティングの初期』
『2,様々な手法とツール』
『3〜1,データの種別』
『3〜2,正規化と言うこと』
『3〜3,観察のための方法』
─────────────────
■テキストマイニングとは
─────────────────
最近管理者、ことに新たに顧客部門や分析部門に着任された方々から寄せられる質問の多くは、分析のツールにあるようだ。要は統計だとか解析だとか、データマイニングだとかニューラルネットワークだとか理解困難、分かり難く文科系管理としてはマネジメント困難と言うことなのだ。
そこで、この稿では出来るだけ平易に分析について述べてみたいと思う。
一応、データの種別、正規化と観察、相関、分類、予測それに日本語を分析するテキストマイニングなどをテーマに進めてみよう。
───────────────────
■1,データベースマーケティングの初期
───────────────────
20年ほど前、まだデータベースマーケティング(以下DBM)という言葉が何となく身につかなかった時代の話だ。我々DMに拘わる者が犯したいくつかの誤りがある。1930年くらいからアメリカで
「顧客分析のために開発されたRFMポイント(注意!!)という洗練された手法がある」
と誰かが聞いてきた。それは顧客が「いつ買ってくれたか」「幾ら買ってくれたか」「何回買ってくれたか」によってその顧客が次に買ってくれる可能性が分かるというのだ。その当時通販業でも顧客の取引データ(トランザクション)を残している企業はほとんど無かった。「よし、やろう」ということで顧客のデータを集め、何とかデータベースらしい物を作った。
さてそこでRFMの「ポイント」の考え方に困惑した。そこでそれぞれの値ごとにポイントを賦与することにした。これが第一の失敗だった。それは、例えば1回購入して頂いたら10点、2回だったら20点つけようという発想法だった。
なぜ10点か? う〜ん、取りあえずそのくらいにしておこう。
こんな調子だ。そこには、顧客の行動を客観的に考察して評価しようという発想法はなかった。その結果データベースの中の値はグジャグジャになって収拾がつかなくなった。
第2の失敗は「R」の多用だった。たしかに「R」の値は強かった、つまり直近で購入して頂いたお客様は実に次も買って頂ける可能性が大きいということだ。従って購買日時の近いお客様ばかりを選んで訴求し続けた。何回も何回も。しかしそのうちおかしくなってきた。明らかにリスト力が弱って来ているのだ。当然だ、直近で買って頂いた顧客ばかりにコンタクトしていたのだ。顧客の中には購入間隔は長いが、購入金額の大きい方がいるのは当然だった。
この反省が、何とかして科学的に顧客を見る目を持とうということであった。
この時代はまだコンピュータが未成熟で、今の通常使用されるPCが大型汎用機以上の力を持っている時代だった。しかし、演算能力も記憶装置の容量も飛躍的に向上し、その上で動かすソフトウエアも開発が進んだ。そこで統計という高等算数を使用し始めたのだ。
この時初めて、我々が犯したような過ちを犯さないでもすむような仕組みを手に入れたことになる。このようにしてDBMが動き始めたのだ。
───────────────
■2,様々な手法とツール
───────────────
冒頭の管理者の皆さんが情報の分析で困惑されるのは、ある面でツールが多すぎて困惑するからでもある。確かにコンピュータは進歩し、色々な事に使えるようになった、その結果市場には「我こそ」と多くのツールが出回り始めたのだ。ここで一応ツールの整理だけしておこう。
1)統計
最も古くから有効性を喧伝(けんでん)されていた手法である。
統計というのは、ある仮定を証明するためのツールだ。例えば先ほどの「R」(購入直近性)は顧客の今回の、もしくは次回の売り上げと因果関係がありそうだ。つまりどうも直近で買って頂いたお客様は次の機会でもご購入頂ける可能性が高そうだ、という事は誰でも感じられることだ。ただ感じだけでコンタクトしたり、カタログを送るわけにはいかない。だから一定量の顧客情報の中を調べて結果を出そうと言うものだ。従って巨大なデータは不要で、せいぜい1万件くらいの量があれば証明はできそうだ。
ただし気をつけなければならないのは、あくまでも「仮説を検証するための」ツールであり、たまたまその結果を利用するだけなのだ。R・F・Mが分析のために妥当かどうか、そして値として利用出来るかどうかを調べるためのツールなのだ。
2)データマイニング
比較的新しい手法でやはりアメリカ製だ。
データマイニングというのは、統計とは逆に、多くのデータ群の中から一定のルールを発見する方法といえる。その最も有名なルールが「おむつを購入する顧客はビールを購入しやすい」というルールだ。
多くの顧客の情報をある論理に従って整理し、一定の結論を出していく方法である。例えばデシジョンツリー(決定木)と言う技法があるが、これは顧客群をある事象(都市に住んでいるか、年齢が50代か、良くYシャツを購入するかなど)に、あたかも木の幹から枝に分かれるように最適に仕分けしてくれる機能がある。コンピュータがやってくれる。そしてその仕分け自体がルールの発見になっている。従って少数データではなく、ある意味のあるデータ全部を使って分析する。統計とデータマイニングはよく見ると同じようなことを言っているし、データマイニングの中に巧みに統計を持ち込んでいる。
3)テキストマイニング
インターネットやワン・ツーワンマーケティングの進展によって、データベースの中に文字情報が多く取り込まれるようになった。そしてその文字情報を分析することによってルールを見つけ出そうとする手法である。まず文字情報を単語に分解する、そこからそれぞれの言葉の関連を見つけ出し、その意味を判断する。
例えばある化粧品会社の顧客との対話歴の中で
「クリーム」「キャップ」「壊れる」
という言葉が出現し、それぞれの関連性(距離)が高いとすれば
「クリームのビンのキャップが壊れやすい」
という意味に解釈出来よう。
このように特に顧客の発した言葉からのルールを見つけ出す手法として有意である。ただし、インターネット上の言葉は恣意的な情報があるから注意が必要。
4)Web分析
ネット上で顧客が投げてきた情報を分析することによって、今顧客が求めている、もしくは求めていることに気付いていない情報を投げることによって、クロスセリング、アップセリングを行おうというものだ。典型的なのはアマゾン社で行われているリコメンデーションだ。顧客が欲しい書籍を検索すると、その書籍を購入した他の顧客が同時購入した書籍を並べて表示し、併売を誘う。この分析の特徴はリアル、つまり今行われている顧客との対話の分析である。
5)心理分析
最近注目されている分析の手法である。これは顧客の今の心理状況を見ながらそれを受け手に伝えようとするものだ。例えばコールセンター。今インバウンドで入ってきた顧客の冒頭の声の周波数を分析、解析することによって、怒ってクレームを言おうと思っているのか、そうではなく商品について問合わせをしようとしているのか、その心理状況を即時判断してオペレータに伝えようとするものだ。
オペレータはその評価を判断し、電話を取るタイミングを考えたり、過去のデータを見て対応を考えることが出来る。こうして顧客の今の心理状態に呼応しようとするものだ。この技術はまだ完成品ではない。これからの発展が楽しみだ。
いずれにしろこれらはツールだ。マーケターとしては、課題に対してどう旨く組み合わせて行くかが課題になる。
─────────────────
■3〜1,データの種別
─────────────────
DMのDBMではどのようなデータを取り扱うのだろうか。DMではデータというと一般的には顧客データ、商品データ、媒体データの事をいう。
しかし、やはり最も単的に使われるのは顧客データだ。それでは顧客データというのは何か。顧客データというと、お客様の名前だとか、住所だとか・・がぎっしり詰まったものという印象を与えるが、実は似て非なものである。顧客データというのは
1)顧客そのものに関するデータ。
つまり名前、住所、電話番号と言った顧客に関する基本的情報群がある。
2)次が購入履歴という。
こう言ってしまうと単にいつ、何を、幾らでと言うことになってしまう。
実はDMのバックエンドの運営に関わるすべて業務(前述のフルフィルメントだ)により獲得できた顧客とのビジネス遂行情報がここに盛られているのである。つまり、単に受注だけでなく、それ以降のすべての事業活動、つまり、在庫引き当て可否、キャンセル、出荷指図、配送、請求、入金、返品、返金、督促と言ったフィールドがあると思って頂きたい。
分析の対象は何を買ったかだけではなくその結果がどうなったか、までをデータとして利用できるのだ。確かに購入実績は非常に重要であり、良い顧客を認識する良いデータではあるが、一方ではキャンセルや返品を繰り返す顧客がいるものだ。
3)そしてもう一つ重要なデータがコンタクト履歴である。
コンタクト履歴とはマーケターと顧客がどのようなリレーションを計ったかの履歴が残されているデータ群である。カタログでマーケティングを行っている企業であれば、どのようなカタログがいつ、誰に発信されたか。また、カタログの返送が無かったか、その結果がどうなったか、購入にまで至ったのか、それとも未購入だったのか、が記録されている。
買って頂いた情報は、基本的には良い情報であり珍重するが、一方で購入していただけなかった情報も貴重な情報である。購入頂けなかった顧客を知るためにはマーケターがどのようなアクションを取ったかが理解されなければいけない。また、若干目的は異なるがコールセンターで行われるインバウンド、アウトバウンドにもこのデータは残される。一般的には「会話歴」と呼ばれるが、これも基本的にはいつ、誰と、どのような会話が行われ、その結果どうなったかが記録される。最近は定性情報である会話の内容(「言葉」)そのものが前述のテキストマイニングの分析対象になり、保管されるようになった。これら顧客情報、購入履歴、コンタクト履歴はDMの分析対象の3点セットであるといえる。
─────────────────
■3〜2,正規化と言うこと
─────────────────
このような日常の活動を経て得られたデータは分析のために一次加工される。
例えば氏名や住所の漢字部分と言った分析に直接関係のないデータは消去される。又電話番号などは数値そのものが意味を持つ訳ではないので、地域特性という意味を持つ桁数だけに変換される。これが分析者に渡される。
それではこういうデータすべて正確かというと決してそうではない。
「ギャべージ・イン ギャベージ・アウト」と言って、不正確なデータからはどんなに分析をしても正確な情報は望めない。かつてこのような事があった。
ある百貨店系の通信販売企業での話だが、分析作業が始まっていつまでたっても正確なアウトプットが得られない。売上げで言えばとんでもない巨大な値が出てくるのだ。分析の担当者は意味が分からず困惑するばかりである。そこで技術者が見たところ、結果は簡単であった。分析用のデータを作成する段階で何らかのプログラムのトラブルを起こし、金額フィールドが数桁横にずれて、いわゆる桁ずれを起こしていたのだ。これではどのような技術を使っても「ギャベージ・アウト!」であろう。
一般的データはこのような桁ずれ、変換ミス、プログラムによる間違った処理、厳しいプログラムでのチェックをくぐり抜けて来た入力ミスなどで、異常な値を発生する。ある桁全部が間違えばまだわかりやすいのだが、不規則間違いが発生などしたら見ただけではなかなか分からない。分析の第一歩はこのようなデータ上の間違いを見つけ、修正することである。そのためには「観察」が最も良い手法である。まずデータをいじる前にそのデータをじっくり眺めることだ。パソコンなどが無い時代にはデータの内容をそのまま印刷してそれを眺めていた。ことに縦の列に着目してその中の規則性や乱れを感覚的に発見する方法だ。
─────────────────
■3〜3,観察のための方法
─────────────────
統計やツールを使った分析は重要である。しかし、その前にもっと重要なのがデータ全体を簡単に見渡すことである。例えば「どの顧客が次ぎ買ってくれるか」を見付ける前に、「顧客は一体何人いるのか」という基本的なことが観察により理解されていなければならない。その為には簡単、単純な理解が必要である。
DMも10年前とは比較にならないほど売上が向上し従ってデータが巨大化している。現代では全部のデータを印刷して眺めるなどという職人技は陰を潜めてる。その代わり出来る限り科学的にと言う方向に進んでいるのは当然だろう。それをサポートする基本的な考え方がある。
1)平均
例えば今シーズンの顧客平均売り上げを見るのは観察の第一歩であろう。算出の仕方は今更説明の必要も無いだろう、売上金額の全データの合計を顧客数で割ったものだ。
一般的ではあるがDMの企業では良いお客様と言うのは年間200万円もご購入頂けるそうだ。無論そのようなお客様が沢山いるわけではないので、そのような良いお客様を含めた平均と、含めない平均とでは当然異なる。全体平均とはいつも顧客の姿を正しく表すとは限らない。売り上げをしっかり決めるために良いお客様のセグメントに媒体を打った場合と比較的売上げの少ない顧客に媒体を打った場合、それらの混合で打った場合では平均金額に隔たりが出ることになる。これらを考慮しながら観察する必要がある。また、この平均値が正しく顧客の姿を反映しない場合があるというのが、ワンツーワン・マーケティングが生まれた理由だ。
2)中央値
とすれば本当の真ん中のお客様の売上金額は幾らだろう。平均では表現できない本当の真ん中の値を中央値という。全売り上げデータを昇順または降順に並べ替えてその真ん中の値これが中央値だ。データ数が偶数の時と奇数の時は当然異なる。例えば1、000件データがあった場合は、500番目のデータの売り上げ金額を12、000円とし、501番目のデータの売り上げ金額12、100円とすると、その2つの値を足して2で割った値12、050円が中央値になり、999件あった場合は500番目のデータの値10,200円が中央値になる。他のデータの値はこの中央値を芯にして前後にばらつくことになる。
3)最頻値
データを眺めていると同じような値の売上金額が繰り返し出現するのが見受けられることがある。ああ、これお客様にとって値頃感のある価格、もしくは価格帯なのだと思う。むろん売上金額すべてに同じ顧客数が集まる訳はなく、いわゆる買いやすい価格、つまり値頃感に顧客は集まる傾向にある。マーチャンダイジングする側から言えば、値頃感を演出する商品集めを心がける。その件が最頻値およびその周辺の価格である。
4)平均値、中央値、最頻値はデータを観察するときの基本である。
これらの値をベースに他のデータが散らばっている。この散らばり具合を見ることによってデータの正確をつかむことが出来る。ちなみに、これらの値から離れたデータが見受けられる場合、それがギャベージなのか、異常値なのかを判別するのは観察者の力、分析者の腕だ。
以下、次号へ続く。
トラックバック(0)
・このブログ記事を参照しているブログ一覧:
・このブログ記事に対するトラックバックURL:
http://www.scroll360.jp/mt/mt-tb.cgi/318
新着記事
- 2012.01.30
- 【第36回】トラブル対応でなくした1000万円
- 2012.01.30
- 【第37回】日本版格差社会がますます深刻化してきた 年末の新聞、情報誌から読み解く日本の経済環境
- 2012.01.30
- 「ソーシャル時代における BtoC 型 Eコマース成功のポイント」他
- 2012.01.16
- 【第12回】市場は世界。打つ手は無限。ECにこそ必要なグローバル視点







コメントする