データを活用したマーケティングは、ROI(投資対効果)を最大化し、ターゲットオーディエンスに効果的にリーチするために不可欠な要素となっている。
機械学習を活用することで、貴重なインサイトを得て、キャンペーンを最適化するための予測モデルを構築できる。
以下、BigQueryのGoogleアナリティクスサンプルデータセットを使用して、マーケティングキャンペーンを最適化するプロセスについて説明する。
詳細なコードは、GitHubリポジトリで公開している。
内容
- データの準備
- モデルの理解
- ロジスティック回帰
- ランダムフォレスト
- XGBoost
- 深層ニューラルネットワーク(DNN)
- モデルのパフォーマンス比較
- ランダムフォレストモデルを活用したキャンペーン最適化
- まとめ
データの準備
データの準備作業として、まずトラフィックの発生源ごとに重要な指標をまとめたビューを作成する。この作業によって、以降の分析に必要なデータが整理される。
CREATE OR REPLACE VIEW `your-project.your-dataset.campaign_performance` AS
SELECT
DATE(PARSE_DATE('%Y%m%d', date)) AS date,
trafficSource.source AS source,
trafficSource.medium AS medium,
trafficSource.campaign AS campaign,
COUNT(DISTINCT fullVisitorId) AS users,
SUM(totals.transactions) AS transactions,
SUM(totals.transactionRevenue) / 1000000 AS revenue,
SUM(totals.pageviews) AS pageviews
FROM
`bigquery-public-data.google_analytics_sample.ga_sessions_*`
WHERE
_TABLE_SUFFIX BETWEEN '20170101' AND '20170331'
GROUP BY
date, source, medium, campaign;
これにより、各ソース、メディア、キャンペーンの組み合わせごとに日ごとのパフォーマンスが集計される。
モデルの理解
キャンペーンのパフォーマンスを分析するために、4つの異なる機械学習モデルを使用した。それぞれのモデルは、キャンペーン成功を予測するための独自の特徴を持っている。
1. ロジスティック回帰
ロジスティック回帰は、二値の結果を予測するための統計的手法だ。この文脈では、キャンペーンが成功する(1)か否か(0)を予測する。
仕組み:特定のカテゴリに属する確率を推定する。
強み:シンプルで解釈可能、各特徴が結果に与える影響を洞察できる。
マーケティングでの利用例:キャンペーンの成功に寄与する主要因子の特定と成功確率の推定。
2. ランダムフォレスト
ランダムフォレストは、複数の決定木を構築し、個々の木のクラスのモード(分類)または平均予測(回帰)を出力するアンサンブル学習法。
仕組み:ランダムに選択されたデータサンプルで多数の決定木を作成し、各木から予測を得て、投票によって最良の解決策を選択する。
強み:非線形関係をうまく扱い、過学習が少なく、多数の特徴を扱える。
マーケティングでの利用例:様々なマーケティング要因間の複雑な相互作用を考慮しつつ、キャンペーンの成功を予測する。
3. XGBoost (Extreme Gradient Boosting)
XGBoostは、高効率、柔軟性、移植性を目指して設計された最適化された分散勾配ブースティングライブラリだ。
仕組み:順次木を構築し、各新しい木が前の木の誤りを修正する。
強み:多くの機械学習課題で最先端の結果を達成し、欠損データをうまく扱う。
マーケティングでの利用例:多様で複雑なマーケティングデータを扱う際の、高性能なキャンペーン成功予測。
4. Deep Neural Network (DNN)
ディープニューラルネットワークは、脳の神経ネットワークにヒントを得た複雑な機械学習モデル。
仕組み:相互接続されたノードの複数の層で構成され、各層が入力データの異なる特徴を検出するよう学習する。
強み:データ内の非常に複雑なパターンと関係を学習でき、特に大量のデータで効果的。
マーケティングでの利用例:より単純なモデルでは見逃す可能性のある、顧客行動とキャンペーンパフォーマンスの複雑なパターンの捕捉。
これらの各モデルは、キャンペーンの成功を予測する問題に異なるアプローチで取り組む:
- ロジスティック回帰は特徴と結果の間の線形関係を探す。
- ランダムフォレストは複数の決定経路を作成し、それらを集約する。
- XGBoostは一連の木を構築し、各木が前の木の誤りを修正することに焦点を当てる。
- ディープニューラルネットワークは人間の脳の機能を模倣して複雑なパターンを識別しようとする。
モデルの比較とキャンペーン最適化の分析
キャンペーン最適化のために、ロジスティック回帰、ランダムフォレスト、XGBoost、深層ニューラルネットワークの4つの機械学習モデルを比較し、それぞれの強みを生かして予測精度を向上させた。
モデルのパフォーマンス比較
モデル性能比較
モデル | 精度 | 再現率 | F1スコア | 正確度 | AUC |
---|---|---|---|---|---|
ランダムフォレスト | 0.917 | 0.733 | 0.815 | 0.968 | 0.943 |
XGBoost | 0.863 | 0.733 | 0.793 | 0.963 | 0.951 |
深層ニューラルネットワーク(DNN) | 1.000 | 0.655 | 0.791 | 0.970 | 0.797 |
ロジスティック回帰 | 1.000 | 0.517 | 0.681 | 0.954 | 0.922 |
モデルパフォーマンスの分析
- ランダムフォレスト: F1スコアが最も高く(0.815)、精度と再現率のバランスが優れているため、成功したキャンペーンを誤認せずに効果的に識別。
- XGBoost: ランダムフォレストに次ぐ強力なパフォーマンスを示し、AUCが最も高く(0.951)、成功と不成功のキャンペーンを非常に高い精度で区別可能。
- 深層ニューラルネットワーク(DNN): 完璧な精度を誇るが、再現率が低いため、非常に保守的な予測を行い、確信がある場合にのみ成功を予測。
- ロジスティック回帰: DNNと同様、精度は完璧だが、再現率が最も低く、多くの成功したキャンペーンを見逃す可能性が高い。
洞察と示唆
- バランスの取れたパフォーマンス: ランダムフォレストとXGBoostは、最もバランスの取れたパフォーマンスを提供し、一般的なキャンペーン最適化タスクに信頼できるモデル。
- 保守的な予測: DNNとロジスティック回帰は非常に正確だが、保守的すぎるため、多くのマーケティングシナリオでは適さないかもしれない。誤って成功と予測することが高コストである場合に役立つ。
- 再現率と精度のトレードオフ: モデル間で再現率と精度の明確なトレードオフが存在し、成功する可能性のあるキャンペーンを全て捉えたい場合(高再現率)か、成功を予測するキャンペーンに非常に自信を持ちたい場合(高精度)によって、選択するモデルが変わる。
- 高い正確度: 全てのモデルが95%以上の正確度を示しているが、データセットに偏りがある場合は慎重に解釈する必要がある。
- AUCのパフォーマンス: XGBoostとランダムフォレストが最も高いAUCスコアを示し、成功と不成功のキャンペーンを最も効果的に区別できることを示唆している。
ランダムフォレストを用いたキャンペーン最適化
ランダムフォレストが他のモデルを上回ったため、このモデルを用いてマーケティングキャンペーン最適化の例を示す。
シナリオ
- 曜日: 金曜日
- 月: 4月
- ソース: Google
- メディア: クリック課金
- キャンペーン: スプリングセール
- 正規化ユーザー数: 1.0(平均より1標準偏差上)
- 正規化ページビュー数: 1.0(平均より1標準偏差上)
予測結果
予測確率:
- 購入確率: 59.31%
- 購入しない確率: 40.69%
解釈
ポジティブな予測: モデルは、このキャンペーンシナリオでは購入が行われる可能性が高いと予測。
信頼度: 59.31%の購入確率は中程度の信頼度を示しているが、まだ40.69%の購入しない可能性もあり、リスクも存在。
入力要素の影響: デフォルトの意思決定閾値は0.5である。購入確率(0.5931)が0.5を超えているため、モデルは肯定的な結果(1)を予測する。したがって、金曜日にGoogleのCPCを利用して行われる4月のキャンペーンが、ポジティブな影響を与えると考えられる。
洞察と推奨事項
- キャンペーンのタイミング:4月の金曜日にスプリングセールキャンペーンを実施することは良い選択のようだ。
- トラフィックソース:Google CPCがこのキャンペーンに効果的なチャネルであるようだ。
- トラフィック量:平均を上回るユーザー数とページビュー数(平均より1標準偏差上)が購入の可能性に寄与している。
- 中程度の確信度:モデルは購入を予測しているが、確信度はそれほど高くはない。これは最適化の余地があることを示唆している。
- リスク評価:購入なしの確率が40.69%あり、依然として考慮すべき重大なリスクがある。
- さらなるテスト:購入の確率を高められるかどうか、このキャンペーン設定のバリエーションをテストする価値があるかもしれない。例えば、異なる曜日を試したり、キャンペーンパラメータを調整したりすることができる。
- 閾値の調整:ビジネス目標に応じて、決定閾値の調整を検討してもよい。購入をより確実にしたい場合は、より高い閾値(例:0.7)を設定するかもしれない。偽陽性のリスクを負ってでもより多くの潜在的購入者を捉えたい場合は、閾値を下げるかもしれない
この予測は好ましいものだが、単一のシナリオに基づいていることを忘れないように。実際には、キャンペーン戦略を完全に最適化するために、様々なシナリオで予測を実行したいところだ。
まとめ
機械学習モデルを通じてマーケティングキャンペーンを最適化するプロセスは、ROIとターゲティングの効果を向上させる大きな可能性を秘めている。
BigQuery MLとGoogle Analyticsのデータを活用することで、キャンペーンデータの準備、異なる予測モデルの構築と比較、そしてこれらの洞察を実際のマーケティングシナリオに適用する方法を示した。
分析の結果、全てのモデルが良好なパフォーマンスを示す中、ランダムフォレストとXGBoostモデルがキャンペーンの成功に対して最もバランスが取れた信頼性の高い予測を提供することが明らかになった。
ランダムフォレスト予測の例で示したように、これらのモデルの実践的な適用は、データ駆動の洞察が特定のキャンペーン決定にどのように情報を提供できるかを示している。
タイミングやチャネルの選択からトラフィック量の考慮まで、これらの予測はマーケターに実行可能なガイダンスを提供する。
しかし、これらのモデルはマーケティングの専門知識を補完するツールであり、置き換えるものではないことを忘れてはならない。モデルの洞察と人間の知識を継続的にテスト、改善、統合することが、マーケティングキャンペーン最適化におけるこのアプローチの価値を最大化するための鍵となるだろう。