ページの本文へ

Hitachi

株式会社 日立ソリューションズ・クリエイト

テクノロジー データマイニングとは? AIとの関係についても解説

データマイニングとは? AIとの関係についても解説

データマイニングは大量のデータのなかから有益な情報や価値ある知見を見つけ出す手法です。多くの企業がデータマイニングを活用し、マーケティングや結果予測に役立てています。データマイニングの概要を、AI(人工知能)や機械学習の関係などとともに解説します。

データマイニングとは

データマイニングとは、統計学や機械学習などによる分析を用いて大量のデータから有益な情報、価値ある知見を抽出する技術や手法を表す概念です。マイニング(mining)とは採掘のことです。

データマイニングの考え方自体はそれほど新しいものではありません。コンピューターを使ったデータ解析は1960年代から始まったとされており、1990年代には「データマイニング」という用語も使用されていました。

近年、そのデータマイニングが再注目されるようになった背景には、コンピューターの機能向上、インターネットやクラウドサービスの発展、IoTの普及に伴い、ビッグデータを含む多種多様なデータの取得と分析が可能になってきたことなどが挙げられます。

例えば、日々蓄積されるコールセンターへの問い合わせ内容を記した対応履歴などのデータを分析すれば、問い合わせやクレームの傾向を探ることができます。それだけではなく、現在では音声をデータ化して扱うことも可能になっています。音声データを使うと、対応や時系列によってどのように発言内容や出現単語が変わるのかが分析可能です。そのことによりオペレーターの対応改善、顧客満足度の向上につなげられるほか、思わぬ事実の相関関係が判明して、新しいビジネスヒントが得られるといった効果も期待できます。

データマイニングは本来、ビッグデータなどの膨大かつ雑多なデータから「価値ある何か」を発見するというニュアンスの強い言葉です。データのなかに眠っている、これまでは見過ごされていた何かを掘り起こすことがデータマイニングの真価だといえます。

データマイニングとAIシステム(機械学習)との関係

現在のデータマイニングは、AI技術とも深い関係があります。AIの要素技術の一つとして挙げられるのが機械学習です。機械学習とは、機械が大量のデータからパターンやルールを発見し、データに含まれているどの要素(特徴量)が結果に影響しているのかを明らかにしていく手法です。

その結果を活用して、人間が何かを判断・認識したり、予測したりします。また、機械学習の一種であるディープラーニングは、データのなかに存在するパターンやルール、特徴量を機械自身が発見・設定し、学習して画像認識などを実現していく技術です。

こうして見ると、データマイニングとAIには共通点が多いことがわかります。とりわけ機械学習によって、データマイニングは大きく進歩し、活用分野を広げてきたといえます。

なお、データマイニングには従来型の統計分析の技法も使われます。しかし、こちらは基本的に限られた量のデータから相関関係や因果関係の仮説検証を行っていくものです。仮説を立てずに結果を導く機械学習とは手法や考え方が異なります。

データマイニングの手法

データマイニングに用いられる代表的な分析手法を見てみましょう。分析の目的によってそれぞれ適した手法がありますが、通常は以下の手法を組み合わせて利用されます。

マーケットバスケット分析(アソシエーション分析)

POSデータから同時に購入される頻度が高い商品を見つけるなど、データ同士の相関関係を分析する手法です。

よく知られている事例として、「紙おむつとビールは同時に購入される」というものがあります。アメリカの顧客データ分析で紙おむつとビールが同時購入される傾向が発見され、理由を調査すると夕食の準備で忙しい母親に変わって紙おむつを買いに来た父親が一緒にビールを買っていたことがわかりました。

この話の信憑性がどれくらい高いかはさておいて、一緒に購入される確率の高い商品がわかればマーケティングに役立つ可能性は高いでしょう。ECサイトのレコメンド機能などは実際にこの分析をもとに購入者に別の商品を勧めています。

クラスタリング

調査対象を似ているものなどによってクラスター(集団)に分け、マーケティングアプローチなどに役立てる手法です。

クラスター分けする手順には階層クラスター分析と非階層クラスター分析の2種類があります。階層クラスター分析では最も似ている組み合わせから樹形図を生成し、徐々に細かいクラスター分けを行っていきます。これに対し、非階層クラスター分析では階層構造を作らず、雑多なものが混ざり合っている集合体から似ている性質の対象のものを集めて、クラスター分けします。ビッグデータ解析ではよく非階層クラスター分析が用いられます。

ロジスティック回帰分析

複数の変数に基づいて特定の事象が発生する確率(質的確率)を予測する手法です。

マーケティング分野では広く活用されている分析手法で、たとえば「顧客による特定商品の購入」を事象と設定して、商品購入の確率などを求めます。また、気象観測データを基に土砂災害発生の確率を予測する、患者の検査値から病気の発生確率を予測するといった危機回避の用途にも使用されます。

決定木分析

決定木と呼ばれる樹木に似たモデルを使って、予測や判別、分類などの結論を導く手法です。もともとは人の行動計画を条件によって次々と分岐させてツリー状に可視化していたモデルを、機械学習に応用して発展させたものです。

決定木分析もさまざまな分野で活用されています。たとえば購買履歴から購入している顧客の特徴を分析する、金融機関の取引履歴から顧客の属性による貸し倒れリスクを予測する、生産機械の監視データから故障や不良品発生につながる要因を見つけ出すといった活用例があります。

どんな会社にも日々蓄積され続けているデータがあるはずです。そのデータのなかに有用な情報が含まれているとわかってはいても、詳細な分析がされないまま放置されてしまっていることもめずらしくありません。そうした貴重なデータをデータマイニングとAIシステムによって分析し、マーケティングや顧客満足度の向上などに活かすことを考えてみてはいかがでしょうか。