もう勘とはおさらば！ AI 分析のサービス紹介から分析プロセスまで細かく説明

AI分析とは？
BIとAIの違い
どんな分野に使われているか
データ分析の事例を紹介〜データの種類別〜
AI分析にもやはりPython！！
AIで分析するための必要なステップとは
最後に

AI分析とは？

AIによる分析によって機械が過去の傾向をもとに、未来や今の状況を推定することが可能になっています。

しかし機械学習でデータ分析する場合と、既存の技術でデータ分析する場合では分析のプロセスが異なり、難しく感じている方も多いかもしれません。

この記事ではAIで分析したくてもどうしたらいいのかわからないと言う方にAIを使ったデータ分析の全体像をお伝えします。

BIとAIの違い

まずはじめにAIと似ているBIツールの違いについて紹介します。データ分析のツールとしてBI（Business Intelligence）というものもあります。AIとBIはどちらも分析をする際に使うものですが、その用途や仕様はかなり異なるものです。

AIでは予測や判断をするためのパターンやルールを発見させる（「特徴量抽出」という）役割を機械が担います。

一方でBIは、その特徴量抽出を人間が担う際の手助けをするツールというイメージです。

つまりBIではあくまで人間が分析をする主体なのに対し、AIでは機械が主体です。
以下の画像がわかりやすいと思いますので参考にして見てください。

AINOW編集部作成

どんな分野に使われているか

AI（機械学習）は簡単に言うと機械（マシーン）による分析・予測をする方法の１つです。

AIによる分析は、例えば、MIERUCAのようなWebマーケティング分野から、CURONのようなヘルスケアに関する分野においてもAI分析は幅広く利用されており、AI分析は仕様方法を工夫すれば非常に多くの分野・業界で使える便利な分析ツールになります。。

以下のAI分析が含まれたサービスマップの記事を参考にしてください。

AI専門ニュースメディア AINOW

全296サービス！「AIサービスマップ 2019」5カテゴリ124サービス増加

https://stage.ainow.ai/ai_service_map2019/

AINOW編集部のぱるです。2016年、2017年と反響が大きかった、AIサービスマップをご存知でしょうか？AIサービスマップは、人工知能を活用したサービスを分かりやすくマップにまとめたもので、情報収集を行うサポートになるマップです。そして、AI・人工知能技術を活用...

データ分析の事例を紹介〜データの種類別〜

どのような形でAIが分析ツールとして使われているのでしょうか。ここでは分析するデータの種類ごとに分け、紹介していきます。

Insight Techは文字から「本音」を分析する

テキストを分析・認識するいわば文字認識AIの一つである「ITAS(Insight Tech Text Analytics Service)」は「Insight Tech」がつくった文章解析サービスです。

Insight Tech HPより引用

文章解析サービスITASは3つのAI（意見タグAI・可視化AI・感情分類AI）から成るサービスです。

「Insight Tech」のホームページでは可視化された本音や隠れたナレッジが利用されている事例として、HRサービス会社の「Cbase」と提携した離職リスクを可視化する「スマレビ for リテンション」やLIONとの協同で、口臭不満をITASで解析することから生まれた「口臭ケアサポートアプリ」の開発といったものが紹介されています。

コカコーラがSNSを使って「ドリンキング・モーメント」を発掘

画像分析の分野の事例としては、日本コカコーラがブレインパッドと提携し、Google Cloud Vision APIを利用した例が面白いと思います。日本コカコーラはSNSを利用して、これまで見落としていた「ドリンキング・モーメント（ドリンクを飲むシーンのこと）」を抽出・分析することで、これまでは限界があった消費者の「本音」を知ることができるようになりました。

Coca-Cola India HPより引用

Empathは音声分析で感情を汲み取る

音声分析の分野では「Empath」のサービスは特筆すべきでしょう。

サービスの1つである「Web Empath API」は数万人の音声データベースを元に喜怒哀楽や気分の浮き沈みを判定する音声感情解析APIです。

別のサービスである「スマートコールセンター・システム」はコールセンターをAIを利用してアップデートしたものです。では、言葉では伝わらない微妙な顧客の感情をリアルタイムで図ることができます。より質の高いオペレーションをすることができる点でとても価値がるでしょう。

Empath

https://webempath.com/jpn/

Empathは人の声から感情を解析するAIです。声の音響物理的な特徴から数万人の音声データベースを元に喜怒哀楽や気分の浮き沈みを判定します

分析サービス企業５選！

データの分析の事例を紹介しましたが、そもそも「データ活用のコンサルティング会社を知りたい」というかたは以下の記事に5つピックアップされているのでぜひ参照してみてください。

AI専門ニュースメディア AINOW

分析力が強み！データ分析企業5選

https://stage.ainow.ai/2018/11/21/156365/

「自社でビッグデータを保有しながらも、どのように活用していいかわからない。」「データの活用のコンサルティングをやってくれる会社を知りたい」AI・機械学習の台頭とともに、データ活用の重要性が騒がれるようになりました。多くの企業でデータを活用してビジネ...

AI分析にもやはりPython！！

上記のようなデータ分析の企業に依頼するのではなく自社で分析する場合、プログラミング言語はほとんどの場合で「Python」が使われる場合が多いです。
分析をする際に使うプログラミング言語といえば、「SPSS」や「R」なども思い浮かべますが、「Python」も非常に人気です。

「Python」と聞くとデータサイエンスやウェブ開発用のプログラミング言語のように思い浮かべると思いますが、データ分析でもよく使われるようです。

「Python」が調査したデータによると、Python導入企業のうち実に60%近い企業がデータ分析のために使用しているとのことでした。Pythonの用途は機械学習以外にも色々とあるようなので参考にしてみてください。

Python HPより引用

AIで分析するための必要なステップとは

ここからはAIで分析するために必要なステップを分解し、それぞれ解説していきます。
AI分析の主要ステップは以下の5つです。

ビジネスゴールと分析ゴールの明確化
データの準備
データの前処理
モデル作成
モデルの評価（PoC）

AINOW編集部作成

ビジネスゴールと分析のゴールの明確化

「ビジネスゴール」とは経済的なインパクトのことです。例えば、売り上げが増加する、コストが削減されるなどです。

一方で、「分析ゴール」とはデータを分析して何かしらのアウトプットを出すということです。例えば、顧客のWeb上での行動を可視化するといったことです。

「ビジネスゴール」と「分析ゴール」の間は大きな隔たりがあります。

分析した結果がどのように役立てら、ビジネス上で経済的インパクトを出せるのかのロジックを明確にすることがこのフェーズでは必要です。

分析をする分野特有の知識や、そもそも問題として解決可能なのかを判断しなければなりません。

そのためプロジェクトの一番最初は「ビジネスゴール」と「分析ゴール」を明確にする必要があるのです。

必要なこと

このフェーズで必要なことは３つあります。「目的明確化」「業務フロー検討」「データ検討」です。

目的明確化
これは当たり前ですが重要です。「なんとなく人工知能を入れてみたい」「AIを入れれば何か変わるんでしょ」という考えでプロジェクトがスタートしてしまうと、バイアスがかかっている状態で始まり、適切な判断や意思決定ができなくなることもあるそうです。

「そもそもAIを使う必要はないのでは？」というスタンスでいることも大事です。

業務フロー検討
導入したAIを誰がどのタイミングでどのように使うかということを検討する必要もあります。運用・保守といったシステムを維持するためのコストも検討しなければいけません。

データ検討
目的を明確にできたら、AIにどのようなデータを入れれば目的を達成できそうなのかを仮説立てします。データをよく観察せずに、無加工でAIに分析させることは不可能ではないですが、それではAIの分析力が無駄になってしまう可能性があります。

AI分析に入れるデータを観察するときに必要と思われる指標は、
機械学習に向いているデータの状態
学習データが多い
学習データが安定している
例外的なデータが少ない

などなので、これらの指標を元にデータの観察をするといいでしょう。

データの準備

分析の要件が明確になったら次は必要なデータの準備をする段階に入ります。
データ準備で気をつける必要があるポイントは4つあります。

既存データは5W2Hで探す（詳しくは以下の図を参照）
オープンデータはあくまで補助である
足りないデータは作成する
一度分析を始めてからデータを追加する

既存データは5W2Hで探す
社内にある全データを満遍なく集めることは困難なため、５W２Hに沿ってデータを剪定するといいでしょう。そうすることで、もれなくデータを集められます。5W2Hのデータの情報の例は以下の図のようになります。

AINOW編集部作成

オープンデータはあくまで補助
時として社内に現存するデータでは足りないこともあります。そのような場合はオープンデータや外部データの追加を考慮します。「政府統計 e-Stat」「DATA.GOV」をはじめとして、世界中にオープンデータは存在します。

しかし、オープンデータはいつ使用できなくなるかが不明であり、データのフォーマットが変わる可能性もあるため、AI分析のように継続して運用する必要のあるシステムの場合、オープンデータはあくまで補助データとして使用するのが良いでしょう。

足りないデータは作成する
オープンデータでも足りない場合はデータを新たに作ることも視野に入れましょう。クラウドソーシングすることで安い費用でデータを作成できることもあります。

一度分析を始めてからデータを追加する
「どのくらいのデータを足せば良いのかを教えてほしい」という意見はしばしば出るそうですが、AIでの分析をする際に必要なデータの種類や量の正解はありません。

意外かもしれませんが、闇雲にデータを入れるのではなく、初めは簡単なデータから分析を始め、一度分析したのちに、追加データを入力する方が効率的なこともあるようです。

以下の図はそのプロセスを図式化したものになります。

AINOW編集部作成

データの前処理

データを集めた次は、データの前処理段階に移行します。
一連のプロセスの中で最も時間がかかるのがデータの前処理（データの学習より前に行う処理のこと）で、実は全体の8割の工数がここにかかるという統計データも出ています。
またIBMによると、AIの分析にすぐに使えるデータは全体の約3割程度だそうです。

データ加工プロセス

ここでは時間がかかる要因である、データの加工について分解して説明します。

- 目的変数の加工
  どの分析でも当たり前ですが、AI分析でも目的変数（求めたいもの）を加工しなければなりません。（ちなみに「説明変数」が「求めたいものに影響するもの」です）
  「グループ化」や「ラベル化」などが主な手法でしょう。
- 説明変数の加工（特徴量加工）
  説明変数の加工（特徴加工とも言われる）も精度向上に必要になる場合が多いです。主な方法は「平滑化」や「自己回帰変数」などでしょう。
- 異常値処理
  目的変数・説明変数ともに異常な値があると、学習がうまくいかないので、データ学習の前に削除や編集をします。
- 学習データ数加工
  学習させるデータ数に大きな偏りがあると、人にとって違和感のある結果をAIが出す可能性があります。データ数の偏りをなくすために「リサンプリング」という処理を行ったり、「アンダーサンプリング」や「オーバーサンプリング」という処理を行うこともあります。
- 画像データの加工
  画像データを処理する際に「解像度が異常に低い」や「サイズが異常に小さい」、そもそも「学習する上で意味のない画像」などがあるので異常データの判断ルールを作り、異常データを抽出することが大事です。
  尚、その際によく使われるの手法が「データオーグメンテーション」という手法です。
- テキストデータの加工
  テキストデータにおいて異常となっている種類としては「文字数が少ない」や「誤字・脱字がある」といったことが挙げられます。また自然言語データのみの場合と、自然言語データと数値の混合の場合では、学習方法は違うので、そこも考慮に入れましょう。