データの質と量について

AI基礎

著者がポイントとして考える、AIの基礎をできるだけ簡単な形でお伝えします。どちらかというとデータサイエンティストの方へというよりは、現場実務者であったり、文系出身の方向けの内容となっております。書籍等で勉強する前にご一読いただけると、理解を深めることができると思います!

製造業の業界でAIの話をするときに最も質問されることがデータについてです。AI=ビックデータっていうイメージありますよね。データの量が必要という点では間違えていないのですが、AI業界では100万件の質の悪いデータでつくったAIは、100件の質の良いデータでつくったAIに劣ると言われています。

データはAIの性能を大きく左右するにも関わらず、詳しく述べているところは少ないと思います。ここでは著者の経験でどんなデータを取っていけばいいか、どのくらいのデータが必要かを述べていきます。

ここで説明していくこと
  • 質の良いデータとは
  • どのくらいデータが必要なのか

質の良いデータについて

一般に質の良いデータというと、欠損値がない、ラベル・タグ付けが正しくされているなどが言われると思いますが、著者がここで述べる質の良いデータはそういうことではありません。

ここで言う質の良いデータは、強いAIをつくるときに必要なデータのことを指します。

前に、明日傘が必要かどうか?という問題に対し、回答するAIをつくる例を説明をしました。詳しくは↓の記事”AIの中身はどうなってるか”をご参照ください。

明日、傘が必要でしょうか?どう思いますか?

前の記事同様に、天気予報、季節、気温のデータを入力して傘が必要な確率を得ることを考えます。これらの関係性を特性要因図で表現してみましょう。特性要因図とはフィッシュボーンチャートとも呼ばれ、魚の骨に似たような図です。魚の頭の部分に課題の特性があり、影響する因子が骨になるように表した図です。データの質を考えるときに、考えをまとめやすいのでおすすめです。

傘が必要か?という特性に対し、天気予報、季節、気温が影響しているので図のように示せると思います。

ここでAIはひとまず置いておいて考えてもらいたいのですが、「天気予報」「季節」「気温」だけで、明日傘が必要か予測することはできますか?言い換えれば明日傘が必要かという予測は「天気予報」「季節」「気温」しか影響せず、それ以外のことは誤差として処理できるのでしょうか?

おそらく難しいですよね…ここ数日の傾向だったり、ここ数年で気候変動があったり、なんか古傷がうずいたり…いろいろな要因を考えた上で、傘が必要かの結論を出していると思います。AIにはいろいろな要因を勝手に考えてくれる能力はありません一部例外はありますが。

明日のデータ:晴れ、8月、35℃なので、傘は不要です

ここ数日ゲリラ豪雨だし、持ってったほうが良いよなぁ…

ここで、考えなくてはいけないのは人にとっての常識は AIとっては非常識ということです。傘が必要かどうか問われたとき、AIは学習時に与えられたデータをフルに活用し答えを出そうと頑張ります。人が常識だと思うこともデータとして与えてあげることが重要です。ただし、何でもかんでもデータを与えたり、在りものデータをとりあえず大量にぶち込んだりしてもAIはよい回答を出してはくれません。

質の良いデータとは下記がポイントとなります。

質の良いデータとは

  • その環境において考えられる様々な要因を出し切り
  • その中から影響する要因を引き出してきたデータ

その環境において考えられる様々な要因を出し切ることとは、それらのデータを並べることで、その空間であったり、環境が再現できるようなイメージです。

そして出し切った要因のなかから、特性を説明するめに重要な要因をピックアップすることが重要です。これはピックアップしなかった要因は全て誤差として処理できる程度となっていることが求められます。

今回の傘の例で特性要因図を書き直してみましょう。

  • 天気に加え、ここ数日の天気の傾向
  • 気温は最高気温の影響
  • 季節(月)に加え、ここ数年での気候変動
  • 古傷がうずく

といった要因をプラスしてみると、

こんな感じになると思います。これらの要因全てを考慮し、傘が必要かどうかについて結論を出したとすると、信憑性の高いものなることが感覚でわかると思います。

ここまで説明して結構当たり前のことしか言っていないじゃん!と思うかもしれません(特に実務でPDCAサイクルを回している人にとっては)。そうなんです、実は当たり前のことなんです。ですが、当たり前(常識)なので人はサボります(著者の経験)。そうするとAIへ必要なデータが伝わらないということになります。当たり前のことをマジでやった人が最後に勝つのです!ロマンありますよね!

注意点としては、影響度の高い要因のみをピックアップして安心しないことです。品質工学の問題解決手法は影響度の高い要因をピックアップして傘が必要な確率の精度を改善していくものでした。対してAIは傘が必要かどうか未来を予測していくので、影響度の高い要因のみで考えるのではなく、影響する要因全てのデータが必要になってくるということです。

データの質でAIの精度があがることは何となくわかるけど、質の良いデータを全て集めるのはすごく難しいよね…

そうですよね…ここに記したデータの質は理想的な姿で、現実はそう上手くいかないと思います。そこで、データの量が重要になってくるのです。

どのくらいデータが必要なのか

データの量は、データの質と関連してきます。

質の良いデータを全てピックアップできたとすれば、数十、数百程度のデータ数でも絶大な効果を発揮するAIとなります。

一方で質の良いデータを部分的にピックアップできなかった場合、データの量でカバーしていくこととなります。

例えば、傘が必要かどうかを予測するために気温のデータが欠けているとします。人であれば、天気と季節の情報から、なんとなく気温を予測することができると思いますが、AIにはそれができません。ですので、天気と季節が入ったデータを大量に用意し学習させることで、気温のデータを補っていくという考え方です。

では、どのくらいデータが必要なのかということですが、すみませんが答えはありません。なぜかというと、AIに求めるものにより変化するからです。AIに精度の高い回答を求めたり、AIで解こうとする問題が複雑だったりすると、データ量はかなり必要になります。一方で精確な回答の必要ない、例えばレコメンドやジャンル推定などは比較的少ないデータでも可能であったりします。

AIが使えるかどうかはつくってみないとわからないことが多いので、PoC(概念実証:Proof of Concept)でどの程度AIに表現力があるかをチェックすることが重要です。AIは使ってなんぼと言われるのはこういうところからきていると考えています。

まとめ

  • 質の良いデータとは、その環境において考えられる様々な要因を出し切り、その中から影響する要因を全て引き出してきたデータ。
  • どのくらいデータが必要かはAIに求めるものにより変化するため答えがない。PoCでAIの表現力をチェックすることが重要

コメント

タイトルとURLをコピーしました