【機械学習】AIの予測可能領域を定義しよう

こんにちは。

今回はAIの予測可能領域を定義してみました。

最初に結論をいうと、以下の２つを兼ねる領域です。

AI、いわゆる機械学習やディープラーニングを実装する上で、これらを最初に把握しておくことは重要です。

すでに開発を行っている方だけでなく、これからAIの開発をしようという方もぜひおさえておきたいポイントですので、良かったらご覧ください。

まずはモデルの内挿・外挿とは何かについて解説します。

「モデル」というのは、一般的にAIモデルのことを指します。

機械学習の大前提として、

「学習させた入力データに対しては予測できるけど、その範囲外については予測できない（仮に予測結果が当たったとしてもそれは根拠がない）」

というものがあり、学習したデータセットの最大値と最小値の範囲内のことを内挿、範囲外のこと外挿といいます。

これは一見すると当たり前のことのように見えますが、意外と気づかないことが現場でも少なくありません。

言葉だけではイメージしにくい方は、下記リンクも参考ください。
image.itmedia.co.jp

さて内挿の範囲が定義されれば、AIの予測可能な定義ができるのでしょうか？

内挿の範囲だけでは不十分です。

不十分な具体例をあげながら、次に重要となる「モデルの適用範囲」について解説します。

例えば下図のような場合はどうでしょうか？

どちらも同じ内挿範囲ですが、右側の図は直感的にも予測が難しい領域があることがわかります。

なぜこの領域が難しいかといえば、端的に「学習した経験がない領域」だからです。

内挿範囲内におけるデータの分布、いわゆる「データ密度」が重要となります。

これを「モデルの適用範囲」といいます。

参考にした記事のURLを貼っておきます。
datachemeng.com

以上より、AIの予測可能領域とは、

「内挿範囲内かつ十分なデータ密度をもつ領域」　となります。

この領域に対しては信頼性高く予測することができます。

逆にそれ以外の範囲に関しての予測結果は信憑性がありません。

仮に予測があたっていたとしても、AIが学習した関数にたまたま当たったというだけです。

この運よく（？）当たってしまったがために、勘違いをしてしまう現場も少なくありません。（体験あり）

AIの性能を正しく把握するためにも、予測可能領域はしっかり定義したいですね。

今回は以上です。

技術は使ってなんぼ