AI基礎知識

教師あり学習

教師あり学習とは、正解がわかっているデータを元に、そのデータのルールやパターンを学習し、分析モデルとして出力する機械学習の一つの手法。学習データが「例題と答え」という形式に整理されており、例題を入力すると対応する答えを出力するようにモデルを訓練していく。学習と認識・予測の2段階のプロセスで構成されており、このプロセスを実現するアルゴリズムとして回帰と分類が使用される。なお、ディープラーニングとは、教師あり学習を発展させたもの。

解や最適とされる答えが明確になる問題に関しては、教師あり学習は大きな効果を発揮する。そのため、教師なし学習に比べ、教師あり学習のほうが学習精度は高く、基本的には教師あり学習が用いられる機会が多い。

しかし、「ゴミを入れたら、ゴミしか出てこない」と言われるように、正解となるデータの質が悪ければ、それをもとに学習を行うAIの学習精度が悪くなる。どのようなデータを学習させるかによって、AIがどのようなパターンを抽出するかが変わり、それに伴い、未知の情報を入力したときの出力結果も変わる。

AIの学習には多くの時間を費やすことが多く、質の悪い正解データを用いてしまうと学習に費やした時間と手間が無駄になりかねない。その上、学習精度を高めるために多くのデータを準備しなければならないため、教師あり学習をスタートさせるまでには時間や手間がかかる。

教師なし学習

あらかじめ「何を出力すべきか」が与えられていない。履歴ラベルが存在しないデータに対してコンピューターが学習を実行する。Amazonの「あなたへのおすすめ」機能のように、AIに教師なし学習アルゴリズムで情報を学習させることで、カスタマーの嗜好性を分析する。

半教師あり学習

ラベル付きデータとラベルなしデータの両方を使って学習を行なってトレーニングを行う。
教師あり学習のように大量のデータにラベルをつけると手間がかかる場合でも、半分だけにラベルをつけて残りはラベルなしで学習させることで、労力を減らすことができる。

分類

答え(出力)がラベルや離散値であるようなデータを用いれば分類問題に適用


回帰

実数などの連続値を取るようなデータを用いれば予測や推論を行うための回帰問題に適用

ファンクション(関数)

引数

特徴量=説明変数

対象の特徴が数値化されたもののこと。大量のデータをコンピュータに学習させる機械学習では、データのどの部分を参考にしてパターンを見つけ出せば良いかの指標となる特徴量を指定する必要がある。

次元

特徴量の数が少ないと、コンピュータはやはり十分なパターンを学習ができない。AIに大量のデータを学習させて、そこに含まれるパターンや一貫性を抽出しようとするとき、特徴量が1つでは物足りない。
そのため、機械学習においては、複数の特徴量からデータを学習させていく。この特徴量の数が「次元」。年齢と年収、性別を特徴量にする場合は3次元、そこに出身地を入れる場合は4次元といった具合です。関連性の高いより多くの特徴量を組み合わせ、高次元のデータを学習させることでAIの精度が上がっていく。

ルールベースAI

既知の事項をAI化する技術。自立学習をせず、人がAIに全て教える。そのため、形式知でなければAIに教育できない。社内の定型的で反復性の高い知的判断業務にルールベースAIを活用すれば、作業がすべて自動化され、生産性が大きく向上する。教育されていない事柄は判断や決定できないものの、企業での業務は「ルール化」の繰り返しであるため、ルールベースAIにより企業の知的判断の自動化を実現できる。

次元の呪い

次元の数が増えるほど、正確に一般化するために必要な訓練データの量が「指数関数」的に増えてしまうこと。特徴量が多いと不要なノイズも多いということなので、ニューラルネットワークではそういったノイズにまで適合してしまうため過学習してしてしまい、高い精度のモデルが作れなくなる。そのため、有効な特徴量の組み合わせを選択したり、複数の特徴量を1つにまとめたりする必要がある。

アノテーション

データをコンピュータが理解し、学習できるように整理する作業のこと。データにタグをつける作業といえる。データに意味付け・紐付けを行い、お互いに組み合わせる役割を持っている。教師あり学習において、アノテーションは正答率(精度)に大きく影響する。

大量のデータを学習し、法則性などを学習することで、正解がまだわからない新たなデータを新たにインプットして、学習時に決められたルールやパターンを元に認識・予測できる。この分析モデルを作る際、アノテーションは重要な作業となる。

ラベル

labels:正解ラベル、Ground Truth:正解、教師データ:labeled training data

ノイズ除去

学習用データのノイズは学習モデルの精度を下げる可能性がある。そのため、データのノイズを除去することによって、AIは予測対象に関連のある特徴のみを学習できるようになり、予測の精度を向上させることができる。また、学習データを縮小することによって学習にかかる時間を短縮できる、モデルの構造を単純化し理解しやすくできる、という効果もある。

訓練データ

AI開発者は80%の時間をデータの整備に費やしている

強化学習

複数のデータを用いて反復的に学習し、そこに潜むパターンをコンピューターが帰納法的に見つけ出す。機械学習の1種であるディープラーニングにおいては、特徴量の指定というタスクが軽減される。パターン認識技術により、類似性、共通点、法則性を見つけることにより、学習した結果をモデル化し、新たなデータにあてはめ、パターンに従って未来予測を行うこともできるようになり、その結果、予測分析を自動化することもできる。

特徴量の質と量

データは数だけでなく、質も重要。この入力データの質を決める大きな要因が、特徴量。
特徴量の質が悪いと、いくらデータを学習させても精度の高いモデルにはならず、見当違いの結果を出力してしまう。特徴量の質は、どんな特徴量を選択するかはもちろん、データの形式がきちんと揃っていることなどでも変わってくる。

特徴量選択

データの次元を削減する次元削減。代表的な手法としては、主成分分析というものがある。これは、多次元のデータをできるだけ情報を損なわずに低次元に情報を縮約する手法である。

ドメイン知識
目的変数

機械学習の教師あり学習において求めたい(予測したい)変数のこと。

説明変数

機械学習の教師あり学習において目的変数に作用する変数のこと。

103 thoughts on “AI基礎知識

Leave a Reply

Your email address will not be published. Required fields are marked *