教師あり学習: 機械に教えて助けてもらう方法

公開: 2021-02-11

教師あり学習は、教師が学習プロセス全体を監督していると考えることができます。

これは機械が学習する最も一般的な方法の 1 つであり、人工知能の分野では非常に貴重なツールです。機械は人間ほど頑固ではありませんが、この学習プロセスは生徒と教師の関係に匹敵します。

人工知能の世界に足を踏み入れたばかりの場合、教師あり学習は以前に出くわした用語ではないかもしれません。簡単に言えば、AI システムの学習と進歩を可能にする機械学習戦略です。

教師あり学習とは

教師あり学習は、ラベル付きデータセットを使用してアルゴリズムをトレーニングする機械学習のサブカテゴリです。これは、期待される出力結果とともに、ラベル付きの入力データがプログラムに与えられる機械学習アプローチです。

簡単に言えば、教師あり学習アルゴリズムは例によって学習するように設計されています。このような例はトレーニングデータと呼ばれ、各例は入力オブジェクトと目的の出力値のペアです。システムに供給される入力データと出力データのペアは、一般にラベル付きデータと呼ばれます。

ラベル付きデータをフィードすることで、さまざまな変数と既知の結果との関係をマシンに示します。教師あり学習では、AI システムは、指定された入力データで何を探すべきかを明示的に伝えられます。これにより、アルゴリズムが定期的に改善され、不慣れなデータが提示されたときに結果を予測したり、データを正確に分類したりできる機械学習モデルを作成できます。

通常、モデル作成プロセスのさまざまな段階で 3 つのデータセットが使用されます。

トレーニングデータセット:モデルのトレーニングに使用されるサンプルデータ。つまり、モデルのパラメーターを適合させるために使用されるトレーニング例のセットです。
検証データセット:トレーニングデータセットに適合するモデルの公平な評価を提供するために使用されるサンプルデータ
テストデータセット:トレーニングデータセットに適合する最終的なモデルの偏りのない評価を提供するために使用されるサンプルデータ

モデルフィッティングとは、モデルがトレーニングされたデータと同様のデータにどの程度一般化されるかの尺度を指します。よく適合したモデルは正確な結果を生成します。過適合モデルはデータと一致しすぎます。適合不足のモデルは、データと十分に一致していません。

教師あり学習はどのように機能しますか?

トレーニングは、教師あり学習において極めて重要な役割を果たします。トレーニングフェーズでは、AI システムに膨大な量のラベル付きトレーニングデータが供給されます。前述のように、トレーニングデータは、それぞれの入力値から望ましい出力がどのようになるべきかをシステムに指示します。

次に、トレーニング済みのモデルにテストデータが与えられます。これにより、データサイエンティストはトレーニングの有効性とモデルの精度を判断できます。モデルの精度は、トレーニングデータセットのサイズと品質、および使用されるアルゴリズムに依存します。

ただし、精度が高いことが必ずしも良いことではありません。たとえば、精度が高いということは、モデルがオーバーフィッティングに苦しんでいることを意味している可能性があります。つまり、トレーニングデータセットに過度に調整された場合のモデリングエラーまたはモデルの不適切な最適化であり、誤検知が発生する可能性さえあります。

このような場合、モデルはテストシナリオでは非常にうまく機能する可能性がありますが、実際の環境では正しい出力を提供できない可能性があります。オーバーフィッティングの可能性をなくすには、テストデータがトレーニングデータと完全に異なることを確認してください。また、モデルが以前の経験から答えを引き出していないことを確認してください。

トレーニングの例も多様である必要があります。そうしないと、これまでにないケースが提示されたときに、モデルが機能しなくなります。

データサイエンスとデータマイニング (生データを有用な情報に変換するプロセス) のコンテキストでは、教師あり学習はさらに分類と回帰の 2 つのタイプに分けることができます。

分類アルゴリズムは、提示されたデータのカテゴリまたはクラスを決定しようとします。電子メールスパムの分類、コンピュータービジョン、および薬物の分類は、分類の問題の一般的な例の一部です。

一方、回帰アルゴリズムは、提供されたデータの入力機能に基づいて出力値を予測しようとします。デジタル広告のクリック率を予測し、その特徴に基づいて家の価格を予測することは、一般的な回帰問題の一部です。

教師あり学習、教師なし学習、半教師あり学習

教師あり学習と教師なし学習の違いを理解する最良の方法の 1 つは、ボードゲーム (チェスとしましょう) をプレイする方法を調べることです。

教師あり学習と教師なし学習と半教師あり学習

1 つのオプションは、チェスの家庭教師を雇うことです。家庭教師がチェスの基本的なルール、各駒の役割などを説明することで、チェスの遊び方を教えてくれます。ゲームのルールと各ピースの範囲を理解したら、先に進み、チューターと対戦して練習できます。

チューターはあなたの動きを監督し、間違いを犯すたびに修正します。十分な知識と練習を積んだら、他のプレイヤーと対戦することができます。

この学習プロセスは、教師あり学習に匹敵します。教師あり学習では、データサイエンティストがチューターのように振る舞い、基本的なルールと全体的な戦略を与えることでマシンをトレーニングします。

家庭教師を雇いたくない場合でも、チェスのゲームを学ぶことができます。 1 つの方法は、他の人がゲームをプレイしているのを見ることです。おそらく彼らに質問することはできませんが、ゲームを見て、ゲームのプレイ方法を学ぶことができます。

チェスの駒の名前を知らなくても、ゲームを観察することで各駒の動きを知ることができます。試合を観れば観るほど、理解が深まり、勝つために採用できるさまざまな戦略について知識が深まります。

この学習プロセスは、教師なし学習に似ています。データサイエンティストは、観察することで機械に学習させます。マシンは特定の名前やラベルを認識していませんが、独自にパターンを見つけることができます。

簡単に言えば、教師なし学習とは、入力データのみを含み、対応する出力データを含まないトレーニングデータセットがアルゴリズムに与えられる場合です。

ご覧のとおり、どちらの学習方法にも顕著な長所と短所があります。

教師あり学習の場合、マシンにルールと戦略を教えることができる知識豊富なチューターが必要です。チェスの例では、これはゲームを学ぶために家庭教師が必要であることを意味します。そうしないと、ゲームを間違って学習してしまう可能性があります。

教師なし学習の場合、機械が観察して学習するために膨大な量のデータが必要になります。ラベル付けされていないデータは安価 (かつ豊富) であり、収集と保存が容易ですが、重複したデータや不要なデータがないようにする必要があります。欠陥のあるデータや不完全なデータは、機械学習バイアス(アルゴリズムが差別的な結果を生み出す現象) を引き起こす可能性もあります。

チェスの例で言えば、他のプレイヤーを観察して学習している場合、理解するまでに何十回も試合を観戦する必要があります。また、ゲームを間違ってプレイしているプレイヤーを見ていると、同じことをしてしまう可能性があります.

次に、半教師あり学習があります。

ご想像のとおり、半教師あり学習は、教師あり学習と教師なし学習を組み合わせたものです。この学習プロセスでは、データサイエンティストが機械を少しだけトレーニングして、大まかな概要を把握できるようにします。次に、機械はパターンを観察することでルールと戦略を学習します。トレーニングデータのごく一部がラベル付けされ、残りはラベル付けされません。

チェスの学習の例で言えば、半教師あり学習は家庭教師が基礎だけを説明し、対戦を通じて学習させることに似ています。

もう 1 つの学習プロセスは強化学習 (RL)です。これは、AI システムがゲームのような状況に直面する機械学習戦略です。 AI に教えるために、プログラマーは報酬とペナルティの手法を使用します。この手法では、システムは報酬を最大化し、ペナルティを回避するために適切なアクションを実行することに集中する必要があります。

教師あり学習アルゴリズム

教師あり学習プロセスでは、多数の計算手法とアルゴリズムが使用されます。

教師あり機械学習アルゴリズムを選択する場合、一般的に次の要因が考慮されます。

システムが学習しようとしているモデルの複雑さ
アルゴリズム内に存在するバイアスと分散
トレーニングデータのサイズ
データの正確性、異質性、冗長性、直線性
トレーニング可能時間

ここでは、一般的な教師あり機械学習アルゴリズムをいくつか紹介します。

線形回帰

線形回帰は、統計アルゴリズムと機械学習アルゴリズムの両方です。これは、観測データに線形方程式を適用することで、2 つの変数間の関係をモデル化しようとするアルゴリズムです。 2 つの変数のうち、1 つは説明変数、もう 1 つは従属変数と見なされます。

線形回帰は、従属変数と 1 つ以上の独立変数の間の関係を識別するためにも使用できます。機械学習の分野では、予測を行うために線形回帰が使用されます。

ロジスティック回帰

ロジスティック回帰は、提供された以前のデータに基づいてイベントの確率を推定するために使用される数学的モデルです。クレジットスコアリングとオンライントランザクションの不正検出は、このアルゴリズムの実際のアプリケーションの一部です。つまり、バイナリ分類の問題を解決するために使用される確率の概念に基づく予測分析アルゴリズムです。

ロジスティック回帰と同様に、線形回帰も統計学の分野から借用されました。ただし、連続従属変数で機能する線形回帰とは異なり、ロジスティック回帰は「真」または「偽」などのバイナリデータで機能します。

ニューラルネットワーク

人工ニューラルネットワーク (ANN) は、主にディープラーニングアルゴリズムで使用されます。これらは、膨大な量のデータ間の関係を認識するために人間の脳の機能を模倣する一連のアルゴリズムです。ご想像のとおり、ANN は人工知能システムにとって重要です。

ニューラルネットワークは、複数のノードのレイヤーで構成されています。各ノードは、入力、重み、バイアス、および出力で構成されます。 ANN は、ネットワークのパフォーマンスに基づいて入力の重みを調整することによってトレーニングされます。たとえば、ニューラルネットワークが画像を正しく分類した場合、正解に寄与する重みは増加し、他の重みは減少します。

単純ベイズ

Naive Bayesは、ベイズの定理のクラスの条件付き独立性の原則に基づく分類方法です。簡単に言えば、単純ベイズ分類器アプローチは、クラス内の特定の機能の存在が他の機能の存在に影響を与えないことを前提としています。

たとえば、果物の色が赤く、丸く、直径が約 3 インチの場合、リンゴと見なすことができます。これらの特徴が相互に依存している場合でも、これらのすべての特性は、果物がリンゴである確率に個別に寄与します。

Naive Bayes モデルは、大規模なデータセットを扱う場合に役立ちます。簡単に構築でき、高速で、高度な分類方法よりも優れたパフォーマンスを発揮することが知られています。

サポートベクターマシン (SVM)

サポートベクターマシン (SVM)は、Vladimir Vapnik によって開発された有名な教師あり機械学習アルゴリズムです。主に分類問題に使用されますが、SVM は回帰にも使用できます。

SVM は、特定のデータセットを 2 つのクラスに最適に分割する超平面を見つけるという考えに基づいて構築されています。このような超平面は決定境界と呼ばれ、データポイントをいずれかの側に分離します。顔検出、テキストの分類、画像の分類は、SVM の多くの実世界でのアプリケーションの一部です。

K最近傍 (KNN)

K 最近傍 (KNN)アルゴリズムは、回帰および分類の問題を解決するために使用される教師付き機械学習アルゴリズムです。これは、他のデータとの近接性と関係に基づいてデータポイントをグループ化するアルゴリズムです。

理解しやすく、実装も簡単で、計算時間も短いです。ただし、使用するデータのサイズが大きくなると、アルゴリズムは著しく遅くなります。 KNN は、一般的に画像認識およびレコメンデーションシステムに使用されます。

ランダムフォレスト

ランダムフォレストは、アンサンブルとして動作する多数の決定木で構成される学習方法です (複数の学習アルゴリズムを使用して、予測パフォーマンスを向上させます)。各ディシジョンツリーはクラス予測を提供し、投票数が最も多いクラスがモデルの予測になります。

ランダムフォレストアルゴリズムは、株式市場、銀行、医療の分野で広く使用されています。たとえば、期限内に借金を返済する可能性が高い顧客を特定するために使用できます。

教師あり学習の例

前述のように、住宅価格、オンライン広告のクリック率、さらには特定の製品に対する顧客の支払い意思の予測は、教師あり学習モデルの注目すべき例の一部です。

日常生活で遭遇するかもしれないいくつかの例を次に示します。

感情分析:製品の感情を判断し、顧客のニーズを理解するために使用される自然言語処理技術
画像認識:ビデオや画像内のオブジェクトを見つけ、識別し、分類するために使用される技術
スパム検出:データのパターンと異常を認識して、スパムコンテンツと非スパムコンテンツを分類する方法

機械に思考を教える

教師あり学習アルゴリズムは、ラベル付けされたデータを活用することで、ビッグデータを簡単に分類できるモデルを作成し、将来の結果を予測することさえできます。これは、機械を人間の世界に導入する素晴らしい学習技術です。

機械を賢くするための学習技術について言えば、今日の人工知能システムが本当にどのような能力を持っているのか疑問に思ったことはありませんか? もしそうなら、狭い AI についてもっと読んで、好奇心を養ってください。