Apprentissage supervisé : comment apprendre aux machines à nous aider

Publié: 2021-02-11

Vous pouvez considérer l'apprentissage supervisé comme un enseignant supervisant l'ensemble du processus d'apprentissage.

C'est l'une des façons les plus courantes d'apprendre des machines, et c'est un outil inestimable dans le domaine de l'intelligence artificielle. Ce processus d'apprentissage est comparable à une relation élève-enseignant, bien que les machines ne soient pas aussi têtues que les humains.

Si vous venez d'entrer dans le monde de l'intelligence artificielle, l'apprentissage supervisé n'est peut-être pas un terme que vous avez déjà rencontré. En bref, il s'agit d'une stratégie d'apprentissage automatique qui permet aux systèmes d'IA d'apprendre et de progresser.

Qu'est-ce que l'apprentissage supervisé ?

L'apprentissage supervisé est une sous-catégorie de l'apprentissage automatique qui utilise des ensembles de données étiquetés pour former des algorithmes. Il s'agit d'une approche d'apprentissage automatique dans laquelle le programme reçoit des données d'entrée étiquetées ainsi que les résultats de sortie attendus.

En termes simples, les algorithmes d'apprentissage supervisé sont conçus pour apprendre par l'exemple. Ces exemples sont appelés données d'apprentissage et chaque exemple est une paire d'un objet d'entrée et de la valeur de sortie souhaitée. La paire de données d'entrée et de sortie introduites dans le système est généralement appelée données étiquetées .

En fournissant des données étiquetées, vous montrez à une machine les liens entre différentes variables et les résultats connus. Avec l'apprentissage supervisé, le système d'IA est explicitement informé de ce qu'il doit rechercher dans les données d'entrée données. Cela permet aux algorithmes de s'améliorer périodiquement et de créer des modèles d'apprentissage automatique capables de prédire les résultats ou de classer les données avec précision lorsqu'elles sont présentées avec des données inconnues.

Généralement, trois ensembles de données sont utilisés à différentes étapes du processus de création du modèle :

Ensemble de données d'entraînement : les exemples de données utilisés pour entraîner le modèle. En d'autres termes, il s'agit d'un ensemble d'exemples de formation utilisés pour ajuster les paramètres du modèle.
Ensemble de données de validation : l'échantillon de données utilisé pour fournir une évaluation impartiale de l'ajustement d'un modèle sur l'ensemble de données d'apprentissage
Ensemble de données de test : les données d'échantillon utilisées pour fournir une évaluation impartiale d'un modèle final adapté à l'ensemble de données d'apprentissage

L'ajustement du modèle fait référence à la mesure dans laquelle le modèle se généralise à des données similaires à celles sur lesquelles il a été formé. Un modèle bien ajusté produit des résultats précis ; un modèle surajusté correspond trop étroitement aux données ; un modèle sous-ajusté ne correspond pas suffisamment aux données.

Comment fonctionne l'apprentissage supervisé?

La formation joue un rôle central dans l'apprentissage supervisé. Pendant la phase de formation, le système d'IA est alimenté avec de vastes volumes de données de formation étiquetées. Comme mentionné précédemment, les données d'apprentissage indiquent au système à quoi la sortie souhaitée doit ressembler à partir de chaque valeur d'entrée distincte.

Le modèle entraîné reçoit ensuite les données de test . Cela permet aux scientifiques des données de déterminer l'efficacité de la formation et la précision du modèle. La précision d'un modèle dépend de la taille et de la qualité de l'ensemble de données d'apprentissage et de l'algorithme utilisé.

Cependant, une grande précision n'est pas toujours une bonne chose. Par exemple, une précision élevée peut signifier que le modèle souffre d'un surajustement - une erreur de modélisation ou l'optimisation incorrecte d'un modèle lorsqu'il est trop adapté à son ensemble de données d'entraînement et peut même entraîner des faux positifs.

Dans un tel cas, le modèle pourrait fonctionner remarquablement bien dans des scénarios de test, mais pourrait ne pas fournir de sortie correcte dans des circonstances réelles. Pour éliminer les risques de surajustement, assurez-vous que les données de test sont entièrement différentes des données d'entraînement. Vérifiez également que le modèle ne tire pas de réponses de son expérience précédente.

Les exemples de formation doivent également être diversifiés. Sinon, lorsqu'il est présenté avec des cas jamais vus auparavant, le modèle ne fonctionnera pas.

Dans le contexte de la science des données et de l'exploration de données (le processus de transformation de données brutes en informations utiles), l'apprentissage supervisé peut être divisé en deux types : la classification et la régression .

Un algorithme de classification essaie de déterminer la catégorie ou la classe des données qui lui sont présentées. La classification des spams par e-mail, la vision par ordinateur et la classification des médicaments sont quelques-uns des exemples courants de problèmes de classification.

D'autre part, les algorithmes de régression tentent de prédire la valeur de sortie en fonction des caractéristiques d'entrée des données fournies. Prédire les taux de clics des publicités numériques et prédire le prix d'une maison en fonction de ses caractéristiques sont quelques-uns des problèmes de régression courants.

Apprentissage supervisé vs non supervisé vs semi-supervisé

L'une des meilleures façons de comprendre la différence entre l'apprentissage supervisé et non supervisé est de regarder comment vous apprendriez à jouer à un jeu de société - disons aux échecs.

apprentissage supervisé vs non supervisé vs semi-supervisé

Une option consiste à embaucher un tuteur d'échecs. Un tuteur vous apprendra à jouer au jeu d'échecs en vous expliquant les règles de base, ce que fait chaque pièce d'échecs, et plus encore. Une fois que vous connaissez les règles du jeu et la portée de chaque pièce, vous pouvez continuer et vous entraîner en jouant contre le tuteur.

Le tuteur superviserait vos mouvements et vous corrigerait chaque fois que vous feriez des erreurs. Une fois que vous avez accumulé suffisamment de connaissances et de pratique, vous pouvez commencer à jouer de manière compétitive contre d'autres.

Ce processus d'apprentissage est comparable à l'apprentissage supervisé . En apprentissage supervisé, un data scientist agit comme un tuteur et forme la machine en alimentant les règles de base et la stratégie globale.

Si vous ne voulez pas engager de tuteur, vous pouvez toujours apprendre le jeu d'échecs. Une façon est de regarder les autres jouer au jeu. Vous ne pouvez probablement pas leur poser de questions, mais vous pouvez regarder et apprendre à jouer au jeu.

Bien que vous ne connaissiez pas les noms de chaque pièce d'échecs, vous pouvez apprendre comment chaque pièce se déplace en observant le jeu. Plus vous regardez de jeux, mieux vous comprenez et plus vous vous familiarisez avec les différentes stratégies que vous pouvez adopter pour gagner.

Ce processus d'apprentissage est similaire à l'apprentissage non supervisé . Le data scientist laisse la machine apprendre en observant. Bien que la machine ne connaisse pas les noms ou les étiquettes spécifiques, elle sera capable de trouver des motifs par elle-même.

En termes simples, l'apprentissage non supervisé se produit lorsqu'un algorithme reçoit un ensemble de données d'apprentissage qui ne contient que les données d'entrée et aucune donnée de sortie correspondante.

Comme vous pouvez le voir, les deux méthodes d'apprentissage ont des forces et des faiblesses notables.

Pour un apprentissage supervisé, vous avez besoin d'un tuteur compétent qui pourrait enseigner à la machine les règles et la stratégie. Dans l'exemple des échecs, cela signifie que vous avez besoin d'un tuteur pour apprendre le jeu. Sinon, vous pourriez finir par mal apprendre le jeu.

Dans le cas de l'apprentissage non supervisé, vous avez besoin de vastes volumes de données pour que la machine puisse observer et apprendre. Bien que les données non étiquetées soient bon marché (et abondantes) et faciles à collecter et à stocker, elles doivent être dépourvues de données en double ou inutiles. Des données erronées ou incomplètes peuvent également entraîner un biais d'apprentissage automatique - un phénomène dans lequel les algorithmes produisent des résultats discriminatoires.

Dans l'exemple des échecs, si vous apprenez en observant d'autres joueurs, cela signifie que vous devez regarder des dizaines de parties avant de comprendre. De plus, si vous regardez des joueurs qui jouent mal au jeu, vous pourriez finir par faire la même chose.

Ensuite, il y a l' apprentissage semi-supervisé .

Comme vous l'avez peut-être deviné, l'apprentissage semi-supervisé est un mélange d'apprentissage supervisé et non supervisé. Dans ce processus d'apprentissage, un scientifique des données forme un peu la machine afin qu'elle acquière une vue d'ensemble de haut niveau. La machine apprend alors les règles et la stratégie en observant les modèles. Un petit pourcentage des données d'entraînement sera étiqueté et le reste ne sera pas étiqueté.

Dans l'exemple de l'apprentissage des échecs, l'apprentissage semi-supervisé serait similaire à un tuteur vous expliquant uniquement les bases et vous permettant d'apprendre en jouant de manière compétitive.

Un autre processus d'apprentissage est l'apprentissage par renforcement (RL) . Il s'agit d'une stratégie d'apprentissage automatique dans laquelle un système d'IA est confronté à une situation semblable à celle d'un jeu. Pour enseigner l'IA, un programmeur utilise une technique de récompense-sanction, dans laquelle le système doit se concentrer sur la prise d'actions appropriées pour maximiser la récompense et éviter les pénalités.

Algorithmes d'apprentissage supervisé

De nombreuses techniques de calcul et algorithmes sont utilisés dans le processus d'apprentissage supervisé.

Lors du choix d'un algorithme d'apprentissage automatique supervisé, les facteurs suivants sont généralement pris en compte :

La complexité du modèle que le système essaie d'apprendre
Biais et variance qui existent dans l'algorithme
Taille des données d'entraînement
Exactitude, hétérogénéité, redondance et linéarité des données
Temps disponible pour s'entraîner

Voici quelques-uns des algorithmes d'apprentissage automatique supervisés courants que vous rencontrerez.

Régression linéaire

La régression linéaire est à la fois un algorithme statistique et un algorithme d'apprentissage automatique. C'est un algorithme qui tente de modéliser la relation entre deux variables en attachant une équation linéaire aux données observées. Sur les deux variables, l'une est considérée comme une variable explicative et l'autre comme une variable dépendante.

La régression linéaire peut également être utilisée pour identifier la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Dans le domaine de l'apprentissage automatique, la régression linéaire est utilisée pour faire des prédictions.

Régression logistique

La régression logistique est un modèle mathématique utilisé pour estimer la probabilité d'un événement sur la base des données précédentes fournies. La notation du crédit et la détection des fraudes aux transactions en ligne sont quelques-unes des applications réelles de cet algorithme. En d'autres termes, il s'agit d'un algorithme d'analyse prédictive basé sur les concepts de probabilité utilisés pour résoudre des problèmes de classification binaire.

Tout comme la régression logistique, la régression linéaire a également été empruntée au domaine des statistiques. Cependant, contrairement à la régression linéaire qui fonctionne avec des variables dépendantes continues, la régression logistique fonctionne avec des données binaires, telles que "vrai" ou "faux".

Les réseaux de neurones

Les réseaux de neurones artificiels (ANN) sont principalement utilisés par les algorithmes d'apprentissage en profondeur. Il s'agit d'une série d'algorithmes qui imitent les fonctions du cerveau humain pour reconnaître les relations entre de vastes volumes de données. Comme vous l'avez peut-être deviné, les ANN sont essentiels pour les systèmes d'intelligence artificielle.

Les réseaux de neurones sont constitués de couches de plusieurs nœuds. Chaque nœud se compose d'entrées, de poids, de biais et de sorties. Un ANN est formé en ajustant les poids d'entrée en fonction des performances du réseau. Par exemple, si le réseau de neurones classe correctement une image, les poids contribuant à la bonne réponse sont augmentés tandis que les autres poids sont diminués.

Bayes naïf

Naive Bayes est une méthode de classification basée sur le principe d'indépendance conditionnelle de classe du théorème de Bayes. En termes plus simples, l'approche du classificateur Naive Bayes suppose que la présence d'une caractéristique spécifique dans une classe n'a pas d'impact sur la présence d'une autre caractéristique.

Par exemple, un fruit peut être considéré comme une pomme s'il est de couleur rouge, rond et d'environ trois pouces de diamètre. Même si ces caractéristiques dépendent les unes des autres, toutes ces propriétés contribuent individuellement à la probabilité que le fruit même soit une pomme.

Le modèle Naive Bayes est utile lorsqu'il s'agit de grands ensembles de données. Il est facile à construire, rapide et est connu pour être encore plus performant que les méthodes de classification avancées.

Machine à vecteurs de support (SVM)

La machine à vecteurs de support (SVM) est un algorithme d'apprentissage automatique supervisé bien connu développé par Vladimir Vapnik. Bien qu'elles soient principalement utilisées pour les problèmes de classification, les SVM peuvent également être utilisées pour la régression.

Les SVM sont construits sur l'idée de trouver un hyperplan qui divise au mieux un ensemble de données donné en deux classes. Un tel hyperplan est appelé frontière de décision et sépare les points de données de chaque côté. La détection de visage, la catégorisation de texte, la classification d'images sont quelques-unes des nombreuses applications réelles de SVM.

K-plus proches voisins (KNN)

L'algorithme K-plus proches voisins (KNN) est un algorithme d'apprentissage automatique supervisé utilisé pour résoudre des problèmes de régression et de classification. C'est un algorithme qui regroupe les points de données en fonction de leur proximité et de leur relation avec d'autres données.

Il est facile à comprendre, simple à mettre en œuvre et a un faible temps de calcul. Cependant, l'algorithme devient particulièrement lent à mesure que la taille des données utilisées augmente. KNN est généralement utilisé pour les systèmes de reconnaissance et de recommandation d'images.

Forêt aléatoire

La forêt aléatoire est une méthode d'apprentissage qui consiste en un grand nombre d'arbres de décision fonctionnant comme un ensemble (l'utilisation de plusieurs algorithmes d'apprentissage pour obtenir de meilleures performances prédictives). Chaque arbre de décision fournit une prédiction de classe, et la classe avec les votes les plus élevés devient la prédiction du modèle.

L'algorithme de forêt aléatoire est largement utilisé dans le domaine boursier, bancaire et médical. Par exemple, il peut être utilisé pour identifier les clients les plus susceptibles de rembourser leur dette à temps.

Exemples d'apprentissage supervisé

Comme mentionné précédemment, la prévision des prix des maisons, les taux de clics des publicités en ligne et même la volonté d'un client de payer pour un produit particulier sont quelques-uns des exemples notables de modèles d'apprentissage supervisé.

Voici quelques exemples supplémentaires que vous pourriez rencontrer dans la vie quotidienne.

Analyse du sentiment : une technique de traitement du langage naturel utilisée pour déterminer le sentiment du produit et comprendre les besoins des clients
Reconnaissance d'images : une technique utilisée pour localiser, identifier et catégoriser des objets dans des vidéos et des images
Détection de spam : la méthode de classification du contenu spam et non-spam en reconnaissant les modèles et les anomalies dans les données

Apprendre aux machines à penser

En exploitant les données étiquetées, les algorithmes d'apprentissage supervisé peuvent créer des modèles capables de classer facilement les mégadonnées et même de faire des prédictions sur les résultats futurs. C'est une brillante technique d'apprentissage qui introduit les machines dans le monde humain.

En parlant d'apprendre des techniques pour rendre les machines intelligentes, vous êtes-vous déjà demandé de quoi les systèmes d'intelligence artificielle dont nous disposons aujourd'hui sont vraiment capables ? Si oui, nourrissez votre curiosité en lisant plus sur l'IA étroite.