Aprendizaje supervisado: cómo enseñar a las máquinas a que nos ayuden

Publicado: 2021-02-11

Puede pensar en el aprendizaje supervisado como un maestro que supervisa todo el proceso de aprendizaje.

Es una de las formas más comunes en que las máquinas aprenden y es una herramienta invaluable en el campo de la inteligencia artificial. Este proceso de aprendizaje es comparable a una relación estudiante-maestro, aunque las máquinas no son tan tercas como los humanos.

Si acaba de ingresar al mundo de la inteligencia artificial, es posible que el aprendizaje supervisado no sea un término con el que se haya encontrado anteriormente. En resumen, es una estrategia de aprendizaje automático que permite que los sistemas de IA aprendan y progresen.

¿Qué es el aprendizaje supervisado?

El aprendizaje supervisado es una subcategoría del aprendizaje automático que utiliza conjuntos de datos etiquetados para entrenar algoritmos. Es un enfoque de aprendizaje automático en el que el programa recibe datos de entrada etiquetados junto con los resultados de salida esperados.

En pocas palabras, los algoritmos de aprendizaje supervisado están diseñados para aprender con el ejemplo. Dichos ejemplos se conocen como datos de entrenamiento y cada ejemplo es un par de un objeto de entrada y el valor de salida deseado. El par de datos de entrada y salida que ingresan al sistema generalmente se conoce como datos etiquetados .

Al alimentar datos etiquetados, le muestra a una máquina las conexiones entre diferentes variables y resultados conocidos. Con el aprendizaje supervisado, al sistema de IA se le dice explícitamente qué buscar en los datos de entrada dados. Esto permite que los algoritmos mejoren periódicamente y creen modelos de aprendizaje automático que pueden predecir resultados o clasificar datos con precisión cuando se presentan con datos desconocidos.

Generalmente, se utilizan tres conjuntos de datos en diferentes etapas del proceso de creación del modelo:

Conjunto de datos de entrenamiento: los datos de muestra utilizados para entrenar el modelo. En otras palabras, es un conjunto de ejemplos de entrenamiento utilizados para ajustar los parámetros del modelo.
Conjunto de datos de validación: los datos de muestra utilizados para proporcionar una evaluación imparcial del ajuste de un modelo en el conjunto de datos de entrenamiento
Conjunto de datos de prueba: los datos de muestra utilizados para proporcionar una evaluación imparcial de un ajuste de modelo final en el conjunto de datos de entrenamiento

El ajuste del modelo se refiere a la medida de qué tan bien se generaliza el modelo a datos similares a aquellos en los que se entrenó. Un modelo bien ajustado produce resultados precisos; un modelo sobreajustado coincide demasiado con los datos; un modelo infraajustado no coincide lo suficiente con los datos.

¿Cómo funciona el aprendizaje supervisado?

La formación juega un papel fundamental en el aprendizaje supervisado. Durante la fase de entrenamiento, el sistema de IA recibe grandes volúmenes de datos de entrenamiento etiquetados. Como se mencionó anteriormente, los datos de entrenamiento instruyen al sistema sobre cómo debe ser la salida deseada de cada valor de entrada distinto.

Luego, el modelo entrenado recibe los datos de prueba . Esto permite a los científicos de datos determinar la efectividad del entrenamiento y la precisión del modelo. La precisión de un modelo depende del tamaño y la calidad del conjunto de datos de entrenamiento y del algoritmo utilizado.

Sin embargo, la alta precisión no siempre es algo bueno. Por ejemplo, una alta precisión podría significar que el modelo sufre un sobreajuste : un error de modelado o la optimización incorrecta de un modelo cuando se ajusta demasiado a su conjunto de datos de entrenamiento e incluso puede generar falsos positivos.

En tal caso, el modelo podría funcionar notablemente bien en escenarios de prueba, pero podría fallar en entregar la salida correcta en circunstancias del mundo real. Para erradicar las posibilidades de sobreajuste, asegúrese de que los datos de prueba sean completamente diferentes de los datos de entrenamiento. Además, compruebe que el modelo no extrae respuestas de su experiencia previa.

Los ejemplos de formación también deben ser diversos. De lo contrario, cuando se presenten casos nunca antes vistos, el modelo no funcionará.

En el contexto de la ciencia de datos y la minería de datos (el proceso de convertir datos sin procesar en información útil), el aprendizaje supervisado se puede dividir en dos tipos: clasificación y regresión .

Un algoritmo de clasificación intenta determinar la categoría o clase de los datos que se le presentan. La clasificación de spam de correo electrónico, la visión por computadora y la clasificación de medicamentos son algunos de los ejemplos comunes de problemas de clasificación.

Por otro lado, los algoritmos de regresión intentan predecir el valor de salida en función de las características de entrada de los datos proporcionados. Predecir las tasas de clics de los anuncios digitales y predecir el precio de una casa en función de sus características son algunos de los problemas de regresión comunes.

Aprendizaje supervisado, no supervisado y semisupervisado

Una de las mejores maneras de comprender la diferencia entre el aprendizaje supervisado y no supervisado es observar cómo aprendería a jugar un juego de mesa, digamos ajedrez.

aprendizaje supervisado vs no supervisado vs semi-supervisado

Una opción es contratar a un tutor de ajedrez. Un tutor te enseñará a jugar al ajedrez explicándote las reglas básicas, lo que hace cada pieza de ajedrez y más. Una vez que conozcas las reglas del juego y el alcance de cada pieza, puedes seguir adelante y practicar jugando contra el tutor.

El tutor supervisará tus movimientos y te corregirá cada vez que cometas errores. Una vez que haya adquirido suficiente conocimiento y práctica, puede comenzar a jugar de manera competitiva contra otros.

Este proceso de aprendizaje es comparable al aprendizaje supervisado . En el aprendizaje supervisado, un científico de datos actúa como un tutor y entrena a la máquina al alimentar las reglas básicas y la estrategia general.

Si no desea contratar a un tutor, aún puede aprender el juego de ajedrez. Una forma es ver a otras personas jugar el juego. Probablemente no puedas hacerles ninguna pregunta, pero puedes mirar y aprender a jugar.

A pesar de no saber los nombres de cada pieza de ajedrez, puedes aprender cómo se mueve cada pieza observando el juego. Cuantos más juegos vea, mejor comprenderá y más informado estará sobre las diferentes estrategias que puede adoptar para ganar.

Este proceso de aprendizaje es similar al aprendizaje no supervisado . El científico de datos permite que la máquina aprenda observando. Aunque la máquina no conoce los nombres o etiquetas específicos, podrá encontrar patrones por sí misma.

En pocas palabras, el aprendizaje no supervisado es cuando un algoritmo recibe un conjunto de datos de entrenamiento que contiene solo los datos de entrada y no los datos de salida correspondientes.

Como puede ver, ambos métodos de aprendizaje tienen fortalezas y debilidades notables.

Para el aprendizaje supervisado, necesita un tutor experto que pueda enseñarle a la máquina las reglas y la estrategia. En el ejemplo del ajedrez, esto significa que necesitas un tutor para aprender el juego. Si no, podrías terminar aprendiendo mal el juego.

En el caso del aprendizaje no supervisado, se requieren grandes volúmenes de datos para que la máquina observe y aprenda. Aunque los datos sin etiquetar son baratos (y abundantes) y fáciles de recopilar y almacenar, deben estar libres de datos duplicados o basura. Los datos defectuosos o incompletos también pueden dar lugar a un sesgo de aprendizaje automático , un fenómeno en el que los algoritmos producen resultados discriminatorios.

En el ejemplo del ajedrez, si está aprendiendo observando a otros jugadores, esto significa que necesita ver docenas de juegos antes de entenderlo. Además, si estás observando jugadores que juegan incorrectamente, podrías terminar haciendo lo mismo.

Luego, está el aprendizaje semisupervisado .

Como habrás adivinado, el aprendizaje semisupervisado es una mezcla de aprendizaje supervisado y no supervisado. En este proceso de aprendizaje, un científico de datos entrena un poco a la máquina para que obtenga una visión general de alto nivel. Luego, la máquina aprende las reglas y la estrategia mediante la observación de patrones. Se etiquetará un pequeño porcentaje de los datos de entrenamiento y el resto no se etiquetará.

En el ejemplo de aprender ajedrez, el aprendizaje semisupervisado sería similar a un tutor que le explica solo los conceptos básicos y le permite aprender jugando competitivamente.

Otro proceso de aprendizaje es el aprendizaje por refuerzo (RL) . Es una estrategia de aprendizaje automático en la que un sistema de IA se enfrenta a una situación similar a un juego. Para enseñar la IA, un programador utiliza una técnica de recompensa-penalización, en la que el sistema debe centrarse en tomar las medidas adecuadas para maximizar la recompensa y evitar las penalizaciones.

Algoritmos de aprendizaje supervisado

Numerosas técnicas de cálculo y algoritmos se utilizan en el proceso de aprendizaje supervisado.

Al elegir un algoritmo de aprendizaje automático supervisado, generalmente se consideran los siguientes factores:

La complejidad del modelo que el sistema está tratando de aprender.
Sesgo y varianza que existe dentro del algoritmo.
Tamaño de los datos de entrenamiento
Precisión, heterogeneidad, redundancia y linealidad de los datos.
Tiempo disponible para entrenar

Estos son algunos de los algoritmos comunes de aprendizaje automático supervisado que encontrará.

regresión lineal

La regresión lineal es tanto un algoritmo estadístico como un algoritmo de aprendizaje automático. Es un algoritmo que trata de modelar la relación entre dos variables adjuntando una ecuación lineal a los datos observados. De las dos variables, una se considera una variable explicativa y la otra una variable dependiente.

La regresión lineal también se puede utilizar para identificar la relación entre una variable dependiente y una o más variables independientes. En el ámbito del aprendizaje automático, la regresión lineal se utiliza para hacer predicciones.

Regresión logística

La regresión logística es un modelo matemático utilizado para estimar la probabilidad de un evento en base a los datos previos proporcionados. La calificación crediticia y la detección de fraudes en transacciones en línea son algunas de las aplicaciones reales de este algoritmo. En otras palabras, es un algoritmo de análisis predictivo basado en los conceptos de probabilidad utilizados para resolver problemas de clasificación binaria.

Al igual que la regresión logística, la regresión lineal también se tomó prestada del campo de la estadística. Sin embargo, a diferencia de la regresión lineal que funciona con variables dependientes continuas, la regresión logística funciona con datos binarios, como "verdadero" o "falso".

Redes neuronales

Las redes neuronales artificiales (ANN) son utilizadas principalmente por algoritmos de aprendizaje profundo. Son una serie de algoritmos que imitan las funciones del cerebro humano para reconocer las relaciones entre grandes volúmenes de datos. Como habrás adivinado, las ANN son fundamentales para los sistemas de inteligencia artificial.

Las redes neuronales están formadas por capas de múltiples nodos. Cada nodo consta de entradas, pesos, sesgo y salidas. Una ANN se entrena ajustando los pesos de entrada en función del rendimiento de la red. Por ejemplo, si la red neuronal clasifica una imagen correctamente, los pesos que contribuyen a la respuesta correcta aumentan mientras que otros pesos se reducen.

bayesiana ingenua

Naive Bayes es un método de clasificación basado en el principio de independencia condicional de clase del Teorema de Bayes. En términos más simples, el enfoque del clasificador Naive Bayes asume que la presencia de una característica específica en una clase no afecta la presencia de ninguna otra característica.

Por ejemplo, se puede considerar que una fruta es una manzana si es de color rojo, redonda y de aproximadamente tres pulgadas de diámetro. Incluso si estas características dependen unas de otras, todas estas propiedades contribuyen individualmente a la probabilidad de que la fruta misma sea una manzana.

El modelo Naive Bayes es útil cuando se trata de grandes conjuntos de datos. Es fácil de construir, rápido y se sabe que funciona incluso mejor que los métodos de clasificación avanzados.

Máquina de vectores de soporte (SVM)

Support vector machine (SVM) es un conocido algoritmo de aprendizaje automático supervisado desarrollado por Vladimir Vapnik. A pesar de que se utilizan predominantemente para problemas de clasificación, las SVM también se pueden utilizar para la regresión.

Las SVM se basan en la idea de encontrar un hiperplano que divida mejor un conjunto de datos dado en dos clases. Este hiperplano se denomina límite de decisión y separa los puntos de datos en ambos lados. La detección de rostros, la categorización de texto, la clasificación de imágenes son algunas de las muchas aplicaciones del mundo real de SVM.

K-vecinos más cercanos (KNN)

El algoritmo K-vecinos más cercanos (KNN) es un algoritmo de aprendizaje automático supervisado que se utiliza para resolver problemas de regresión y clasificación. Es un algoritmo que agrupa puntos de datos en función de su proximidad y relación con otros datos.

Es fácil de entender, fácil de implementar y tiene un tiempo de cálculo bajo. Sin embargo, el algoritmo se vuelve notablemente lento a medida que aumenta el tamaño de los datos en uso. KNN se utiliza generalmente para sistemas de recomendación y reconocimiento de imágenes.

Bosque aleatorio

Random forest es un método de aprendizaje que consiste en una gran cantidad de árboles de decisión que funcionan como un conjunto (el uso de múltiples algoritmos de aprendizaje para obtener un mejor rendimiento predictivo). Cada árbol de decisión ofrece una predicción de clase y la clase con los votos más altos se convierte en la predicción del modelo.

El algoritmo de bosque aleatorio se usa ampliamente en el mercado de valores, la banca y el campo médico. Por ejemplo, se puede usar para identificar a los clientes que tienen más probabilidades de pagar su deuda a tiempo.

Ejemplos de aprendizaje supervisado

Como se mencionó anteriormente, la predicción de los precios de la vivienda, las tasas de clics de los anuncios en línea e incluso la disposición de un cliente a pagar por un producto en particular son algunos de los ejemplos notables de modelos de aprendizaje supervisado.

Aquí hay algunos ejemplos más que puede encontrar en la vida diaria.

Análisis de sentimiento : una técnica de procesamiento de lenguaje natural utilizada para determinar el sentimiento del producto y comprender las necesidades del cliente.
Reconocimiento de imágenes: una técnica utilizada para ubicar, identificar y categorizar objetos en videos e imágenes.
Detección de correo no deseado: el método de clasificación de contenido no deseado y no deseado mediante el reconocimiento de patrones y anomalías en los datos.

Enseñando a las máquinas a pensar

Al aprovechar los datos etiquetados, los algoritmos de aprendizaje supervisado pueden crear modelos que pueden clasificar big data con facilidad e incluso hacer predicciones sobre resultados futuros. Es una técnica de aprendizaje brillante que introduce las máquinas al mundo humano.

Hablando de técnicas de aprendizaje para hacer que las máquinas sean inteligentes, ¿alguna vez te has preguntado de qué son realmente capaces los sistemas de inteligencia artificial que tenemos hoy en día? Si es así, alimenta tu curiosidad leyendo más sobre la IA estrecha.