Conceptos de ML: Aprendizaje supervisado

El aprendizaje supervisado es quizás la forma más común de tarea de machine learning en uso hoy en día.

Esta forma de aprendizaje hace uso de un conjunto de datos de entrenamiento etiquetado para crear un modelo que predice un objetivo de interés. Si esta línea no tiene absolutamente ningún sentido, no te preocupes. Después de leer este artículo tendrás una comprensión clara del aprendizaje supervisado y sus dos aplicaciones más populares: regresión y clasificación.

Entrenando máquinas con ejemplos

El aprendizaje supervisado es un proceso en el que enseñas a una máquina a predecir un resultado particular alimentándola con ejemplos ‘con las respuestas correctas’.

Lo primero que necesitas saber es qué estás tratando de predecir. Podrías querer crear un programa que clasifique fotos de mascotas como fotos de perros o fotos de gatos, o un programa que prediga los precios de casas en diferentes distritos en Sydney, Australia.

Después de decidir la variable que estás tratando de predecir (tu objetivo), es hora de recopilar ejemplos de datos del mundo real y etiquetarlos. En nuestro primer ejemplo, empezaríamos recopilando fotos con perros y fotos con gatos y etiquetándolas con la categoría correcta. Esta foto de un cachorro es una foto de perro, esa foto de un gato jugando con un láser es una foto de gato, y así sucesivamente para cada ejemplo.

Antes de la etapa de entrenamiento, apartarás un porcentaje de tu conjunto de entrenamiento para probar el rendimiento de tus modelos. Después, pasarás tus ejemplos etiquetados a un algoritmo que aprenderá a generalizar una relación entre las entradas (las fotos) y los objetivos (perro/gato), produciendo un modelo que puedes usar para clasificar imágenes frescas que nunca ha visto antes. En este contexto, esto es lo que significa entrenamiento: enseñar a una máquina a realizar acciones aprendidas de datos de entrenamiento.

Puedes evaluar qué tan bien funciona el modelo en tu conjunto de entrenamiento, el que apartaste antes del entrenamiento. Si los resultados son satisfactorios, puedes implementar el modelo en producción y usarlo para resolver el problema original. El siguiente diagrama muestra una vista de alto nivel del proceso de aprendizaje supervisado.

Supervised learning diagram

Este es un ejemplo de una tarea de clasificación.

Clasificación y regresión son las aplicaciones más comunes del aprendizaje supervisado. Si estás interesado en una carrera en machine learning probablemente pasarás la mayor parte de tu tiempo creando estos tipos de modelos, así que echemos un vistazo a ellos.

Clasificando el mundo

Un clasificador es un modelo que te dice la clase(categoría) a la que pertenece una instancia de tus datos. En el ejemplo anterior, nuestras instancias eran fotos de mascotas, y las clases eran fotos de gatos y fotos de perros.

El conjunto de entrenamiento para tareas de clasificación usualmente es una colección de instancias (instancias individuales del fenómeno que estás tratando de modelar) con una etiqueta que especifica la clase a la que pertenecen.

Los clasificadores pueden ser clasificados ( ͡° ͜ʖ ͡° ) en diferentes subtipos dependiendo del número de clases objetivo (binario o multiclase) y cuántas categorías puede pertenecer una instancia al mismo tiempo (etiqueta única y multi-etiqueta), echemos un vistazo a esos.

Clasificadores binarios

Un clasificador binario es un modelo que clasifica ejemplos en dos clases posibles. Los clasificadores son capaces de decirte si un email es spam o no spam, si una foto de una cara está feliz o triste o si una sustancia es inofensiva o peligrosa.

La configuración más común para clasificación binaria es tener una clase positiva (clase) y una clase negativa (no-clase). En este sentido, puedes redefinir los ejemplos anteriores como spam/no-spam, feliz/no-feliz y peligroso/no-peligroso.

Algunos tipos de clasificadores binarios no solo te dicen un resultado, sino que también te proporcionan una probabilidad de que la instancia que estás clasificando pertenezca a la clase predicha.

Los clasificadores binarios son algunos de los modelos más estudiados y utilizados en machine learning, y muchos otros modelos se construyen encima de ellos (como algunas formas de clasificadores multiclase).

Binary Classifier

Clasificadores multiclase

Como te podrías imaginar por el título, un clasificador multiclase es un modelo que clasifica instancias en muchas categorías. Como en el caso anterior puedes obtener los resultados como la probabilidad de pertenecer a una clase particular.

Es importante notar que hay una diferencia dependiendo del número de clases a las que una instancia puede pertenecer al mismo tiempo.

Si las clases son mutuamente excluyentes (un objeto solo puede pertenecer a una clase a la vez) estás construyendo un clasificador multiclase de etiqueta única. Si una instancia puede pertenecer a más de 1 clase al mismo tiempo entonces necesitas un clasificador multi-etiqueta.

Dependiendo del escenario particular, tu elección de algoritmos y métodos de evaluación diferirá.

Single-label multiclass classifier

Multi-label multiclass classifier

Regresión

El objetivo de un modelo de regresión es predecir un valor continuo. El conjunto de entrenamiento para un problema de regresión usualmente es una colección de instancias con el valor numérico asociado que estás tratando de predecir.

Los siguientes son algunos ejemplos de problemas de regresión:

Predecir el precio de casas en Amsterdam dado el tamaño de la casa (en metros cuadrados), el año en que se construyó la casa, el ingreso promedio del área en la que se ubica la casa, el número de dormitorios y el color del buzón.
Predecir la probabilidad de una persona de desarrollar diabetes dada la altura, peso, número de cigarrillos fumados por día, ingesta calórica promedio, horas promedio de actividad física por semana y cantidad de carbohidratos consumidos por día.
Predecir el precio de las acciones de una empresa un año a partir de ahora basándose en el número de películas de Disney lanzadas el año pasado, el color de ropa interior que el CEO usa con más frecuencia y el título de la canción favorita de su tía.

Las tareas de regresión son extremadamente comunes en machine learning. Si decides seguir una carrera en ciencia de datos o ingeniería de ML, muchos de los modelos que construirás probablemente estén dirigidos a resolver problemas de regresión.

Regression in action

La suposición central del aprendizaje supervisado

Ok, ahora tienes una idea de qué es el aprendizaje supervisado y cómo funciona el proceso. En resumen, recopilas montones de datos relevantes al problema que estás tratando de resolver y los etiquetas con las respuestas correctas, o el resultado esperado que tu modelo está tratando de predecir. Luego, todos estos datos de entrenamiento se pasan a un algoritmo que generará un modelo que mapea las entradas en clases (clasificación) o valores (regresión).

Para que este proceso funcione, la información contenida en el conjunto de entrenamiento necesita tener suficiente poder predictivo para que el algoritmo encuentre una correlación entre los dos conjuntos.

Por ejemplo, si quieres predecir la probabilidad que tiene una persona dada de desarrollar diabetes, podrías querer datos como el IMC, predisposición genética y hábitos dietéticos. Los 3 con poderosa correlación con la variable que estás tratando de encontrar (probabilidad de desarrollar una enfermedad, en este caso). Otros datos, como película favorita, tamaño del zapato y marca favorita de audífonos tiene menos poder predictivo para este objetivo particular, así que tiene poco sentido agregarlo al conjunto de entrenamiento.

Algunas veces, los datos recopilados no proporcionan suficiente información para construir un modelo que funcione bien, en este escenario necesitas reformular el problema o encontrar datos con mejor calidad.

El aprendizaje supervisado es un tema enorme con montones de conceptos importantes. El objetivo de este artículo era presentar una vista de alto nivel del tema. Esperemos que ahora tengas una mejor comprensión del aprendizaje supervisado, y estaremos preparados para profundizar en temas más elaborados en futuros artículos.

Gracias por leer.

Qué hacer después

Comparte este artículo con amigos y colegas. Gracias por ayudarme a llegar a personas que podrían encontrar útil esta información.
Este artículo está basado en el libro: Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking.
Envíame un email con preguntas, comentarios o sugerencias (está en la página Autor)

ANTERIORWWWH Ciencia de Datos: ¿Cómo hacer ciencia de datos?

SIGUIENTEError Absoluto Medio vs Error Cuadrático Medio