Top 8: Los algoritmos de Machine Learning que debes conocer

29/10/2020

machine-learning-tarragona-201029
Hasta ahora lo has hecho genial. Has conseguido los datos, los has filtrado y limpiado, y tienes claro el problema a resolver. Te ha tomado un gran esfuerzo llegar hasta este punto.

Tu próximo paso es seleccionar el modelo a utilizar, lo que puede llegar a ser una tarea algo compleja si tienes en cuenta que existen decenas de modelos para elegir, cada uno con sus detalles y particularidades.

Este resumen de los 8 modelos más utilizados te será muy útil para tener una referencia y orientarte rápidamente. Encontrarás que son muy versátiles y pueden utilizarse de formas muy creativas con excelentes resultados, motivo por el cual se encuentran entre los preferidos de muchos científicos de datos y equipos de Inteligencia Artificial.

 

Regresión lineal (Linear Regression)

Este algoritmo de aprendizaje supervisado posee excelentes prestaciones por su velocidad de entrenamiento y facilidad de comprensión. Se utiliza cuando hay una relación o dependencia lineal entre las variables independientes y dependientes, obteniendo los coeficientes de una recta que explique el comportamiento de los datos.
 

Regresión logística (Logistic Regression)

En este caso, el modelo se utiliza con datos discretos y no continuos realizando una clasificación de los datos dependientes en función de las características independientes, obteniendo también una excelente velocidad de entrenamiento. Como resultado se obtiene una probabilidad que los nuevos datos cumplan con el criterio de entrenamiento.
 

K-medias (K Means Clustering)

Es excelente para trabajar con datos no etiquetados y por lo tanto dentro del conjunto de aprendizaje no supervisado, donde se realiza la agrupación de los mismos en un número K de grupos. Los elementos que conforman los grupos se determinan en base a la distancia entre ellos.
 

Máquinas de vector soporte (SVM - Support Vector Machine)

Este increíble algoritmo de aprendizaje supervisado se puede utilizar tanto para datos continuos como discretos y es adecuado tanto para regresión como para clasificación. Por medio de una optimización de descenso de gradiente se intenta encontrar una línea que separe las características con una gran distancia para que las suposiciones probabilísticas se puedan hacer con mayor precisión.
 

Clasificador bayesiano ingenuo (Naive Bayes)

Se puede entrenar de manera muy eficiente en un entorno de aprendizaje supervisado y funciona, en términos simples, asumiendo que la presencia o ausencia de una característica particular no está relacionada con la presencia o ausencia de cualquier otra característica, dada la variable dependiente. Otra ventaja es que solo se requiere una pequeña cantidad de datos de entrenamiento para estimar los parámetros necesarios para la clasificación.
 

K vecinos más cercanos (KNN - K Nearest Neighbors)

A diferencia de K-medias, este algoritmo es utilizado para realizar clasificación en un entorno de aprendizaje supervisado. Es algo similar a SVM en el sentido de que también intenta dibujar un límite de separación para identificar las entidades. La predicción para un nuevo punto de datos se realiza encontrando los puntos de datos vecinos más similares, y de allí su nombre.
 

Árbol de decisión (Decision Tree)

Este modelo agrupa las variables independientes agrupando desde las características más comunes hacia las más específicas, creando una serie de ramificaciones hasta las variables dependientes. Es un modelo muy gráfico y fácil de comprender pero hay un inconveniente ya que funciona bien con los datos de entrenamiento, pero cuando se incluyen nuevos datos de prueba, es posible que los resultados no sean tan buenos.
 

Bosque aleatorio (Random Forest)

Es una combinación de árboles de decisión tal que cada árbol depende de los valores de un vector aleatorio probado independientemente y con la misma distribución para cada uno de estos. De esta manera se resuelve el posible problema del primero respecto del sobreajuste (overfitting). Se utiliza ampliamente ya que es uno de los algoritmos de aprendizaje más certeros que hay disponible. Para un set de datos lo suficientemente grande produce un clasificador muy certero.


Estos algoritmos son ampliamente utilizados por empresas de todos los tamaños para resolver tareas de diferente complejidad. Cada uno de ellos posee sus propias particularidades por lo que es necesario que desarrolles una cierta experiencia con cada modelo, para conocer los métodos con los que lograr el ajuste de sus parámetros de forma más adecuada.

Si dominas estos 8 modelos de Machine Learning podrás resolver el 80% de los proyectos a los que te enfrentes, logrando resultados excelentes.
   

Artículos relacionados

0 comentarios