Cómo crear un proyecto de Machine Learning en 8 pasos

03/09/2020

machine-learning-tarragona-200903
Vídeo Tutorial: "Descargas los datos de aquí, creas un modelo con estas líneas de código y ya tienes un proyecto de Machine Learning."

Data Scientist: "Esteee... Quizás no es tan fácil..."


Si te parece una escena de una película de ciencia ficción, me temo que no. Esto sucede más veces de lo que te imaginas.

Crear un proyecto de Machine Learning no es tan fácil, aunque tampoco es tan complejo. Bueno, en realidad depende de la complejidad del problema a resolver, pero vamos a centrarnos en la mayoría de los proyectos, que seguramente no tienen ese nivel tan alto de complejidad.

Crear un proyecto de Machine Learning te puede parecer un tanto caótico, especialmente si intentas responder a algunas preguntas, entre otras, como por ejemplo: ¿Cómo empiezo? ¿Cuándo termina?

Da igual qué conjunto de herramientas uses, si eres más de Python o de R, si tu perfil está basado en programación o en estadística. Todo el proceso te resultará más fácil si cuentas con una metodología que te permita tener la seguridad que vas por el buen camino.
 

Estos son los 8 pasos para crear un proyecto de Machine Learning


1. Recolección de datos

Es importante que tengas presente que los datos del mundo real son imperfectos, por lo que requieren diferentes enfoques y herramientas. Este proceso implica la recopilación de datos que se origina en diferentes fuentes, tanto estructuradas como no estructuradas, que pueden ser desde ficheros csv, recoger datos de páginas web (scraping) o conectarse a bases de datos, entre otros.  El término Big Data también describe la velocidad a la que se originan los datos en la actualidad.


2. Almacenamiento de datos

Una vez que has recogido los datos es importante que estandarices la forma de almacenarlos, tanto en un formato único como también de forma segura, teniendo en cuenta que sea fácil y rápido el acceso para trabajar con flujos de trabajo de Machine Learning e Inteligencia Artificial. Puedes elegir diferentes soluciones, desde almacenamiento local hasta almacenamiento en la nube.
 

3. Transformación de datos

Este paso es, quizás, uno de los que más te demandará a nivel de tiempo y esfuerzo, ya que implica transformar los datos de un formato o estructura a otro formato o estructura. Las tareas de transformación de datos incluyen la gestión de datos, la integración de datos, y la integración de aplicaciones, teniendo en cuenta el paradigma ETL/ELT.
 

4. Etiquetado de datos

El etiquetado de datos es una etapa indispensable del preprocesamiento de datos  e incluye la clasificación de datos, moderación, transcripción, procesamiento, anotación y etiquetado de los mismos datos.
 

5. Implementación del modelo

En este punto ya deberías tener una idea de la naturaleza de los datos y su relación con el problema a resolver. Esto determinará, en gran medida, qué tipo de modelo utilizarás para la implementación. A grandes rasgos, los modelos pueden pertenecer a algunas de las siguientes categorías: clasificación, agrupamiento, o regresión. Algunos de los modelos más utilizados incluyen Linear Regression, Decision Tree, K Nearest Neighbor, Support Vector Machines y Artificial Neural Networks (Deep Learning). En muchas ocasiones deberás cambiar de modelo para encontrar el que mejor resuelve el problema.
 

6. Entrenamiento del modelo

Este proceso implica entrenar el modelo pasándolo a través de diferentes entradas de datos. Tu objetivo clave aquí es maximizar el rendimiento del modelo mientras se lo protege contra el sobreajuste. Para lograr esto lo habitual es separar los datos en subconjuntos de entrenamiento y prueba, generalmente divididos en una proporción de 80:20 o 70:30. Debes evaluar si el modelo funciona bien con los datos de entrenamiento pero mal con los datos de prueba, entonces es hay sobreajuste, es decir que el modelo es muy bueno para predecir los datos que ya sabes pero muy malo para trabajar con datos nuevos, que es justamente lo que buscas.
 

7. Evaluación del modelo

La validación y evaluación del modelo durante el entrenamiento es un paso muy importante para revisar diferentes métricas con el objetivo que puedas determinar si tienes un modelo de Machine Learning ganador. La evaluación del modelo es un paso crítico en la práctica, ya que guía la elección del método o modelo de aprendizaje y proporciona una medida del rendimiento de la calidad del modelo elegido. Tanto si en este punto o en el anterior los resultados no son los que esperas, quizás es el momento de regresar al punto 5 y elegir un nuevo modelo.
 

8. Mejora de la precisión del modelo

La precisión de un modelo de Machine Learning depende de los datos elegidos, la selección de características de estos datos y la elección tomada al decidir sobre los algoritmos de Machine Learning mientras se crea el modelo. Pero aún así puedes mejorar la precisión del modelo mediante la ingeniería de características, la selección de otras características, y el ajuste de los parámetros propios del modelo.



Si aplicas estos 8 pasos para crear un proyecto de Machine Learning podrás conseguir un resultado adecuado a tus expectativas que, seguramente, resuelvan el problema en el cual has estado trabajando.


   

Artículos relacionados

0 comentarios