¿Cómo es el flujo de trabajo de la ciencia de los datos?

El trabajo de un científico de datos implica un gran conocimiento del dominio: elegir la pregunta adecuada, las fuentes de datos, métricas, restricciones, incluso antes de configurar un “pipeline” que puede ser automatizado. hablemos sobre  el flujo de trabajo en la ciencia de los datos.

Un flujo de trabajo típico se parece a lo siguiente:

Definición del problema

Típicamente, cualquier proyecto de ciencia de datos y aprendizaje de máquinas comienza con la definición del problema.

En este primer paso, es necesario definir los problemas que se intentan resolver con la ciencia de los datos, el alcance del proyecto y los enfoques para resolver este problema. Cuando esté pensando en algunos de los enfoques para resolver su problema, necesitará hacer una lluvia de ideas sobre qué tipos de análisis (descriptivo versus explicativo versus predictivo) y tipos de algoritmos de aprendizaje (supervisado versus no supervisado versus aprendizaje de refuerzo).

Recopilación de datos

Una vez que se tenga una definición clara del proyecto, se pasará a la etapa de recopilación de datos. Aquí es donde se recogen todos los datos necesarios para proceder con su proyecto de ciencia de datos.

No es raro que tenga que comprar datos de terceros proveedores, raspar y extraer datos de la web, o utilizar datos disponibles públicamente. En algunos casos, también necesitarás recopilar datos de tus sistemas internos para tu proyecto. Dependiendo de los casos, el paso de recopilación de datos puede ser trivial o también puede ser tedioso.

Preparación de los datos

Cuando haya reunido todos los datos que necesita del paso de recopilación de datos, el siguiente paso es la preparación de los datos.

Quizás también te interese  Qué celulares iPhones y Android dejarán de funcionar este 2021

El objetivo de este paso es transformar sus datos y prepararlos para los pasos futuros. Si los formatos de las fuentes de datos son diferentes, entonces tendrás que transformar y unificar los datos. Si los datos no tienen una cierta estructura, entonces tendrá que estructurar los datos, típicamente en formato tabular, para que pueda realizar fácilmente diferentes análisis y construir modelos de aprendizaje automático.

Análisis de datos

Cuando termines con el paso de preparación de los datos, entonces tendrás que empezar a buscar en los datos.

En el paso de análisis de datos, típicamente, se realizan análisis descriptivos para calcular algunas estadísticas de resumen descriptivas y construir gráficos visuales para entender mejor los datos.

Muy a menudo, puede encontrar algunos patrones reconocibles y obtener alguna información de los datos durante este paso. También puede encontrar cualquier anomalía en los datos, como valores perdidos, datos corruptos o registros duplicados, a partir de este paso.

Ingeniería de características

La ingeniería de características es la parte más importante de la ciencia de los datos y del aprendizaje de las máquinas, ya que afecta directamente al rendimiento de los modelos de predicción.

La ingeniería de características requiere experiencia y un buen conocimiento del dominio de los datos, ya que requiere transformar los datos en bruto en datos más informativos para que sus algoritmos aprendan de ellos.

Un buen ejemplo de ingeniería de características es la transformación de datos de texto en datos numéricos. Como los algoritmos de aprendizaje de la máquina sólo pueden aprender de los datos numéricos, tendrá que idear una idea y una estrategia para traducir los datos de texto en datos numéricos.

Quizás también te interese  Miraculous Ladybug & Cat Noir APK MOD v4.9.10 (Dinero infinito)

Construcción de modelos

Una vez que haya terminado con el paso de ingeniería de características, entonces puede comenzar a entrenar y probar sus modelos de aprendizaje de la máquina.

En este paso, puede experimentar con varios algoritmos de aprendizaje para averiguar cuál funciona mejor para su caso de uso. Una cosa a tener en cuenta en este paso es la métrica de validación.

Es importante tener una buena medida del rendimiento de tu modelo, ya que los algoritmos de aprendizaje automático intentarán optimizar en la medida de rendimiento dada.

 

Ir al contenido