Ingeniería de datos

Ingeniería de datos

La ingeniería de datos refiere a la manera en que se construye información para alimentar modelos. En este sentido, la ingeniería podría confundirse con al análisis de datos así que revisemos la diferencia.

El análisis de datos consiste de manera general, en explorar un conjunto de datos de manera que se pueda inferir cierta información. Esto supone que los datos son completos en el sentido que en ellos se encuentra de antemano toda la información relevante,  y el problema es descubrir, inferir, encontrar las relaciones entre los datos que den cuenta de la información que nos interesa. Por lo general, las relaciones entre los datos son de tipo estadístico, o sea, se trata de correlaciones de distintos tipos, agrupaciones por componentes principales, análisis factorial y otras herramientas. Una vez que el análisis destaca ciertos vínculos, un buen analista decide qué relaciones son relevantes, y sobre todo, construye los modelos que convierten esas relaciones en variables que cuenten la historia que nos interesa.

La ingeniería de datos comienza exactamente al revés que el análisis de datos. Primero se construye el modelo de lo que queremos y luego, en base al modelo, pensamos qué variables, qué indicadores darían cuenta de lo que queremos. Observar que las variables explicativas podrían estar o no contenidas en bases de datos por lo que un paso clave es identificar qué información podría estar en algún registro y qué información necesita ser construida sobre la base de datos que no se encuentran sistematizados. La ingeniería de datos toma su nombre de este proceso de construcción de información. El ingeniero de datos es como Marco Polo en Las Ciudades Invisibles de Italo Calvino: Kublai Kan le dice al principio del tercer capítulo: “De ahora en adelante seré yo quien describa las ciudades y tú verificarás si existen y si son como yo las he pensado.”  El rey de los tártaros no quiere saber de todas las ciudades, sólo de las que le interesan.

Hay ventajas y desventajas tanto en el análisis como en la ingeniería, pero de manera general podemos decir que la ingeniería es la opción a seguir en condiciones de alta incertidumbre, de procesos emergentes, de complejidad, y en general, de cualquier situación en la que, claramente, no exista la información pertinente  o los datos por si solos, no den cuenta de nada. Por ejemplo, en el caso del cambio climático, muchos escenarios de futuro suponen situaciones tan novedosas que no es de esperar encontrar información en ninguna base de datos. Sin embargo, sí es posible basarse en estudios y la opinión de expertos para crear nuevos modelos y construir la información pertinente.

Previous
Previous

Pronosticar y construir escenarios