El duro trabajo de obtener datos en Chile

Esta semana quedó disponible la interesante versión beta de Data Chile, un proyecto muy completo realizado por la empresa Datawheel del profesor César Hidalgo, un físico chileno y profesor asociado del MIT que se ha caracterizado en el pasado por hacer trabajos notables en el ámbito de la visualización de datos.

Entre sus trabajos, muy entretenidos de mirar, se cuentan el Observatorio de Complejidad Económica, que permite revisar y comparar datos, e Inmersion (aunque ya no está funcionando), con el que era posible visualizar con quiénes uno intercambiaba correos electrónicos en gmail.

Puesto en la tarea de hacer visibles los datos de países, ha hecho trabajo importantes para Estados Unidos y Brasil, a los que ahora se une Data Chile, descrito en el propio sitio como “el esfuerzo más completo para integrar y visualizar los datos públicos de Chile”.

Con una interfaz muy simple de usar, lo que se agradece, permite navegar por vistas ya desarrolladas y acceder a información que de otra manera sería compleja de entender. Usando mapas y gráficos, los datos quedan a la vista y muestran, además de nuestra realidad económica, educacional y de salud (entre otros aspectos) nacional y regional, lo complejo que es obtener datos en nuestro país.

De hecho, en el propio sitio anuncian que cuentan con información de ocho instituciones y dejan abierta la puerta para sumar otros, explicando que:

DataChile no es un proyecto enfocado en la cantidad de datos, sino en su integración y utilidad. Estamos interesados en bases de datos que sean completas a nivel nacional (con información para la mayoría de las municipalidades), relevantes y actualizadas de manera regular.

Aunque la explicación ayuda a entender la baja cobertura de datos incluidos, deja también en evidencia lo que muchos hemos experimentado en el trabajo de datos en el país. Hay pocas fuentes públicas que los entreguen de manera transparente (por ejemplo la API de Energía Abierta o la de las regiones) y, en la mayor parte de los casos, hay que suscribir convenios o idear formas de scraping que funcionan mientran los sitios que publican la información, no hagan un cambio en su estructura.

Para comprarar, el proyecto Data USA emplea datos de 10 fuentes, varias de ellas provenientes de APIs públicas de los propios servicios e incluso el propio sitio facilita una API para consumir su información y en el Data Viva brasileño son cinco grandes bases de datos las que dan acceso a la información.

En relación con los datos, queda mucho por hacer y hay amplias oportunidades hacia adelante, lo cual es muy bueno. Los buenos ejemplos deben ayudar a avanzar y proyectos tan lindos como los de Data Chile facilitan a todos a comprensión de por dónde va el camino.