4 dimensiones para sopesar y poner a prueba la calidad de los datos

4 dimensiones para sopesar y poner a prueba la calidad de los datos

today

En la actualidad se viene hablando de manera profusa sobre la importancia que reviste el análisis de datos y de quienes están encargados de ello.

Y no es un asunto menor. Los analistas son los llamados a hacer la lectura de aquello que estos están reflejando, a conducir a formular las preguntas que las personas en las empresas no sabían que tenían -una de las definiciones sobre lo que es la visualización de datos- y a ser los traductores de la información entre áreas especializadas (entiéndase, los científicos de datos) y los que no son especialistas en esa minería pero que están encargados nada más y nada menos que de las estrategias (por ejemplo, los directores de ventas o de mercadeo).

El análisis requiere de una buena dosis de preparación y de limpieza de los datos, que según algunos expertos corresponde al 80% de toda la tarea de análisis. Aquí es donde entra en juego un tema: la calidad de los datos.

Datos: ¿con una fisonomía para evaluar su calidad?

En un artículo aparecido el mes pasado, Real-world data quality: ¿What are the opportunities and challenges?, la consultora Mckinsey destacaba algunas oportunidades derivadas de la atención sobre la calidad de los datos.

Y si bien en este se centra en las que se desprenden de aplicar este aspecto para el sector salud, los datos poseen características que los responsables del análisis deben atender, independientemente del contexto o de la industria.

La calidad de los datos guarda implicaciones significativas para el análisis, por lo que los autores subrayan el proceso para entrar a evaluarla, así como un marco evaluativo para constatar su calidad a partir de las características de los datos.

4 dimensiones que ponen a prueba la calidad de los datos

calidad-de-los-datos-int

Para este último aspecto se podría decir que los datos guardan cierta fisonomía, compuesta por cuatro dimensiones: volumen, confiabilidad, usabilidad y cumplimiento.

Cada una de ellas tiene su estructura y componentes, y bajo estas variables es como se persigue la calidad con la que los analistas pueden desenvolverse de la mejor manera en el día a día.

Volumen del dato

Tiene a su vez tres dimensiones: longitud, representatividad y profundidad.

Longitud: se refiere a qué tan recientes son los datos y qué período de tiempo cubren.

Representatividad: se asocia a qué es lo que se incluye en los datos en términos demográficos, geográficos, etcétera.

Profundidad: se refiere a cuántos registros incluyen los datos.

Confiabilidad del dato

Se deben atender dos aspectos: la calidad de los puntos de datos y su integridad.

Los puntos de datos no son tan evidentes como los resultados que brindan. Cada punto de datos resulta clave para tener, por ejemplo, secuencias de tiempo correctas.

Los errores de registro pueden ser comunes (por ejemplo en la carga del dato). Autenticaciones multifactor, controles con políticas de acceso, auditorías y hasta blockchain (bases de solo anexión, en crecimiento continuo, clara e inmutable), pueden ayudar a asegurar la integridad de los datos.

Usabilidad del dato

Tiene en cuenta cuatro factores: generabilidad, vinculabilidad, reutilización y formato

Generabilidad: qué tan bien los datos respaldan o soportan el análisis.

Vinculabilidad: qué tan fácil es vincular los datos que se tienen con otras fuentes.

Reutilización: ¿pueden ser compartidos?, ¿pueden ser reutilizados?

Formato: ¿son estructurado, no estructurados o semi-estructurados?

Cumplimiento del dato

Se analiza si cumplen con estándares o marcos aceptados dentro del ecosistema, sector o industria para los cuales serían utilizados.

  • Aprende las bases para narrar historias empresariales de alto impacto a través de los datos AQUÍ