Una de las tareas más importantes que debemos acometer cuando iniciamos un proyecto con Power BI es el perfilado de los datos, que es una de las actividades que realizaremos cuando ya nos hayamos conectado a las diferentes fuentes.
Para esta demostración, he realizado una conexión con un libro Excel en el cual he ocultado una serie de errores. Algunos de ellos van a ser muy fáciles de detectar y otros veremos que podrían pasar desapercibidos y pueden afectar a la veracidad de los datos que estamos mostrando en nuestros informes.
En este artículo no vamos a ver cómo subsanar los diferentes errores, sino cómo identificarlos.
Para ello debemos ir a la pestaña de vista y desde aquí podremos habilitar el espacio en blanco, la calidad de columnas, la distribución de columnas y el perfil de columnas.

Un análisis exploratorio de los datos nos puede ayudar a comprender o a identificar algunas anomalías, como el caso de la columna de fecha, donde podemos ver a simple vista que aparece una fecha que no existe.
El 29 de febrero del 2019 es una fecha errónea y por lo tanto se debe reemplazar y corregir, en Power BI o en el origen de datos preferentemente.

Pero tenemos otro tipo de errores que pueden pasar desapercibidos y necesitaremos el uso de estas características para poderlos identificar.
Por ejemplo, en la columna RegionPais, a simple vista no se detecta ningún error.

Generación de perfiles en Power Query
Debemos tener en cuenta que Power Query realiza un escaneo de los datos de forma predeterminada para las 1.000 primeras filas y podemos ampliarlo para que escanee el conjunto de datos al completo.

Esto nos tiene que ayudar a identificar anomalías, salvo que estemos trabajando con una tabla gigantesca de millones y millones de filas, en cuyo caso estas técnicas no resulten recomendadas.
Perfil de columna
Vamos a ver como el uso del perfil de columna nos puede ayudar a identificar una anomalía en los países. Si habilitamos esta característica, aparecerá para cada una de las columnas que hayamos seleccionado, una serie de estadísticas que en determinados casos de uso pueden ser útiles.

En este caso nos va a ayudar porque podremos ver la cantidad de veces que se repite cada uno de los países y nos permitirá identificar de una forma muy rápida como aparecen una serie de datos erróneos.

Aquí lo puse de forma muy evidente, escribiendo Este dato es erróneo, pero no tenemos ningún mecanismo, salvo el uso esta técnica, que nos permita identificar de una forma rápida que aquí se estaba escondiendo un error.
Mostrar espacio en blanco
Otro error lo encontraremos en la columna subcategoría. Si nos desplazamos hasta esta columna, a simple vista no apreciaremos nada fuera de lo común, pero si prestamos mucha atención, veremos cómo hay dos categorías, que en principio parecen las mismas, y sin embargo, aparecen en dos líneas diferentes.

Si habilitamos mostrar espacio en blanco, podremos detectar con mucha facilidad el error que se está produciendo.

Vemos como la persona que introdujo este dato en el Excel se equivocó y puso un salto de línea donde no debía.

Vamos a ir a la columna de marca, donde podemos ver que también se produce un escenario similar al que acabamos de ver. Y algunas marcas, aunque son idénticas, presentan unos espacios en blanco por delante.

Esto no lo veríamos si deshabilitáramos esta opción. Por lo tanto, a simple vista no podríamos detectar este fallo.
Distribución de columnas
La distribución de columnas es un resumen estadístico del número de veces que se repiten los valores de cada una de las columnas.
Veamos qué ocurre en la columna del presupuesto, donde podemos apreciar que hay una anomalía porque hay una barra que se repite muchísimo, mientras que todas las demás quedan muy bajas.

Si deseamos analizar con más detalle lo que está sucediendo aquí, debemos habilitar el perfil de columna. Así podremos observar que el 0 se repite muchísimas veces.

Esto puede ser un error o no. Tendremos que deducirlo hablando con los usuarios del negocio que generan estos datos o a partir de nuestro propio conocimiento de los datos que estamos trabajando.
En este caso podríamos considerar que se trata de un error y que para determinados valores no se ha informado correctamente el presupuesto.
Calidad de columnas
A continuación, vamos a hablar de la calidad de columnas.
Gracias a esta característica de calidad de columnas, podemos observar en la columna del presupuesto en unidades, que un 4% de los datos presentan errores.
También lo podemos ver porque aparece encima de la columna una línea que no es continua en color verde, sino que tiene una parte en rojo y unas barritas inclinadas.

Ahora podríamos aplicar un filtro, por ejemplo, desde la pestaña Inicio, conservar filas, conservar los errores, para tratar de ver que ha sucedido con todos estos datos erróneos.

Haciendo clic justo al lado de la palabra error, es decir, en un espacio en blanco de la celda, podremos ver cómo aparece en la parte inferior de la pantalla un texto que nos informa acerca del error.

Este mensaje nos está diciendo que esta columna, que debería ser numérica, no se puede convertir a número, porque en algunos casos aparecen letras, como en este caso la letra Z.

Conclusiones
Hemos visto en este artículo cómo podemos emplear las características de vista previa de los datos para perfilar los datos que contienen nuestras tablas y anticiparnos a los posibles errores que puedan suceder.

Deja una respuesta