Aprendiendo a diseñar un modelo dimensional en Power BI para responder preguntas de negocio

¡Hola a todos!

Hoy vamos a hablar sobre cómo crear dimensiones en Power BI para responder preguntas de negocio. En particular, nos enfocaremos en cómo crear la dimensión Nombre, la dimensión calendario y la dimensión Dim_leave_status para un reto de fp20analytics.

Es importante entender el negocio y las preguntas relevantes que podemos obtener de los datos compartidos para crear un modelo dimensional eficiente y efectivo. A través de este proceso, podremos analizar datos de manera más efectiva y obtener información valiosa para la toma de decisiones.

Acá comparto el link donde encontraras todo el reto: https://fp20analytics.com/challenge

 

Empecemos con las dimensiones y el paso a paso del por que las creamos!!!

 

Creamos la dimensión Nombre basándonos en la evaluación de las preguntas de negocio. La primera pregunta que responderemos será: ¿Cuál es la proporción de género cada año? La segunda pregunta es: ¿Cómo se distribuye el estado civil cada año? Basándonos en estas dos preguntas, es conveniente combinar ambas columnas en una dimensión, ya que podemos obtener datos adicionales, como analizar la proporción de género por año y detectar cambios en función del estado civil.

También podemos explorar otras preguntas, como si existe alguna diferencia en la proporción de género entre distintos estados civiles. Podemos añadir más preguntas como la cantidad de estados civiles por departamento, cargo y rango salarial, por lo que es conveniente unir estas columnas con el nombre y otros campos relevantes.

Es importante entender el negocio y las preguntas relevantes que podemos obtener de los datos que se comparten. Nuestro modelo dimensional se basará en ello.

Primero sera duplicar la tabla de la consulta en stage y renombrarla, seleccionamos las columnas que deseamos ver y analizar, incluyendo el ID del empleado, nombre, género, estado civil y fecha de nacimiento.

Eliminamos duplicados en la columna del ID del empleado para tener los datos únicos de los empleados que podemos utilizar para nuestro análisis. Luego, para verificar que no hemos perdido datos, siempre utilizo SQL o POWER QUERY para cruzar con la tabla de hechos y garantizar que todos los datos correspondan.

Una vez hecho esto, limpiamos la tabla de hechos eliminando las columnas que ya se encuentran en nuestra dimensión.

Ahora pasamos a crear la dimensión calendario.

Vamos a crear la dimensión calendario, pero basándonos en las preguntas que se repiten, como visualizar métricas cada año. En este caso, debemos centrarnos en crear una dimensión de calendario de baja granularidad, ya que las preguntas de negocio se refieren a cada año. Partiremos de la columna de Hire Date, que es sencilla y tiene todo el rango de tiempos que necesitamos. Además, es más amplia y podemos cruzar datos en base a ella.

.

Es importante que la tabla de fechas sea continua, sin saltos de tiempo ni fechas, como en este caso nuestro modelo es pequeño podemos utilizar el método de crear una clave subrogada continua para cada fecha, y sumado a ello recordemos que las preguntas de negocio se calcula en años no en días, de igual manera creamos los atributos , año, mes , trimestre y nombre mes para tener datos ya análisis a estos niveles.

 

En cuanto a la dimensión Dim_leave_status, también tiene varias preguntas de negocio a las que podemos hacer referencia.

Lo primero será crear la tabla y quitar duplicados.

Verificamos que no se pierdan datos al eliminar los duplicados con la combinación de consulta, que es un left outer join. Creamos la columna ID_ leave_status y hacemos el left join para la tabla de hechos.

Como se puede ver, nuestro modelo dimensional está adquiriendo una mejor forma para responder todas las preguntas del reto de manera eficiente y correcta.

Los criterios  del modelado de datos son fundamentales dado que es cierto que en un modelo de datos de Power BI es recomendable dejar solo los datos numéricos y aditivos en la tabla de hechos. Esto se debe a que la tabla de hechos es la que contiene los datos detallados y suele ser la tabla más grande del modelo.

Al dejar solo datos numéricos y aditivos en la tabla de hechos, se pueden optimizar el espacio y el rendimiento del modelo. Además, esto permite tener claves foráneas en la tabla de hechos en lugar de columnas de texto, lo que también contribuye a la optimización del modelo.

Las claves foráneas en la tabla de hechos se relacionan con las tablas de dimensión y permiten que el modelo tenga una estructura de estrella o copo de nieve, lo que facilita la comprensión y el análisis de los datos.

En resumen, es recomendable seguir esta práctica para mantener un modelo de datos de Power BI sano y optimo a lo largo del tiempo.

Comparto el link de Microsoft en el cual lo aprendí https://learn.microsoft.com/es-es/power-bi/guidance/star-schema.

Para finalizar, el modelado dimensional en Power BI es esencial para analizar datos de negocio de manera eficiente y efectiva. La creación de dimensiones, como la dimensión Nombre, la dimensión calendario y la dimensión Dim_leave_status, permite a los usuarios obtener información valiosa de los datos.

Es importante seguir los criterios del modelado de datos para optimizar el espacio y el rendimiento del modelo. Al hacerlo, podemos tener un modelo de datos sano y óptimo a lo largo del tiempo, lo que nos permitirá tomar decisiones informadas en el futuro. Si estás interesado en aprender más sobre el modelado dimensional en Power BI, te recomiendo revisar el enlace de Microsoft que compartí en este artículo.

Vicente Antonio Juan Magallanes

Business Intelligence Technical.

 

Perfil linkedin.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *