Hola y feliz día tarde o noche según donde me leas, hoy traigo una explicación fácil y sencilla de como poder realizar un modelado de datos con el reto de pomerol debemos Identificar tabla Hecho y tablas Dimensiones Reto Pomerol.
Empezamos!!
Este reto trae preguntas interesantes de negocio y sobre el cual podemos trabajar para entender que deseamos crear y calcular y esto es muy interesante dado que podemos crear y validar cada uno de los pasos en base a las siguientes preguntas.
- Evaluar las preguntas de negocio las cuales son:
P: ¿Cuál fue el mejor año para las ventas? ¿Cuánto se ganó ese año?
P: ¿Cuál fue el mejor mes para las ventas? ¿Cuánto se ganó ese mes?
P: ¿Qué ciudad tuvo el mayor número de ventas?
P: ¿A qué hora debemos mostrar la publicidad para maximizar la probabilidad de que el cliente compre el producto?
P: ¿Qué productos se venden juntos con más frecuencia?
P: ¿Qué producto se vendió más? ¿Por qué crees que vendió más?
2. Con todo este listado ahora vemos sobre que archivo debemos trabajar y este seria el de CSV en el cual es una sabana de datos , lo exportamos a power query
3. Empezamos con lo primero crear una carpeta, estando en power query creamos una carpeta llamada stage la cual será para colocar en una tabla los datos a trabajar.
4.Sobre esta creamos una referencia para Crear la tabla de hechos, recordemos que el el esquema es tipo estrella basado en la tabla de hechos y la tabla de dimensiones
5.Creamos otra carpeta la cual será donde tendremos todo nuestro modelo
7.Desativamos la tabla que tenemos dentro de la carpeta stage para poder manejarlo y evitar cargar tablas que no usaremos
8.Luego en la fact table revisamos que columnas pertenece a métricas es decir que columnas son calculables y por otra parte cuales segmentaremos nuestra data para empezar a limpiar y el modelado. Ejemplo identifiquemos una a una las columnas
Order Id: La columna numero uno esta columna se le puede llamar clave de negocio o clave natural dado que es la que devuelve el sistema gestor de compras del caso de negocio y por lo visto tiene duplicados
Producto: El nombre del producto ,ya primero podemos identificar y en base a las preguntas que debemos obtener sobre producto las cantidades de ventas precios y de mas preguntas es decir esta columna será de dimensión
Numero de Ordenes: También podemos contabilizar cuantas veces solicitaron un producto especifico sobre una orden esto quiere decir que no sirve para contar sea de tipo medida se queda en nuestra tabla de hechos.
Precio de compra: Esta si o si se quedara en nuestro modelo de por que podemos obtener en base a la preguntas negocio cuanto se gano por año mes por productos y así sucesivamente se queda también por que es media y tiene alta aditividad puede ser agrupada por la dim Producto que crearemos y la dim fecha y la dim region
Order date: Interesante columna dado que tiene fecha ay hora pero mal organizadas rimero tenemos que hacerle un ajuste, segundo separar fecha y hora como para seguir las reglas de modelado dimensional y serán dos dimensiones fecha y tiempos las que crearemos para este caso de negocio dado las preguntas que tenemos que responder.
La ultima es dirección: Esta columna podemos hacer dos opciones una dimensión con con las regiones y sumado a ello con estas regiones calculas y preservando las direcciones o basándonos en la pregunta a responder extrae la ciudad y solo obtener la región para responder a la pregunta de negocio en este caso decide la opción dos para mi modelado de datos
Con estos pasos hemos identificado cuales serán mis dimensiones por la cuales segmentare mis cálculos según las preguntas de negocio y cuales serán mi tabla hechos visualizando las medidas y su aditividad y así construir el modelo estrella.
Espero te sirva y te halla gustado este paso a paso para de como Identificar tabla Hecho y tablas Dimensiones Reto Pomerol.
Vicente Antonio Juan Magallanes
Business Intelligence Technical.
Perfil linkedin.