«Segmentación de edad de empleados: medidas y técnicas en analítica de datos».

Hola buenos días tardes  o noches según donde me leas.

En el mundo actual de los negocios, la analítica de datos se ha convertido en una herramienta esencial para obtener información valiosa y tomar decisiones informadas. Uno de los aspectos más importantes de la analítica de datos es la segmentación de los datos, ya que permite a las empresas comprender mejor a sus clientes y empleados. En este contexto, se presenta el desafío de encontrar los segmentos de edad de los empleados.

En este texto se ha descrito la forma de abordar este reto, utilizando diferentes medidas de enfoque y técnicas de agrupación. Se ha explicado la importancia de la normalización de las tablas en la creación de un modelo de datos eficiente y tipo estrella. Asimismo, se han presentado las medidas utilizadas para identificar el número real de empleados en el conjunto de datos y para agruparlos por edad. Finalmente, se ha abordado la representación en peso de los empleados según su edad, lo que permite visualizar mejor los datos y comprenderlos más a fondo.

Hoy veremos el modelo con el que trabajaremos. Esta mañana estuve trabajando en la primera pregunta del reto: «¿Puedes encontrar los segmentos de edad de los empleados?». Es una pregunta interesante y para responderla crearemos medidas de enfoque. Observaremos qué ocurre cuando tenemos duplicados en el modelo de datos, utilizando diferentes funciones como countrows, distinctcount y distinct, para obtener el dato real y el diferente. Crearemos una tabla para solo medidas y tendremos una orden adecuada. También crearemos una tabla auxiliar de agrupación y crearemos 4 grandes grupos de datos. Además, veremos la representación en peso de los empleados de mayor edad en nuestro conjunto de datos.

Paso 1) Revisaremos cómo quedó el modelo con el que trabajaremos. Recordemos que, cuando trabajamos con modelos de datos, lo importante es la normalización de las tablas para crear un modelo de datos eficiente y tipo estrella.

Paso 2) Crearemos una tabla de medidas para ordenar las medidas que crearemos en nuestro reto.

Paso 3) Crearemos una medida para identificar cuántos empleados tenemos realmente en nuestro conjunto de datos, sin estar repetidos. Creamos la primera medida utilizando countrows(), que cuenta las filas de una tabla devolviendo un escalar. Es importante entender que devuelve un valor calculado único, no devuelve filas, tablas u otra cosa. Un detalle importante es que no estamos descartando los duplicados, por lo que sería un dato irreal. Tenemos empleados que tienen el mismo id repetido varias veces, por lo que podríamos descartar los duplicados en base a qué columna deseamos tener datos únicos. En este caso, seleccionamos la columna «Leave date», dado que si deseamos saber el rango de tiempo que duró ese empleado, vendría con ese dato para el duplicado. Esa misma fila tiene el motivo de retiro y el status, que sirven para las medidas de ambos casos.

Siguiendo con este paso, podemos obtener los datos únicos con la siguiente medida, partiendo de la columna «employee id», utilizando distinctcount(), que cuenta los valores diferentes de una columna. También podemos obtener el mismo dato con las medidas countrows(distinct()). Estas dos medidas funcionan bien juntas para esta medida, ya que «distinct» devuelve los valores diferentes de una columna o tabla y los devuelve en tipo tabla, lo cual luego le pasamos la medida «countrows», que en sus parámetros admite tablas.

Paso 4) Crearemos una medida, es decir, una columna calculada en la que manejaremos los datos para agrupar por edad, utilizando la función «switch()». Pasamos el booleano «true» y las condiciones que deseamos para crear nuestro rango de edad y hacer un poco más enriquecedor nuestro análisis.

Paso 5) Podemos hacer una división y ver la representación en peso de la cantidad de empleados por edad. En este caso, podemos hacer primero el cálculo del denominador para la división y obtener el decimal. Luego, pasarlo a % con la medida «calculate(medida de empleados,all(tabla_hechos))». Esta medida con «all» limpia el contexto de fila y filtro de la tabla hechos, dado que estamos utilizando como segmentador la columna calculada de la tabla de hechos y la medida que obtenemos de la tabla de hechos. Ya hemos creado el numerador,

así que con estos dos, creamos la medida «% pesos» para observar los pesos por grupo y edad específica según lo deseemos representar visualmente.

Agregamos el gráfico y tendríamos varios caminos para observar los datos por grupo de empleados y su proporción en peso. Luego, podemos combinar la distribución de grupos según la edad y sus pesos con los demás segmentadores. Por ejemplo, ver la distribución de grupo por edad según la sucursal o el departamento.

La segmentación de los datos es una herramienta clave en la analítica de datos y permite a las empresas comprender mejor a sus clientes y empleados. En este texto, se ha presentado un enfoque para encontrar los segmentos de edad de los empleados, utilizando medidas de enfoque y técnicas de agrupación. Se ha destacado la importancia de la normalización de las tablas en la creación de un modelo de datos eficiente y tipo estrella. Finalmente, se ha abordado la representación en peso de los empleados según su edad, lo que permite una mejor visualización y comprensión de los datos. Con este enfoque, las empresas pueden obtener información valiosa para tomar decisiones informadas y mejorar su rendimiento en el mercado.

 

Vicente Antonio Juan Magallanes

Business Intelligence Technical.

 

Perfil linkedin.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *