Matriz de Datos

Módulo 1 Clase 3.  Empezamos la clase viendo ¿Qué es una matriz de datos?

Una matriz de datos es una forma de organizar la información en filas y columnas, donde cada fila representa una observación (un caso o individuo) y cada columna representa una variable (una característica medida).

Es muy utilizada en análisis de datos, estadística y machine learning, ya que permite estructurar la información para aplicar modelos matemáticos y realizar predicciones.

Ejemplo de una matriz de datos

Supongamos que queremos analizar el tiempo que tardan diferentes personas en leer un libro. Nuestra matriz de datos podría verse así:


 Explicación de las columnas:

  • Persona: Identificador de cada observación.
  • Páginas: Número total de páginas del libro.
  • Dificultad: Escala de 1 a 10 (1 muy fácil, 10 muy difícil).
  • Tiempo Diario (min): Minutos que la persona dedica a leer cada día.
  • Tiempo Lectura (días): Días que tardó en terminar el libro (variable que podríamos predecir con un modelo).

Esta matriz de datos puede usarse para entrenar un modelo de machine learning y predecir cuánto tiempo tomará leer un libro dependiendo de sus características y los hábitos de lectura de la persona.

 

Luego pasamos a hablar sobre:

 

Histograma Vs. Distribución de Probabilidad

Tanto el histograma como la distribución de probabilidad son herramientas utilizadas en estadística para analizar datos, pero tienen diferencias clave:


Ejemplo

Supongamos que analizamos la altura de 100 estudiantes:

Histograma:

  • Medimos la altura de los estudiantes y agrupamos los datos en intervalos de 5 cm (por ejemplo, 150-155 cm, 155-160 cm, etc.).
  • Contamos cuántos estudiantes hay en cada intervalo y representamos los valores en un gráfico de barras.

Distribución de Probabilidad:

  • Si asumimos que la altura de los estudiantes sigue una distribución normal (campana de Gauss), podemos modelar matemáticamente la probabilidad de que un estudiante tenga cierta altura específica.
  • La distribución normal se representa con una curva suave, donde la mayoría de los valores están cerca de la media y hay menos valores en los extremos.

📌 DATO CLAVE:

  • Un histograma trabaja con datos específicos recolectados.
  • Una distribución de probabilidad nos ayuda a predecir y modelar el comportamiento de los datos en general.

 

RETO

Ahora pasamos al reto de la clase:

Tenemos la siguiente premisa:


Para resolver este problema de probabilidad, utilizamos la distribución normal. Aquí están los pasos y las fórmulas:

  1. Datos del problema:
    • Media (𝜇μ): 8 seguros de vida
    • Desviación estándar (𝜎σ): 4 seguros de vida
    • Valor deseado (𝑋X): 9 seguros de vida
  1. Cálculo del puntaje z: El puntaje z nos permite estandarizar el valor deseado para poder usar la tabla de la distribución normal estándar. La fórmula es:

𝑧=𝑋−𝜇𝜎z=σXμ

Sustituyendo los valores:

𝑧=9−84=0.25z=49−8​=0.25

  1. Cálculo de la probabilidad: Utilizamos la función de distribución acumulativa (CDF) de la distribución normal estándar para encontrar la probabilidad de que Julián venda hasta 9 seguros de vida. Luego, restamos este valor de 1 para obtener la probabilidad de que venda más de 9 seguros de vida.

𝑃(𝑋>9)=1−𝑃(𝑋≤9)=1−CDF(𝑧)P(X>9)=1−P(X≤9)=1−CDF(z)

Usando una tabla de la distribución normal o una calculadora, encontramos que:

CDF(0.25)≈0.5987CDF(0.25)≈0.5987

Entonces:

𝑃(𝑋>9)=1−0.5987=0.4013P(X>9)=1−0.5987=0.4013

Por lo tanto, la probabilidad de que Julian venda más de 9 seguros de vida en un día es aproximadamente 0.4013 o 40.13%.

 

Calcular la probabilidad usando Excel

 

Usando el mismo ejercicio vamos a ver la fórmula para calcular la probabilidad usando esta herramienta:

 

  1. Calcular el puntaje z: se utiliza la fórmula:
  2. = (X - Media) / Desviación_Estandar

En este caso, sería:

= (9 - 8) / 4

Esto nos dará el puntaje z.

  1. Calcular la probabilidad acumulada hasta el valor deseado: Utilizar la función NORM.DIST para encontrar la probabilidad acumulada hasta el valor deseado. La fórmula es:
  2. = NORM.DIST(X, Media, Desviación_Estandar, TRUE)

En este caso, sería:

= NORM.DIST(9, 8, 4, TRUE)

  1. Calcular la probabilidad de que Julián venda más de 9 seguros de vida: Restando el resultado anterior de 1:
  2. = 1 - NORM.DIST(9, 8, 4, TRUE)

En resumen, la fórmula completa en Excel para encontrar la probabilidad de que Julián venda más de 9 seguros de vida en un día es:

= 1 - NORM.DIST(9, 8, 4, TRUE)

 

 

FUENTES DE INFORMACIÓN

Es esta parte el profe hace un recordatorio sobre las posibilidades que tenemos de acceder a fuentes de información. Si bien el proceso de recolección de datos puede llega a acarrear costos muy altos, podemos acceder a información pública relacionada con nuestro negocio; si la información no llegase a ser exactamente la que necesitamos, tenemos la posibilidad de cruzar varias fuentes de datos.

 

 

Fuentes de Información: Primarias y Secundarias

Fuentes de datos primarias

Las fuentes de datos primarias son aquellas que proporcionan información original y directa, recopilada de primera mano por el investigador o la entidad que realiza el estudio. Estas fuentes no han sido interpretadas ni analizadas por otros.

Ejemplos de fuentes de datos primarias:

  • Encuestas: Datos recopilados directamente de los encuestados mediante cuestionarios.
  • Entrevistas: Información obtenida a través de conversaciones directas con personas.
  • Observaciones: Datos recolectados mediante la observación directa de eventos o comportamientos.
  • Experimentos: Resultados obtenidos de pruebas controladas realizadas por el investigador.
  • Registros administrativos: Datos recopilados por organizaciones en el curso de sus operaciones, como registros de ventas o datos de pacientes.

Fuentes de datos secundarias

Las fuentes de datos secundarias son aquellas que ya han sido recopiladas, analizadas e interpretadas por otros. Estas fuentes proporcionan información que ha sido procesada y presentada en un formato accesible para su uso por otros investigadores o interesados.

Ejemplos de fuentes de datos secundarias:

  • Artículos académicos: Publicaciones que analizan y discuten investigaciones previas.
  • Libros: Obras que compilan y analizan información de diversas fuentes.
  • Informes de investigación: Documentos que presentan los resultados de estudios realizados por organizaciones o instituciones.
  • Bases de datos: Conjuntos de datos recopilados y organizados por entidades como gobiernos, empresas o instituciones académicas.
  • Estadísticas oficiales: Datos publicados por organismos gubernamentales o internacionales, como censos o informes económicos.

 

ECONOMÍA DEL CUIDADO. USO DE DATOS DE LA GEIH

Para aplicar lo aprendido vamos a hacer un ejercicio donde debemos descargar datos de la base del Dane.

Para ello vamos a descargar del sitio del Dane una base de la Gran Encuesta Integrada de Hogares aquí:  Gran EncuestaIntegrada de Hogares DANE


-En la Sección Obtener Microdatos, descargamos el archivo de noviembre 2024.

-Después de descargar y extraer, vamos a trabajar con el archivo ‘Otras formas de trabajo’

 

Ahora para conocer los nombres de las variables, vamos al Diccionario de Datos

Descargamos el Diccionario de Datos, aplicamos filtros y en la Columna ‘Contenidos de la Tabla’ buscamos la base correspondiente, en este caso: ‘K Otras Formas de Trabajo’

En la tabla identificamos los códigos y su significado, ejemplo:

P3076S1

¿La semana pasada ... realizó sin que le pagaran alguna de las siguientes actividades: 1. Cocinar, lavar los platos, poner la mesa en: a. Su hogar?

 

P3076S1A1

Días

P3076S1A2

Horas día

 

P3077S1

¿La semana pasada ... realizó sin que le pagaran alguna de las siguientes actividades: 2. Lavar, colgar, planchar la ropa, reparar ropa en: a. Su hogar?

 

P3077S1A1

Días

P3077S1A2

Horas día

 

P3078S1

¿La semana pasada ... realizó sin que le pagaran alguna de las siguientes actividades: 3. Limpiar o arreglar la casa, tender las camas, barrer trapear, sacar la basura en: a. Su hogar?

 

P3078S1A1

Días

P3078S1A2

Horas día

 

Ahora volvemos a la base de datos inicial para calcular el número de horas a la semana que se realiza cada labor. Para ello creamos una columna nueva y multiplicamos Horas día * Día de la semana.

La fórmula en este ejemplo concreto es: +o2*p2+x2*y2+AG2*ah2

De esta manera obtenemos los datos de muestreo para poder elaborar el histograma.

 

Cálculo Inferencial

Ahora sacamos el dato de horas de oficio a la semana expandido o multiplicado por el factor de expansión.

La fórmula en este ejemplo concreto es: L2*K2

 

Ahora volvemos al set de datos y tomaos el archivo

 

ELEMENTOS DE ESTADÍSTICA DESCRIPTIVA

En la parte final de la clase vimos las definiciones de Media y Percentil

Media y Percentil: Definiciones y Diferencias

  1. Media (o promedio)
    La media es una medida de tendencia central que representa el valor promedio de un conjunto de datos. Se calcula sumando todos los valores y dividiendo el resultado entre la cantidad total de datos.

Fórmula de la media aritmética:

Media=∑XiN\text{Media} = \frac{\sum X_i}{N}Media=N∑Xi​​

Donde:

    • XiX_iXi son los valores del conjunto de datos.
    • NNN es el número total de valores en el conjunto.

Ejemplo: Si los ingresos mensuales de cinco personas son: 2000, 2500, 3000, 3500 y 4000, la media es:

2000+2500+3000+3500+40005=3000\frac{2000 + 2500 + 3000 + 3500 + 4000}{5} = 300052000+2500+3000+3500+4000​=3000

  1. Percentil
    Un percentil es un valor que indica la posición de un dato dentro de un conjunto de datos ordenados. El percentil P%P\%P% significa que P%P\%P% de los datos están por debajo de ese valor y el resto por encima.

Ejemplo: Si un estudiante obtiene un puntaje en el percentil 90 de un examen, significa que su calificación es mejor que la del 90% de los demás estudiantes.

Diferencia clave:

    • La media representa un valor promedio del conjunto.
    • El percentil indica la distribución de los valores y permite comparar la posición relativa de un dato dentro del conjunto.

 


Comentarios

Entradas más populares de este blog

Componentes de Big Data y Data Science

DISTRIBUCIÓN DE PROBABILIDAD