Matriz de Datos
Módulo 1 Clase 3. Empezamos la clase viendo ¿Qué es una matriz de datos?
Una matriz de datos es una forma de
organizar la información en filas y columnas, donde cada fila representa una
observación (un caso o individuo) y cada columna representa una variable (una
característica medida).
Es muy utilizada en análisis de datos,
estadística y machine learning, ya que permite estructurar la
información para aplicar modelos matemáticos y realizar predicciones.
Ejemplo de una matriz de datos
Supongamos que queremos analizar el tiempo que
tardan diferentes personas en leer un libro. Nuestra matriz de datos podría
verse así:
Explicación
de las columnas:
- Persona: Identificador de cada
observación.
- Páginas: Número total de páginas del
libro.
- Dificultad: Escala de 1 a 10 (1 muy
fácil, 10 muy difícil).
- Tiempo
Diario (min):
Minutos que la persona dedica a leer cada día.
- Tiempo
Lectura (días):
Días que tardó en terminar el libro (variable que podríamos predecir con
un modelo).
Esta matriz de datos puede usarse para entrenar
un modelo de machine learning y predecir cuánto tiempo tomará leer un
libro dependiendo de sus características y los hábitos de lectura de la
persona.
Luego pasamos a hablar sobre:
Histograma Vs. Distribución de Probabilidad
Tanto el histograma como la distribución
de probabilidad son herramientas utilizadas en estadística para analizar
datos, pero tienen diferencias clave:
Ejemplo
Supongamos
que analizamos la altura de 100 estudiantes:
Histograma:
- Medimos la altura de los
estudiantes y agrupamos los datos en intervalos de 5 cm (por ejemplo,
150-155 cm, 155-160 cm, etc.).
- Contamos cuántos estudiantes
hay en cada intervalo y representamos los valores en un gráfico de barras.
Distribución de Probabilidad:
- Si asumimos que la altura de
los estudiantes sigue una distribución normal (campana de Gauss), podemos
modelar matemáticamente la probabilidad de que un estudiante tenga cierta
altura específica.
- La distribución normal se
representa con una curva suave, donde la mayoría de los valores están
cerca de la media y hay menos valores en los extremos.
📌 DATO CLAVE:
- Un histograma trabaja
con datos específicos recolectados.
- Una distribución de
probabilidad nos ayuda a predecir y modelar el comportamiento de los
datos en general.
RETO
Ahora
pasamos al reto de la clase:
Tenemos la
siguiente premisa:
Para resolver este problema de probabilidad, utilizamos la distribución normal. Aquí están los pasos y las fórmulas:
- Datos
del problema:
- Media
(𝜇μ):
8 seguros de vida
- Desviación estándar (𝜎σ): 4 seguros de vida
- Valor deseado (𝑋X): 9 seguros de vida
- Cálculo del puntaje z: El puntaje z nos permite
estandarizar el valor deseado para poder usar la tabla de la distribución
normal estándar. La fórmula es:
𝑧=𝑋−𝜇𝜎z=σX−μ
Sustituyendo los valores:
𝑧=9−84=0.25z=49−8=0.25
- Cálculo de la probabilidad: Utilizamos la función de
distribución acumulativa (CDF) de la distribución normal estándar para
encontrar la probabilidad de que Julián venda hasta 9 seguros de vida.
Luego, restamos este valor de 1 para obtener la probabilidad de que venda
más de 9 seguros de vida.
𝑃(𝑋>9)=1−𝑃(𝑋≤9)=1−CDF(𝑧)P(X>9)=1−P(X≤9)=1−CDF(z)
Usando una
tabla de la distribución normal o una calculadora, encontramos que:
CDF(0.25)≈0.5987CDF(0.25)≈0.5987
Entonces:
𝑃(𝑋>9)=1−0.5987=0.4013P(X>9)=1−0.5987=0.4013
Por lo
tanto, la probabilidad de que Julian venda más de 9 seguros de vida en un día
es aproximadamente 0.4013 o 40.13%.
Calcular la
probabilidad usando Excel
Usando el
mismo ejercicio vamos a ver la fórmula para calcular la probabilidad usando
esta herramienta:
- Calcular el puntaje z: se utiliza la fórmula:
- = (X - Media) /
Desviación_Estandar
En este caso, sería:
= (9 - 8) / 4
Esto nos
dará el puntaje z.
- Calcular la probabilidad
acumulada hasta el valor deseado: Utilizar la
función NORM.DIST para encontrar la probabilidad acumulada hasta
el valor deseado. La fórmula es:
- = NORM.DIST(X, Media, Desviación_Estandar,
TRUE)
En este
caso, sería:
=
NORM.DIST(9, 8, 4, TRUE)
- Calcular la probabilidad de que
Julián venda más de 9 seguros de vida: Restando el resultado anterior de 1:
- = 1 - NORM.DIST(9, 8, 4,
TRUE)
En resumen,
la fórmula completa en Excel para encontrar la probabilidad de que Julián venda
más de 9 seguros de vida en un día es:
= 1 -
NORM.DIST(9, 8, 4, TRUE)
FUENTES
DE INFORMACIÓN
Es esta
parte el profe hace un recordatorio sobre las posibilidades que tenemos de
acceder a fuentes de información. Si bien el proceso de recolección de datos
puede llega a acarrear costos muy altos, podemos acceder a información pública
relacionada con nuestro negocio; si la información no llegase a ser exactamente
la que necesitamos, tenemos la posibilidad de cruzar varias fuentes de datos.
Fuentes de
Información: Primarias y Secundarias
Fuentes
de datos primarias
Las fuentes
de datos primarias son aquellas que proporcionan información original y
directa, recopilada de primera mano por el investigador o la entidad que
realiza el estudio. Estas fuentes no han sido interpretadas ni analizadas por
otros.
Ejemplos
de fuentes de datos primarias:
- Encuestas: Datos recopilados
directamente de los encuestados mediante cuestionarios.
- Entrevistas: Información obtenida a través
de conversaciones directas con personas.
- Observaciones: Datos recolectados mediante
la observación directa de eventos o comportamientos.
- Experimentos: Resultados obtenidos de
pruebas controladas realizadas por el investigador.
- Registros administrativos: Datos recopilados por
organizaciones en el curso de sus operaciones, como registros de ventas o
datos de pacientes.
Fuentes
de datos secundarias
Las fuentes
de datos secundarias son aquellas que ya han sido recopiladas, analizadas e
interpretadas por otros. Estas fuentes proporcionan información que ha sido
procesada y presentada en un formato accesible para su uso por otros
investigadores o interesados.
Ejemplos
de fuentes de datos secundarias:
- Artículos académicos: Publicaciones que analizan y
discuten investigaciones previas.
- Libros: Obras que compilan y analizan
información de diversas fuentes.
- Informes de investigación: Documentos que presentan los
resultados de estudios realizados por organizaciones o instituciones.
- Bases de datos: Conjuntos de datos
recopilados y organizados por entidades como gobiernos, empresas o
instituciones académicas.
- Estadísticas oficiales: Datos publicados por
organismos gubernamentales o internacionales, como censos o informes
económicos.
ECONOMÍA
DEL CUIDADO. USO DE DATOS DE LA GEIH
Para
aplicar lo aprendido vamos a hacer un ejercicio donde debemos descargar datos
de la base del Dane.
Para ello
vamos a descargar del sitio del Dane una base de la Gran Encuesta Integrada de Hogares
aquí: Gran EncuestaIntegrada de Hogares DANE
-En la
Sección Obtener Microdatos, descargamos el archivo de noviembre 2024.
-Después de
descargar y extraer, vamos a trabajar con el archivo ‘Otras formas de trabajo’
Ahora para
conocer los nombres de las variables, vamos al Diccionario
de Datos
Descargamos
el Diccionario de Datos, aplicamos filtros y en la Columna ‘Contenidos de la
Tabla’ buscamos la base correspondiente, en este caso: ‘K Otras Formas de
Trabajo’
En la tabla
identificamos los códigos y su significado, ejemplo:
|
P3076S1 |
¿La semana pasada ... realizó sin que le pagaran
alguna de las siguientes actividades: 1. Cocinar, lavar los platos, poner la
mesa en: a. Su hogar? |
|
|
|
P3076S1A1 |
Días |
||
|
P3076S1A2 |
Horas
día |
|
P3077S1 |
¿La semana pasada ... realizó sin que le pagaran
alguna de las siguientes actividades: 2. Lavar, colgar, planchar la ropa,
reparar ropa en: a. Su hogar? |
|
|
|
P3077S1A1 |
Días |
||
|
P3077S1A2 |
Horas
día |
|
P3078S1 |
¿La semana pasada ... realizó sin que le pagaran
alguna de las siguientes actividades: 3. Limpiar o arreglar la casa, tender
las camas, barrer trapear, sacar la basura en: a. Su hogar? |
|
|
|
P3078S1A1 |
Días |
||
|
P3078S1A2 |
Horas
día |
Ahora
volvemos a la base de datos inicial para calcular el número de horas a la
semana que se realiza cada labor. Para ello creamos una columna nueva y multiplicamos
Horas día * Día de la semana.
La fórmula
en este ejemplo concreto es: +o2*p2+x2*y2+AG2*ah2
De esta
manera obtenemos los datos de muestreo para poder elaborar el histograma.
Cálculo
Inferencial
Ahora sacamos
el dato de horas de oficio a la semana expandido o multiplicado por el factor
de expansión.
La fórmula
en este ejemplo concreto es: L2*K2
Ahora
volvemos al set de datos y tomaos el archivo
ELEMENTOS
DE ESTADÍSTICA DESCRIPTIVA
En la parte
final de la clase vimos las definiciones de Media y Percentil
Media y
Percentil: Definiciones y Diferencias
- Media (o promedio)
La media es una medida de tendencia central que representa el valor promedio de un conjunto de datos. Se calcula sumando todos los valores y dividiendo el resultado entre la cantidad total de datos.
Fórmula
de la media aritmética:
Media=∑XiN\text{Media}
= \frac{\sum X_i}{N}Media=N∑Xi
Donde:
- XiX_iXi son los valores del conjunto
de datos.
- NNN es el número total de
valores en el conjunto.
Ejemplo: Si los ingresos mensuales de cinco
personas son: 2000, 2500, 3000, 3500 y 4000, la media es:
2000+2500+3000+3500+40005=3000\frac{2000 + 2500 + 3000 +
3500 + 4000}{5} = 300052000+2500+3000+3500+4000=3000
- Percentil
Un percentil es un valor que indica la posición de un dato dentro de un conjunto de datos ordenados. El percentil P%P\%P% significa que P%P\%P% de los datos están por debajo de ese valor y el resto por encima.
Ejemplo: Si un estudiante obtiene un puntaje
en el percentil 90 de un examen, significa que su calificación es mejor que la
del 90% de los demás estudiantes.
Diferencia clave:
- La media representa un
valor promedio del conjunto.
- El percentil indica la
distribución de los valores y permite comparar la posición relativa de un
dato dentro del conjunto.




Comentarios
Publicar un comentario