Análisis y Analítica
Módulo 4 Clase 2 y Clase 3: Estas clases se llevaron a cabo el 4 y 5 de marzo de 2025 en el Instituto Forum de la Universidad de la Sabana.
Dentro de
la clase 3 y 4 tuvimos algunos ejercicios y la explicación de la plataforma
donde se aloja el material del examen para la certificación, ya que fueron
menos contenidos decidí unir las dos clases donde veremos temas muy importantes
como: las 7 vs del Bog Data, etapas del ciclo del big data, análisis y
analítica de datos.
Las 7 Vs del Big Data
Empezamos
con un tema de gran importancia, y es que el Big Data se caracteriza por siete
dimensiones clave:
Después
pasamos a ver las etapas del ciclo de big data, se trata del periodo en que los
datos permanecen o existen en un sistema y su tratamiento efectivo es
fundamental para que las empresas puedan obtener valor a través de sus datos.
Etapas del ciclo de Big Data
- Recolección: Captura de datos de diversas
fuentes.
- Almacenamiento: Organización en bases de
datos o lagos de datos.
- Procesamiento: Uso de herramientas como
Hadoop o Spark.
- Análisis: Aplicación de técnicas de
modelado y minería de datos.
- Visualización: Representación gráfica para
la toma de decisiones.
- Toma de decisiones: Uso de insights para mejorar estrategias.
Análisis y Analítica
Análisis: Estudio detallado de los datos para responder preguntas específicas.
Analítica: Uso de métodos matemáticos y estadísticos para encontrar patrones y predicciones.
Tipos de analítica:
Descriptiva: Qué ha pasado.
Diagnóstica: Por qué pasó.
Predictiva: Qué pasará.
Prescriptiva: Qué se debe hacer.
Minería de Datos
Ejemplo: Un supermercado usa minería de datos para identificar productos que suelen comprarse juntos.
Análisis Estadístico: Media, Mediana y Moda
Media: Promedio de un conjunto de datos.
Mediana: Valor central cuando los datos están ordenados.
Moda: Valor que más se repite en el conjunto de datos.
Ejemplo: En un examen con notas de 3, 4, 4, 5, 5, 5, la media es 4.33, la mediana es 4, y la moda es 5.
A/B Test
Dentro del análisis de datos, es fundamental realizar pruebas que permitan tomar decisiones basadas en evidencia. Una de las técnicas más utilizadas es el A/B Testing, que consiste en comparar dos versiones de un mismo elemento para determinar cuál tiene mejor rendimiento.
Por ejemplo, en el ámbito del marketing digital, una tienda en línea podría diseñar dos versiones de su botón de compra con distintos colores y textos para medir cuál genera más conversiones. Al analizar los resultados, se puede elegir la opción que maximice la interacción de los usuarios.
Mapas de Calor
Estos mapas utilizan colores para indicar la frecuencia de interacción: las zonas con mayor actividad aparecen en colores cálidos (rojo, amarillo), mientras que las menos utilizadas se ven en tonos fríos (azul, verde). Un ejemplo práctico es una plataforma de comercio electrónico que emplea mapas de calor para identificar en qué secciones de su página los clientes pasan más tiempo y hacen más clics, optimizando así la experiencia de usuario.
Análisis de Series Temporales
El análisis de series temporales es una técnica estadística utilizada para estudiar conjuntos de datos recopilados a lo largo del tiempo. Su objetivo principal es identificar patrones y tendencias para hacer predicciones futuras.
Este tipo de análisis es ampliamente utilizado en sectores como la banca, la economía y la meteorología. Por ejemplo, un banco puede analizar el historial de transacciones de sus clientes para detectar comportamientos sospechosos y prevenir fraudes financieros.
Modelo BASE
Cuando se trabaja con sistemas distribuidos en Big Data, se requieren enfoques que prioricen la disponibilidad y escalabilidad de los datos. Uno de estos enfoques es el modelo BASE, que se contrapone al tradicional modelo ACID de las bases de datos relacionales.
BASE se basa en tres principios:
Basically Available (Básicamente disponible): Garantiza la disponibilidad del sistema incluso si algunos nodos fallan.
Soft-state (Estado flexible): Permite que los datos cambien con el tiempo sin requerir una actualización inmediata en todos los nodos.
Eventual consistency (Consistencia eventual): En lugar de garantizar consistencia inmediata, los datos se sincronizan progresivamente.
Un ejemplo de aplicación del modelo BASE es Twitter (X), que maneja grandes volúmenes de información y prioriza la disponibilidad de los datos sobre la consistencia inmediata. Cuando un usuario publica un tweet, este puede no aparecer de inmediato en todos los servidores, pero eventualmente se replicará en toda la plataforma.


Comentarios
Publicar un comentario