Análisis y Analítica

 Módulo 4 Clase 2 y Clase 3: Estas clases se llevaron a cabo el 4 y 5 de marzo de 2025 en el Instituto Forum de la Universidad de la Sabana.

Dentro de la clase 3 y 4 tuvimos algunos ejercicios y la explicación de la plataforma donde se aloja el material del examen para la certificación, ya que fueron menos contenidos decidí unir las dos clases donde veremos temas muy importantes como: las 7 vs del Bog Data, etapas del ciclo del big data, análisis y analítica de datos.

Las 7 Vs del Big Data

Empezamos con un tema de gran importancia, y es que el Big Data se caracteriza por siete dimensiones clave:


Después pasamos a ver las etapas del ciclo de big data, se trata del periodo en que los datos permanecen o existen en un sistema y su tratamiento efectivo es fundamental para que las empresas puedan obtener valor a través de sus datos.

Etapas del ciclo de Big Data

  1. Recolección: Captura de datos de diversas fuentes.
  2. Almacenamiento: Organización en bases de datos o lagos de datos.
  3. Procesamiento: Uso de herramientas como Hadoop o Spark.
  4. Análisis: Aplicación de técnicas de modelado y minería de datos.
  5. Visualización: Representación gráfica para la toma de decisiones.
  6. Toma de decisiones: Uso de insights para mejorar estrategias.

Análisis y Analítica

¿Qué es el análisis, la analítica y cuales son sus tipos?:
  • Análisis: Estudio detallado de los datos para responder preguntas específicas.

  • Analítica: Uso de métodos matemáticos y estadísticos para encontrar patrones y predicciones.



Tipos de analítica:

  • Descriptiva: Qué ha pasado.

  • Diagnóstica: Por qué pasó.

  • Predictiva: Qué pasará.

  • Prescriptiva: Qué se debe hacer.



Minería de Datos

Entramos a ver qué es la Minería de Datos.

Se trata del proceso de descubrir patrones en grandes volúmenes de datos mediante técnicas de inteligencia artificial, aprendizaje automático y estadísticas.

Ejemplo: Un supermercado usa minería de datos para identificar productos que suelen comprarse juntos.





Dejo por acá un pequeño recordatorio de estos conceptos que vimos en detalle en las primeras clases y que repasamos antes de continuar:

Análisis Estadístico: Media, Mediana y Moda

  • Media: Promedio de un conjunto de datos.

  • Mediana: Valor central cuando los datos están ordenados.

  • Moda: Valor que más se repite en el conjunto de datos.

Ejemplo: En un examen con notas de 3, 4, 4, 5, 5, 5, la media es 4.33, la mediana es 4, y la moda es 5.


A/B Test 

Dentro del análisis de datos, es fundamental realizar pruebas que permitan tomar decisiones basadas en evidencia. Una de las técnicas más utilizadas es el A/B Testing, que consiste en comparar dos versiones de un mismo elemento para determinar cuál tiene mejor rendimiento.



Por ejemplo, en el ámbito del marketing digital, una tienda en línea podría diseñar dos versiones de su botón de compra con distintos colores y textos para medir cuál genera más conversiones. Al analizar los resultados, se puede elegir la opción que maximice la interacción de los usuarios.

Mapas de Calor 

La visualización de datos es clave para interpretar el comportamiento del usuario en entornos digitales. Los mapas de calor son representaciones gráficas que muestran las áreas más y menos interactivas de una página web o aplicación.


Estos mapas utilizan colores para indicar la frecuencia de interacción: las zonas con mayor actividad aparecen en colores cálidos (rojo, amarillo), mientras que las menos utilizadas se ven en tonos fríos (azul, verde). Un ejemplo práctico es una plataforma de comercio electrónico que emplea mapas de calor para identificar en qué secciones de su página los clientes pasan más tiempo y hacen más clics, optimizando así la experiencia de usuario.


Análisis de Series Temporales 

El análisis de series temporales es una técnica estadística utilizada para estudiar conjuntos de datos recopilados a lo largo del tiempo. Su objetivo principal es identificar patrones y tendencias para hacer predicciones futuras.

Este tipo de análisis es ampliamente utilizado en sectores como la banca, la economía y la meteorología. Por ejemplo, un banco puede analizar el historial de transacciones de sus clientes para detectar comportamientos sospechosos y prevenir fraudes financieros.

Modelo BASE 

Cuando se trabaja con sistemas distribuidos en Big Data, se requieren enfoques que prioricen la disponibilidad y escalabilidad de los datos. Uno de estos enfoques es el modelo BASE, que se contrapone al tradicional modelo ACID de las bases de datos relacionales.

BASE se basa en tres principios:

  • Basically Available (Básicamente disponible): Garantiza la disponibilidad del sistema incluso si algunos nodos fallan.

  • Soft-state (Estado flexible): Permite que los datos cambien con el tiempo sin requerir una actualización inmediata en todos los nodos.

  • Eventual consistency (Consistencia eventual): En lugar de garantizar consistencia inmediata, los datos se sincronizan progresivamente.

Un ejemplo de aplicación del modelo BASE es Twitter (X), que maneja grandes volúmenes de información y prioriza la disponibilidad de los datos sobre la consistencia inmediata. Cuando un usuario publica un tweet, este puede no aparecer de inmediato en todos los servidores, pero eventualmente se replicará en toda la plataforma.







Comentarios

Entradas más populares de este blog

Componentes de Big Data y Data Science

DISTRIBUCIÓN DE PROBABILIDAD

Matriz de Datos