Componentes de Big Data y Data Science

Módulo 4 Clase 1: Esta clase se llevó a cabo el 3 de marzo de 2025 en el Instituto Forum de la Universidad de la Sabana. 

Empezamos un nuevo módulo donde abordaremos todos los temas de la certificación internacional de Big Data y Data Science y nos prepararemos para el examen.

Nuestra profesora es Luisa Fernanda Carbonell. Luisa es Historiadora, Magister en Antropología y Magister en Ciencia de Datos.


Big Data Fundamentals

 Empezamos con repaso general so qué son los datos y cuál es su importancia.

¿Qué es un dato?

Un dato es cualquier pedazo de información que podemos observar, medir o registrar. Puede ser algo tan simple como la temperatura de hoy, el número de pasos que diste o el color de un auto. En su forma más básica, un dato es solo un valor sin contexto, pero cuando lo juntamos con otros datos y los analizamos, empiezan a contar una historia.

¿Por qué sin importantes los datos?

Los datos son importantes porque nos ayudan a tomar decisiones basadas en hechos y no en suposiciones. En el mundo actual, desde las empresas hasta los científicos e incluso las aplicaciones de nuestro celular, todos dependen de los datos para entender patrones, predecir el futuro y mejorar procesos. En pocas palabras, los datos son como pequeñas piezas de un rompecabezas que, cuando se organizan bien, nos muestran la imagen completa.

Además, los datos influyen en:

-Toma de decisiones.

-Estrategias de la organización.

-Gestionar la proactividad.

 

En resumen y uno de los puntos más importantes de esta primera parte es comprender que:

 

"La Ciencia de Datos tiene más que ver con personas que con datos"

 

 Pirámide de Datos

La Pirámide del Conocimiento muestra cómo los datos crudos se transforman en algo útil:

Esta pirámide es clave en el mundo del Big Data y la Ciencia de Datos porque muestra el proceso de convertir datos en valor real:

 

  1. Datos (Base de la pirámide): Son hechos aislados sin contexto, como números, fechas o registros. Por sí solos, no tienen significado.
  2. Información: Cuando organizamos y estructuramos los datos, comienzan a tener sentido. Por ejemplo, si agrupamos temperaturas diarias, podemos ver un patrón climático.
  3. Conocimiento: Surge cuando analizamos la información y encontramos relaciones o tendencias. Aquí es donde empezamos a entender el "por qué" de las cosas.
  4. Sabiduría (Cima de la pirámide): Es la capacidad de tomar decisiones inteligentes con base en el conocimiento adquirido. Aquí usamos todo lo aprendido para predecir y actuar estratégicamente.



Storytelling: los datos no son importantes lo importante son las historias.

Repasamos como en un proceso de análisis de datos al final llegamos a la parte del storytelling, donde le damos sentido a la información a través de la historia que podemos contar con ella. Estos pasos son: datos, bases de datos, análisis, visualización y storytelling o contar historias con datos.

Cómo se pueden clasificar los datos?

Los datos pueden tener una naturaleza muy diversa y su clasificación puede basarse en múltiples criterios.

Universalmente reconocemos una clasificación de datos según su naturaleza o según su estructura. Según su naturaleza los datos pueden ser cualitativos y cuantitativos y según su estructura pueden ser estructurados, no estructurados y semi-estructurados.

 

Tipos de Variables en Estadística



Dentro de los datos cualitativos o de texto encontramos las variables categóricas que se clasifican en: nominales, ejemplo: color de los ojos y las variables ordinales, como: nivel de satisfacción. Dentro de las variables cuantitativas o de números tenemos las de tipo discretas como el número de hijos y las continuas (decimales, float) como por ejemplo la altura.

 

Tipos de datos según su estructura

En el mundo del Big Data, los datos pueden clasificarse en tres grandes categorías: estructurados, semi estructurados y no estructurados. Cada uno tiene sus propias características y desafíos en términos de almacenamiento, procesamiento y análisis. Veamos en qué se diferencian.

Datos Estructurados

Son aquellos organizados en un formato fijo, como tablas de bases de datos con filas y columnas bien definidas. Ejemplos comunes incluyen registros de ventas, datos financieros y bases de datos relacionales (SQL). Su ventaja principal es la facilidad de búsqueda y análisis mediante herramientas tradicionales de gestión de bases de datos.

Datos Semi Estructurados

Tienen cierta organización, pero no siguen un esquema rígido como los datos estructurados. Se presentan en formatos como JSON, XML o correos electrónicos, donde la información está etiquetada pero no encaja perfectamente en una tabla. Son más flexibles que los datos estructurados y pueden integrarse con diversas aplicaciones y sistemas.

Datos No Estructurados

No tienen un formato predefinido y pueden presentarse en múltiples formas, como imágenes, videos, audios y documentos de texto libre. Representan la mayor parte de los datos generados actualmente y su procesamiento requiere tecnologías avanzadas como inteligencia artificial y análisis de texto e imágenes.

 

Metadata

Pasamos a ver la metadata y reconocer su importancia dentro del mundo del análisis de datos y su importancia dentro de las auditorías. La metadata es información sobre los datos. Es decir, describe y proporciona contexto a los datos, facilitando su organización, búsqueda y uso. En el mundo del Big Data y la gestión de información, la metadata juega un papel crucial para entender y estructurar grandes volúmenes de datos.

¿Qué es la metadata?

La metadata puede definirse como "datos sobre datos". Describe características como el formato, la fuente, la fecha de creación, el autor y otra información relevante. Por ejemplo, en una imagen digital, la metadata puede incluir la fecha en que fue tomada, la ubicación y el modelo de la cámara.

Tipos de Metadata

 

Existen varios tipos de metadata, entre los más importantes destacan:

  1. Metadata Descriptiva: Proporciona información sobre el contenido del dato, como el título, autor, palabras clave y descripción. Es común en bibliotecas digitales y bases de datos documentales.

  1. Metadata Estructural: Define la organización y relación entre diferentes elementos de datos. Un ejemplo es el índice de un libro digital o la jerarquía de archivos en un sistema.

  1. Metadata Administrativa: Contiene detalles sobre la gestión del dato, como derechos de uso, permisos de acceso y fechas de modificación. Es clave en la gestión de datos en empresas y en entornos de seguridad.

  1. Metadata Técnica: Describe aspectos técnicos de los datos, como el formato de un archivo, la resolución de una imagen o el códec de un video. Es crucial en la preservación digital y en la interoperabilidad entre sistemas.

 

TIPOS DE DATOS Y VERACIDAD

En el ámbito del Big Data, no solo importa la cantidad de datos, sino también su calidad y procesamiento. Aquí exploraremos los tipos de datos, la veracidad de la información (incluyendo el concepto de ruido vs. señal) y el proceso ETL (Extracción, Transformación y Carga), clave en la gestión de datos.

Veracidad de los Datos y Ruido vs. Señal

La veracidad de los datos se refiere a su grado de fiabilidad, precisión y consistencia. No todos los datos son útiles, y es fundamental diferenciar entre:

  • Señal: Información relevante y significativa que aporta valor.
  • Ruido: Datos irrelevantes, incorrectos o inconsistentes que pueden afectar el análisis y la toma de decisiones.

Filtrar el ruido y optimizar la señal es esencial para garantizar la calidad de los datos en análisis de Big Data.

Proceso ETL: Extracción, Transformación y Carga

El proceso ETL es fundamental para la integración y gestión de datos en sistemas de análisis. Sus tres fases principales son:

  1. Extracción: Obtención de datos desde múltiples fuentes (bases de datos, APIs, archivos, etc.).
  2. Transformación: Limpieza, validación y conversión de los datos en un formato útil y estructurado.
  3. Carga: Almacenamiento de los datos en un sistema destino, como un data warehouse, para su análisis.

 

Ahora pasamos al siguiente tema:

Bases de Datos, Teorema de CAP y Modelos No Relacionales en Big Data

El almacenamiento y gestión de datos en Big Data requieren diferentes modelos y principios que garantizan eficiencia, disponibilidad y consistencia. A continuación, exploraremos las bases de datos relacionales, el teorema de CAP y los modelos no relacionales.

Bases de Datos Relacionales

Las bases de datos relacionales (RDBMS, por sus siglas en inglés) organizan los datos en tablas con filas y columnas, siguiendo un esquema estructurado y utilizando SQL para la gestión de la información. Características clave:

  • Garantizan integridad y consistencia de los datos.
  • Soportan transacciones con las propiedades ACID (Atomicidad, Consistencia, Aislamiento y Durabilidad).
  • Son ideales para sistemas donde la estructura de los datos no cambia con frecuencia.
  • Ejemplos: MySQL, PostgreSQL, Oracle y SQL Server.

Teorema de CAP

El teorema de CAP establece que en un sistema distribuido solo se pueden garantizar dos de las siguientes tres propiedades al mismo tiempo:

  1. Consistencia (C): Todos los nodos del sistema ven los mismos datos en un mismo momento.

  1. Disponibilidad (A): El sistema responde siempre a las solicitudes, incluso si algunos nodos fallan.

  1. Tolerancia a Particiones (P): El sistema sigue funcionando incluso si hay una falla en la comunicación entre nodos.

Dado que en sistemas distribuidos las particiones de red son inevitables, se debe elegir entre priorizar consistencia o disponibilidad. Esto influye en la arquitectura de bases de datos en entornos de Big Data.

Modelos No Relacionales (NoSQL)

Las bases de datos NoSQL fueron diseñadas para manejar grandes volúmenes de datos con alta escalabilidad y flexibilidad. A diferencia de las bases de datos relacionales, no siguen un esquema fijo y pueden almacenar datos en diferentes formatos. Tipos principales:


  • Bases de Datos Clave-Valor: Almacenan datos como pares clave-valor. Ejemplo: Redis.
  • Bases de Datos de Documentos: Organizan los datos en documentos JSON o BSON. Ejemplo: MongoDB.
  • Bases de Datos de Columnas Anchas: Optimizadas para consultas rápidas en grandes volúmenes de datos. Ejemplo: Apache Cassandra.
  • Bases de Datos de Grafos: Representan datos como nodos y relaciones, ideales para redes sociales y análisis de conexiones. Ejemplo: Neo4j.

Por último, les comparto dos recursos que nos dejó la profe:

Primero, el documental de Netflix 'Nada es Privado'




Y por último la recomendación de usar Data Analyst by Chat GPT como herramienta para el análisis de datos que por cierto tiene su propio curso en Platzi














Comentarios

Entradas más populares de este blog

DISTRIBUCIÓN DE PROBABILIDAD

Matriz de Datos