Componentes de Big Data y Data Science
Nuestra profesora es Luisa Fernanda Carbonell.
Luisa es Historiadora, Magister en Antropología y Magister en Ciencia de Datos.
Big Data Fundamentals
Empezamos con repaso general so qué son los datos y cuál es su importancia.
¿Qué es un dato?
Un dato es cualquier pedazo de
información que podemos observar, medir o registrar. Puede ser algo tan simple
como la temperatura de hoy, el número de pasos que diste o el color de un auto.
En su forma más básica, un dato es solo un valor sin contexto, pero cuando lo
juntamos con otros datos y los analizamos, empiezan a contar una historia.
¿Por qué sin importantes los datos?
Los datos son importantes porque nos ayudan a
tomar decisiones basadas en hechos y no en suposiciones. En el mundo actual,
desde las empresas hasta los científicos e incluso las aplicaciones de nuestro
celular, todos dependen de los datos para entender patrones, predecir el futuro
y mejorar procesos. En pocas palabras, los datos son como pequeñas piezas de un
rompecabezas que, cuando se organizan bien, nos muestran la imagen completa.
Además, los datos influyen en:
-Toma de decisiones.
-Estrategias de la organización.
-Gestionar la proactividad.
En resumen y uno de los puntos más importantes
de esta primera parte es comprender que:
"La Ciencia de Datos tiene más que ver con personas que con datos"
Pirámide de Datos
La Pirámide del Conocimiento muestra cómo los
datos crudos se transforman en algo útil:
Esta pirámide es clave en el mundo del Big Data
y la Ciencia de Datos porque muestra el proceso de convertir datos en valor
real:
- Datos (Base de la pirámide): Son hechos aislados sin contexto, como números, fechas o registros. Por sí solos, no tienen significado.
- Información: Cuando organizamos y
estructuramos los datos, comienzan a tener sentido. Por ejemplo, si
agrupamos temperaturas diarias, podemos ver un patrón climático.
- Conocimiento: Surge cuando analizamos la
información y encontramos relaciones o tendencias. Aquí es donde empezamos
a entender el "por qué" de las cosas.
- Sabiduría
(Cima de la pirámide): Es la capacidad de tomar decisiones inteligentes con base en el
conocimiento adquirido. Aquí usamos todo lo aprendido para predecir y
actuar estratégicamente.
Storytelling: los datos no son importantes lo importante son las historias.
Repasamos como en un proceso de análisis de
datos al final llegamos a la parte del storytelling, donde le damos
sentido a la información a través de la historia que podemos contar con ella.
Estos pasos son: datos, bases de datos, análisis, visualización y storytelling
o contar historias con datos.
Cómo se pueden clasificar los datos?
Los datos pueden tener una naturaleza muy
diversa y su clasificación puede basarse en múltiples criterios.
Universalmente reconocemos una clasificación de
datos según su naturaleza o según su estructura. Según su naturaleza los
datos pueden ser cualitativos y cuantitativos y según su estructura
pueden ser estructurados, no estructurados y semi-estructurados.
Tipos de Variables en Estadística
Dentro de los datos cualitativos o de texto
encontramos las variables categóricas que se clasifican en: nominales,
ejemplo: color de los ojos y las variables ordinales, como: nivel de
satisfacción. Dentro de las variables cuantitativas o de números tenemos
las de tipo discretas como el número de hijos y las continuas
(decimales, float) como por ejemplo la altura.
Tipos de datos según su estructura
En el mundo del Big Data, los datos pueden
clasificarse en tres grandes categorías: estructurados, semi estructurados y no
estructurados. Cada uno tiene sus propias características y desafíos en
términos de almacenamiento, procesamiento y análisis. Veamos en qué se
diferencian.
Datos Estructurados
Son aquellos organizados en un formato fijo, como tablas de bases de datos con filas
y columnas bien definidas. Ejemplos comunes incluyen registros de ventas,
datos financieros y bases de datos relacionales (SQL). Su ventaja
principal es la facilidad de búsqueda y análisis mediante herramientas
tradicionales de gestión de bases de datos.
Datos Semi Estructurados
Tienen cierta organización, pero no siguen un esquema rígido
como los datos estructurados. Se presentan en formatos como JSON, XML
o correos electrónicos, donde la información está etiquetada pero no
encaja perfectamente en una tabla. Son más flexibles que los datos
estructurados y pueden integrarse con diversas aplicaciones y sistemas.
Datos No Estructurados
No tienen un formato predefinido y pueden presentarse en múltiples
formas, como imágenes, videos, audios y documentos de texto libre. Representan
la mayor parte de los datos generados actualmente y su procesamiento requiere
tecnologías avanzadas como inteligencia artificial y análisis de texto e
imágenes.
Metadata
Pasamos a ver la metadata y reconocer su
importancia dentro del mundo del análisis de datos y su importancia dentro de
las auditorías. La metadata es información sobre los datos. Es decir,
describe y proporciona contexto a los datos, facilitando su organización,
búsqueda y uso. En el mundo del Big Data y la gestión de información, la
metadata juega un papel crucial para entender y estructurar grandes volúmenes
de datos.
¿Qué es la metadata?
La metadata puede definirse como "datos
sobre datos". Describe características como el formato, la fuente, la
fecha de creación, el autor y otra información relevante. Por ejemplo, en una
imagen digital, la metadata puede incluir la fecha en que fue tomada, la
ubicación y el modelo de la cámara.
Tipos de Metadata
Existen varios tipos de metadata, entre los más
importantes destacan:
- Metadata
Descriptiva: Proporciona
información sobre el contenido del dato, como el título, autor,
palabras clave y descripción. Es común en bibliotecas digitales y bases de
datos documentales.
- Metadata
Estructural: Define
la organización y relación entre diferentes elementos de datos. Un
ejemplo es el índice de un libro digital o la jerarquía de archivos en un
sistema.
- Metadata
Administrativa: Contiene
detalles sobre la gestión del dato, como derechos de uso, permisos
de acceso y fechas de modificación. Es clave en la gestión de datos en
empresas y en entornos de seguridad.
- Metadata
Técnica: Describe
aspectos técnicos de los datos, como el formato de un archivo, la
resolución de una imagen o el códec de un video. Es crucial en la
preservación digital y en la interoperabilidad entre sistemas.
TIPOS DE DATOS Y VERACIDAD
En el ámbito del Big Data, no solo
importa la cantidad de datos, sino también su calidad y procesamiento. Aquí
exploraremos los tipos de datos, la veracidad de la información (incluyendo el
concepto de ruido vs. señal) y el proceso ETL (Extracción,
Transformación y Carga), clave en la gestión de datos.
Veracidad de los Datos y Ruido vs. Señal
La veracidad de los datos se refiere a su grado
de fiabilidad, precisión y consistencia. No todos los datos son útiles,
y es fundamental diferenciar entre:
- Señal: Información relevante
y significativa que aporta valor.
- Ruido: Datos irrelevantes,
incorrectos o inconsistentes que pueden afectar el análisis y la toma de
decisiones.
Filtrar el ruido y optimizar la señal es
esencial para garantizar la calidad de los datos en análisis de Big Data.
Proceso ETL: Extracción, Transformación y Carga
El proceso ETL es fundamental para la
integración y gestión de datos en sistemas de análisis. Sus tres fases
principales son:
- Extracción:
Obtención de
datos desde múltiples fuentes (bases de datos, APIs, archivos, etc.).
- Transformación: Limpieza, validación y
conversión de los datos en un formato útil y estructurado.
- Carga:
Almacenamiento
de los datos en un sistema destino, como un data warehouse, para su
análisis.
Ahora
pasamos al siguiente tema:
Bases de Datos, Teorema de CAP y Modelos No Relacionales en Big Data
El
almacenamiento y gestión de datos en Big Data requieren diferentes modelos y
principios que garantizan eficiencia, disponibilidad y consistencia. A
continuación, exploraremos las bases de datos relacionales, el teorema de CAP y
los modelos no relacionales.
Bases de
Datos Relacionales
Las bases
de datos relacionales (RDBMS, por sus siglas en inglés) organizan los
datos en tablas con filas y columnas, siguiendo un esquema estructurado y
utilizando SQL para la gestión de la información. Características clave:
- Garantizan integridad y
consistencia de los datos.
- Soportan transacciones con las
propiedades ACID
(Atomicidad, Consistencia, Aislamiento y Durabilidad).
- Son ideales para sistemas donde
la estructura de los datos no cambia con frecuencia.
- Ejemplos: MySQL, PostgreSQL,
Oracle y SQL Server.
Teorema de CAP
El teorema
de CAP establece que en un sistema distribuido solo se pueden garantizar dos de
las siguientes tres propiedades al mismo tiempo:
- Consistencia (C): Todos los nodos del sistema
ven los mismos datos en un mismo momento.
- Disponibilidad (A): El sistema responde siempre a
las solicitudes, incluso si algunos nodos fallan.
- Tolerancia a Particiones (P): El sistema sigue funcionando
incluso si hay una falla en la comunicación entre nodos.
Dado que en
sistemas distribuidos las particiones de red son inevitables, se debe elegir
entre priorizar consistencia o disponibilidad. Esto influye en la arquitectura
de bases de datos en entornos de Big Data.
Modelos No Relacionales (NoSQL)
Las bases de datos NoSQL fueron diseñadas para manejar grandes volúmenes de datos con alta escalabilidad y flexibilidad. A diferencia de las bases de datos relacionales, no siguen un esquema fijo y pueden almacenar datos en diferentes formatos. Tipos principales:
- Bases de Datos Clave-Valor: Almacenan datos como pares clave-valor. Ejemplo: Redis.
- Bases de Datos de Documentos: Organizan los datos en documentos JSON o BSON. Ejemplo: MongoDB.
- Bases de Datos de Columnas Anchas: Optimizadas para consultas rápidas en grandes volúmenes de datos. Ejemplo: Apache Cassandra.
- Bases de Datos de Grafos: Representan datos como nodos y relaciones, ideales para redes sociales y análisis de conexiones. Ejemplo: Neo4j.
Y por
último la recomendación de usar Data Analyst by Chat GPT como herramienta para
el análisis de datos que por cierto tiene su propio curso en Platzi.


Comentarios
Publicar un comentario