Big Data: arquitectura

Con arquitectura se hace referencia a los elementos del Big Data (tanto físicos como de software) y cómo estos se organizan.

image

Una arquitectura Big Data incluye los siguientes componentes (adaptado de Soares, 2012):

  • Fuentes de Big Data.
  • Analítica de flujo continuo.
  • Bases de datos
  • Integración de Big Data
  • Analítica de textos.
  • Descubrimiento de Big Data.
  • Calidad de Big Data.
  • Metadatos.
  • Gestión de políticas de información.
  • Gestión de datos maestros.
  • Data warehouses y data marts.
  • Analítica y reporting de Big Data.
  • Seguridad y privacidad de Big Data.
  • Gestión de ciclo de vida de Big Data.
  • La nube.

También se suelen incluir los componentes Hadoop, como software de referencia en Big Data.

Fuentes de Big Data

La información para el Big Data puede tener múltiples fuentes. Se pueden distinguir entre:

  • Fuentes internas a la empresa o institución (que provienen de la propia información que gestionan de sus usuarios o clientes)
  • El internet de las cosas. Información que procede de equipos externos (sensores, medidores, geolocalizadores, etc.).
  • Información social (blogs, wikis, correo electrónico, redes sociales, etc.).
  • Datos biométricos.
  • Datos generados por la propia persona.

Como se dijo anteriormente, estos datos pueden ser estructurados o no estructurados.

Almacenes de datos

Existen distintas formas de almacenar los datos, dependiendo de la cantidad y la gestión que se realicen de ellos:

  • Data warehousing. Son almacenes de datos que procesan grandes cantidades.
  • Data samarts. Son subconjunto, normalmente específicos, de datos warehousing.

Estos dos tipos de almacenes se pueden basar en:

  • Bases de datos relacionales (SQL).
  • Bases de datos columnares (como el NoSQL o el SAP Sybase).
  • Bases de datos in-memory (como el SAP Hana).
  • Bases de datos tradicionales.

A todo este conjunto de bases de datos se les debe añadir la posibilidad de trabajar en la nube.

Analítica Big Data

El proceso de análisis de grandes cantidades de datos deben basarse en datos que previamente se han integrado. Los datos de las instituciones y empresas suelen ser estructurado y relacionase. Estos deben pasar a un sistema como Hadoop de forma eficiente. Para ello se pueden usar distintas tecnologías, como ETL (extraer, transformar, cargar), entre otras (como la replicación de datos o la virtualización de datos).
Las herramientas analíticas de Big Data deben permitir:

  • Reporting, query y visualización.
  • La analítica predictiva.
  • Analítica web.
  • El listening social.
  • La analítica del internet de las cosas (M2M)
  • Otras.

Plataforma Hadoop

Apache Hadoop o simplemente Hadoop, es una plataforma de código abierto que permite procesar gran cantidad de datos en paralelo. Se trata de una iniciativa de Google y Yahoo para gestionar y procesar grandes cantidades de datos.
Esta plataforma es de código abierto, lo que ha permitido la aparición de distintas distribuciones. Algunas de las empresas que han elaborado su propia distribución ofertan soporte al producto.
Hadoop es por el momento, la plataforma líder en Big Data.

Anuncios

Deja un comentario

Archivado bajo Big Data, Ciencia, Estadística

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s