BigData: Big Data es el término que se emplea hoy en día para describir el conjunto de procesos, tecnologías y modelos de negocio que están basados en datos y en capturar el valor que los propios datos encierran. Esto se puede lograr tanto a través de una mejora en la eficiencia gracias al análisis de los datos (una visión más tradicional), como mediante la aparición de nuevos modelos de negocio que supongan un motor de crecimiento. Se habla mucho del aspecto tecnológico, pero hay que tener presente que es crítico encontrar la forma de dar valor a los datos para crear nuevos modelos de negocio o de ayudar a los l os existentes. Características: Características : A Big Data le caracterizan las tres "V": volumen, variedad y velocidad: Volumen Actualmente vemos el crecimiento exponencial en el almacenamiento de datos como los datos son ahora más que datos de texto. Podemos encontrar los datos en el formato de los vídeos, músicas y las grandes imágenes en nuestros canales de medios sociales. Es muy común tener terabytes y petabytes del sistema de almacenamiento para empresas. A medida que la base de datos crece de las aplicaciones y la arquitectura construidas para soportar los datos necesita ser reevaluado con bastante frecuencia. Velocidad El crecimiento de los datos y la explosión de los medios sociales han cambiado la forma en que miramos a los datos. El movimiento de datos es ahora casi en tiempo real y la ventana de actualización se ha reducido a fracciones de los segundos. Estos datos de alta velocidad representan Big Data. Variedad Los datos pueden almacenarse en formato múltiple, la necesidad de la organización para arreglarlo y hacerlo significativo. El mundo real tiene datos en muchos formatos diferentes y que es el reto que tenemos que superar con el Big Data. Esta Data. Esta variedad de los datos de IMDb para representar a los grandes datos.
HADOOP:
Apache Hadoop es un framework que permite el procesamiento de grandes volúmenes de datos a través de clusters, usando un modelo simple de programación. Además su diseño permite pasar de pocos nodos a miles de nodos de forma f orma ágil. Hadoop es un sistema distribuido usando una arquitectura Master-Slave, usando para almacenar su Hadoop Distributed File System S ystem (HDFS) y algoritmos deMapReduce para hacer cálculos. ¿Por qué es bueno Hadoop? En en el entorno tecnológico que actualmente se mueven todas las organizaciones, donde los sistemas no sólo son capaces de generar e ingestar los datos rápidamente sobre formatos estructurados (SQL), también, cada vez más, se generan datos que no son estructurados (NoSQL). Hadoop es capaz de almacenar toda clase de datos: estructurados, no estructurados, semiestructurados; archivos de registro, imágenes, video, audio, comunicación, etc Por otra parte Hadoop también destaca por tener una arquitectura con capacidad de asegurar una alta disponibilidad y recuperación de los datos que ingesta. Algunos conceptos clave sobre Hadoop
Replication
La alta disponibilidad de los datos en Hadoop es posible debido a que lleva implícita la replicación de datos en un clúster Hadoop. Un bloque de archivo se replica en varios “nodos de datos” en función del “factor de replicación” del clúster Hadoop, que podría ser 1, 2, 3… Un factor de replicación de 1 indica que un bloque de archivo residirá en un sólo “nodo de datos”. Un factor de d e replicación de 2 indica que un bloque de archivo residirá en dos “nodos de datos”, ya sea dentro del mismo rack o en uno que esté físicamente a miles de kilómetros de distancia; etc, etc.
Arquitectura
Hadoop se basa en una arquitectura Master/Slave (Maestro/Esclavo) con tipos de Master/Slave (Maestro/Esclavo) nodos: nodo máster (maestro) (maestro) y los nodos slave (esclavos). (esclavos). Un clúster Hadoop tiene un sólo nodo máster y y varios nodos slave .
Nodo Máster
Es el encargado de almacenar el metadato asociado a sus nodos slave dentro del rack del rack del que forma parte.
El nodo máster es el responsable de mantener el estatus de sus nodos slave , estableciendo uno de ellos como nodo pasivo , que se convertirá en nodo máster, si por cualquier motivo éste se quedara bloqueado. Uno de los problemas que tiene Hadoop es que a veces elnodo elnodo pasivo no no está sincronizado con el nodo máster original, original, al asumir las funciones de éste dentro del proceso.
Nodo slave
Es el nodo encargado de almacenar la información que se está procesando por el nodo máster en un momento concreto.
Rack
En Hadoop se denomina rack a puede rack a la combinación de “nodos de datos”. Un rack puede tener máximo de 40 nodos máster . Cada rack tiene un switch que le permite comunicarse con los distintos racks del ecosistema, sus nodos y y procesos cliente.
Proceso cliente
Un proceso cliente es un proceso que se lanza a petición de un nodo máster , ya sea para almacenamiento de archivo nuevo o recuperación de un archivo en el clúster Hadoop. El nodo máster se máster se comunica directamente con el proceso cliente y actúa según el tipo de petición que este le realiza.
NO SQL: Es una amplia clase de sistemas de gestión de bases de datos que difieren del modelo clásico del sistema de gestión de bases de datos relacionales (RDBMS) en aspectos importantes, el más destacado que no usan SQL usan SQL como el principal lenguaje de consultas. Los datos almacenados no requieren estructuras fijas como tablas, normalmente no soportan operaciones JOIN, operaciones JOIN, ni garantizan completamente ACID completamente ACID (atomicidad, coherencia, aislamiento y durabilidad), y habitualmente escalan bien horizontalmente. bien horizontalmente. Por lo general, los investigadores académicos se refieren a este tipo de bases de datos como almacenamiento estructurado, término que abarca también las bases de datos relacionales clásicas. A menudo, las bases de datos NoSQL se clasifican según su forma de almacenar los datos, y comprenden categorías como clave-valor, las implementaciones de BigTable, de BigTable, bases de datos documentales, y Bases de datos orientadas a grafos.