La granja de Hadoop

marcoludena · Mensaje por **marcoludena** » 04 May 2018, 22:44

Al hablar de big data ,es necesario hablar de infraextructura .Un "fierro" necesario que nos provea la potencia computacional para poder realizar la explotación de datos de Teras de información . Y aquí aparece Hadoop (Apache Hadoop) , que es básicamente un software open source que nos permite trabajar en modo Cluster para tener "Potencia" en el procesamiento de los datos .Y con el se crea todo un ecosistema.Tal vez los mas conocidos sean aquellos cuyos logotipos tengan animales como :

Pig.-Plataforma para crear MapReduce
Hive.-Infraestructura de almacenamiento de datos
Impala.-Motor de consultas de Sql de Cloudera

Sin embargo , existe una diversidad de potentes herramientas que son utilizadas dependiendo de las necesidades de la aplicación .Puede ser Batch ,Real time , pseudo-real-time .

Recomiendo revisar el siguiente articulo , en el cual nos da una mejor visión de que tipo de herramientas usar en cada caso teniendo como base de la infraextructura a Hadoop:

https://www.beeva.com/beeva-view/bigdat ... ig-data-2/