Uploaded by Joaquín

1. Cronología de las tecnologías

advertisement
CRONOLOGÍA DE LAS
TECNOLOGÍAS
CONCEPTOS BÁSICOS DEL BIG DATA
Introducción a Big Data
CRONOLOGÍA DE LAS TECNOLOGÍAS
CRONOLOGÍA DE LAS TECNOLOGÍAS
En este documento veremos de una forma gráfica además de explicativa cómo ha ido evolucionando
la tecnología en el siglo XXI.
En el año 2002, Doug Cutting trabajaba en el desarrollo de un buscador Nutch a gran escala. El
proyecto tenía problemas de escalabilidad ya que el sistema no era capaz de procesar todos los datos.
Para que lo entendamos, únicamente podía procesar el 15% de las webs y no podía pasar de ese
tanto por ciento.
En los años 2003 y 2004, Jeff Dean y su equipo de investigación de Google publican dos artículos que
resultan clave para la solución del problema de Doug Cutting.
Uno describía el sistema de archivos distribuidos de Google, denominado Google File System; y el
otro describía un nuevo paradigma basado en fases Map/Reduce.
En 2004, Doug Cutting lee estos artículos y desarrolla NDFS (Nutch Distributed File System), una
manera económica de implementar el sistema de archivos distribuidos de Google, que solucionaba
gran parte de los problemas de escalabilidad que tenía.
Ya en 2006, Yahoo contrata a Doug y crea un proyecto en Apache llamado Hadoop, una
implementación del paradigma Map/Reduce.
El proyecto NDFS pasa a denominarse HDFS (Hadoop Distributed File System); nombre por el que se
le conoce hoy. De este modo se crea la versión 1.0 de Hadoop.
Así, Yahoo usando Hadoop pudo ordenar 1,8 Terabytes en 47,9 horas, algo increíble para las
tecnologías existentes en 2006.
Al año siguiente, en 2007, Yahoo Labs crean Pig, un sistema que permite acceder y transformar los
datos ocultando la complejidad del paradigma Map/Reduce basándose en el lenguaje de scripts.
En 2008, Facebook crea Hive, un sistema que permite acceder y transformar los datos ocultando la
complejidad del sistema basado en SQL. Su principal función era migrar los programas en SQL al
nuevo paradigma.
También en 2008 se crea Cloudera, empresa con vocación de software libre creada por ingenieros
que trabajaban en Google, Yahoo y Facebook, enfocada a comercializar Hadoop.
Continuando, al año siguiente, en 2009, Yahoo ya consigue ordenar 1 Terabyte de información ¡en
62 segundos! ¿Te imaginas? Ese mismo año, nuestro Doug Cutting se une a Cloudera.
Vayamos a 2010. Matei Zaharia, realiza su tesis doctoral en la Universidad de Berkeley, enfocada en
proporcionar una mejor alternativa para procesar datos masivos en determinados casos en los que
Map/Reduce no era del todo eficiente. Su tesis se basa en el uso de la memoria en lugar de usar el
disco HDFS para el tratamiento masivo de datos. Nace Spark.
1
INTRODUCCIÓN A BIG DATA
CRONOLOGÍA DE LAS TECNOLOGÍAS
Ya en 2013, el proyecto es donado a Apache Foundation y nace Databricks, una plataforma enfocada
a comercializar distribuciones basadas en Spark.
En 2015, Google libera sus librerías para aprendizaje profundo, TensorFlow, para uso mediante
licencia Open Source.
Al año siguiente, en 2016, la startup DataTorrent lidera el proyecto Apache Apex, que permite el
tratamiento por lotes y en tiempo real.
Como último hito a destacar en esta cronología, en 2017, se acepta en Apache Foundation el conjunto
de librerías MXNet que usa Amazon para el aprendizaje profundo.
Y por si fuera poco, todas estas tecnologías son de licencia abierta, es decir, cualquiera puede usarlas
sin coste alguno.
Bueno, ¡no está mal el recorrido! Repasa la cronología en el siguiente esquema. ¡Hasta pronto!
2002
2003
2004
2006
Doug Cutting
trabaja en
Nutch
Artículos de
Google GFS
Map/Reduce
Doug Cutting
incorpora DFS
en Nutch
•Yahoo ficha
a Doug
Cutting
•Hadoop
Proyecto
Apache
Foundation
2009
2010
2013
2015
2016
2017
Se crea
Databrick
Google libera
bajo licencia
open source
tensor flow
para
aprendizaje
profundo
Apache,
proyecto
liderado por
la empresa
DataTorrent
unifica el
tratamiento
en lotes y en
tiempo real
MXNet Amazon
Aprendizaje
profundo
aceptado en fase
de incubadora en
Apache
Foundation.
•Yahoo!
Ordena un
terabyte en
62 segundos
•Doug
Cutting se
une a
Cloudera
Matei
Zaharia Tesis
Spark
Databrick
2
INTRODUCCIÓN A BIG DATA
2007
Yahoo crea
Pig
2008
•Se crea
Cloudera
•Facebook
crea Hive
CRONOLOGÍA DE LAS TECNOLOGÍAS
INTRODUCCIÓN AL BIG DATA
3
INTRODUCCIÓN A BIG DATA
Related documents
Download