CRONOLOGÍA DE LAS TECNOLOGÍAS CONCEPTOS BÁSICOS DEL BIG DATA Introducción a Big Data CRONOLOGÍA DE LAS TECNOLOGÍAS CRONOLOGÍA DE LAS TECNOLOGÍAS En este documento veremos de una forma gráfica además de explicativa cómo ha ido evolucionando la tecnología en el siglo XXI. En el año 2002, Doug Cutting trabajaba en el desarrollo de un buscador Nutch a gran escala. El proyecto tenía problemas de escalabilidad ya que el sistema no era capaz de procesar todos los datos. Para que lo entendamos, únicamente podía procesar el 15% de las webs y no podía pasar de ese tanto por ciento. En los años 2003 y 2004, Jeff Dean y su equipo de investigación de Google publican dos artículos que resultan clave para la solución del problema de Doug Cutting. Uno describía el sistema de archivos distribuidos de Google, denominado Google File System; y el otro describía un nuevo paradigma basado en fases Map/Reduce. En 2004, Doug Cutting lee estos artículos y desarrolla NDFS (Nutch Distributed File System), una manera económica de implementar el sistema de archivos distribuidos de Google, que solucionaba gran parte de los problemas de escalabilidad que tenía. Ya en 2006, Yahoo contrata a Doug y crea un proyecto en Apache llamado Hadoop, una implementación del paradigma Map/Reduce. El proyecto NDFS pasa a denominarse HDFS (Hadoop Distributed File System); nombre por el que se le conoce hoy. De este modo se crea la versión 1.0 de Hadoop. Así, Yahoo usando Hadoop pudo ordenar 1,8 Terabytes en 47,9 horas, algo increíble para las tecnologías existentes en 2006. Al año siguiente, en 2007, Yahoo Labs crean Pig, un sistema que permite acceder y transformar los datos ocultando la complejidad del paradigma Map/Reduce basándose en el lenguaje de scripts. En 2008, Facebook crea Hive, un sistema que permite acceder y transformar los datos ocultando la complejidad del sistema basado en SQL. Su principal función era migrar los programas en SQL al nuevo paradigma. También en 2008 se crea Cloudera, empresa con vocación de software libre creada por ingenieros que trabajaban en Google, Yahoo y Facebook, enfocada a comercializar Hadoop. Continuando, al año siguiente, en 2009, Yahoo ya consigue ordenar 1 Terabyte de información ¡en 62 segundos! ¿Te imaginas? Ese mismo año, nuestro Doug Cutting se une a Cloudera. Vayamos a 2010. Matei Zaharia, realiza su tesis doctoral en la Universidad de Berkeley, enfocada en proporcionar una mejor alternativa para procesar datos masivos en determinados casos en los que Map/Reduce no era del todo eficiente. Su tesis se basa en el uso de la memoria en lugar de usar el disco HDFS para el tratamiento masivo de datos. Nace Spark. 1 INTRODUCCIÓN A BIG DATA CRONOLOGÍA DE LAS TECNOLOGÍAS Ya en 2013, el proyecto es donado a Apache Foundation y nace Databricks, una plataforma enfocada a comercializar distribuciones basadas en Spark. En 2015, Google libera sus librerías para aprendizaje profundo, TensorFlow, para uso mediante licencia Open Source. Al año siguiente, en 2016, la startup DataTorrent lidera el proyecto Apache Apex, que permite el tratamiento por lotes y en tiempo real. Como último hito a destacar en esta cronología, en 2017, se acepta en Apache Foundation el conjunto de librerías MXNet que usa Amazon para el aprendizaje profundo. Y por si fuera poco, todas estas tecnologías son de licencia abierta, es decir, cualquiera puede usarlas sin coste alguno. Bueno, ¡no está mal el recorrido! Repasa la cronología en el siguiente esquema. ¡Hasta pronto! 2002 2003 2004 2006 Doug Cutting trabaja en Nutch Artículos de Google GFS Map/Reduce Doug Cutting incorpora DFS en Nutch •Yahoo ficha a Doug Cutting •Hadoop Proyecto Apache Foundation 2009 2010 2013 2015 2016 2017 Se crea Databrick Google libera bajo licencia open source tensor flow para aprendizaje profundo Apache, proyecto liderado por la empresa DataTorrent unifica el tratamiento en lotes y en tiempo real MXNet Amazon Aprendizaje profundo aceptado en fase de incubadora en Apache Foundation. •Yahoo! Ordena un terabyte en 62 segundos •Doug Cutting se une a Cloudera Matei Zaharia Tesis Spark Databrick 2 INTRODUCCIÓN A BIG DATA 2007 Yahoo crea Pig 2008 •Se crea Cloudera •Facebook crea Hive CRONOLOGÍA DE LAS TECNOLOGÍAS INTRODUCCIÓN AL BIG DATA 3 INTRODUCCIÓN A BIG DATA