Banear

jueves, 22 de agosto de 2013

Big Data - Configurar Hadoop y ejemplo de MapReduce

Paso 1. Configurando Hadoop en Linux (un clúster de una máquina)

En mi caso he usado la última versión estable de Hadoop del 1 de Agosto de 2013 y el Ubuntu. En concreto:
Linux Ubuntu 12.0.4 LTS

Os recomiendo este enlace http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/ donde se explica bastante bien como montarlo paso a paso. Aunque posiblemente os encontraréis con algunos problemas que paso a detallar a continuación:

- Que os de un rechazo de conexión en el puerto 22, es decir, "connect to host localhost port 22 connection refused". Esto quiere decir que probablemente, no tenéis descargado el ssh y el sshd o bien no se estén ejecutando. Para comprobar si existen, hacéis un "which ssh" y un "which sshd", si no devuelve una ruta, deberíais bajar el paquete e instalarlo (sudo apt-get install ssh).

- Si habéis seguido todas las instrucciones del enlace, es decir, habéis creado un usuario para hadoop, habéis descargado y configurado hadoop, habéis deshabilitado ipv6, disteis permisos al fichero /etc/hosts, ... llega el momento de levantar los procesos de Hadoop, para ello tenéis la opción de usar el .sh deprecado (/usr/local/hadoop/bin/start-all.sh) o bien en dos pasos, la opción recomendada actualmente por Hadoop:

/usr/local/hadoop/bin/start-dfs.sh (levanta los procesos NameNode, SecondaryNameNode y DataNode)
/usr/local/hadoop/bin/start-mapred.sh (levanta los procesos JobTracker y TaskTracker)

Una vez lanzados los servicios, con jps comprobamos que efectivamente están levantados. Al teclear jps debe saliros como mínimo algo de este estilo:

5113 TaskTracker
4507 DataNode
5239 Jps
4772 SecondaryNameNode
4245 NameNode
4873 JobTracker

Si tenéis Eclipse abierto u otros procesos Java lanzados, os saldrán también, pero no nos interesan (salvo que estén ocupando los puertos que teníamos reservados para Hadoop).
Si alguno de los procesos mencionados no os aparecen, pongo por aquí unas pequeñas ayudas. En general es recomendable lanzar uno a uno los que no aparezcan para obtener más información que a veces no se muestra en el log:

1) Si no aparece DataNode: lanzar "bin/hadoop datanode" y ver el error. Puede ser que necesitemos limpiar las carpetas tmp de hadoop "rm -Rf /app/tmp/hadoop-hduser/*" (no tiene porque estar sólo ahí) y "bin/hadoop namenode -format" con los servicios parados (stop-dfs.sh y stop-mapred.sh).

2) Si no aparece JobTracker: lanzar "bin/hadoop jobtracker" y ver el error. Si está relacionado con permisos/privilegios usar el comando "sudo chown -R hduser /usr/local/hadoop". Si después os da algo de este estilo: "org.apache.hadoop.mapred.SafeModeException: JobTracker is in safe mode", tendréis que salir del modo seguro "bin/hadoop dfsadmin -safemode leave"

Para ver los puertos asignados, podéis usar este comando: "sudo netstat -plten | grep java"

Si volvéis a levantar todo y veis los 6 con el comando "jps", perfecto, sino comentar por aquí el error por si me suena.



Paso2. Ejemplo con MapReduce

Para este ejemplo rapidillo, pero útil para ver cómo funciona (el concepto me recuerda bastante a los Reader/Processor/Writer de Spring-Batch ya que además la ejecución se paraleliza) usaremos:

- Un fichero con los terremotos de magnitud mayor o igual 1.5 que he obtenido a partir de fuentes oficiales, de unos 5Mb. Descargar.
- Una clase central que invocará a nuestras clases Map y Reduce. Descargar.
- La clase que se encarga del Map. Descargar
- La clase que se encarga del Reduce. Descargar




Colocamos nuestro fichero en el sistema de ficheros de Hadoop:

bin/hadoop dfs -put /home/hduser/terremotos terremotos
bin/hadoop dfs -ls /user/hduser/terremotos

Generaremos un jar (Desde eclipse podéis hacerlos fácilmente mediante la opción de exportar) con las clases mencionadas, y con los servicios de hadoop levantados, ejecutaremos el jar: "java -jar Terremotos.jar"

Y así obtenemos la lista de terremotos en Galicia a lo largo de la historia reciente:

hduser@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -cat /user/hduser/terremotosOutput/part-00000
Coruña  240
Costa gallega   252
Lugo    1276
OTROS   56518
Ourense 519
Pontevedra      249

Si queremos volver a lanzar el jar, podemos borrar el directorio de salida con "bin/hadoop dfs -rmr /user/hduser/terremotosOutput"


Para pasar el fichero del sistema de ficheros de hadoop al local, podéis hacer algo de este estilo:  ./hadoop dfs -copyToLocal /user/hduser/terremotosOutput/part-00000  /home/hduser

domingo, 18 de agosto de 2013

Big Data y Hadoop (HDFS + MapReduce)

Aunque el Big Data ya lleva unos años purulando, últimamente parece que empieza a expandirse cada vez más. Así que empezaremos a adentrarnos en él.

Big Data

Se trata de la acumulación/acceso, procesado y análisis de bestiales (del orden de petabytes) volúmenes de datos para obtener conclusiones. Podríamos decir, que nos sirve por ejemplo, para hacer análisis estadísticos donde el subconjunto de datos con el que trabajamos se acerca mucho al universo de datos existentes.

Conceptualmente, es algo muy poderoso ya que por un lado puede permitir:

- Anticiparse a catástrofes creando modelos de mayor fiabilidad
- Mejorar la calidad de vida (ciudades inteligentes -alumbrado inteligente-)

Pero por otra:

- Pérdida de privacidad
- Dar el 100% de confianza a los datos y dar por sentado que determinados hábitos siempre desembocan en el mismo comportamiento (me viene a la cabeza la película "Minority Report")
- Problemas de seguridad

Aunque no nos engañemos, si el BigData se está extendiendo, es por la tajada que le están sacando grandes empresas y gobiernos. Que por un lado benefician a los consumidores (por ejemplo en los seguros de automóvil que cada vez son más personalizados y por tanto más baratos para los buenos conductores), pero por otro tenemos cada vez menos privacidad y se presupondrán cada vez más aspectos de nuestro comportamiento.

También hay que tener en cuenta que esos enormes volúmenes de datos, deberían estar estructurados mínimamente (como seguramente los tengan ya Google, Facebook, Amazon, ...). Nosotros nos podemos crear crawlers para ir sacando información de las páginas (que hay unas cuantas, cada una hija de su padre y de su madre), pero está claro que va a ser claramente preferible que un usuario se registre en nuestro portal y que le vayamos pidiendo datos o simplemente vayamos registrando su actividad (qué tipo de productos compra, cuánto suele gastar, en qué épocas, que tipo de eventos le gusta, ....).

Hadoop

Consta de:

- Un sistema de ficheros distribuido (HDFS)
- Análisis de datos mediante MapReduce

Con lo cual tenemos un único sistema de ficheros que puede estar apuntando a ficheros de otras máquinas y un ánalisis que se puede paralelizar, minimizando los tiempos.

De momento, no hay distribución para windows (salvo que uses VMWare, Cygwin, lo típico) y como tampoco tengo nada en contra de Linux, pues en la próxima entrada explicaré como configurar y ejecutar Hadoop usando un ejemplo bastante gallego bajo Ubuntu (no porque vaya a intentar decir algo y no diga nada, sino porque realmente en el ejemplo nos centraremos en sacar unos datos que tienen que ver con Galicia).

Lo que no hay que perder de vista es que esto sólo es realmente útil si estamos trabajando con grandes volúmenes de datos (Big Data) ya que en otro caso, probablemente no valga la pena distribuirla. Aunque para hacer una prueba de Hadoop nos vale igual (abusando un poco de la notación) un fichero de 5Mb que mil de 5Pb.