Instal·leu Hadoop: configuració d'un clúster Hadoop d'un sol node

Aquest tutorial és una guia pas a pas per instal·lar el clúster Hadoop i configurar-lo en un sol node. Tots els passos d’instal·lació d’Hadoop són per a la màquina CentOS.

Instal·leu Hadoop: configuració d'un clúster Hadoop d'un sol node

Dels nostres blocs anteriors , deu tenir una idea teòrica sobre Hadoop, HDFS i la seva arquitectura.Però per aconseguir necessiteu un bon coneixement pràctic.Espero que us hagués agradat el nostre bloc anterior , ara us guiaré amb els coneixements pràctics sobre Hadoop i HDFS. El primer pas endavant és instal·lar Hadoop.



Hi ha dues maneres d’instal·lar Hadoop, és a dir, Node únic i Node múltiple .



Clúster d'un sol node significa només un DataNode que s'executa i configura tots els NameNode, DataNode, ResourceManager i NodeManager en una sola màquina. S'utilitza per estudiar i provar. Per exemple, considerem un conjunt de dades de mostra dins d’una indústria sanitària. Per tant, per provar si els treballs d’Oozie han programat tots els processos com ara recopilar, agregar, emmagatzemar i processar les dades en una seqüència adequada, fem servir un clúster de node únic. Pot provar fàcilment i eficaçment el flux de treball seqüencial en un entorn més reduït en comparació amb entorns grans que contenen terabytes de dades distribuïdes a centenars de màquines.

Mentre estava en un Clúster de diversos nodes , hi ha més d'un DataNode en execució i cada DataNode s'executa en màquines diferents. El clúster de diversos nodes s’utilitza pràcticament a les organitzacions per analitzar el Big Data. Tenint en compte l'exemple anterior, en temps real quan tractem petabytes de dades, cal distribuir-los entre centenars de màquines per processar-les. Per tant, aquí fem servir un clúster de diversos nodes.



En aquest bloc, us mostraré com instal·lar Hadoop en un clúster de node únic.

Requisits previs

  • CAIXA VIRTUAL : s'utilitza per instal·lar-hi el sistema operatiu.
  • SISTEMA OPERATIU : Podeu instal·lar Hadoop en sistemes operatius basats en Linux. Ubuntu i CentOS s’utilitzen molt sovint. En aquest tutorial, fem servir CentOS.
  • JAVA : Cal instal·lar el paquet Java 8 al vostre sistema.
  • HADOOP : Necessiteu el paquet Hadoop 2.7.3.

Instal·leu Hadoop

Pas 1: Clica aquí per descarregar el paquet Java 8. Deseu aquest fitxer al directori inicial.

Pas 2: Extraieu el fitxer Java Tar.

Comandament : tar -xvf jdk-8u101-linux-i586.tar.gz

Untar Java - Install Hadoop - Edureka



Fig: Instal·lació Hadoop: extracció de fitxers Java

Pas 3: Baixeu-vos el paquet Hadoop 2.7.3.

Comandament : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Instal·lació de Hadoop: descàrrega de Hadoop

Pas 4: Extraieu el fitxer tar Hadoop.

Comandament : tar -xvf hadoop-2.7.3.tar.gz

Fig: Instal·lació Hadoop: extracció de fitxers Hadoop

Pas 5: Afegiu els camins Hadoop i Java al fitxer bash (.bashrc).

Obert . bashrc dossier. Ara, afegiu Hadoop i Java Path com es mostra a continuació.

Comandament : vi .bashrc

Fig: Instal·lació de Hadoop - Configuració de l'entorn variable

A continuació, deseu el fitxer bash i tanqueu-lo.

Per aplicar tots aquests canvis al terminal actual, executeu l'ordre font.

Comandament : font .bashrc

quina diferència hi ha entre git i github

Fig: Instal·lació de Hadoop - Actualització de variables d'entorn

Per assegurar-vos que Java i Hadoop s'han instal·lat correctament al vostre sistema i que es pot accedir a través del terminal, eexecuteu les ordres de versió java -version i hadoop.

Comandament : java-versió

Fig: Instal·lació de Hadoop: comprovació de la versió de Java

Comandament : hadoopversió

Fig: Instal·lació d’Hadoop: comprovació de la versió d’Hadoop

Pas 6 : Editeu el fitxer .

Comandament: cd hadoop-2.7.3 / etc / hadoop /

Comandament: ls

Tots els fitxers de configuració de Hadoop es troben a hadoop-2.7.3 / etc / hadoop directori com podeu veure a la instantània següent:

Fig: Instal·lació de Hadoop: fitxers de configuració de Hadoop

Pas 7 : Obert core-site.xml i editeu la propietat esmentada a continuació dins de l'etiqueta de configuració:

core-site.xml informa el dimoni Hadoop on s’executa NameNode al clúster. Conté paràmetres de configuració del nucli d’Hadoop, com ara paràmetres d’E / S que són comuns a HDFS i MapReduce.

Comandament : vi core-site.xml

Fig: Instal·lació de Hadoop: configuració de core-site.xml

fs.default.name hdfs: // localhost: 9000

Pas 8: Edita hdfs-site.xml i editeu la propietat esmentada a continuació dins de l'etiqueta de configuració:

hdfs-site.xml conté paràmetres de configuració dels dimonis HDFS (és a dir, NameNode, DataNode, SecondNameNode). També inclou el factor de rèplica i la mida del bloc de HDFS.

Comandament : vi hdfs-site.xml

Fig: Instal·lació de Hadoop: configuració de hdfs-site.xml

dfs.replication 1 dfs.permission false

Pas 9 : Editeu el fitxer mapred-site.xml fitxer i editeu la propietat esmentada a continuació dins de l’etiqueta de configuració:

mapred-site.xml conté paràmetres de configuració de l'aplicació MapReduce, com ara el nombre de JVM que es pot executar en paral·lel, la mida del mapeador i del procés reductor, nuclis de CPU disponibles per a un procés, etc.

En alguns casos, el fitxer mapred-site.xml no està disponible. Per tant, hem de crear el fitxer mapred-site.xmlmitjançant la plantilla mapred-site.xml.

Comandament : cp mapred-site.xml.template mapred-site.xml

Comandament : nosaltres mapred-lloc.xml.

Fig: Instal·lació Hadoop: configuració de mapred-site.xml

fil de mapreduce.framework.name

Pas 10: Edita yarn-site.xml i editeu la propietat esmentada a continuació dins de l'etiqueta de configuració:

yarn-site.xml conté paràmetres de configuració de ResourceManager i NodeManager com la mida de gestió de memòria de l’aplicació, l’operació necessària al programa i l’algorisme, etc.

Comandament : vi yarn-site.xml

Fig: Instal·lació de Hadoop: configuració de yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Pas 11: Edita hadoop-env.sh i afegiu el camí de Java com s'esmenta a continuació:

hadoop-env.sh conté les variables d'entorn que s'utilitzen a l'script per executar Hadoop, com ara el camí inicial de Java, etc.

Comandament : nosaltres hadoop-env.sh

Fig: Instal·lació Hadoop: configuració de hadoop-env.sh

Pas 12: Aneu al directori inicial d'Hadoop i formateu el NameNode.

Comandament : cd

Comandament : cd hadoop-2.7.3

Comandament : bin / hadoop purpose -format

Fig: Instal·lació de Hadoop: format de NameNode

Això dóna format al format HDFS mitjançant NameNode. Aquesta ordre només s’executa per primera vegada. Formatar el sistema de fitxers significa inicialitzar el directori especificat per la variable dfs.name.dir.

No formateu mai, activeu i executeu el sistema de fitxers Hadoop. Perdrà totes les dades emmagatzemades a l’HDFS.

Pas 13: Un cop formatat el NameNode, aneu al directori hadoop-2.7.3 / sbin i inicieu tots els dimonis.

Comandament: cd hadoop-2.7.3 / sbin

Podeu iniciar tots els dimonis amb una sola ordre o fer-ho individualment.

Comandament: ./ start-all.sh

L'ordre anterior és una combinació de start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

O bé podeu executar tots els serveis de manera individual, tal i com es mostra a continuació:

Nom d'inici:

El NameNode és la peça central d’un sistema de fitxers HDFS. Guarda l'arbre de directoris de tots els fitxers emmagatzemats a l'HDFS i fa un seguiment de tots els fitxers emmagatzemats al clúster.

Comandament: ./propòsit d'inici de hadoop-daemon.sh

Fig: Instal·lació de Hadoop - Inici NameNode

Inici DataNode:

En iniciar-se, un DataNode es connecta al Namenode i respon a les sol·licituds del Namenode per a diferents operacions.

Comandament: ./hadoop-daemon.sh start datanode

Fig: Instal·lació Hadoop: inici de DataNode

Inicieu ResourceManager:

ResourceManager és el mestre que arbitra tots els recursos de clúster disponibles i, per tant, ajuda a gestionar les aplicacions distribuïdes que s’executen al sistema YARN. El seu treball consisteix a gestionar cada NodeManagers i ApplicationMaster de cada aplicació.

Comandament: ./filat-daemon.sh iniciar el gestor de recursos

Fig: Instal·lació Hadoop: inici de ResourceManager

Inicieu NodeManager:

El NodeManager de cada framework de màquina és l'agent que s'encarrega de gestionar els contenidors, supervisar-ne l'ús de recursos i informar-ne el mateix al ResourceManager.

Comandament: ./filat-daemon.sh iniciar nodemanager

Fig: Instal·lació Hadoop: inici de NodeManager

Inicieu JobHistoryServer:

JobHistoryServer és responsable de donar servei a totes les sol·licituds relacionades amb l'historial de treballs del client.

Comandament : ./mr-jobhistory-daemon.sh iniciar historyserver

Pas 14: Per comprovar que tots els serveis Hadoop estan en funcionament, executeu l'ordre següent.

Comandament: jps

Fig: Instal·lació Hadoop - Comprovació de dimonis

Pas 15: Ara obriu el navegador Mozilla i aneu a localhost : 50070 / dfshealth.html per comprovar la interfície NameNode.

Fig: Instal·lació de Hadoop: inici de WebUI

Enhorabona, heu instal·lat amb èxit un clúster Hadoop d’un sol node alhora.Al nostre proper bloc de , també explicarem com instal·lar Hadoop en un clúster de diversos nodes.

Ara que ja heu entès com instal·lar Hadoop, consulteu el fitxer per Edureka, una empresa d'aprenentatge en línia de confiança amb una xarxa de més de 250.000 estudiants satisfets repartits per tot el món. El curs de formació en certificació Edureka Big Data Hadoop ajuda els estudiants a convertir-se en experts en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop mitjançant casos d’ús en temps real en dominis Retail, Social Media, Aviació, Turisme, Finances

Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.