Drilling Down On Apache Drill, el motor de consultes New-Age

Aquest tutorial d'Apache Drill us proporciona tota la informació que necessiteu per començar amb el motor de consultes d'Apache Drill, ús amb Hadoop, Big Data i Apache Spark.



Apache Drill és el primer motor SQL sense esquemes de la indústria. Drill no és el primer motor de consulta del món, però és el primer que assoleix un equilibri precís entre flexibilitat i velocitat. Drill està dissenyat per escalar a diversos milers de nodes i consultar petabytes de dades a velocitats interactives que requereixen els entorns BI / Analytics.



Es pot integrar amb diverses fonts de dades com Hive, HBase, MongoDB, sistema de fitxers, RDBMS. A més, formats d’entrada com Avro, CSV, TSV, PSV, Parquet, fitxers de seqüència Hadoop i molts altres es poden utilitzar a Drill amb facilitat.

Per què Apache Drill?

L’avantatge més gran d’Apache Drill és que pot descobrir l’esquema sobre la marxa mentre es consulten dades. A més, pot funcionar amb les vostres eines de BI com Tableau, Qlikview, MicroStrategy, etc. per obtenir millors anàlisis.



Aquí teniu una cita d’un analista del sector que resumeix el valor d’Apache Drill:

'Drill no es tracta només de SQL-on-Hadoop. Es tracta d’SQL sobre gairebé qualsevol cosa, de manera immediata i sense formalitats '.

- Andrew Burst, Gigaom Research, gener de 2015



Drillbit és el dimoni d’Apache Drill que s’executa a cada node del clúster. Utilitza ZooKeeper per a totes les comunicacions del clúster i la pertinença al clúster principal. És responsable d’acceptar les sol·licituds del client, processar les consultes i retornar els resultats al client. El drillbit que rep la sol·licitud del client s’anomena ‘capatàs’. Genera el pla d'execució, els fragments d'execució s'envien a altres drillbits que s'executen al clúster.

Drillbits-Apache-Drill

Un avantatge més és que la instal·lació i configuració del trepant és força senzilla. Aprenem a instal·lar Apache Drill.

El primer pas és descarregar el paquet de perforació.

marc híbrid en selenium webdriver

Comandament: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Comandament: tar -xvf apache-drill-1.5.0.tar.gz

Comandament: ls

A continuació, configureu les variables d'entorn al fitxer .bashrc.

Comandament: sudo gedit .bashrc

exportació DRILL_HOME = / home / edureka / apache-drill-1.5.0

exporta PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Aquesta ordre actualitzarà els canvis:

Comandament: font .bashrc

Ara aneu al directori drill conf i editeu el fitxer drill-override.conf amb l’identificador del clúster i l’amfitrió i el port zookeeper, l’executarem en un clúster local.

Comandament: cd apache-drill-1.5.0

Comandament: sudo gedit conf / drill-override.conf

Per defecte, DRILL_MAX_DIRECT_MEMORY tindrà 8 GB a drill-env.sh i hem de conservar-la segons la memòria que tinguem.

Comandament: sudo gedit conf / drill-env.sh

Per instal·lar l'exploració només en un sol node, podeu utilitzar el mode incrustat, on s'executarà localment. S'iniciarà automàticament el servei drillbit quan executeu aquesta ordre.

Comandament: ./bin/drill-embedded

Podeu executar una consulta senzilla per comprovar la instal·lació.

Comandament: seleccioneu * de sys.options WHERE tipus = 'SISTEMA' i un nom com 'seguretat%'

Per comprovar la consola web d’Apache Drill, hem d’anar a localhost: 8047 al navegador web.

També podeu executar la vostra consulta des de la pestanya Consulta.

Per executar l'exploració en mode distribuït, heu d'editar l'identificador de clúster i afegir la informació de ZooKeeper a drill-override.conf com es mostra a continuació.

A continuació, hem d’iniciar el servei ZooKeeper a cada node. Després, haureu d'iniciar el servei drillbit a cada node amb aquesta ordre.

Comandament: ./bin/drillbit.sh inici

Comandament: jps

Ara, fem servir l'ordre següent per iniciar el shell de perforació.

Ara podem executar les nostres consultes al clúster en mode distribuït.

Aquesta és la primera publicació de bloc d’una sèrie de blocs Apache Drill en dues parts. Aviat arribarà el segon bloc de la sèrie.

Tens alguna pregunta? Esmenteu-los a la secció de comentaris i us respondrem.

Articles Relacionats:

Drilling Down On Apache Drill Part 2

elevar alguna cosa a un poder a Java

Apache Spark Vs Hadoop MapReduce