4 maneres d'utilitzar R i Hadoop junts

R i Hadoop es complementen força bé en termes de visualització i anàlisi de big data. Aquesta entrada al bloc parla de 4 maneres d’utilitzar-les juntes.

Hadoop és un marc de programació basat en Java que permet el processament de grans conjunts de dades en un entorn informàtic distribuït, mentre que R és un entorn de programari i llenguatge de programació per a computació estadística i gràfics. El llenguatge R s’utilitza àmpliament entre estadístics i miners de dades per desenvolupar programari estadístic i realitzar anàlisis de dades. En les àrees d’anàlisi de dades interactives, estadístiques d’ús general i modelització predictiva, R ha guanyat una popularitat massiva a causa de les seves capacitats de classificació, agrupació i classificació.



KM



Hadoop i R es complementen força bé en termes de visualització i anàlisi de big data.

Utilitzant R i Hadoop

Hi ha quatre maneres diferents d’utilitzar Hadoop i R junts:



quadre que combina dues fonts de dades

1. RHadoop

RHadoop és una col·lecció de tres paquets R: rmr, rhdfs i rhbase. El paquet rmr proporciona la funcionalitat Hadoop MapReduce a R, rhdfs proporciona la gestió de fitxers HDFS a R i rhbase proporciona la gestió de bases de dades HBase des de R. Cadascun d'aquests paquets principals es pot utilitzar per analitzar i gestionar millor les dades del framework Hadoop.

2. ORQUÍ



ORCH significa Oracle R Connector per a Hadoop. És una col·lecció de paquets R que proporcionen les interfícies rellevants per treballar amb taules Hive, la infraestructura de càlcul Apache Hadoop, l'entorn R local i taules de bases de dades Oracle. A més, ORCH també proporciona tècniques analítiques predictives que es poden aplicar a les dades dels fitxers HDFS.

3. RIPA

RHIPE és un paquet R que proporciona una API per utilitzar Hadoop. RHIPE significa R i Hadoop Integrated Programming Environment, i és essencialment RHadoop amb una API diferent.

4. Transmissió Hadoop

Hadoop Streaming és una utilitat que permet als usuaris crear i executar feines amb qualsevol fitxer executable com el mapeador i / o el reductor. Mitjançant el sistema de transmissió, es poden desenvolupar treballs Hadoop que funcionin amb el coneixement suficient de Java per escriure dos scripts de shell que funcionin en tàndem.

La combinació de R i Hadoop sorgeix com un conjunt d’eines imprescindible per a les persones que treballen amb estadístiques i grans conjunts de dades. No obstant això, alguns entusiastes de Hadoop han aixecat una bandera vermella mentre tractaven fragments de Big Data extremadament grans. Afirmen que l'avantatge de R no és la seva sintaxi, sinó la biblioteca exhaustiva de primitives per a la visualització i les estadístiques. Aquestes biblioteques no es distribueixen fonamentalment, cosa que fa que la recuperació de dades sigui un assumpte que requereix temps. Aquest és un defecte inherent a R i, si decidiu passar per alt, R i Hadoop en tàndem encara poden fer meravelles.

Ara, vegem una demostració:

còpia profunda vs superficial java

Tens alguna pregunta? Esmenteu-los a la secció de comentaris i us respondrem.

Articles Relacionats: