MongoDB amb Hadoop i tecnologies de Big Data relacionades

MongoDB amb Hadoop i les tecnologies Big Data relacionades és una potent combinació per proporcionar solució a una situació complexa d’anàlisi.

Les bases de dades relacionals durant molt de temps van ser suficients per manejar conjunts de dades petits o mitjans. Però la taxa colossal a la qual les dades creixen fa inviable l’enfocament tradicional d’emmagatzematge i recuperació de dades. Aquest problema s’està resolent amb tecnologies més noves que poden gestionar el Big Data. Hadoop, Hive i Hbase són les plataformes populars per operar aquest tipus de grans conjunts de dades. Les bases de dades NoSQL o Not Only SQL, com ara MongoDB, proporcionen un mecanisme per emmagatzemar i recuperar dades en un model de consistència de perdedor amb avantatges com:



  • Escala horitzontal
  • Major disponibilitat
  • Accés més ràpid

L’equip d’enginyeria de MongoDB ha actualitzat recentment el connector MongoDB per a Hadoop per tenir una millor integració. Això facilita als usuaris d’Hadoop:



  • Integreu dades en temps real de MongoDB amb Hadoop per fer anàlisis profundes i fora de línia.
  • El Connector exposa la potència analítica de MapReduce d’Hadoop per obtenir dades d’aplicacions en viu des de MongoDB, generant el valor de les dades massives de manera més ràpida i eficient.
  • El Connector presenta MongoDB com un sistema de fitxers compatible amb Hadoop que permet que un treball MapReduce llegeixi directament de MongoDB sense copiar-lo primer a HDFS (sistema de fitxers Hadoop), eliminant així la necessitat de moure Terabytes de dades a la xarxa.
  • Els treballs MapReduce poden passar consultes com a filtres, evitant així la necessitat d’escanejar col·leccions senceres i també poden aprofitar les riques capacitats d’indexació de MongoDB, inclosos índexs geoespacials, de cerca de text, de matriu, compostos i escassos.
  • Llegint des de MongoDB, els resultats dels treballs Hadoop també es poden tornar a escriure a MongoDB, per donar suport als processos operatius en temps real i a la consulta ad hoc.

Casos d’ús d’Hadoop i MongoDB:

Vegem una descripció d'alt nivell de com MongoDB i Hadoop poden encaixar en una pila típica de Big Data. Principalment tenim:

tutorial de programació sas per a principiants
  • MongoDB utilitzat com a Magatzem de dades en temps real “operatiu”
  • Hadoop per processament i anàlisi de dades per lots fora de línia

Seguiu llegint per saber per què i com MongoDB va ser utilitzat per empreses i organitzacions com Aadhar, Shutterfly, Metlife i eBay .



Aplicació de MongoDB amb Hadoop a l'agregació per lots:

En la majoria d’escenaris, la funcionalitat d’agregació integrada proporcionada per MongoDB és suficient per analitzar les dades. Tanmateix, en alguns casos, pot ser necessària una agregació de dades significativament més complexa. Aquí és on Hadoop pot proporcionar un marc potent per a anàlisis complexes.

com instal·lar hadoop a Linux

En aquest escenari:

  • Les dades s’extreuen de MongoDB i es processen a Hadoop mitjançant un o més treballs MapReduce. Les dades també es poden obtenir d'altres llocs d'aquests treballs MapReduce per desenvolupar una solució de fonts de dades múltiples.
  • La sortida d’aquests treballs de MapReduce es pot tornar a escriure a MongoDB per consultar-los en una etapa posterior i per a qualsevol anàlisi ad-hoc.
  • Per tant, les aplicacions construïdes a sobre de MongoDB poden utilitzar la informació de l’anàlisi per lots per presentar-la al client final o per habilitar altres funcions posteriors.

Agregació de bases de dades Hadoop Mongo



Aplicació al magatzematge de dades:

En una configuració de producció típica, les dades de l'aplicació poden residir en diversos magatzems de dades, cadascun amb el seu propi idioma i funcionalitat de consulta. Per reduir la complexitat en aquests escenaris, Hadoop es pot utilitzar com a magatzem de dades i actuar com un dipòsit centralitzat de dades de les diverses fonts.

ordenar matriu c ++

En aquest tipus d'escenaris:

  • Els treballs MapReduce periòdics carreguen dades de MongoDB a Hadoop.
  • Quan les dades de MongoDB i d'altres fonts estiguin disponibles a Hadoop, es podrà consultar el conjunt de dades més gran.
  • Els analistes de dades ara tenen l’opció d’utilitzar MapReduce o Pig per crear treballs que consultin els conjunts de dades més grans que incorporen dades de MongoDB.

L’equip que treballa darrere de MongoDB ha assegurat que, gràcies a la seva rica integració amb tecnologies de Big Data com Hadoop, pot integrar-se bé a la Big Data Stack i ajudar a resoldre alguns problemes arquitectònics complexos pel que fa a l’emmagatzematge, recuperació, processament, agregació i emmagatzematge de dades. . Estigueu atents a la nostra propera publicació sobre perspectives de carrera per a aquells que acceptin Hadoop amb MongoDB. Si ja esteu treballant amb Hadoop o simplement recolliu MongoDB, consulteu els cursos que oferim per a MongoDB