Tutorial de Big Data: tot el que heu de saber sobre el Big Data.

Aquest bloc sobre el tutorial de Big Data us proporciona una visió completa de Big Data, les seves característiques, aplicacions i els reptes amb Big Data.

Tutorial de Big Data

Big Data, no heu sentit mai aquest terme? Estic segur que ho tens. En els darrers 4 a 5 anys, tothom parla de Big Data. Però, realment, sabeu què és exactament aquest Big Data, com afecta a les nostres vides i per què les organitzacions busquen professionals amb ? En aquest tutorial de Big Data, us donaré una informació completa sobre Big Data.



A continuació es detallen els temes que tractaré en aquest tutorial de Big Data:



  • Història del Big Data
  • Factors impulsors del Big Data
  • Què és el Big Data?
  • Característiques del Big Data
  • Tipus de Big Data
  • Exemples de Big Data
  • Aplicacions del Big Data
  • Reptes amb el Big Data

Tutorial de Big Data: Edureka

Permeteu-me començar aquest tutorial de Big Data amb una història breu.



Història del Big Data

Antigament la gent viatjava d’un poble a un altre amb un carro conduït per cavalls, però a mesura que passava el temps, els pobles es convertien en ciutats i la gent s’estenia. La distància per recórrer d’una ciutat a l’altra també va augmentar. Per tant, es va convertir en un problema viatjar entre ciutats, juntament amb l’equipatge. De debò, va suggerir un noi intel·ligent, que hauríem de preparar i alimentar més un cavall per solucionar aquest problema. Quan miro aquesta solució, no és tan dolenta, però creieu que un cavall es pot convertir en un elefant? No ho crec. Un altre noi intel·ligent va dir que, en lloc de tirar un carro per un cavall, deixem-nos tenir quatre cavalls per treure el mateix carro. Què us sembla aquesta solució? Crec que és una solució fantàstica. Ara, la gent pot recórrer grans distàncies en menys temps i fins i tot portar més maletes.

El mateix concepte s'aplica a Big Data. Big Data diu que, fins avui, estàvem bé d’emmagatzemar les dades als nostres servidors perquè el volum de les dades era bastant limitat i la quantitat de temps per processar aquestes dades també estava bé. Però ara, en aquest món tecnològic actual, les dades creixen massa ràpidament i la gent confia en les dades moltes vegades. A més, la velocitat amb què les dades creixen és cada vegada més impossible emmagatzemar-les en cap servidor.

A través d’aquest bloc sobre el tutorial de Big Data, explorem les fonts del Big Data, que els sistemes tradicionals no emmagatzemen i processen.



Factors impulsors del Big Data

La quantitat de dades al planeta terra creix exponencialment per molts motius. Diverses fonts i les nostres activitats del dia a dia generen moltes dades. Amb l’invent de la web, tot el món ha entrat en línia, cada cosa que fem deixa un rastre digital. Amb els objectes intel·ligents connectats a Internet, la taxa de creixement de les dades ha augmentat ràpidament. Les principals fonts de Big Data són els llocs de xarxes socials, xarxes de sensors, imatges / vídeos digitals, telèfons mòbils, registres de transaccions de compra, registres web, registres mèdics, arxius, vigilància militar, comerç electrònic, investigacions científiques complexes, etc. Tota aquesta informació equival a uns quants milions de bytes de dades. El 2020, els volums de dades rondaran els 40 Zettabytes, la qual cosa equival a afegir cada gra de sorra al planeta multiplicat per setanta-cinc.

Què és el Big Data?

Big Data és un terme que s’utilitza per a una col·lecció de conjunts de dades grans i complexos, que és difícil d’emmagatzemar i processar mitjançant eines de gestió de bases de dades disponibles o aplicacions tradicionals de processament de dades. El repte inclou capturar, conservar, emmagatzemar, buscar, compartir, transferir, analitzar i visualitzar aquestes dades.

Característiques del Big Data

Les cinc característiques que defineixen el Big Data són: Volum, Velocitat, Varietat, Veracitat i Valor.

  1. VOLUM

    El volum fa referència a la 'quantitat de dades', que creix dia a dia a un ritme molt ràpid. La mida de les dades generades pels humans, les màquines i les seves interaccions a les xarxes socials és massiva. Els investigadors han predit que es generaran 40 Zettabytes (40.000 exabytes) el 2020, la qual cosa suposa un augment de 300 vegades respecte al 2005.

  2. VELOCITAT

    La velocitat es defineix com el ritme al qual diferents fonts generen les dades cada dia. Aquest flux de dades és massiu i continu. A hores d’ara hi ha 1.03 mil milions d’usuaris actius diaris (Facebook DAU) al mòbil, cosa que suposa un augment del 22% interanual. Això mostra la rapidesa amb què creix el nombre d’usuaris a les xarxes socials i la rapidesa amb què es generen les dades diàriament. Si podeu controlar la velocitat, podreu generar informació i prendre decisions basades en dades en temps real.

  3. VARIETAT

    Com que hi ha moltes fonts que contribueixen al Big Data, el tipus de dades que estan generant és diferent. Pot ser estructurat, semiestructurat o no estructurat. Per tant, hi ha una gran varietat de dades que es generen cada dia. Abans, solíem obtenir les dades d’Excel i bases de dades, ara les dades arriben en forma d’imatges, àudios, vídeos, dades del sensor, etc., tal com es mostra a la imatge següent. Per tant, aquesta varietat de dades no estructurades crea problemes en la captura, emmagatzematge, extracció i anàlisi de les dades.

  4. VERACITAT

    La veracitat es refereix a les dades en dubte o incertesa de les dades disponibles a causa de la inconsistència i incompletesa de les dades. A la imatge següent, podeu veure que falten pocs valors a la taula. A més, alguns valors són difícils d'acceptar, per exemple: 15000 valor mínim a la 3a fila, no és possible. Aquesta incoherència i incompletesa és Veracity.
    De vegades, les dades disponibles poden esdevenir desordenades i potser difícils de confiar. Amb moltes formes de big data, la qualitat i la precisió són difícils de controlar, com ara les publicacions de Twitter amb etiquetes, abreviatures, tipografies i parla col·loquial. El volum és sovint el motiu de la manca de qualitat i precisió de les dades.

    titella vs xef vs ansible
    • A causa de la incertesa de les dades, 1 de cada 3 líders empresarials no confia en la informació que utilitzen per prendre decisions.
    • En una enquesta es va trobar que el 27% dels enquestats no estava segur de la quantitat de dades que eren inexactes.
    • La mala qualitat de les dades costa a l’economia nord-americana uns 3,1 bilions de dòlars l’any.
  5. VALOR

    Després de discutir el volum, la velocitat, la varietat i la veracitat, hi ha una altra V que s’hauria de tenir en compte quan es mira el Big Data, és a dir, el valor. Està molt bé tenir accés a gransdadesperòtret que puguem convertir-lo en valor, no serveix de res. En convertir-lo en valor, vull dir, s’afegeix als beneficis de les organitzacions que analitzen el big data? L’organització que treballa en Big Data està assolint un ROI elevat (retorn de la inversió)? Si no s’afegeix als seus beneficis treballant a Big Data, no serveix de res.

Consulteu el nostre vídeo Big Data a continuació per obtenir més informació sobre Big Data:

Tutorial de Big Data per a principiants | Què és el Big Data | Edureka

Com es va comentar a Variety, hi ha diferents tipus de dades que es generen cada dia. Per tant, comprenem ara els tipus de dades:

Tipus de Big Data

El Big Data pot ser de tres tipus:

  • Estructurat
  • Semiestructurat
  • No estructurat

  1. Estructurat

    Les dades que es poden emmagatzemar i processar en un format fix s’anomenen dades estructurades. Les dades emmagatzemades en un sistema de gestió de bases de dades relacionals (RDBMS) són un exemple de dades ‘estructurades’. És fàcil processar dades estructurades, ja que té un esquema fix. El Llenguatge de consultes estructurades (SQL) s’utilitza sovint per gestionar aquest tipus de dades.

  2. Semiestructurat

    Les dades semiestructurades són un tipus de dades que no tenen una estructura formal d’un model de dades, és a dir, una definició de taula en un SGBD relacional, però, tanmateix, té algunes propietats organitzatives com les etiquetes i altres marcadors per separar els elements semàntics que ho fan més fàcil analitzar. Els fitxers XML o documents JSON són exemples de dades semiestructurades.

  3. No estructurat

    Les dades que tenen una forma desconeguda i que no es poden emmagatzemar a RDBMS i que no es poden analitzar tret que es transformin en un format estructurat s’anomenen dades no estructurades. Els fitxers de text i els continguts multimèdia com imatges, àudios i vídeos són un exemple de dades no estructurades. Les dades no estructurades creixen més ràpidament que altres, segons els experts, el 80% de les dades d’una organització no estan estructurades.

    estructura de dades i algorisme a Java

Fins ara, acabo de tractar la introducció del Big Data. A més, aquest tutorial de Big Data parla d’exemples, aplicacions i reptes del Big Data.

Exemples de Big Data

Diàriament penjem milions de bytes de dades. El 90% de les dades mundials s’han creat en els darrers dos anys.

  • Walmart maneja més de 1 milió transaccions de clients cada hora.
  • Emmagatzema, accedeix i analitza a Facebook Més de 30 petabytes de dades generades per l'usuari.
  • Més de 230 milions de tuits es creen cada dia.
  • Més que 5.000 milions la gent truca, envia missatges de text, tuiteja i navega per telèfons mòbils de tot el món.
  • Els usuaris de YouTube carreguen 48 hores de vídeo nou cada minut del dia.
  • Manetes d’Amazon 15 milions els clients fan clic al flux de dades d’usuari al dia per recomanar productes
  • 294.000 milions els correus electrònics s’envien cada dia. Els serveis analitzen aquestes dades per trobar els correu brossa.
  • Els cotxes moderns tenen a prop 100 sensors que controla el nivell de combustible, la pressió dels pneumàtics, etc., cada vehicle genera moltes dades del sensor.

Aplicacions del Big Data

No podem parlar de dades sense parlar de la gent, de la gent que es beneficia de les aplicacions de Big Data. Actualment, gairebé totes les indústries aprofiten les aplicacions de Big Data d’una o altra manera.

  • Assistència sanitària més intel·ligent : Utilitzant els petabytes de dades del pacient, l’organització pot extreure informació significativa i, a continuació, crear aplicacions que puguin predir el deteriorament del pacient per endavant.
  • Telecom : Els sectors de les telecomunicacions recopilen informació, l’analitzen i ofereixen solucions a diferents problemes. Mitjançant l’ús d’aplicacions Big Data, les empreses de telecomunicacions han pogut reduir significativament la pèrdua de paquets de dades, que es produeix quan les xarxes es sobrecarreguen i, per tant, proporcionen una connexió perfecta als seus clients.
  • Venda al detall : El comerç al detall té alguns dels marges més reduïts i és un dels majors beneficiaris del big data. La bellesa d’utilitzar el big data al detall és comprendre el comportament dels consumidors. El motor de recomanacions d’Amazon proporciona suggeriments basats en l’historial de navegació del consumidor.
  • Control del trànsit : La congestió del trànsit és un repte important per a moltes ciutats de tot el món. L’ús eficaç de dades i sensors serà clau per gestionar millor el trànsit a mesura que les ciutats es poblen cada cop més.
  • Fabricació : L'anàlisi de dades massives a la indústria manufacturera pot reduir els defectes dels components, millorar la qualitat del producte, augmentar l'eficiència i estalviar temps i diners.
  • Qualitat de cerca : Cada vegada que extraiem informació de Google, simultàniament en generem dades. Google emmagatzema aquestes dades i les utilitza per millorar la seva qualitat de cerca.

Algú ha dit amb raó: 'No tot el jardí és rosat!' . Fins ara, en aquest tutorial de Big Data, us acabo de mostrar la imatge rosada del Big Data. Però si fos tan fàcil aprofitar el Big Data, no creieu que totes les organitzacions hi invertirien? Deixeu-me que us ho digui per avançat, que no és el cas. Hi ha diversos reptes que apareixen quan es treballa amb Big Data.

Ara que ja esteu familiaritzat amb el Big Data i les seves diverses funcions, la següent secció d’aquest bloc sobre el Big Data Tutorial aportarà una mica de llum sobre alguns dels principals reptes als quals s’enfronta el Big Data.

Reptes amb el Big Data

Permeteu-me que us expliqui alguns desafiaments que apareixen al costat del Big Data:

  1. Qualitat de les dades - El problema aquí és el 4thV és a dir, Veracitat. Les dades aquí són molt desordenades, inconsistents i incompletes. Les dades brutes costen 600.000 milions de dòlars a les empreses cada any als Estats Units.
  1. Descobriment - Trobar informació sobre el Big Data és com trobar una agulla en un paller. Analitzar els petabytes de dades mitjançant algoritmes extremadament potents per trobar patrons i estadístiques és molt difícil.
  1. Emmagatzematge - Com més dades tingui una organització, més complexos poden esdevenir els problemes de gestió. La pregunta que es planteja aquí és 'On emmagatzemar-la?'. Necessitem un sistema d’emmagatzematge que pugui escalar o baixar fàcilment segons la demanda.
  1. Analítica - En el cas del Big Data, la majoria de les vegades desconeixem el tipus de dades que tractem, de manera que analitzar aquestes dades és encara més difícil.
  1. Seguretat - Com que les dades tenen una mida enorme, mantenir-les segures és un altre repte. Inclou l’autenticació de l’usuari, la restricció de l’accés basat en un usuari, el registre d’històrics d’accés a les dades, l’ús adequat del xifratge de dades, etc.
  1. Manca de talent - Hi ha molts projectes de Big Data a les principals organitzacions, però un equip sofisticat de desenvolupadors, científics de dades i analistes que també tenen una quantitat suficient de coneixement del domini segueix sent un repte.

Hadoop to the Rescue

Tenim un salvador per fer front als reptes del Big Data: és el seu Hadoop . Hadoop és un marc de programació de codi obert basat en Java que admet l’emmagatzematge i el processament de conjunts de dades extremadament grans en un entorn informàtic distribuït. Forma part del projecte Apache patrocinat per Apache Software Foundation.

Hadoop, amb el seu processament distribuït, gestiona grans volums de dades estructurades i no estructurades de manera més eficient que el magatzem de dades empresarial tradicional. Hadoop permet executar aplicacions en sistemes amb milers de nodes de maquinari bàsics i gestionar milers de terabytes de dades. Les organitzacions adopten Hadoop perquè és un programari de codi obert i pot funcionar en maquinari bàsic (el vostre ordinador personal).L’estalvi inicial de costos és espectacular, ja que el maquinari de productes bàsics és molt barat. A mesura que augmenten les dades organitzatives, haureu d'afegir cada vegada més maquinari bàsic per emmagatzemar-lo i, per tant, Hadoop demostra ser econòmic.A més, Hadoop té al seu darrere una sòlida comunitat Apache que continua contribuint al seu avanç.

Com es va prometre anteriorment, a través d’aquest bloc sobre el Big Data Tutorial, us he proporcionat la màxima informació sobre Big Data. Aquest és el final del tutorial de Big Data. Ara, el següent pas endavant és conèixer i aprendre Hadoop. Tenim un sèrie de tutorial Hadoop blocs que donaran coneixement detallat de l’ecosistema complet d’Hadoop.

Tot el millor, Happy Hadooping!

com convertir el doble a int

Ara que ja heu entès què és el Big Data, consulteu el per Edureka, una empresa d'aprenentatge en línia de confiança amb una xarxa de més de 250.000 estudiants satisfets repartits per tot el món. El curs de formació en certificació Edureka Big Data Hadoop ajuda els estudiants a convertir-se en experts en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop mitjançant casos d’ús en temps real en dominis Retail, Social Media, Aviació, Turisme, Finances

Tens alguna pregunta? Esmenta’l a la secció de comentaris i et respondrem.

Articles Relacionats: