Informatica ETL: una guia per a principiants per entendre l’ETL mitjançant Informatica PowerCenter

Comprendre els conceptes de Informatica ETL i les diverses etapes del procés ETL i practicar un cas d’ús que inclogui la base de dades d’empleats.

El propòsit d’Informatica ETL és proporcionar als usuaris, no només un procés d’extracció de dades dels sistemes d’origen i incorporació al magatzem de dades, sinó també proporcionar als usuaris una plataforma comuna per integrar les seves dades de diverses plataformes i aplicacions.Això ha provocat un augment de la demanda de .Abans de parlar d’ETL Informatica, primer entenem per què necessitem ETL.



Per què necessitem ETL?

Totes les empresesen aquests dies cal processar grans conjunts de dades de fonts variades. Cal processar aquestes dades per proporcionar informació detallada per prendre decisions empresarials. Però, sovint, aquestes dades tenen els següents reptes:



  • Les grans empreses generen moltes dades i aquest gran tros de dades pot tenir qualsevol format. Estarien disponibles en diverses bases de dades i en molts fitxers no estructurats.
  • Aquestes dades s'han de recopilar, combinar, comparar i fer funcionar com un tot perfecte. Però les diferents bases de dades no es comuniquen bé.
  • Moltes organitzacions han implementat interfícies entre aquestes bases de dades, però han afrontat els següents reptes:
    • Cada parell de bases de dades requereix una interfície única.
    • Si canvieu una base de dades, és possible que hagueu d’actualitzar moltes interfícies.

A continuació podeu veure les diverses bases de dades d'una organització i les seves interaccions:

Diversos conjunts de dades d

Diverses bases de dades utilitzades per diferents departaments d'una organització



Diferents interaccions de les bases de dades en una organització

Com es va veure més amunt, una organització pot tenir diverses bases de dades en els seus diferents departaments i la interacció entre elles es fa difícil d’implementar ja que cal crear diverses interfícies d’interacció per a elles. Per superar aquests reptes, la millor solució possible és utilitzar els conceptes de Integració de dades la qual cosa permetria comunicar dades de diferents bases de dades i formats. La figura següent ens ajuda a entendre com l’eina d’integració de dades es converteix en una interfície comuna per a la comunicació entre les diverses bases de dades.

Diverses bases de dades connectades mitjançant integració de dades



Però hi ha diferents processos disponibles per dur a terme la integració de dades. Entre aquests processos, ETL és el procés més òptim, eficient i fiable. Mitjançant ETL, l’usuari no només pot aportar dades de diverses fonts, sinó que pot realitzar les diferents operacions sobre les dades abans d’emmagatzemar-les a l’objectiu final.

Entre les diverses eines ETL disponibles al mercat, Informatica PowerCenter és la plataforma d’integració de dades líder del mercat. Després d’haver provat en prop de 500.000 combinacions de plataformes i aplicacions, Informatica PowerCenter opera amb la gamma més àmplia possible d’estàndards, sistemes i aplicacions diferents. Ara entenem els passos del procés Informatica ETL.

Informàtica ETL | Informatica Architecture | Tutorial Informatica PowerCenter | Edureka

Aquest tutorial d’Edureka Informatica us ajuda a entendre els fonaments de l’ETL mitjançant Informatica Powercenter amb detall.

Passos del procés Informatica ETL:

Abans de passar als diferents passos que comporta Informatica ETL, tinguem una visió general d’ETL. A ETL, l’extracció és on s’extreuen dades de fonts de dades homogènies o heterogènies, Transformació on les dades es transformen per emmagatzemar-les en el format o l’estructura adequats a efectes de consulta i anàlisi i Carregant on es carreguen les dades a la base de dades de destinació final, magatzem de dades operatives, data mart o magatzem de dades. La imatge següent us ajudarà a entendre com té lloc el procés Informatica ETL.

Visió general del procés ETL

Com es va veure més amunt, Informatica PowerCenter pot carregar dades de diverses fonts i emmagatzemar-les en un únic magatzem de dades. Ara, vegem els passos del procés Informatica ETL.

Hi ha principalment 4 passos en el procés Informatica ETL, ara entenem-los en profunditat:

  1. Extreure o capturar
  2. Fregar o netejar
  3. Transformar
  4. Carrega i indexa

1. Extreure o capturar: Com es veu a la imatge següent, Capture o Extract és el primer pas del procés Informatica ETL.És el procés per obtenir una instantània del subconjunt de dades escollit de la font, que s’ha de carregar al magatzem de dades. Una instantània és una vista estàtica de només lectura de les dades de la base de dades. El procés d’extracció pot ser de dos tipus:

  • Extracte complet: Les dades s’extreuen completament del sistema d’origen i no cal fer un seguiment dels canvis a la font de dades des de la darrera extracció amb èxit.
  • Extracte incremental: Això només capturarà els canvis produïts des de l'últim extracte complet.

Fase 1: Extreure o capturar

2. Fregar o netejar: Aquest és el procés de neteja de les dades procedents de la font mitjançant diverses tècniques de reconeixement de patrons i IA per millorar la qualitat de les dades avançades. Normalment, els errors com ara faltes d’ortografia, dates errònies, ús incorrecte del camp, adreces no coincidents, dades que falten, dades duplicades, incoherències sónressaltat i després corregit o eliminaten aquest pas. A més, en aquest pas es realitzen operacions com la descodificació, el reformatatge, la marca de temps, la conversió, la generació de claus, la fusió, la detecció / registre d'errors, la localització de les dades que falten. Com es veu a la imatge següent, aquest és el segon pas del procés Informatica ETL.

Fase 2: fregat o neteja de dades

3. Transformar: Com es veu a la imatge següent, aquest és el tercer pas més essencial del procés Informatica ETL. Transformacions és l’operació de convertir dades del format del sistema font a l’esquelet de Data Warehouse. Una transformació s’utilitza bàsicament per representar un conjunt de regles, que defineixen el flux de dades i com es carreguen les dades als objectius. Per obtenir més informació sobre Transformació, consulteu Transformacions a Informatica bloc.

Fase 3: Transformació

4. Carrega i indexa: Aquest és el pas final del procés Informatica ETL tal com es veu a la imatge següent. En aquesta etapa, situem les dades transformades al magatzem i creem índexs per a les dades. Hi ha dos tipus principals de càrrega de dades disponibles en funció del procés de càrrega:

  • Càrrega completa o càrrega a granel :El procés de càrrega de dades quan ho fem a la primera vegada. El treball extreu tot el volum de dades d'una taula d'origen i es carrega al magatzem de dades de destinació després d'aplicar les transformacions necessàries. Serà un treball únic després que els canvis només es capturin com a part d'un extracte incremental.
  • Càrrega incremental o actualització : Les dades modificades només s’actualitzaran a la destinació seguida de la càrrega completa. Els canvis es capturaran comparant la data creada o modificada amb la darrera data d'execució del treball.Les dades modificades només s’extreuen de la font i s’actualitzaran a la destinació sense afectar les dades existents.

Fase 4: càrrega i índex

Si heu entès el procés Informatica ETL, ara estem en una millor posició per comprendre per què Informatica és la millor solució en aquests casos.

Característiques d'Informatica ETL:

Per a totes les operacions d’integració de dades i ETL, Informatica ens ha proporcionat Informatica PowerCenter . Vegem ara algunes de les funcions clau d'Informatica ETL:

  • Ofereix facilitat per especificar un gran nombre de regles de transformació amb una GUI.
  • Generar programes per transformar dades.
  • Gestioneu diverses fonts de dades.
  • Admet les operacions d’extracció, neteja, agregació, reorganització, transformació i càrrega de dades.
  • Genera automàticament programes d'extracció de dades.
  • Càrrega d'alta velocitat de magatzems de dades objectiu.

A continuació es mostren alguns dels escenaris típics en què s’utilitza Informatica PowerCenter:

  1. Migració de dades:

Una empresa ha comprat una nova sol·licitud de comptes per pagar per al seu departament de comptes. PowerCenter pot moure les dades del compte existents a la nova aplicació. La figura següent us ajudarà a entendre com podeu utilitzar Informatica PowerCenter per a la migració de dades. Informatica PowerCenter pot preservar fàcilment el llinatge de dades amb fins fiscals, comptables i altres fins legalment exigits durant el procés de migració de dades.

Migració de dades d'una aplicació de comptabilitat anterior a una nova aplicació

  1. Integració d'aplicacions:

Suposem que Company-A compra Company-B. Per tant, per aconseguir els avantatges de la consolidació, el sistema de facturació de la Companyia-B s’ha d’integrar al sistema de facturació de la Companyia-A, que es pot fer fàcilment mitjançant Informatica PowerCenter. La figura següent us ajudarà a entendre com podeu utilitzar Informatica PowerCenter per a la integració d'aplicacions entre les empreses.

Aplicació integradora entre empreses

  1. Emmagatzematge de dades

Les accions típiques necessàries als magatzems de dades són:

  • Combinació d'informació de moltes fonts juntes per a l'anàlisi.
  • Moure dades de moltes bases de dades al magatzem de dades.

Tots els casos típics anteriors es poden realitzar fàcilment mitjançant Informatica PowerCenter. A continuació, podeu veure que Informatica PowerCenter s’utilitza per combinar les dades de diversos tipus de bases de dades com Oracle, SalesForce, etc. i portar-les a un magatzem de dades comú creat per Informatica PowerCenter.

Dades de diverses bases de dades integrades a un magatzem de dades comú

  1. Middleware

Suposem que una organització minorista fa ús de SAP R3 per a les seves aplicacions minoristes i de SAP BW com a magatzem de dades. Una comunicació directa entre aquestes dues aplicacions no és possible a causa de la manca d’una interfície de comunicació. Tot i això, Informatica PowerCenter es pot utilitzar com a middleware entre aquestes dues aplicacions. A la imatge següent podeu veure l'arquitectura de com s'utilitza Informatica PowerCenter com a middleware entre SAP R / 3 i SAP BW. Les aplicacions de SAP R / 3 transfereixen les seves dades al marc ABAP, que després les transfereix al fitxerPunt de venda SAP (TPV) i SAPFactures de serveis (BOS). Informatica PowerCenter ajuda a la transferència de dades d’aquests serveis al SAP Business Warehouse (BW).

Informatica PowerCenter com a middleware a SAP Retail Architecture

Tot i que heu vist algunes característiques clau i escenaris típics d’Informatica ETL, espero que entengueu per què Informatica PowerCenter és la millor eina per al procés d’ETL. Vegem ara un cas d'ús d'Informatica ETL.

Cas d’ús: unir dues taules per obtenir una única taula detallada

Suposem que voleu proporcionar un transport adequat als vostres empleats, ja que els departaments es troben en diversos llocs. Per fer-ho, primer heu de saber a quin departament pertany cada empleat i la ubicació del departament. Tanmateix, les dades dels empleats s’emmagatzemen en diferents taules i cal unir les dades del departament a una base de dades existent amb les dades de tots els empleats. Per fer-ho, primer carregarem les dues taules a Informatica PowerCenter, realitzarem la transformació del qualificador de font a les dades i, finalment, carregarem els detalls a la base de dades de destinació..Comencem:

Pas 1 : Obriu el dissenyador de PowerCenter.

A continuació es mostra la pàgina principal d’Informatica PowerCenter Designer.

Connectem-nos ara al repositori. En cas que no hàgiu configurat els vostres dipòsits o que tingueu cap problema, podeu consultar el nostre bloc.

Pas 2: Feu clic dret al vostre dipòsit i seleccioneu l'opció de connexió.

En fer clic a l’opció de connexió, se us demanarà que aparegui a la pantalla següent per demanar-vos el nom d’usuari i la contrasenya del dipòsit.

Un cop us hàgiu connectat al dipòsit, heu d'obrir la carpeta de treball tal com es mostra a continuació:

Se us demanarà que demaneu el nom de la vostra assignació. Especifiqueu el nom de la vostra assignació i feu clic a D'acord (l'he anomenat com a m-TREBALLADOR ).

Pas 3: Carregem ara les taules de la base de dades. Comenceu per connectar-vos a la base de dades. Per fer-ho, seleccioneu la pestanya Fonts i opció Importa de la base de dades, tal com es mostra a continuació:

En fer clic a Importa des de la base de dades, se us demanarà la pantalla com es mostra a continuació per demanar els detalls de la base de dades i el seu nom d'usuari i contrasenya per a la connexió (estic fent servir la base de dades oracle i l'usuari de recursos humans).

Feu clic a Connecta per connectar-vos a la vostra base de dades.

Pas 4: Com vull unir - me al TREBALLADORS i DEPARTAMENT taules, les seleccionaré i faré clic a D'acord.
Les fonts seran visibles a l’espai de treball del dissenyador de mapes, tal com es mostra a continuació.

Pas 5: De la mateixa manera, carregueu la taula de destinació al mapatge.

Pas 6: Ara enllacem el qualificador Font i la taula de destinació. Feu clic amb el botó dret a qualsevol punt en blanc de l'espai de treball i seleccioneu Enllaç automàtic tal com es mostra a continuació:

A continuació es mostra el mapatge enllaçat per Autolink.

Pas 7: Com que hem d’enllaçar les dues taules al qualificador de font, seleccioneu les columnes de la taula de departaments i deixeu-lo anar al qualificador de font com es mostra a continuació:

què és jit en java

Deixeu caure els valors de les columnes al qualificador d'origen SQ_EMPLOYEES .

A continuació es mostra el qualificador de font actualitzat.

Pas 8: Feu doble clic a Source Qualifier per editar la transformació.

Veureu la finestra emergent Edita la transformació tal com es mostra a continuació. Feu clic a la pestanya Propietats.

Pas 9: A la pestanya Propietats, feu clic al camp Valor de la fila Unió definida per l'usuari.

Obtindreu el següent editor SQL:

Pas 10: Entra EMPLOYEES.DEPARTMENT_ID = DEPARTAMENT.DEPARTMENT_ID com a condició per unir les dues taules del camp SQL i fer clic a D'acord.

Pas 11: Ara feu clic a la fila de la consulta SQL per generar el SQL per unir-se com es mostra a continuació:

Obtindreu l’editor SQL següent: feu clic a l’opció Generar SQL.

Es generarà el següent SQL per a la condició que havíem especificat al pas anterior. Feu clic a D'acord.

Pas 12: Feu clic a Aplica i Accepta.

binari a decimal en java

A continuació es mostra el mapatge completat.

Hem completat el disseny de com s'han de transferir les dades des de la font cap a l'objectiu. Tot i això, la transferència real de dades encara està per produir-se i, per a això, hem d’utilitzar el PowerCenter Workflow Design. L'execució del flux de treball conduirà a la transferència de dades de l'origen a l'objectiu. Per obtenir més informació sobre el flux de treball, consulteu el nostre Tutorial Informatica: flux de treball bloc

Pas 13: Lara inicieu el Gestor de flux de treball fent clic a la icona W, tal com es mostra a continuació:

A continuació es mostra la pàgina inicial del dissenyador de flux de treball.

Pas 14: Ara creem un nou flux de treball per a la nostra assignació. Feu clic a la pestanya Flux de treball i seleccioneu Opció de creació.

Obtindreu la finestra emergent següent. Especifiqueu el nom del vostre flux de treball i feu clic a D'acord.

Pas 15 : Un cop creat un flux de treball, obtenim la icona d'inici a l'espai de treball del Gestor de flux de treball.

Afegim ara una nova sessió a l’espai de treball, tal com es mostra a continuació, fent clic a la icona de sessió i fent clic a l’espai de treball:

Feu clic a l’espai de treball per col·locar la icona de sessió.

Pas 16: En afegir la sessió, heu de seleccionar el mapatge que havíeu creat i desat als passos anteriors. (L’havia guardat com a M-EMPLOYEE).

A continuació es mostra l’espai de treball després d’afegir la icona de sessió.

Pas 17 : Ara que heu creat una nova sessió, hem de vincular-la a la tasca inicial. Ho podem fer fent clic a la icona Enllaç de tasca, tal com es mostra a continuació:

Feu clic primer a la icona Inici i després a la icona Sessió per establir un enllaç.

A continuació es mostra un flux de treball connectat.

Pas 18: Ara que hem completat el disseny, comencem el flux de treball. Feu clic a la pestanya Flux de treball i seleccioneu l'opció Inicia el flux de treball.

Gestor de flux de treball que inicia Workflow Monitor.

Pas 19 : Un cop iniciem el flux de treball, el gestor de flux de treball s'inicia automàticamentius permet controlar l'execució del vostre flux de treball. A continuació podeu veure el Workflow Monitor que mostra l'estat del vostre flux de treball.

Pas 20: Per comprovar l'estat del flux de treball, feu clic amb el botó dret del ratolí sobre el flux de treball i seleccioneu Obtén les propietats d'execució com es mostra a continuació:

Seleccioneu la pestanya Estadístiques de font / objectiu.

A continuació podeu veure el nombre de files que s'han transferit entre l'origen i l'objectiu després de la transformació.

També podeu verificar el resultat comprovant la taula de destinació tal com es mostra a continuació.

Espero que aquest bloc ETL d’Informatica us hagi estat útil per ajudar-vos a comprendre millor els conceptes d’ETL que utilitza Informatica i us hagi creat prou interès perquè pugueu obtenir més informació sobre Informatica.

Si heu trobat útil aquest bloc, també podeu consultar la nostra sèrie de blocs Informatica Tutorial , Tutorial Informatica: entendre Informatica 'Inside Out' i Informatica Transformations: The Heart and Soul of Informatica PowerCenter . En cas que busqueu detalls sobre la certificació Informatica, podeu consultar el nostre bloc Certificació Informatica: Tot el que cal saber .

Si ja heu decidit dedicar-vos a Informatica com a carrera, us recomanaria que feu una ullada a la nostra pàgina del curs. La formació en certificació Informatica a Edureka us convertirà en un expert en Informatica mitjançant sessions dirigides per instructors en directe i formació pràctica mitjançant casos d’ús reals.