Habilitats bàsiques del científic de dades

Aquest bloc descriu les habilitats bàsiques de Data Scientist juntament amb una llista de comprovació de les habilitats necessàries per convertir-se en un científic de dades increïble i eficient. Seguiu llegint >>>

Dos analistes de LinkedIn van encunyar el terme 'científic de dades' l'any 2008. Simplement intentaven descriure el que fan, és a dir, obtenir valor empresarial a partir de les massives dades generades pel seu lloc web. En el procés, van acabar nomenant el títol de treball que veuria una demanda increïble en els propers anys i fins i tot es qualificaria com ‘La feina més sexy dels 21csegle.'



Ara, les organitzacions que consideren les 'dades' com un actiu valuós busquen aquests experts en dades o 'científics' per conduir-los al futur.



Llavors, què es necessita per ser un gran científic de dades? ... Una varietat de conjunts d’habilitats.

diferència php entre eco i print

Breu mirada a les habilitats bàsiques d’un científic de dades.



El procés de ciència de dades inclou 3 etapes.

  • Captura de dades
  • Anàlisi de dades
  • Presentació

Vegem més de prop el paper d’un científic de dades en cadascuna d’aquestes etapes.

Captura de dades



  • Programació i habilitats de bases de dades

El primer pas de la mineria de dades és capturar les dades adequades. Per tant, per ser científic de dades, és molt essencial familiaritzar-se amb eines i tecnologies, especialment les de codi obert com Hadoop, Java, Python, C ++ i tecnologies de bases de dades com SQL, NoSQL, HBase, etc.

  • Domini empresarial i experiència

Les dades són diferents segons el negoci. Per tant, la comprensió de les dades empresarials necessita experiència, que només es produeix treballant en un domini de dades concret.

Per exemple: les dades recollides del camp mèdic seran completament diferents de les dades d'una botiga de roba al detall.

  • Modelització de dades, magatzem i habilitats de dades no estructurades

Les organitzacions recopilen una gran quantitat de dades a través de diversos recursos. Les dades capturades d'aquesta manera no estan estructurades i s'han d'organitzar abans de l'anàlisi. Per tant, un científic de dades ha de ser competent en modelar les dades no estructurades.

Anàlisi de dades

què fa un desenvolupador de quadres
  • Habilitats d'eines estadístiques

L’habilitat essencial d’un científic de dades és saber utilitzar eines estadístiques com R, Excel, SAS, etc. Aquestes eines són necessàries per analitzar i analitzar les dades capturades.

  • Habilitats matemàtiques

El coneixement informàtic per si sol no és suficient per ser científic de dades. El perfil del científic de dades requereix algú que pugui entendre els algorismes i la programació d’aprenentatge automàtic a gran escala, alhora que sigui un estadístic competent. Això necessita experiència en altres disciplines científiques i matemàtiques a part dels llenguatges informàtics.

Presentació

  • Habilitats de l'eina de visualització

És possible que pugueu extreure i modelar les dades recollides, però és possible visualitzar-les?

Si voleu ser un científic de dades amb èxit, hauríeu de poder treballar amb algunes eines de visualització de dades per representar visualment les anàlisis de dades. Alguns d'aquests inclouen R, Flare, HighCharts, AmCharts, D3.js, Processing i Google Visualization API, etc.

Però aquest no és el final! Si realment us interessa convertir-vos en científic de dades, també heu de tenir les habilitats següents:

  • Habilitats de comunicació: Les estadístiques i Excel són les més difícils de tractar. Els científics de dades haurien de ser capaços de presentar les dades de manera que es comuniquin els resultats als usuaris empresarials.
  • Habilitats empresarials : Els científics de dades hauran de jugar diversos papers. Haurien de comunicar-se amb diverses persones de l’organització. Per tant, tenir una gran capacitat empresarial que inclogui comunicació, planificació, organització i gestió serà de gran ajuda. Això inclou entendre els requisits empresarials i d’aplicacions i interpretar la informació en conseqüència. A més, ha de tenir una comprensió general dels reptes clau de la indústria i ha de ser conscient de les ràtios financeres per a una millor presa de decisions. En poques paraules, un científic de dades per pensar també en 'negoci'.
  • Habilitats per a la resolució de problemes: Això sembla obvi, ja que la ciència de dades tracta de la resolució de problemes. Un científic de dades eficient ha de dedicar temps i aprofundir en el problema i arribar a una solució factible que s’adapti a l’usuari.
  • Habilitats de predicció: Un científic de dades també hauria de ser un predictor eficient. Hauria de tenir un ampli coneixement d’algoritmes per seleccionar el que s’adapti adequadament al model de dades. Això implica una certa creativitat per utilitzar i representar les dades amb prudència.
  • Hacking: Sé que sona aterridor, però diferents habilitats de pirateria, com manipular fitxers de text a la línia d’ordres, entendre les operacions vectoritzades i el pensament algorítmic, us faran un millor científic de les dades.

Veient els conjunts d’habilitats anteriors, és clar que ser científic de dades no només consisteix a saber-ho tot sobre les dades. És un perfil laboral amb una combinació d’habilitats de dades, matemàtiques, empresarials i comunicatives. Amb totes aquestes habilitats juntes, un científic de dades es pot anomenar, amb tota raó, com l’estrella del rock del camp de les TI.

Llista de comprovació per convertir-vos en un científic de dades increïble i eficient:

Hem cobert les habilitats necessàries per convertir-se en científic de dades. Hi ha una gran diferència per convertir-se en un científic de dades i convertir-se en un científic de dades increïble i eficient. Les habilitats següents, juntament amb les habilitats esmentades anteriorment, us diferencien de ser un científic de dades normal o fins i tot mediocre.

  • Habilitats matemàtiques - Càlculs, operacions de matriu, optimització numèrica, mètodes estocàstics, etc.
  • Habilitats estadístiques - Models de regressió, tress, classificacions, diagnòstics, estadístiques aplicades, etc.
  • Comunicació - Visualització, presentació i redacció.
  • Base de dades - A més de CouchDB, coneixement en bases de dades no tradicionals com MongoDB i Vertica.
  • Llenguatges de programació - Pig, Hive, Java, Python, etc.
  • Processament del llenguatge natural i Mineria de dades.

Edureka compta amb un programa especialment curat que us ajuda a adquirir experiència en algorismes d’aprenentatge automàtic com ara K-Means Clustering, Decision Trees, Random Forest, Naive Bayes. També aprendreu els conceptes d’Estadístiques, sèries temporals, mineria de text i una introducció a l’aprenentatge profund. Ben aviat començaran les noves lots d’aquest curs !!