Il Data Scientist:
una professione affascinante e molto attuale

di Domenico Ursino

Professore Ordinario, Data Scientist

Se fino a qualche anno fa il problema fondamentale per la digitalizzazione delle nostre attività quotidiane era la mancanza di dati, e dal desiderio di risolvere tale problema è nato quel settore dell’informatica che va sotto il nome di “Database”, oggigiorno assistiamo al problema opposto, ovvero siamo sommersi di dati! Non esiste, praticamente, nessuna attività umana che non porti alla produzione di dati: si pensi alla spesa al supermercato, che genera dati nel momento in cui andiamo a pagare alla cassa, alle telecamere di sicurezza nelle città, oramai sempre più frequenti, all’home banking, oggigiorno sempre più diffuso, ai sistemi che regolano il funzionamento di aziende, organizzazioni pubbliche, ospedali, etc.

Tuttavia, se non si è capaci di organizzare questa enorme quantità di dati c’è il rischio che le basi di dati dove essi si trovano diventano tombe di dati! C’è un’importante regola dell’informatica (e non solo) che ci ricorda che “avere troppi dati equivale a non avere nessun dato, se non si è capaci di gestirli”. Il Data Scientist è chiamato proprio a tale compito, ovvero a trasformare le tombe dei dati in pepite d’oro di conoscenza!!!

Per capire l’entità del fenomeno diamo alcuni dati significativi:

  • Ogni minuto nel mondo vengono prodotti più di 98.000 tweet, più di 695.000 aggiornamenti di stato in Facebook, più di 11 milioni di messaggi istantanei, più di 698.000 ricerche su Google, più di 168 milioni di e-mail, più di 1800 Gigabyte di dati e più di 200 accessi di nuovi utenti per dispositivi mobili.
  • I dieci lavori più richiesti nel 2010 non esistevano nel 2004.
  • La radio ha impiegato 38 anni a raggiungere i 50 milioni di utenti, la televisione 13, il Web 4, l’iPod 3 e Facebook 2.
  • L’odierna lingua inglese conta circa 540.000 vocaboli, più o meno il quintuplo di quanti ce ne fossero all’epoca di Shakespeare.
  • Un singolo inserto del “New Work Times” contiene più informazioni di quanto una persona vissuta nel XVIII secolo potesse arrivare a conoscere in tutta la sua vita.
  • Il numero di dati generati oggi in un anno è maggiore rispetto a quello dei 5000 anni precedenti.
  • La quantità di nuove informazioni tecnologiche raddoppia ogni due anni; la metà di quello che gli studenti di un corso di laurea tecnico avranno imparato al primo A.A. sarà obsoleto al terzo.

E tutti questi fenomeni sono solo un anticipo di quello che potrebbe accadere nei prossimi 3-4 anni con l’avvento massiccio degli smart objects e dell’Internet of Things.

È evidente che, in uno scenario di questo tipo, la figura del Data Scientist assuma un ruolo di rilievo ed è destinata a giocare un ruolo fondamentale in gran parte dei contesti della nostra vita quotidiana. Ma chi è il Data Scientist? Egli è colui che si occupa proprio di “padroneggiare” questa grande mole di dati per impedire che questa ricchezza enorme vada perduta o, addirittura, diventi un problema. Egli dovrà quindi estrarre le pepite d’oro della conoscenza dalle potenziali tombe di dati. Non a caso, spesso, il Data Scientist si chiama pure Data Miner perché, analogamente al minatore dei secoli scorsi, deve scavare nei dati a disposizione per estrarre informazioni utili che poi diventano conoscenza e, infine, con l’aiuto degli esperti del settore, saggezza.

L’analisi dei dati si suddivide in quattro tipologie dal valore e dalla complessità via via crescente:

  • Analisi descrittiva, che si occupa semplicemente di descrivere i fenomeni passati e presenti;
  • Analisi diagnostica, che ci occupa di capire le ragioni dietro questi fenomeni;
  • Analisi predittiva, che si occupa di predire fenomeni futuri sulla base della storia passata e dalla conoscenza del contesto.
  • Analisi prescrittiva, che si occupa di prescrivere una serie di indicazioni per favorire gli eventi positivi e prevenire o almeno mitigare quelli negativi.

Ma quali sono i contesti lavorativi in cui opera il Data Scientist? Come detto sopra, essi comprendono praticamente tutti i settori della vita umana. Citiamo, nel seguito, solo alcune applicazioni che attualmente fanno uso della Data Analytics:

  • I supermercati analizzano gli acquisti congiunti di prodotti per capire come disporre questi ultimi negli scaffali e per definire le politiche relative alle promozioni.
  • Sempre i supermercati utilizzano i dati delle fidelity card per profilare gli utenti e proporre loro offerte personalizzate.
  • Le banche utilizzano i dati relativi ai mutui concessi nel passato per capire quali sono i profili di utenti che probabilmente onoreranno un mutuo e, quindi, per decidere a chi concederlo o non concederlo nel futuro.
  • Le assicurazioni utilizzano i dati relativi agli incidenti passati per stabilire le rate delle RC Auto dei propri clienti.
  • I sistemi di Cybersecurity utilizzano i dati relativi agli accessi passati per individuare le caratteristiche relative agli accessi sospetti proteggendo i sistemi informatici dove vengono utilizzati.
  • La medicina utilizza i dati relativi ai vari esami per supportare il medico nel prendere le proprie decisioni; essa, ovviamente, non si sostituisce al medico ma lo supporta nelle sue attività.
  • I recommender system (o sistemi di suggerimento) ci propongono determinati prodotti o determinate offerte sulla base del nostro profilo (basti pensare ai suggerimenti che un cliente ottiene da Amazon sui prossimi prodotti che potrebbero interessarlo).
  • La pubblicità online utilizza i dati del profilo dell’utente che sta accedendo ad un sito (ad esempio, ad un giornale) per fare inserzioni o promozioni mirate.
  • I traduttori automatici utilizzano i dati relativi alle lingue e alle traduzioni passate per proporre traduzioni sempre più corrette per il futuro.
  • Gli ospedali possono utilizzare i dati sui vari ricoveri per cercare di pianificare al meglio l’organizzazione dei posti letto nel futuro.
  • L’Agenzia delle Entrate e le Pubbliche Amministrazioni Locali utilizzano sempre di più l’analisi dei dati per la caccia agli evasori.
  • Tutte le aziende utilizzano l’analisi dei dati per acquisire nuovi clienti oppure mantenere i clienti già esistenti.

E questo è solo uno spaccato degli attuali utilizzi della Data Science. Alla luce di questo non sorprende che la Robert Half Technology’s 2020 Salary Guide, una guida americana che analizza i lavori tecnologici più richiesti e remunerati al mondo pone, tra i primi 13, 6 lavori legati all’analisi dei dati, ovvero:

  • Il Big Data Engineer al primo posto;
  • Il Data Architect al quinto posto;
  • Il Database Manager al sesto posto;
  • Il Data Security Analyst al settimo posto;
  • Il Data Scientist al decimo posto.

E, come abbiamo detto, questo trend è solo all’inizio ed è destinato ad aumentare notevolmente nei prossimi anni con l’avvento dell’Internet of Things e degli Smart Objects che produrranno una quantità di dati con una crescita addirittura esponenziale rispetto a quella già impressionante a cui abbiamo assistito negli ultimi anni!!!

TORNA ALL’INDICE DEL BLOG

 

qui i più recenti