Menu

Data Mining o Analisi Predittiva? Così simili, così diversi!

La domanda potrebbe anche essere Business Intelligence o Analytics, con varie declinazioni che passano da Data Warehouse, Data Mart, Big Data e via dicendo. Certo, ad una vista superficiale, Data Mining e Analisi Predittiva potrebbero sembrare la stessa cosa, ma in realtà cambiano le prospettive, le fonti e anche le tecnologie... Come?

E' molto bello - o triste? - constatare che quanto più occupano posti di responsabilità, tanto più certe persone sono affette dalla sindrome del "so tutto io", con il risultato che ormai spesso si fa cultura limitandosi ai titoli dei giornali e agli annunci dei produttori.

Troppo complesso e "time consuming" entrare nel merito, cercando di capire il vero senso dell'innovazione. Al punto che una volta, davanti ad una persona che stava davvero eccedendo nella sua prosopopea, mi sono inventato seduta stante una nuova sigla tecnologica, parlandone come l'innovazione da seguire. Naturalmente, il mio interlocutore la conosceva già, e me ne ha spiegato le origini e le associazioni con il passato per poi concludere che loro vi erano passati, ma ormai molto più avanti, per cui giudicava la cosa già vecchia...

Una situazione che spesso riscontro anche nell'affrontare le tematiche che ruotano attorno alla Business Intelligence, agli Analytics ed alle tecnologie che utilizzano per dare risposte compiute a chi vi ricorre. In questo breve post cerco quindi di fare un minimo di chiarezza, partendo da alcune definizioni di base, cosa che non fa mai male...

Il Data Mining: dove, ma soprattutto come!

OCCHICome facilmente fa intuire il nome stesso "mininig", il Data Mining corrisponde a tutti gli effetti ad una tecnologia di lettura e analisi in profondità dei dati "scavandoli" alla ricerca di correlazioni e intersezioni non intuibili a prima vista, ma neppure utilizzando le discipline classiche della Business Intelligence alla cui base ci sono le assunzioni - talvolta pregiudiziali - di chi ne imposta le interrogazioni e i report.

Il punto di partenza dei processi di Data Mining sono i dati che vengono affrontati senza partire da modelli predefiniti, ma con lo scopo di lasciare proprio alle tecniche di intelligenza artificiale sulle quali si basano il compito di ricavarne modelli e significati altrimenti inintellegibili.

Chiaramente, quanto sono più ampie le banche dati di partenza e quanto più affidabili sono i dati che contengono - in termini di qualità, completezza e aggiornamento -, tanto più attendibili saranno i significati e le correlazioni che ne vengono estratte. Risultati ai quali si arriva utilizzando degli algoritmi specializzati nell'individuazione di sequenze ricorrenti e associazioni - pattern - nella lettura dei dati.

Con una sorta di processo inverso, gli algoritimi utilizzati nel Data Mining sono quindi in grado di rilevare dai dati stessi i modelli che ne riproducono la ricursività, l'organizzazione e le eventuali corrispondenze/non corrispondenze capaci di fornirne nuovi significati. Processo che viene detto di Knowledge  Discovery e che è basato essenzialmente sull'osservazione dei dati stessi alla ricerca di collegamenti, trend, elementi di ripetitività a partire normalmente da fonti di dati consolidate come potrebbero essere dei Repository, dei Data Warehouse o dei Data Mart. Non si tratta di applicare modelli matematici o statistici, ma di estrarre nuovi significati dai dati esaminandoli in modalità diverse e con processi che procedono più per tentativi che per logiche formali.

Ovviamente, il presupposto di partenza sta nella raccolta dei dati, nella loro validazione - in termini strutturali e qualitativi - passando per le fasi di estrazione dalle fonti e di successiva normalizzazione. Attività che diventano più facilmente affrontabili grazie alle riduzioni dei costi e agli incrementi di potenza delle attuali unità di elaborazione (CPU) e lo Storage, portando a risultati sempre più precisi, con anche la possibilità di analizzare dati non strutturati, tipo le e-Mail, le immagini, i video.

In sintesi, quindi, il Data Mining non utilizza la statistica, ma applica un processo che parte dalla raccolta dei dati, passa attraverso il loro esame e arriva a fornire delle conclusioni che possono essere rappresentate sia in forma grafica, sia in forma tabellare. Le operazioni svolte dai suoi algoritmi sono:

  1. Associazioni, con l'obiettivo di rilevare pattern e sequenze di pattern che collegano l'accadimento di un evento ad un altro, anche di natura totalmente diversa e non prevedibile. Un esempio? L'andamento dei volumi di vendita di polenta in relazione alle condizioni meteorologiche/climatiche.
  2. La Classificazione di nuovi pattern che possono modificare sia la tipologia dei dati di partenza, sia le modalità nelle quali vengono organizzati. Un esempio? La perdita di significato dell'attributo "sesso" delle persone in relazione a determinate scelte o gusti.
  3. Il Clustering, ovvero l'accorpamento di dati ed eventi per ricavarne significati apparentemente privi di senso, ma evidenziati dall'esame stesso dei dati.
  4. La formulazione di previsioni, proiettando per analogia gli effeti delle correlazioni ricavate in altri contesti o nel tempo.

L'analisi predittiva: combinazione di valutazioni multidisciplinari

Il Data Mining può rientrare nelle attività di Analisi Predittiva, ma ad esso vengono affiancate molte altre tecnologie che spaziano dalle tecniche statistiche e quantistiche, a quelle basate su logiche non necessariamente razionali, tipo Fuzzy Logic e Metodo Montecarlo, passando per la creazione di modelli di analisi, le tecniche di Machine Learning e altre ancora.

In comune con il Data Mining c'è che anche l'analisi predittiva parte dall'esame di grandi quantità di dati che tuttavia non devono risiedere in un unico posto, cioè Data Warehouse e Data Mart non sono più indispensabili, possono provenire da fonti eterogenee ed essere sia di tipo tabellare (strutturati) che non. Tornando ai nostri esempi di prima, per correlare le vendite di polenta alle condizioni meteorologiche non serve più importarne le previsioni in un Database, ma basta rilevarle in modo dinamico da un servizio OnLine ed integrarne i dati a tutti quelli che possono aver un senso per l'analisi che si sta svolgendo.

Le tecniche usate nell'analisi predittiva fanno quindi capo a termini quali estrapolazione, regressione, valutazioni statistiche, ma vi rientrano anche le reti neurali o il Machine Learning con la sua evoluzione in chiave IBM che assume il nome di Cognitive Computing.

Gli algoritmi che utilizzano tali tecniche sono anche dotati di spirito critico. Il che vuol dire che sono in grado di affinarsi mano a mano che le previsioni trovano riscontro nella realtà, riducendone progressivamente gli scostamenti. Una volta messi a punto, dagli algoritmi si possono quindi derivare dei nuovi modelli di analisi e di correlazione.

Data Mining e Analisi Predittiva: strade diverse, stessa meta

Chiarito da dove partono, come operano e quali obiettivi si pongono, il fatto che per alcune persone il Data Mining e l'Analisi Predittiva siano la stessa cosa può esser comprensibile, ma non giustificato: nella realtà, queste due tecnologie operano in maniera radicalmente diversa - sebbene il Data Mining possa come detto rientrare anche tra le tecnologie impiegate nell'Analisi Predittiva - e richiedono infrastrutture, tecnologie e strumenti diversi.

In pratica, il primo passo per fare Data Mining consiste nel crearsi delle fonti di dati stabili, tipo un Data Warehouse, mentre nel caso dell'Analisi Predittiva sarà molto più importante definire il modello di analisi e quindi individuare le fonti dei dati che potrebbe aver senso incudervi.

Gli Analytics, gli strumenti che vengono impiegati per svolgere l'Analisi Predittiva, sono oggi in grado di fornire risultati molto superiori rispetto al classico Data Mining che prende le mosse dalla Business Intelligence, potendo operare anche a livello di testi (Text Analytics), per esempio allo scopo di ricavarne il sentiment - positivo o negativo - che contengono e in altri ambiti dove le logiche deduttive o collegate ad analoghe situazioni registrate nel passato non sono applicabili. Pensiamo, sempre come esempio, al prevedere situazioni non convenzionali tipo i flussi di traffico o gli spostamenti della popolazione generati da un evento sismico di grandi dimensioni in una zona ove non se ne sono mari registrati. O alle reazioni della Borsa al crack della Lehman Brothers, con tutti gli operatori che hanno sbagliato le previsioni ed accumulato ingenti perdite!

Per contro, ci sono ambiti nei quali il Data Mining continua ad esprimere tutto il suo valore come nell'analizzare le reazioni suscitate sui potenziali clienti da una campagna promozionale, così da individuarvi il target sul quale concentrare le proprie azioni future. Oppure nel rilevare comportamenti fraudolenti nell'uso di carte di credito, clonate o sottratte dai relativi proprietari, prima ancora che questi ultimi se ne rendano conto o sporgano denuncia.

Il modo migliore per distinguere e adottare la tecnologia più idonea a soddisfare le proprie esigenze è pertanto partire dal problema - o dai problemi - che si intende risolvere, capire bene la strada da seguire con ciascuna delle due tecnologie, i risultati che se ne possono ottenere e raffrontarne gli investimenti con i ritorni conseguibili!

Ultima modifica ilMartedì, 18 Ottobre 2016 18:17

Aggiungi commento


Codice di sicurezza
Aggiorna

Torna in alto