Menu

Il Vangelo Big Data & Analytics secondo IBM

Big Data e Analytics impazzano in tutte le sedi dell’Information Technology ma non a caso: i fatti dimostrano che si tratta di un'accoppiata vincente per estrarre e sfruttare informazioni preziose dalle crescenti maree di dati, con grandi benefici per ogni organizzazione. E tutti i principali produttori di tecnologie vi si buttano a capofitto..

Big Data e Analytics sono stati il leitmotiv quasi wagneriano di un affollato mega convegno organizzato da IBM che vi ha posto al centro la propria offerta, frutto di numerose acquisizioni, oltre che di sviluppi interni, condendola di numerose Case History nei campi applicativi più svariati. Al proposito, un esempio su tutti: gli studi per le ricerche farmacologiche finalizzate alla cura dei malati di cancro.

Sul piano tecnico, l’offerta della casa di Armonk sembra essere arrivata a comporre un completo collage che spazia dagli aspetti operativi per la gestione di dati eterogenei, alle loro più sofisticate rappresentazioni guidate dalla BI (Business Intelligence), passando per un interessante numero di soluzioni originali e, quel che più conta, include anche varie applicazioni su misura delle più svariate esigenze.

Per facilitare l'uso dei Big Data, IBM ha creato anche nuovi Tool di sviluppo, tra i quali uno dei più interessanti è l'innovativo linguaggio Big SQL il cui nome eloquentemente parla di uno Structured Query Language che promette di unificare il trattamento di dati “classici”, relazionali, e No Sql. En passant, indichiamo l’URL di una serie di lezioni in depth sul Big SQL: http://www.ibm.com/developerworks/library/bd-bigsql/bd-bigsql-pdf.pdf

Architettura e componenti dell'offerta IBM nei Big Data

IBM-BigData-Analytics-01In quel che segue daremo per noti i concetti citati in apertura. Entriamo in medias res con lo schema a blocchi in figura, che illustra le varie parti del mondo Big Data + Analytics IBM.

 

Procedendo bottom-up, in basso si trova la base hardware e software, che per sommi capi utilizza i computer IBM con il loro sistema operativo z/OS dotato di DB2, CICS, IMS e z/OS data.

Segue quindi il “middle tier” che esplica funzioni di WorkLight Server (basato su z/Linux), al quale infine accedono dispositivi del Client Tier, dell’utilizzatore. Questi comprendono sia PC che i più moderni tablet e smartphone. L’utilizzo di questi e il tema BYOD erano oggetto di un’ampia sessione e meritevoli di una trattazione a parte.

Nel presente articolo focalizziamo l’attenzione unicamente sui tre moduli che costituiscono la piattaforma vera e propria per gestire i Big Data:

  • Hadoop di Apache, che elabora e analizza dati di ogni tipo tramite commodity di server cluster.
  • Stream Computing, che tratta velocemente masse di dati con tecnologia streaming.
  • Data Warehouse, che fornisce funzioni analitiche in-ambiente database.

Dando per noto o perlomeno intuitivo il significato del terzo aspetto, che qui ha lo scopo di ricettacolo di dati sia RDBMS che non strutturati, in particolare del tipo NoSql (cui meglio dà accesso Hadoop) il pezzo più pregiato e, probabilmente, originale è il secondo. Diciamo subito che a differenza di Hadoop, che col metodo MapReduce, speciale parallel processing, che di fatto accede in modo batch alle varie fonti a intervalli di tempo fissati a seconda dei casi, la tecnologia stream agisce in modo continuo, con tempi di frazioni di-millisecondi.

Completiamo la panoramica rifacendosi alla chiarezza della figura precedente. In particolare facciamo notare l’importanza del modulo su cui si fonda lo sviluppo di applicazioni analitiche nonché, su tale livello che sovrasta la piattaforma Big Data vera e propria, specialmente le funzioni BI/Reporting e quelle di analisi predittive. Le prime comprendono i famosi cubi, tavole e grafici multidimensionali che “incrociano” tabelle pescate e filtrate dalle più varie fonti, le seconde promettono di dedurne significativi forecasting per orientare strategie di marketing quantomeno di breve periodo.

Lo Streaming Computing

Stream computing è una nuova tecnologia nato per segnali video . La piattaforma IBM InfoSphere Streams esegue un trattamento in tempo quasi reale di streaming data, permettendo query continuamente aggiornate. A tal fine viene utilizzata un’architettura Smart Grid, che in parole povere si fonda su una pluralità di nodi elaborativi. Rimandando per gli approfondimenti alla letteratura web del sito IBM, ci affidiamo alla figura che segue, i cui elementi essenziali sono qui sotto elencati.

 

IBM-BigData-Analytics-02

  1. Un sistema per l’integrazione (MDS) per la verifica e la gestione certificata dei dati provenienti da sistemi diversi ed eterogenei.
  2. Utilizzo di un’Appliance di Data Warehouse (Netezza) per la memorizzazione delle informazioni raccolte da varie fonti con elevate performance di gestione.
  3. Un motore per l’elaborazione Real Time in Streaming di flussi dati continui mediante sofisticati algoritmi per catturare e identificare elementi di “alerting” (ossia sospetti o legati a eventi particolari).
  4. Un Tool di Front-end navigabile (Cognos BI) per definire cruscotti di Intelligence, in grado di rappresentare geograficamente tutti gli elementi della rete.
  5. Un secondo tool di Front-end real time (Cognos Real Time) per l’analisi in tempo reale dei dati e degli eventi generati dalla rete.
  6. Il sistema Grid, corroborato da tecnica Flash Caching, si applica in modo efficace a quello che viene indicato, per l’appunto, “Grid scale storage”, ove i vari database sono disposti sui nodi di una griglia. Viene così assicurata una conoscenza tempestiva di anomalie e colli di bottiglia e conseguente possibilità di agire per risolverli e di migliorare il sistema, con significativi benefici nel business.

La figura seguente dà un’idea del modus operandi dello streaming computing.

 

IBM-BigData-Analytics-03

Senza entrare nei dettagli sulle modalità di funzionamento di tale sistema, ho potuto sperimentare l’efficacia della rappresentazione a nodi interconnessi (in alto a destra della figura) che esibisce all’operatore un’animazione lampeggiante dei dati monitorati “al volo”.
Infine, mi permetto di esprimere un commento personale: Hadoop e Stream computing non sono alternative in concorrenza fra loro, perché il primo ci sembra insostituibile quando sono in gioco gigantesche fonti pubbliche remote alle quali accedono centinaia o migliaia di utenti, mentre il secondo presuppone sistemi aziendali, nella fattispecie con datacenter e server IBM System z o System i.

Riepilogando, l’offerta IBM per i Big Data si articola nei punti qui sotto elencati.

  • InfoSphere Streams. Esegue analisi continua di grandi volumi di dati streaming con tempi di risposta di frazioni di millisecondi.
  • InfoSphere BigInsights. Soluzione aziendale basata su Apache Hadoop per gestire e analzzare grandi masse di dati strutturati e non.
  • InfoSphere Data Explorer. Software di Discovery e navigazione che permette di accedere e fondere big data provenienti applicazioni aziendali con tecniche BI e analoghe.
  • IBM PureData System. Si affida alla tecnologia Netezza, che semplifica e ottimizza le prestazioni di servizi analitici con complessi algoritmi che forniscono nell’arco di minuti risultati che con metodi normali richiederebbero giorni.
  • Emulazione del sistema cognitivo Whatson.

IBM batte, non a torto, la grancassa sulle virtù “cognitive” di questo suo prodotto di intelligenza artificiale, che opera linguaggio naturale, imitando il funzionamento delle sinapsi cerebrale. Whatson, nella sua pienezza, richiede un supercomputer, ma in campo Big Data ne è stata segnalata una sua emulazione, realizzata nel settore medicale, probabilmente estendibile ad altri settori. Il discorso sarebbe lungo, ma in sintesi si tratta di una opportuna combinazione delle tecnologie analitiche sopra descritte, Cognos, Netezza, InfoSphere, che si rivela particolarmente efficace nell’elaborazione di testi liberi o comunque privi di normali strutturazioni quali documenti email, sms. La sua analisi semantica aiuta ad estrarne significativi risultati con possibilità di forecasting evoluto.

Big SQL: “il nostro è più bello”, sostiene IBM

Il linguaggio Big Sql viene offerto da molti Vendor allo scopo di supportare query simil-SQL a Big Data.

Secondo Wikipedia la confusione regna sovrana. Per quanto abbiamo potuto verificare, l’inquadramento di Wikipedia della versione IBM come una sorta di Hadoop con interfaccia SQL ci è parsa riduttiva. Si tratta invece di una unificazione del trattamento di dati No SQL con dati relazionali classici. I primi presentano una struttura semplificata che Big SQL di IBM in qualche modo “maschera” riconducendola al paradigma SQL, unitariamente con dati relazionali. Infatti le analitiche possono richiedere incroci fra fonti eterogenee. In tal modo, il Big SQL targato IBM, tra l’altro, favorisce la familiarizzazione di programmatori e analisti abituati all’SQL, addirittura riuscendo a inquadrare le fonti No Sql nella razionalità degli RBDMS (parere personale).

Dal vivo abbiamo poi apprezzato un’interfaccia grafica nella quale si possono fissare relazioni su fonti vecchie e nuove trascinando le varie tabelle del wharehouse presenti sulla sinistra dello schermo. Si ottengono blocchi che si possono unire con frecce.

La rappresentazione relazionale grafica è tradotta automaticamente in codice SQL, cui si accede con un Click per apportarvi ritocchi e varianti.

 


 

Ultima modifica ilGiovedì, 18 Giugno 2015 09:09

Aggiungi commento


Codice di sicurezza
Aggiorna

Torna in alto