Menu

Big Data Fabric: architettura e servizi Cloud

Se c'è un'area nella quale i servizi Cloud risultano pressoché indispensabili è quella dei Big Data, con la complicazione che converrà considerare sin dall'inizio ambienti ibridi e multi-cloud, rendendo indispensabile allestire architetture aperte sulla falsariga del modello Data Fabric...

Che lo si voglia o no, rivedere l'intera impostazione dei servizi IT alla propria impresa incentrandoli sui dati, anziché come nel passato sui programmi, sulle applicazioni o - più di recente - sui processi è divenuto ormai obbligatorio per tutti. L'impiego dei dati provenienti dalle fonti più disparate per prendere decisioni in tempo reale, rispondere tempestivamente a eventi inattesi e possibilmente anticipandoli, pianificare per il medio e lungo termine consente di migliorare enormemente la propria competitività, specie se ai dati tradizionali si aggiungono quelli rilevati dai sensori dell'IoT, dai siti Web e dai Social Media, dalle previsioni meteorologiche, demografiche e così via. Un tipico scenario nel quale si collocano i Big Data e gli analytics di nuova generazione basati sull'impiego delle tecniche dell'intelligenza artificiale, a cominciare dal Machine Learning.

Le caratteristiche di questi nuovi ambienti sono che mentre da un lato divengono necessarie grandi capacità di conservazione dei dati - magari lasciandoli là dove si trovano, ma accedendovi in tempo reale dopo averli individuati, corredati di metadati, omogeneizzati, ripuliti e integrati in base ai criteri definiti di volta in volta - dall'altro servono elevate potenze di elaborazione che possono notevolmente variare nel tempo, con picchi elevati, accompagnati da lunghi intervalli di inutilizzo. Due contesti molto diversi per impostazione e caratteristiche al punto da poter considerare servizi Cloud specializzati per ciascuno di essi. Il tutto va poi condito con i servizi che garantiscono la sicurezza dei dati stessi - con regolari backup e sofisticate funzioni di ripristino - oltre che la loro riservatezza con un affidabile controllo degli accessi tanto da parte delle persone quanto dalle applicazioni.

Da qui, il nuovo approccio di Data Fabric che crea le premesse per rendere più facilmente possibile allestire ambienti ibridi - mischiando servizi e componenti interni alla propria organizzazione con servizi Cloud - multicloud così da poter fruire di vari fornitori specializzati, sostituendoli in modo pressoché indolore nel momento in cui dovessero rivelarsi meno competitivi di altri. Un profondo ripensamento dell'intera infrastruttura IT che viene così concepita a partire dai dati e dal loro uso, attrezzandola nel suo intorno delle componenti più indicate per ottimizzarne il funzionamento.

In sostanza, nei Data Fabric si devono ritrovare tutti i servizi connessi alla gestione dei dati, ovvero dalla acquisizione all'elaborazione, all'analisi, passando per il controllo degli accessi, della sicurezza, fino al monitoraggio di tutte le attività. Dal momento che si devono concepire come ambienti aperti, la cosa migliore è considerarli dal punto di vista architetturale in base ai servizi, avendo delle interfacce - o delle API - che consentano la massima intercambiabilità di tutte le componenti che vi sono implicate.

L'architettura di base dei Data Fabric

Architettura Data Fabric NetAppRagionando per servizi, così come suggerisce NetApp, l'architettura dei Data Fabric viene strutturata nelle quattro aree della Visibilità e Analisi dei dati, nel loro accesso e controllo, nella loro protezione e sicurezza, dovendo intervenire a livello di applicazioni e servizi, dell'ecosistema, delle connessioni e dei punti di contatto con le fonti.

L'architettura, nelle sue componenti, tra le altre cose deve garantire:

  • A livello di Data Visibility & Insight, potenza elaborativa commisurata alle necessità, ad un costo competitivo, meglio se corredata da sofisticati strumenti di analisi e di efficienti funzioni di integrazione;
  • A livello di Data Access & Control, semplicità di migrazione da una piattaforma Cloud ad un'altra o anche verso la propria on-premise, garantendo la continuità dei servizi e la possibilità di accedervi con semplicità da ovunque, purché autorizzati;
  • A livello di Data Protection & Security, la cifratura dei dati, il loro salvataggio, con la possibilità di recupero, il controllo degli accessi sulla base dei criteri specificati dall'azienda.

Architettura Data Fabric TalendUna visione assolutamente coerente con quella definita da Talend che, rappresentando la stessa architettura in base ai processi, ne scompone le singole componenti arrivando ad uno schema simile, nel quale vengono evidenziati i servizi di controllo governati attraverso le funzioni di monitoraggio che vanno svolte considerando l'insieme del sistema, usando un'unica console, e non le sue singole componenti o, peggio, le fonti dei dati o le piattaforme sulle quali si sta operando siano esse interne o di tipo Cloud.

  • Il che vuol dire che ci si deve svincolare dalle caratteristiche di ciascun componente, piattaforma o servizio, garantendosi tuttavia la coerenza delle interfacce così da vedere il sistema nel suo insieme e non come aggregato di parti. Parti che, in ogni caso, debbono risultare sempre facilmente intercambiabili tra loro sia a livello di piattaforme che di strumenti.

La svolta che porta a tale risultato si deve basare sulla visione incentrata sui dati utilizzati dall'azienda tanto sul piano strategico quanto su quello operativo, rivedendone di conseguenza l'infrastruttura con le sue componenti e le applicazioni.

Le componenti tecnologiche delle architetture per i Big Data e i Data Fabric

Architettura Data Fabric ForresterQuando si parla di Big Data, il riferimento più diretto è ad Hadoop, con le sue funzioni di Map Reduce, divenute lo standa de facto per la gestione dei dati non-strutturati in associazione a quelle strutturati.

Un altra standard de facto, non altrettato forte ma molto affermato, sono i servizi Cloud di Amazon (Amazon Web Service) che tra gli altri ne annoverano alcuni specifici per la gestione dei Big Data tipo AWS Elastic Map Reduce (EMR). Combinando i due, si può usufruire di una potenza di elaborazione sempre disponibile e senza troppi limiti, evitando di dover chiedere alla propria azienda degli investimenti in infrastrutture non sempre facilmente sostenibili o giustificabili.

Discorso analogo merita la necessità di Storage che può esser bilanciata tra le proprie risorse interne e servizi Cloud tipo Amazon Simple Storage Services (Amazon S3), avendo la totale integrazione tra i vari ambienti e servizi, con la possibilità di ribilanciarli secondo opportunità e convenenienza. A questo proposito, è bene sottolineare che Apache Hadoop facilita la distribuzione dei processi su cluster di computer, anche in modo dinamico, andando a prelevare i dati là dove si trovano grazie all'impiego del suo innovativo HDFS (Hadoop Distributed File System), ma dovendo includervi quelli residenti sui sistemi NAS (Network-attached Storage) installati in molte aziende, con qualche problema di integrazione tra i diversi ambienti di Storage.

Elementi che hanno portato Forrester Research a definire la propria architettura per i Data Fabric, nella quale al centro viene posto proprio Hadoop, al cui contorno si collocano tutti i servizi già visti con le rappresentazioni date da NetApp e Talend.

In conclusione, indipendentemente dall'approccio seguito, sull'impostazione e sulle funzioni delle architetture per i Data Fabric c'è una buona convergenza tra coloro che le stanno definendo e vi stanno investendo con la realizzazione di componenti, servizi, interfacce.

Ultima modifica ilVenerdì, 27 Luglio 2018 13:45

Aggiungi commento


Codice di sicurezza
Aggiorna

Torna in alto

I cookie rendono più facile per noi fornirti i nostri servizi. Con l'utilizzo dei nostri servizi ci autorizzi a utilizzare i cookie.
Maggiori informazioni Ok