Menu

Apache Hadoop: è scoppiata la corsa alle distribuzioni per gestire Big Data

Hortonworks Data Platform (HDP) 1.1 per Windows, EMC/Greenplum Pivotal HD e Intel in corsa per distibuire Apache Hadoop, la soluzione Open Source basata su MapReduce centrale per la gestione dei Big Data

Logo HadoopQualsiasi riferimento ai Big Data in un modo o nell'altro porta ad Apache Hadoop, il Framework Open Source sviluppato in Java dalla comunità che fa capo alla fondazione Apache per supportare la gestione di applicazioni che fanno uso di grandi quantità di dati. 

Per la gestione dei Big Data, Hadoop implementa il paradigma chiamato MapReduce definito dai Google in base al quale le applicazioni vengono suddivise in piccole porzioni di software, ciascuna delle quali può esser eseguita su un nodo diverso di tutti quelli che compongono il sistema. Per questo, utilizza un File System Distribuito, originato sempre dai laboratori di Google (GFS - Google File System), che memorizza i dati sui vari nodi in modo tale da ottimizzare l'impiego delle risorse e della banda disponibili all'interno del Cluster.

Il sistema MapReduce, così come il File System sono progettati in modo da gestire in automatico anche qualsiasi eventuale blocco di qualsiasi nodo del sistema. Questo vuol dire che si possono utilizzare anche migliaia di nodi di elaborazione che operano in parallelo su Petabyte di dati. La piattaforma è poi completata da altre componenti, tipo Hive e HBase, sviluppati sempre all'interno della Fondazione Apache.

Tra gli altri, Hadoop è usato nella gestione dei propri Big Data da AOL, Ebay, Facebook, IBM, Linkedin, The New York Times, Twitter, Yahoo! e da numerose altre aziende di ogni parte del mondo per gestire le grandi quantità di dati non strutturati provenienti da Internet e da varie altri fonti in rete e non.

Senza entrare troppo in profondità nella struttura interna del sistema, è importante sottolineare che in analogia ad altri sistemi complessi del mondo Open Source - tipo Linux - per Hadoop stanno nascendo varie distribuzioni che ne aggregano le varie componenti, spesso integrandole di funzioni aggiuntive che ne semplificano o rendono più efficiente l'uso e la gestione.

I primi e più affermati "distributori" di Hadoop sono Cloudera Hortonworks, inseguiti da vicino da MapR che sin dall'inizo ha puntato sgli ambienti Cloud sfruttando le proprie alleanze con Amazon Web Services e RackSpace. Ci sono poi Hadapt, specializzatasi nello sfruttamento delle architetture MPP (Massively Parallel Processing) e Microsoft con il suo HDInsight Service per le piattaforme Windows Azure.

Nuove distribuzioni Hadoop

A questo mondo che già sembra piuttosto affollato, ma molto appetibile grazie al diffondersi dell'uso dei Big Data e delle tecniche di analisi predittiva con i Tool di Analytics si stanno aggiungendo nuovi concorrenti di rango quali:

- Intel, con il proprio Hadoop Distributed File System (HDFS), YARN ("yet another resource negotiator"), il motore MapReduce e HBase, per la memorizzazione dei dati e l'esecuzione delle Query "NoSQL" sfruttando al meglio le capacità dei suoi processori e dello Storage SSD (Solid-State Drive).

- EMC/Greenplum, che ha sviluppato il proprio sistema di chiamate "HAWQ", un motore per l'esecuzione delle Query basato sulle tecnologie MPP del Database di Greenplum capace di analizzare grandi quantità di dati in modo estremamente efficiente, usando per le interrogazioni i costrutti standard dell'SQL, in contrapposizione alle aziende che stanno puntando su tecnologie che vanno oltre il tradizionale SQL.

Entrambe queste aziende stanno sviluppando i propri sistemi all'interno di un innovativo ecosistema tecnologico che comprende anche Cirro, che supporta il sistema Pivotal HD di EMC/Greenplum, SAP and MarkLogic.

C'è infine Hortonworks, un partner di Microsoft, che ha annunciato la sua Data Platform (HDP), una distribuzione basata su Apache Hadoop che tuttavia si integra in modo particolarmente efficiente con le tecnologie di Microsoft System Center ed Active Directory, aprendo il sistema alle piattaforme Windows in aggiunta al tradizionale mondo Linux.

Rimandando gli approfondimenti tecnici ad un'altra occasione, è importante evidenziare tre aspetti:

1. Hadoop diventa lo standard per gestire i Big Data, ma anche parte integrante delle infrastrutture di base dei sistemi informativi aziendali;

2. La quantità di distribuzioni che si stanno "iscrivendo" alla competizione è decisamente elevata, facendo immaginare un prossimo consolidamento del mercato: anche per le piattaforme Linux, settore ben più grande di quello per la gestione dei Big Data, all'inizio c'è stata un'esplosione di distribuzioni, oggi ridottesi praticamente a tre.

3. Guardando ai nomi degli "attori" che stanno animando questo settore appianono alcuni nuovi entranti, alcuni colossi di sempre, ma anche aziende che vengono da altri ambiti a cominciare dall'Hardware, come nei casi di Intel ed EMC, facendo preludere anche ad un prossimo rimescolamento delle posizioni e dei competitor.

In conclusione: cominciamo a lavorarci, ma occhi aperti e antenne alzate!

Aggiungi commento


Codice di sicurezza
Aggiorna

Torna in alto

I cookie rendono più facile per noi fornirti i nostri servizi. Con l'utilizzo dei nostri servizi ci autorizzi a utilizzare i cookie.
Maggiori informazioni Ok