Menu

MongoDB ingloba Hadoop unificando le due più diffuse tecnologie per Big Data

Hadoop e MongoDB sono considerati sistemi complementari per la gestione dei Big Data, il primo rivolto all’accesso da fonti di dati distribuiti, l’altro insostituibile nel trattamento in real time. La conservatività del web fa sì che sulla richiesta “Hadoop vs MongoDB” i siti indicati perseverino in questa percezione. In realtà, da molti mesi varie migliorie del secondo hanno di fatto integrato i due mondi, segnando un'importante svolta nell'area....

di Gianni Giaccaglini

MongoDB è un prodotto Open Source per l'accesso a dati e documenti molto apprezzato da sviluppatori e professionisti IT grazie alla sua impostazione agile e scalabile. Il suo strano nome deriva da "huMONGOus," che significa enorme, grandissimo". Esso si fonda su un modello dati JSON con schemi dinamici, vasto supporto di driver, auto-sharding, repliche built-in con elevata disponibilità, gestione di indici pieno e flessibile, potenti query, capacità di aggregazione, aggiornamenti in-places e GridFS su grandi masse di dati.

MongoDB

Il suo utilizzo comprende attività di gestione e di tipo analitico su Big Data, content management, infrastrutture mobile e social, e data hub.

E' piuttosto diffuso e apprezzato anche in Italia dove, ai numerosi Blog e Community internazionali si aggiunge anche quella italiana: www.mongodbitalia.it.

Integrazione MongoDB Hadoop

Una forte spinta alla diffusione di MongoDB è arrivata poco meno di un anno fa dal rilascio di un nuovo Connector che, alla luce dei risultati, ha reso questo strumento un buon ambiente integrato per la raccolta e l'analisi di Big Data.

Il 20 agosto 2013 la società produttrice di MongoDB ha infatti introdotto significativi miglioramenti al suo (preesistente) MongoDB Connector per Hadoop, facilitando l’integrazione dei dati Hadoop con quelli dell’ambiente MongoDB e unificando i più populari sistemi per gestire Big Data. Nel MongoDB Connector per Hadoop è stato inserito il nuovo componente Hive Integration, tecnologia MapReduce incrementale e Reduce Data Movement, acquisendo così la potenza analitica della tecnologia MapReduce di Hadoop. Ciò vuol dire che le applicazioni per trattare dati da MongoDB possono in tal modo accedere molto più rapidamente ai Big Data.

Il nuovo Connector rende il file system di MongoDB compatibile con quello di Hadoop. I dati provenienti da MongoDB possono essere letti e trattati in tempo reale con la tecnologia MapReduce di Hadoop, aggregando dati da fonti multiple o da data warehouse basate su Hadoop oppure da workflow ETL. I risultati così ottenuti possono a loro volta essere passati a ritroso a MongoDB per assoggettarli a operazioni real-time eventualmente con query ad hoc.

I miglioramenti più apprezzati dagli utenti di MongoDB Connector

I potenziamenti che più sono stati apprezzati dagli utenti sono stati in sostanza:

  1. Il supporto di Apache Hive con Query in stile SQL su data set MongoDB;
  2. Il supporto di lavori incrementali MapReduce, che rende semplici ed efficienti funzioni analitiche su misura;
  3. Il supporto di file MongoDB BSON sull’HDFS (Hadoop Distributed File System), che riduce il movimento dei dati.

Notevole il supporto di file di backup BSON (Binary JSON), nativo di MongoDB, che si possono immagazzinare localmente in HDFS, riducendo il movimento tra MongoDB e Hadoop. Analoghe operazioni sono possibili con file system locali o cloud-based quale Amazon S3. L’accesso a file backup MongoDB riduce inoltre il carico su cluster MongoDB.

Oltre a supportare MapReduce, Pig, Hadoop Streaming (con node.js, Python o Ruby) nonché Flume, il rinnovato MongoDB Connector per Hadoop abilita query SQL-like da Apache Hive su dati MongoDB, con pieno sostegno di MongoDB collection.

Un’altra nuova funzionalità del Connector, chiamata MongoUpdateWriteable, permette di modificare con Hadoop una collection MongoDB, anziché limitarsi a scrivere una nuova collection. In tal modo gli utenti possono lanciare operazioni MapReduce incrementali allo scopo di determinare trend o pattern matching su base quotidiana, grazie a query efficienti MongoDB su una singola collection.

A conferma dell'importanza di questi miglioramenti, basti ricordare che l’API MongoDB è stato adottato dalla IBM come standard per implementare applicazioni mobile

L’integrazione è inoltre stata estesa anche ad altri produttori primari di BI, quali QlikTech, Informatica, Pentaho and Talend.

Ulteriore documentazione tecnica è reperibile a questo indirizzo: http://docs.mongodb.org/ecosystem/tools/hadoop/.

Ultima modifica ilDomenica, 26 Aprile 2015 08:49

Aggiungi commento


Codice di sicurezza
Aggiorna

Torna in alto