Cloudera collabora con il Board Institute del MIT e di Harward, il principale centro di ricerca biomedica e genomica del mondo, per promuovere lo sviluppo del kit di strumenti di analisi del genoma di prossima generazione, denominato GATK4.
Cloudera Enterpriseaccelera la ricerca nel campo delle scienze biologiche e la scoperta di nuovi farmaci, offrendo dati in tempo reale a medici, ricercatori e fornitori il cui focus è la personalizzazione dell’esperienza del paziente. Basando la quarta generazione dello di GATK (GATK 4) su Cloudera Enterprise e utilizzando il framework di elaborazione distribuita Spark per accelerare la ricerca, il Broad Institute agevola una migliore comprensione del sequenziamento genomico, ottenendo un’esplorazione più veloce dei dati e, in ultima analisi, migliorando il processo decisionale in ambito clinico.
“Il costo inferiore del sequenziamento del genoma e lo sviluppo delle tecnologie dei big data ci permettono di sequenziare il genoma di pazienti in modo ampio e di produrre serie di dati che non sono mai state disponibili prima – ha dichiarato Shawn Dolley, Industry Leader of Life Sciences di Cloudera –. Creare la nuova generazione di toolkit su Spark accelera notevolmente i calcoli in-memory e facilita il parallelismo. Cloudera Enterprise, infatti, accelera le attività per l’accesso e l’elaborazione per la data discovery, che si traduce in una significativa riduzione del tempo dedicato alla ricerca e sviluppo. E tutto questo avrà una rilevanza scientifica molto significativa”.
Attualmente sono più di 31.000 gli utenti registrati al GATK. Broad Institute sta lavorando con alcuni collaboratori per sviluppare le opzioni di cloud-hosted al fine di estendere l’accesso e facilitare l’utilizzo degli strumenti di analisi del genoma per approfondimenti e un processo decisionale ancora più efficaci. Gli utenti, infatti, potrebbero anche creare più facilmente pipeline di best practice ed evitare la duplicazione delle infrastrutture.
“Utilizzando il framework elaborativo di Spark su Cloudera Enterprise siamo in grado di implementare strumenti che non erano possibili in GATK3 a causa della loro complessità computazionale – ha affermato Eric Banks, Senior Director di Data Sciences e Data Engineering presso Broad e creatore del pacchetto software GATK -. Con Cloudera Enterprise ora possiamo eseguire l’analisi dei dati genomici in due ordini di grandezza più velocemente rispetto alle versioni precedenti di GATK, consentendo analisi iterative più veloci al fine di migliorare l’innovazione nella genomica”.