Il Tredicesimo Cavaliere

Scienze dello Spazio e altre storie

Archiviazione dati: l’ipotesi DNA

DNA1Uno dei benefici del costante proliferare dell’informazione è l’aumento della nostra capacità di immagazzinare grandi quantità di dati in piccoli spazi. Adoro poter portare in viaggio con me centinaia di volumi nella memoria del mio Kindle, e a quelli che controbattono che tanto se ne può leggere solo uno per volta, rispondo che adoro poter scegliere tra tutti quei libri a portata di mano, e avere in borsa una scorta di fonti d’informazione qualificate. Provate a portarvi in giro il Webster’s 3rd International Dictionary, e capirete perché, una decina d’anni fa, era così piacevole inserirlo in un palmare. Purtroppo non ne esistono versioni per Kindle o per Nook.

 Stavamo parlando della proliferazione dell’informazione? Dave Turek, un progettista di supercomputer per l’IBM (Deep Blue, campione mondiale di scacchi, è una delle sue creazioni), ha scritto che da quando si tiene memoria del trascorrere del tempo, fino al 2003, l’Uomo ha prodotto cinque miliardi di gigabyte di informazione (5 esabyte). Nel 2011, lo stesso ammontare veniva prodotto ogni due ore. IBM si aspetta che l’intervallo si riduca a 10 minuti a partire dal 2013 e richiede nuovi computer progettati per gestire dati compressi a così incredibili livelli.

 Un recente articolo apparso sul blog Innovazioni dell’Istituto Smithsoniano cattura il senso di ciò che sta accadendo:

 Ma come è possibile? Come hanno potuto dei dati diventare una specie di gramigna digitale? In parole povere, ogni volta che il vostro cellulare emette il segnale di localizzazione GPS, ogni volta  che comprate qualcosa online, ogni volta che cliccate il bottone “mi piace” su Facebook, ogni volta è come se metteste un messaggio digitale in una bottiglia, e ora gli oceani ne fossero quasi del tutto ricoperti.

 E non è tutto: messaggi di testo, registrazioni dei clienti, transazioni Bancomat, immagini delle telecamere di sicurezza….. la lista cresce in continuazione. La parola alla moda per descrivere tutto questo è “Big Data”, termine che a stento rende giustizia all’enormità del mostro che abbiamo creato.

 L’articolo giustamente fa notare che abbiamo incominciato a raccogliere molta più informazione di  quanta neriusciamo a elaborare, motivo per cui, per esempio, si può trovare un terreno così fertile per l’esplorazione tra i dati delle ricerche statistiche in ambito astronomico e altri progetti che hanno reso la raccolta di informazioni più veloce degli scienziati che le devono analizzare. Imparare a muoversi tra giganteschi database è il presupposto del software BigQuery di Google, che è progettato per setacciare terabyte d’informazioni al secondo. Anche così, la sfida è immensa. Considerate che gli algoritmi usati dal team Kepler, per quanto siano acuti, sono stati integrati con successo da volontari che lavoravano per il progetto Planet Hunters, che di tanto in tanto vedono cose che i computer non notano.

 Ma come noi lavoriamo per estrarre valore dal flusso dei dati in entrata, (così) stiamo trovando modi di comprimere i dati in mezzi sempre più densi (capienti), un prerequisito per le future sonde per lo spazio profondo, che, si spera, raccoglieranno informazioni a velocità mai raggiunte prima. Considerate il lavoro svolto in Inghilterra dal European Bioinformatics Institute, dove i ricercatori Nick Goldman and Ewan Birney sono riuscti a codificare 154 sonetti di Shakespeare nel DNA, in modo che un singolo sonetto pesa 0,3 milionesimi di milionesimo di grammo. In proposito, potete leggere l’articolo Shakespeare and Martin Luther King demonstrate potential of DNA storage dedicato alla loro relazione scientifica originale apparsa su Nature, e ora ripubblicato su The Guardian. Goldman e Birney parlano del DNA come alternativa all’utilizzo degli hard disk e di metodi più nuovi di memorizzazione in materiali allo stato solido.

 Il loro lavoro è valorizzato dal calcolo che un grammo di DNA può contenere tante informazioni quante un milione e passa di CD. Ecco come The Guardian descrive il loro metodo:

 DNA2Gli scienziati hanno sviluppato un codice che usa le quattro lettere che indicano le basi del materiale genetico (G,T,C,A), per memorizzare informazioni. I dati sono memorizzati nei file digitali come stringhe di 1 e 0. il team di Cambridge trasforma ogni blocco di otto numeri in formato digitale in (una sequenza) di cinque lettere di DNA. Per esempio gli otto bit che formano la lettera T, diventano TAGAT. Per memorizzare parole intere, gli scienziati registrano semplicemente le lettere DNA una dopo l’altra nel giusto ordine. Così la prima parola della frase “Thou art ore lovely and more temperate” dal sonetto di Shakespeare n.18, diventa: TAGATGTGTACAGACTACGC.

I sonetti convertiti, insieme al codice DNA del discorso di Martin Luther King ‘I Have a Dream’ e del famoso rapporto scientifico sulla doppia elica (del DNA) di Crick e Watson, furono spediti alla Agilent, un’azienda americana che fabbrica “filoni” di DNA per i ricercatori. La provetta che Goldman e Birney ricevettero indietro non conteneva che un granello di DNA, ma passandolo nel sequenziatore genetico, i ricercatori furono in grado di leggere nuovamente i file. In modo analogo si era mosso George Church, memorizzando su DNA il suo libro Regenesis.

Le differenze tra l’archiviazione dei dati su DNA e quella tradizionale sono impressionanti. Leggiamo dalla relazione scientifica pubblicata su Nature:

Il mezzo di stoccaggio dei dati basato sul DNA ha proprietà differenti da quello tradizionale basato su nastri o dischi. Siccome il DNA è la base della vita sulla Terra, i metodi per manipolarlo, archiviarlo e leggerlo rimangono oggetto di una continua evoluzione tecnologica. Come qualsiasi sistema di stoccaggio, un database di grandi dimensioni realizzato su DNA dovrebbe aver bisogno di una costante supervisione e catalogazione fisica delle località di deposito. Ma mentre le attuali modalità di archiviazione digitale richiedono un mantenimento attivo e continuato nel tempo e regolari trasferimenti tra i mezzi di stoccaggio, quelli basati sul DNA non richiedono simili cure se non un ambiente secco, fresco e scarsamente illuminato (come quello del Global Crop Diversity Trust’s Svalbard Global Seed Vault che non ha personale permanente sul posto) e rimangono ancora utilizzabili per centinaia d’anni anche secondo le stime più prudenti.

 Il documento continua descrivendo il DNA come un eccellente mezzo per la creazione di copie di qualsiasi archivio con finalità di trasporto, condivisione o sicurezza. Il problema oggi è l’alto costo di produzione del DNA, ma la tendenza va verso la diminuzione. Accoppiate questo con le incredibili capacità di stoccaggio del DNA – uno dei ricercatori di Harvard che lavora con George Church stima che un giorno la totalità dell’informazione mondiale potrebbe essere archiviata in quattro grammi circa d materiale genetico – e avrete un mezzo di archiviazione in grado di gestire progetti che prevedono vaste aggregazioni di dati, originati da telescopi realizzati con tecnologie di nuova generazione qui sulla Terra o a bordo di piattaforme spaziali.

traduzione di ROBERTO FLAIBANI

Titolo originale: Data Storage: The  DNA Option, scritto da Paul Gilster e  pubblicato su Centauri Dreams il 28/01/13

Il documento è: Goldman et al., “Towards practical, high-capacity, low-maintenance information storage in synthesized DNA,” pubblicato in Nature online il 23 gennaio 2013

Advertisements

5 febbraio 2013 - Posted by | Senza categoria | , , , , , ,

4 commenti »

  1. […] Infine, Big Data significa anche archiviazione, stoccaggio e trasporto dei dati in spazi sempre più piccoli, come dice Paul Gilster: ”Ma come noi lavoriamo per estrarre valore dal flusso dei dati in entrata, così stiamo trovando modi di comprimere i dati in mezzi sempre più capienti, un prerequisito per le future sonde per lo spazio profondo, che, si spera, raccoglieranno informazioni a velocità mai raggiunte prima” (per approfondire: Archiviazione dati: l’ipotesi DNA). […]

    Mi piace

    Pingback di L’era dei Big Data – Il tredicesimo cavaliere 2.0 | 30 aprile 2016 | Rispondi

  2. […] difficile costruire strumenti scientifici che raccolgano una gran quantità di dati in poco tempo, e le nuove tecnologie di immagazzinamento rendono possibile il loro stoccaggio in dispositivi minuscoli, leggeri ed economici. Ciò che manca, […]

    Mi piace

    Pingback di Cavalcare il vento solare – Il tredicesimo cavaliere 2.0 | 19 aprile 2016 | Rispondi

  3. […] Infine, Big Data significa anche archiviazione, stoccaggio e trasporto dei dati in spazi sempre più piccoli, come dice Paul Gilster: ”Ma come noi lavoriamo per estrarre valore dal flusso dei dati in entrata, così stiamo trovando modi di comprimere i dati in mezzi sempre più capienti, un prerequisito per le future sonde per lo spazio profondo, che, si spera, raccoglieranno informazioni a velocità mai raggiunte prima” (per approfondire: Archiviazione dati: l’ipotesi DNA). […]

    Mi piace

    Pingback di L’era dei Big Data « Il Tredicesimo Cavaliere | 16 marzo 2015 | Rispondi

  4. […] difficile costruire strumenti scientifici che raccolgano una gran quantità di dati in poco tempo, e le nuove tecnologie di immagazzinamento rendono possibile il loro stoccaggio in dispositivi minuscoli, leggeri ed economici. Ciò che […]

    Mi piace

    Pingback di Cavalcare il vento solare « Il Tredicesimo Cavaliere | 27 maggio 2013 | Rispondi


Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: