Dataporn #12 Dati, verità e tempo

La verità non si insegna; bisogna scoprirla, conquistarla. Pensare, farsi una coscienza. Non cercare uno che pensi per voi, che vi insegni come dovete essere liberi. Qui si vedono gli effetti: dagli effetti risalire alle cause, individuare il male. Strapparsi dalla massa, dal pensiero collettivo, come una pietra dall’acciottolato, ritrovare in se stessi l’individuo, la coscienza personale. Impostare il problema morale. Domani, appena toccherete col piede la vostra terra troverete uno che vi insegnerà la verità, poi un secondo che vorrà insegnarvela, poi un quarto, un quinto che vorranno tutti insegnarvi la verità in termini diversi, spesso contrastanti. Bisogna prepararsi qui, “liberarsi” qui in prigiionia, per non rimanere prigionieri del primo che v’aspetta alla stazione, o del secondo o del terzo. Ma passare ogni parola loro al vaglio della propria coscienza e, dalle individuate falsità d’ognuno, scoprire la verità. (G. Guareschi, Diario Clandestino)

I dati hanno dei tempi di raccolta, analisi, elaborazione e pubblicazione. Queste attività vengo svolte con metodi che richiedono un certo tempo di apprendimento e familiarità, uniti a strumenti che tengano traccia automaticamente di ogni modifica compiuta. La burocrazia nei dati è fatta da regole e metodi confrontabili e misurabili negli output. Ma soprattutto non esiste l’autocertificazione. Ognuno è responsabile dei propri dati a prescindere dell’autore. Vediamo un po’ di esempi.

Dati e controllo di versione

Nella mia vita professionale ho visto tanti tipi di dati e mi hanno sempre affascinato il sistema di collezione dei dati e dei documenti nelle comunità aperte.

Dati nelle comunità aperte

Wikipedia e OpenStreetMap negli anni hanno sviluppato un sistema abbastanza complesso di regole e metodi, il cui caposaldo è il controllo di versione, ovvero il tenere traccia di ogni modifica in modo da riconoscere ogni versione di una mappa o di una voce e avere un backup di tutto; qualora ci fossero controversie o ci vandalismi (accadono nella vita digitale sempre come nella vita reale) si possono recuperare le tracce accettate consensualmente. In altre piattaforme vale più la regola del “non si sa mai”: “metto lì perché a me o a qualcuno potrebbe servire”. Internet Archive -per gli amici Archive - ne é l’esempio più importante e aperto con anche la Wayback Machine, una vastità di “controlli di versione” dei più importanti siti del mondo (Sì. Anche dei siti dei giornali italiani: L’INTERNET NON DIMENTICA!). Se i primi due hanno un apparato di regole, Archive ne ha pochissime e la scheda da compilare al momento dell’upload è molto breve.

Dati condivisi nelle comunità scientifiche

Poi c’è Zenodo, il “data e document manager framework” del CERN che offre spazio gratuito a chiunque: che siano pacchetti di dati, software, documenti di testo, audio o video si possono mettere lì e vengono conservati per sempre e con l’attribuzione di un DOI (una specie di ISBN dei file digitali). La scheda da compilare è facile ma per un motivo: nasce in ambito scientifico, quindi si da per scontato che chi ci carica qualcosa alleghi i riferimenti e companga il materiale secondo le specifiche metodologiche e formali esplicite. La categoria “Publication” ha 18 voci, poi ci sono le categorie “Poster”, “Presentation”, “Dataset”, “Image”, “Video/Audio”, “Software”, “Lesson”, e il classico “Other”. La scheda poi assegna (qualora non ci fosse già) il DOI e prosegue con le normali voci come “autore, data, licenza, accesso”, fino ad arrivare a quelle più interessanti come “contributors”, “references” e altri riferimenti in base alle occasioni in cui si è prodotto il materiale (tesi, conferenza, libro ecc). Tutto questo però rimane e si viene avvisati al momento dell’invio all’upload. PER SEMPRE. Se ci fosse un errore nei dati della scheda si potranno correggere, ma se sono nel materiale caricato si dovrà fare una nuova versione (semplicemente si carica un altro materiale e viene assegnato un DOI nuovo collegato come versione a quello precedente).

La verifica dei dati nella scienza

Questi che ho descritto sono soluzioni, più o meno scientifiche, più o meno condivise. Se si vuole stare in quelle piattaforme bisogna rispettarle altrimenti non si può avere fruizione. Ovvero: a Wikipedia, OpenStreetMap, Archive e Zenodo potrò sempre accedere ma se voglio metterci del mio dovrò attenermi alle regole. I modi con cui rispettare le regole sono di due tipi: 1) a priori (o compilo i campi con le informazioni o non posso caricare nulla), 2) a posteriori (ovvero dei moderatori umani e non controllano la regolarità formale dei contenuti). Attenzione: la regolarità formale, non sostanziale. Anche in scienza la cosidetta peer review viene fatta sulle argomentazioni e sui riferimenti e non se quello che viene sostenuto sia “vero o falso”. Sto ovviamente semplificando ma quando Einstein ha pubblicato la teoria della relavità ristretta nel 1905 ha preso le varie leggi della fisica e ha sviluppato dei postulati con riferimenti e motivazioni e calcoli a sostegno; successivamente i vari scienziati hanno iniziato a confermare o confutare le tesi e i postulati fino al 1916 quando Einstein ha pubblicato la relatività generale. Le conferme scientifiche a questa teoria sono arrivate a 100 anni dalla sua pubblicazione.

Differenza tra Zenodo e Internet Archive

La differenza principale sta nell’attribuzione di un DOI al materiale caricato, ma in realtà è molto più profonda: Zenodo nasce e persiste in un ambito di discipline STEM mentre Archive ha storicamente avuto una propensione archivistica “leggera”, ovvero un archivio “aperto” il cui scopo principale è conservare, mentre la catalogazione e la classificazione vengono in un secondo momento (e non necessariamente su Archive) o a priori. La stessa Library of Congress è presente su Archive ma ovviamente ha la propria collezione. Su Zenodo invece si trovano principalmente dataset e pubblicazioni che vengono prodotte in ambito scientifico affiliato a qualche istituzione. Al momento, 10 marzo mattina, ci sono oltre 43844 risultati alla ricerca “COVID-19”: 35216 sono open, 8555 chiuse (ovvero pubblicate ma non accessibili), 49 ristrette e 24 in embargo (verranno rese aperte più avanti). Le pubblicazioni sono 31022, le immagini 10188 i dataset 1120 mentre i software sono 620. Questa mole di materiale è stata messa a disposizione da varie persone e istituzioni, come posso mettere pure io questo documento, ma solo se allego i riferimenti e descrivo lo scopo verrò preso in considerazione, altrimenti verrò ignorato. Qualora i contenuti di questo documento risultassero fuorvianti o errati formalmente e contestualmente (faccio deduzioni a caso o metto riferimenti che contraddicono la mia tesi), il mio documento verrebbe citato per essere contestato e considerato consensualmente non utile ai fini della ricerca - in questo esempio - del COVID-19.

Dati e tracciabilità

In tutti gli esempi rimane la costante della tracciabilità. In scienza e nei dati in genere non esiste la verità. Dei dati possono essere manipolati, inventati, corrotti, validi e validati. Un dato valido è stato raccolto secondo criteri e metodi condivisi e consensuali, mentre validati sono quando qualcun altro verifica i dati all’interno dei criteri e dei metodi consensuali e lo scrive. Che sia attraverso un controllo di versione generico o un DOI quei dati per portare con sé la validità e la validazione devono essere tracciabilità. I dati non possono essere veri o falsi perché il sistema in cui li ho raccolti oggi, magari fra un mese verrà riconosciuto errato. Questo significa che i miei vecchi dati diventeranno obsoleti ma non falsi, perché comunque andranno a formare la storia di una determinata ricerca. Generalmente queste pratiche erano accessibili a chi lavorava in ambito accademico e scientifico, perché la tracciabilità era garantita (lo è ancora, ovviamente) dalla pubblicazione su una rivista scientifica. Intendiamoci per scientifica non s’intende solo riferibile all’ambito STEM ma a qualsiasi lavoro oggettivo con metodo e i risultati espliciti e verificabili. Questi materiali vengono sottoposti alla valutazione tra pari (la peer review) che valida la pubblicazione.

Dati e tempo

Il percorso di validazione dei dati non è real time, perché se anche un sensore rileva e trasmette costantemente dei dati, l’uomo o la macchina che ricevono devono essere dotati di un metodo di “pulizia” e controllo di quei dati. Un esempio sono le centraline di rilevazione delle maree, che durante l’ultima “acqua granda” a Venezia hanno subito danni, per cui le persone devono confrontare i dati con i modelli e capire se le rilevazioni sono coerenti o eccezionali e analizzarne i motivi. Immaginiamo cosa succede in questi giorni con i dati relativi a COVID-19! I dati sono il risultato di tamponi e analisi eseguiti in migliaia di centri medici sparsi nel mondo che vengono confrontati con le sequenze del virus. Una volta risultati positivi vengono associati alle caratteristiche cliniche del soggetto contagiato e vengono spediti all’European Centre for Disease Prevention and Control che a sua volta invia al database della World Health Organization. Questi dati validati vengono fatti “girare” su modelli che creano degli scenari a partire dall’andamento di letalità, mortalità e diffusione, associando eventuali tipi di contrasto. Queste procedure, unite alle cure, danno l’idea dell’enorme lavoro che stanno affrontando i personali sanitari.

Dati e burocrazia

Quelle descritte sono “procedure” che mettono assieme metodi e linee guida secondo i principi di tracciabilità e verificabilità. Poi abbiamo le strutture amministrative che promulgano decreti in cui ci si affida alla responsabilità individuale invitando alla limitazione dei contatti umani e agli spostamenti attraverso l’autocertificazione. Meglio ribadire: è doveroso stare a casa! Per chi vuole “giocare” con un modello di diffusione può usare Modeling Commons, ma il punto è: finché l’attività amministrativa è all’opposto dell’attività scientifica, queste crisi saranno sempre più difficili da affrontare. In Corea del Sud hanno affrontato COVID-19 in maniera sistematica un po’ per fortuna (avevano fatto delle esercitazioni a dicembre 2019), ma poi perché i protocolli erano aggiornati e integravano modelli e strutture tecnologiche e organizzative. In Italia invece stiamo assistendo all’affidamento al buonsenso collettivo che è merce oltre che rara, molto lenta ad attivarsi e a essere efficace. Questo non significa diffidare delle soluzioni attuate e che di attueranno: nessuno, tranne chi ricopre i ruoli di coordinamento e decisione, ha una visione ampia del problema. Ma quando si chiedono soluzioni in tempi rapidi bisogna tenere a mente tutti i processi descritti e che - soprattutto - ad ogni processo è associato un costo sia sociale che economico. È sbagliato associare il valore di scambio tra un calciatore e un medico, ma pretendere che i costi di ricerca e istruzione siano una buona percentuale della spesa pubblica è doveroso. Come è doveroso che chi sia oggetto di quei fondi renda pubblico e condivida le ricerche. Questo è quello che è successo e sta succedendo con il COVID-19. Ha condiviso da subito la comunità scientifica cinese e ora quella mondiale lo sta facendo in maniera trasparente e - addirittura - anche su piani divulgativi come mai prima di ora. Ora tocca a noi accogliere queste nuove informazioni e questi metodi. Del resto, senza di essi, penseremmo ancora che la Terra giri attorno al Sole e non saremmo andati sulla Luna…

#data #dataporn #podcast