Chiedere la gestione e distribuzione dei dati

Magari non avete voglia di leggere tutto questo pistolotto quindi vi anticipo subito cosa vorrei sapere:

  1. quali sono le aziende private, pubbliche o in house che gestiscono i sistemi informativi regionali
  2. le aziende private, pubbliche o in house che gestiscono i sistemi informatici sanitari in Italia
  3. se esiste uno schema MEPA per i requisiti minimi di servizio di un sistema informativo
  4. quali sono i criteri minimi di collaudo per validare un sistema informativo
  5. quali regioni sono dotate di un data management plan
  6. quali regioni sono dotate di una data policy
  7. qual è il budget di ogni regione per i sistemi informativi
  8. chi sono (nome, cognome, e curriculum) i responsabili dei sistemi informativi regionali
  9. chi sono (nome, cognome, e curriculum) i responsabili dei sistemi informativi delle aziende sanitarie italiane

Se avete del tempo che vi avanza potete leggere di seguito. Leggerete di come si gestiscono i dati scientifici, di criteri di gestione. Alcuni esempi buoni, alcuni esempi agghiaggianti e tante altre considerazioni e link sul perché del mio post Chiedere i dati è inutile. Su quello si è creato con mia sorpresa un certo dibattito a cui ho replicato. Nel massimo rispetto delle posizioni e dell’iniziativa #datiBeneComune tengo a precisare meglio la mia dissociazione dai molti amici promotori.

Metodo

Per chi lavora in ambito scientifico o di progettazione europea, è noto il peso del data management plan. Generalmente la Commissione Europea identifica i dati raccolti, selezionati e prodotti per qualsiasi attività, come distribuibili in modalità aperta. Il concetto di apertura è espresso nell’acronimo FAIR che sta per Findability, Accessibility, Interoperability, and Reuse. Nel mondo universitario questi criteri sono predicati da chiunque lavori in ambito open access. Queste prediche si scontrano però con molti interessi personali e di categoria e soprattutto con le politiche degli editori di riviste scientifiche, che - a dire il vero - sta cambiando molto negli ultimi tempi.

La pubblicazione dei dati nella scienza

Aaron Schwartz avrebbe compiuto 34 anni l’8 novembre (per me è facile ricordarlo perché è il mio compleanno) ed è letteralmente morto per rendere pubblici dati scientifici. Con alcuni amici abbiamo tradotto il suo Guerrilla Manifesto, il cui scopo era (ed è)

acquisire le informazioni, ovunque siano archiviate, farne copie e condividerle con il mondo. Dobbiamo prendere ciò che è fuori dal diritto d’autore e caricarlo su Internet Archive

Nel 2011 Alexandra Elbakyan ha creato quel gioiello che è Sci-hub (ho messo il link alla voce wiki perché il dominio cambia continuamente per non essere spento :-D), che da aiuto a tantissimi ricercatori interni e esterni alle istituzioni. Anche a quelli che poi si tengono stretti i dati.

Anche qui in Italia si parla - abbastanza - di open access, ma se cercate “open data CNR” non troverete nulla. Dovrete andare dentro al sito e scovare la pagina open access e - solo dopo vari tentativi vi troverete di fronte a delle gemme preziose (non sono ironico, sono veramente ottimi) come Solar (nonostante l’aspetto retro), la Science and Technology Digital Library (fatto però clamorosamente con joomla…) e il CNR Open Access Publications dove ci sono molti materiali su COVID-19. Queste fonti, lo posso testimoniare per esperienza diretta, non sono note a molti ricercatori CNR.

A sostegno del CNR nemmeno il CERN promuove tantissimo Zenodo, ma la differenza sostanziale risiede nel fatto che è LA digital library e repository per tutti i ricercatori CERN, affiancato a CERNBox, un sistema di gestione cloud interno basato su Owncloud. Entrambi i due sistemi sono riusabili e distribuiti (e ben documentati): Zenodo (con relativo software Invenio) e CERNBox. Su Zenodo ne avevo scritto e parlato all’inizio della pandemia in DATI, VERITÀ E TEMPO.

Nel caso del CNR non credo che ci sia del dolo nel non pubblicizzare e rendere facilmente accessibili le risorse aperte, quanto il disinteresse delle persone non direttamente coinvolte ai dati scientificamente accurati. La percezione è che faccia comodo a tutti procedere per opinioni piuttosto che per fatti controllati e verificati. Per due problemi: il costo della verifica e il bagaglio dei pregiudizi. Quest’ultimo problema è quello più grave. E lo è sempre stato e lo sarà.

La gestione

Cosa si nota nella strategia di CERN con Zenodo? Che innanzitutto loro hanno un’infrastruttura basata su due cardini: gestione e autorialità. Significa che deve essere facile inserire i dati, documenti e codici e già con la compilazione dei campi per l’upload si crea una scheda omogenea tra i materiali pubblicati. L’autoralità viene garantita attraverso il DOI (che hanno pure integrato con i repository su Github), che da un link permanente e univoco a qualsiasi materiale condiviso; permanente significa che quando si clicca “upload” ti avvisano che ciò che carichi non verrà MAI cancellato, al massimo sarà correggibile con una nuova versione (mantenendo quella precedente). Il sistema è talmente ben progettato e scalabile che lo hanno reso pubblico e riusabile a tutti (pure ad un cretino come me), infatti Capua e Gianotti inizialmente avevano lanciato il progetto “Yellow Submarine” che ora è la Coronavirus Disease Research Community - COVID-19 con oltre 1000 record (se si cerca “COVID-19” su Zenodo appaiano oltre 58000 record di cui oltre 48000 sono open tra pubblicazioni, dataset e codici).

La distribuzione

Anche Nature distribuisce molti contenuti in open access e, come in ogni comunità di ricerca, questi record sono relazionabili a quelli di Zenodo grazie al sistema DOI, che attribuisce un link permanente a qualsiasi materiale pubblicato. Questo materiale inoltre viene distribuito attraverso dei protocolli consolidati chiamati OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting, per garantire l’interoperabilità. Tali protocolli sono stabili e subiscono rare modifiche proprio per non aggravare il processo con un’eccessiva regolamentazione burocratica; inoltre sono molto pratici: dicono come devono essere le intestazioni, gli schemi dai campi e via andare. Non dico che siano facili, ma diretti e concreti. Queste sono le pratiche consolidate nella ricerca scientifica. Bene ora guardiamo a quella amministrativa.

Gestione e distribuzione dei dati negli enti pubblici

Prendo l’esempio dei dati sanitari. Nelle linee guida di AgID si trovano molti documenti, tra cui Linee guida Indice PA, tutta la parte sul Documento Informatico, Caratterizzazione dei sistemi cloud per la pubblica amministrazione e per la Sanità Digitale le Linee guida per la presentazione dei piani di progetto regionali per il FSE. FSE sta per “Fascicolo Sanitario Elettronico” e le linee guida sono del 2014, nel sito istituzionale si può monitorare l’attuazione e l’utilizzo. Nello scenario di COVID-19, immagino, i vari dati finiscono nel FSE di ciascuno dei pazienti, quindi in teoria dai dati anonimizzati del FSE si dovrebbero dedurre gli andamenti dello stato sanitario.

Caso Veneto

A maggio Riccardo Luna scriveva euforico I dati del virus, il Veneto e la piattaforma di cui abbiamo bisogno, notizia ripresa da molti altri. Nel pezzo non c’è un link, ma sapendo che i partner di Regione Veneto sono Engineering (privata) e Azienda Zero (in house) si trova che la piattaforma è Eng-DE4Bios basata sul codice di Fiware. Cosa fa Eng-DE4Bios?

monitorare in tempo reale la diffusione della pandemia e ci ha fornito dati per prevederne gli effetti in anticipo. Tutto ciò ci ha permesso di mettere in atto azioni preventive per governare il sistema di emergenza, evitando ulteriori infezioni, contenendo il numero di persone che muoiono e soprattutto salvando vite umane.

Questo a maggio 2020. Ora come sta funzionando a novembre 2020?

La domanda che ci si era posti nel maggio 2020, era perché la piattaforma Eng-DE4Bios non venisse adottata anche dalle altre Regioni. La risposta è abbastanza facile: Eng-DE4Bios è un prodotto proprietario sviluppato da Engineering che, anche se lo distribuisse in modalità aperta, dovrebbe essere adottato da almeno altre 19 azienda fornitrici o in house delle altre Regioni.

Come è l’infrastruttura dei dati in Italia

Abbiamo fatto in molti esperienza con le richieste dati: implacabile e imperdibile fu la trafila per i dati dei lavori nelle scuole di Elisabetta Tola o quello dei migranti fatto da Dataninja. Io ho lavorato su dati di MiBACT, CNR, Comune di Venezia e varie aziende. In tutti i casi ognuno di noi ha affrontato montagne burocratiche, sistemi obsoleti, schemi descrittivi disomogenei già tra uffici dello stesso ente, e generica ignoranza dei dirigenti. Il livello di conoscenza delle infrastrutture è generalmente basso sia per i responsabili che per le stesse aziende appaltate. In Italia ci sono due/tre grosse aziende che, per il sistema di formulazione degli appalti che chiedono un fatturato minimo alto, si aggiudicano le gare; successivamente procedono a subappalti che comprendono anche la fornitura di personale tecnico agli enti.

Alcuni esempi di gestione dei dati

Non so ora, ma ricordo nel 2014 che il direttore dei sistemi informativi di una regione italiana non aveva l’accesso fisico ai server e doveva passare per la ditta fornitrice. Un altro esempio, vissuto in prima persona, di un’azienda in house di un comune che chiedeva migliaia di euro al comune stesso per fare estrazioni dai database degli applicativi. Un altro ancora: l’archivio di un istituto pubblico soppresso andato completamento perduto, perché l’azienda che ne ha fatto il backup aveva salvato solo il sito web e perso tutti i link ai server in cui stava il materiale. È recente il caso dell’Archivio di Stato di Venezia che ha concluso unilateralmente una convezione (anche) per gravi errori metodologici di archivistica informatica.

Cosa succede quando si chiedono i dati?

Generalmente la richiesta singola viene inoltrata ad un amministratore politico, la cui risposta è “parla con gli uffici”. Se è interessato da i riferimenti, altrimenti si entra nella giungla degli organigrammi. Una volta che si trova il referente amministrativo, scatta la catena tra gli uffici per trovare chi “parla con la società del gestionale”. Perché, molti lo ignorano, i dati sono raccolti da famigerati gestionali che non hanno uno straccio di protocolli comuni di scambio (gli OAI-PMH che citavo sopra, ad esempio). Questi gestionali sono pezzi di codici vecchi rattoppati e messi online dal fornitore di turno, che ha già impiegato non pochi sforzi a fare reverse engineering. Quindi l’azienda che gestisce i gestionali, chiede a propria volta agli uffici di quali dati ha bisogno. A quel punto gli uffici, se sono ben disposti e non soffocati dall’ordinaria amministrazione, fanno un’analisi interna e rigirano la richiesta all’azienda fornitrice. Qui scatta l’orrore: il linguaggio burocratico raramente coincide con i criteri di gestione informatica fatta dall’azienda, che lancia una serie di query più o meno a caso, sperando che agli uffici vada bene. A questo punto scatta la domanda degli amministratori dell’azienda fornitrice al dirigente degli uffici: queste richieste di estrazioni non sono nel contratto di servizio, quindi ti devo fare fattura. Quanto budget hai?. Il dirigente amministrativo dell’ente, che fino a quel punto non sapeva nulla, prende il telefono e urla alla propria PO (Posizione Organizzativa) dove ca%%o trovo i soldi per queste richieste del ca%%o?!. La PO ricorda che le aveva chieste il politico, e allora il dirigente chiama il politico che sobbalza al costo (e al bilancio striminzito) e dice blocca tutto, diciamo che i dati non si possono rendere pubblici per la privacy. Chi ha fatto richiesta ci rimane male, fa un post su Facebook e tutti si indignano perché è contro la trasparenza. Se sale il polverone allora il politico decide di impegnare la spesa per la query così quei rompico£££oni la piantano e avanti così fino alla prossima richiesta.

Un altro esempio

Purtroppo, sapendo in giro che mi occupo di dati, mi vengono raccontate molte storie. Proprio di questi tempi un ufficio sta impazzendo perché un comune ha attivato un sistema di sottoscrizione digitale accessibile con SPID. Il sistema funziona, ma la Regione non riesce ad intercettare i dati con il proprio, quindi si fa trasmettere settimanalmente i fogli excel con le liste e i dati. Successivamente invia dei moduli cartacei ai cittadini - che si erano già iscritti digitalmente - che devono essere firmati e consegnati negli uffici comunali di riferimento. Questo avviene per tantissimi processi e i dati nelle direzioni sanitarie regionali sono al collasso. Sia per limiti enormi delle infrastrutture che per gravi errori di progettazione.

Cosa vorrei/farei io?

Le mie richieste le ho messe all’inizio, perché magari non si aveva il tempo di leggere questa tiritera. Io non sono né disfattista né delirante. Sono uno che ha una strana attrazione per la conoscenza e sono molto pigro: per me la tecnologia è studio e ricerca di non fare cose noiose che possono fare le macchine. Non sono fanatico della tecnologia e ho una insana passione per l’agricoltura pur essendo totalmente negato. Forse ci si appassiona di tutto ciò che non si è capace di fare…