I principi di TRUST per i repository digitali

Questa è la traduzione di Lin, D., Crabtree, J., Dillo, I. et al. The TRUST Principles for digital repositories. Sci Data 7, 144 (2020). DOI

Poiché la tecnologia dell’informazione e della comunicazione ha pervaso la nostra società, siamo sempre più dipendenti sia dai dati digitali che dai repository che forniscono accesso e consentono l’uso di tali risorse. I repository devono guadagnarsi la fiducia delle comunità che intendono servire e dimostrare di essere affidabili e in grado di gestire adeguatamente i dati che possiedono.

A seguito di una discussione pubblica durata un anno e basandosi sul consenso della comunità esistente1, diversi soggetti interessati (stakeholders), che rappresentano vari segmenti della comunità degli archivi digitali, hanno collaborativamente sviluppato e approvato una serie di principi guida per manifestare l’affidabilità del deposito digitale. Trasparenza, Responsabilità, Utenti prima di tutto, Sostenibilità e Tecnologia: i principi TRUST (fiducia) forniscono una struttura comune per facilitare la discussione e applicazione da tutti i stakeholder delle migliori pratiche nella conservazione digitale.

Contesto e storia

Per oltre sessant’anni, la gestione e la conservazione dei dati digitali sono state fondamentali per la missione di istituzioni accademiche come biblioteche, archivi e archivi specialistici2 con molti stakeholder coinvolte, inclusi ricercatori, finanziatori, infrastrutture e provider. La gestione dei dati scientifici sta ricevendo una crescente attenzione all’interno e all’esterno della comunità scientifica, in particolare nell’attuale discussione Open Science. Si sta formando il consenso su “buone” pratiche di gestione dei dati (data management), ma in alcuni settori scientifici l’attuazione è ancora insufficiente.

I dati Principi FAIR3 evidenziano la necessità di adottare le buone pratiche attraverso la definizione di caratteristiche essenziali dei data object per garantire che i dati sono riutilizzabili da esseri umani e macchine: essi dovrebbero essere Ricercabili (Findable), Accessibili (Accessible), Interoperabili (Interoperable) e Riusabili (Reusable), ovvero FAIR. Tuttavia, per rendere i dati FAIR preservandoli nel tempo, sono necessari archivi digitali affidabili (TDR ovvero Trusted Digital Repository è la norma ISO 16363. Per avere un riferimento, si può consultare le Digital Preservation Metrics di Center for Research Libraries) con governance e framework sostenibili, infrastrutture affidabili e politiche globali a supporto di pratiche concordate dalla comunità. I TDR, con il loro chiaro mandato di preservare attivamente i dati rispetto ai cambiamenti sia tecnologici che nei requisiti dei stakeholder, svolgono un ruolo importante nel preservare il valore dei dati. I TDR hanno la fiducia dei loro utenti perché accettano le responsabilità derivanti dalla gestione dei dati. Per svolgere questo ruolo, i TDR devono dimostrare essenziali e durature capacità per consentire l’accesso e il riutilizzo nel tempo dei dati per le comunità a cui sono utili. I TDR supportano la data curation e la tutela dei dati conservati con diversi livelli di riutilizzo. In alcuni casi, dei dati di bassa qualità, che non possono essere ragionevolmente migliorati o resi più interoperabili, possono comunque conservare un alto valore per comunità di utenti e quindi richiedere un’amministrazione affidabile. Un TDR deve identificare e cercare di soddisfare i criteri accettati dalla comunità e comunicare il livello raggiunto di qualità dei dati.

Il modello di riferimento Open Archival Information System (OAIS)4 fornisce raccomandazioni sull’impostazione di archivi che assicurino la conservazione e l’accesso a lungo termine alle informazioni (in particolare, le informazioni digitali) e la creazione di pacchetti di conservazione. Offre un quadro coerente e completo di principi e terminologia per la gestione dei sistemi informativi archivistici. Tuttavia, la conformità al modello di riferimento OAIS non garantisce l’affidabilità. Per valutare l’affidabilità, è necessario affrontare ulteriori elementi del repository, tra cui governance, risorse e sicurezza appropriate. Inoltre, poiché l’OAIS è un modello di riferimento e non fornisce una linea guida di implementazione dettagliata, vi sono diverse interpretazioni e implementazioni che richiedono meccanismi di audit e certificazione come riconosciuto nel rapporto del 1996 Preserving Digital Information5. Gli autori del rapporto hanno raccomandato che

“i repository che dichiarano di svolgere una funzione di archiviazione devono essere in grado di dimostrare di essere ciò che dicono di essere soddisfacendo o superando gli standard ei criteri di un programma di certificazione archivistica gestito in modo indipendente”.

L’affidabilità, che dipende dalla trasparenza, è dimostrata dalle prove e quindi i repository devono fornire prove trasparenti, oneste e verificabili sulla loro prassi. In questo modo, gli stakeholder possono essere sicuri che i repository garantiscono integrità, autenticità, accuratezza, affidabilità e accessibilità dei dati su intervalli di tempo estesi. L’affidabilità non è un risultato una tantum; non può essere dato per scontato senza regolari audit e certificazioni.

La certificazione fornisce un contributo oggettivo e importante alla fiducia dei vari stakeholder di un deposito. Per valutare e migliorare la qualità delle loro pratiche professionali, i repository si affidano a una serie di standard di certificazione internazionali che coprono la certificazione di livello principale, estesa o formale. Questi standard come CoreTrustSeal6, DIN31644/NESTOR7 e ISO 163638, si concentrano su quattro aree di valutazione principali: organizzazione, gestione degli oggetti digitali, infrastruttura tecnica e gestione dei rischi per la sicurezza. Gli standard variano nel numero e nella complessità dei loro requisiti, con l’approfondimento delle valutazioni che vanno da una revisione tra pari di un’autovalutazione a una visita in loco più ampia da parte di un team di audit esterno. La scelta del meccanismo di certificazione dipende dalla necessità, dalla volontà e dalla capacità di un repository di investire nella sua ulteriore professionalizzazione e affidabilità.

L’adozione dei requisiti CoreTrustSeal Trustworthy Data Repositories Requirements da parte di molti repository di dati serve da esempio dei miglioramenti fatti per garantire che le loro capacità raggiungano le caratteristiche dei principi 6 di TRUST. Molti repository di dati hanno ottenuto la certificazione CoreTrustSeal e sono diventati membri dell’International Science Council’s World Data System (WDS). Il conseguimento della certificazione e il completamento degli audit da parte di molti repository digitali dimostra il desiderio che i repository siano percepiti come affidabili.

I gestori di repository e i loro team sono il pubblico principale dell’esistente modello di riferimento OAIS e dei meccanismi di certificazione dell’affidabilità discussi sopra. In un contesto di Open Science, tuttavia, ci aspettiamo che un pubblico più ampio, inclusi finanziatori e utenti di repository, trarrà vantaggio dal sistema incapsulato dai principi di TRUST, soprattutto data la crescente attenzione rivolta alla gestione dei dati scientifici.

Principio Guida per i repository
Trasparenza Essere trasparenti riguardo a servizi di repository specifici e alla conservazione di dati verificabili mediante prove accessibili al pubblico.
Responsabiità Essere responsabili di garantire l’autenticità e l’integrità delle raccolte di dati e l’affidabilità e la persistenza del proprio servizio.
Utenti prima di tutto Per garantire che le norme di gestione dei dati e i target attesi dalle comunità di utenti siano soddisfatti.
Sostenibilità Per sostenere i servizi e preservare la conservazione dei dati a lungo termine.
Tecnologia Fornire infrastruttura e capacità per supportare servizi sicuri, persistenti e affidabili.

Trasparenza

Per selezionare il repository più appropriato ad un particolare caso d’uso, tutti i potenziali utenti traggono vantaggio dalla possibilità di trovare e accedere facilmente alle informazioni utili allo scopo, sui target della comunità di utenti, sulle politiche e sulle capacità del repository di dati. La trasparenza in queste aree offre l’opportunità di conoscere il repository e valutarne l’idoneità ai requisiti specifici degli utenti, tra cui il deposito dati, la conservazione dei dati e data discovery. Per essere conformi a questo principio, i repository dovrebbero garantire che, come minimo, la dichiarazione di intenti e l’ambito del repository siano chiaramente indicati. Inoltre, i seguenti aspetti dovrebbero essere declinati in modo trasparente:

  • Termini di utilizzo, sia per il repository che per i dati conservati.
  • Periodo di tempo minimo di conservazione digitale per la detenzione dati.
  • Eventuali funzionalità o servizi aggiuntivi pertinenti, ad esempio la capacità di gestire la responsabilità di dati sensibili.

Comunicare chiaramente le politiche del repository e, in particolare, i termini di utilizzo per la conservazione dei dati, informa gli utenti di eventuali limitazioni che potrebbero restringere l’utilizzo dei dati o del repository. Allo stesso modo, essere in grado di valutare facilmente se un repository può gestire la responsabilità di dati sensibili, li informerebbe anche sull’opportunità di utilizzare i servizi di dati disponibili.

Responsabilità

I repository TRUST si assumono la responsabilità della gestione delle proprie raccolte di dati e di servire la propria comunità di utenti. La responsabilità è dimostrata da:

  • Aderire ai metadati e ai curation standard della comunità designata, oltre a fornire il deposito dati, come ad esempio la validazione tecnica, la documentazione, il controllo di qualità, la protezione dell’autenticità e persistenza a lungo termine.
  • Fornitura di servizi dati, ad esempio le interfacce del portale e di amministrazione macchina, download di dati o elaborazione lato server.
  • Gestire i diritti di proprietà intellettuale dei produttori di dati, la protezione delle risorse di informazioni sensibili e la sicurezza del sistema e del suo contenuto.

Gli utenti del repository dovrebbero avere la certezza che ai depositari di dati venga richiesto di fornire tutti i metadati conformi alle norme della comunità, poiché ciò migliora notevolmente la rilevabilità e l’utilità dei dati. Sapere che un archivio verifica l’integrità dei dati e dei metadati disponibili garantisce ai potenziali utenti la maggiore probabilità che i dati conservati siano interoperabili con altri dataset attinenti. Sia i depositari che gli utenti devono avere la certezza che i dati rimarranno accessibili nel tempo e quindi possono essere citati e referenziati nelle pubblicazioni accademiche.

La responsabilità può essere chiarita attraverso alcuni mezzi legali (diritto alla conservazione) o può assumere la forma della conformità volontaria di alcune norme (standard etici).

Utenti prima di tutto

Un repository TRUST deve concentrarsi sull’essere utile alla sua comunità di utenti di riferimento. Ogni comunità di utenti ha probabilmente aspettative diverse dai rispettivi archivi, dipende in parte dalla maturità della comunità sulla gestione e condivisione dei dati. Un repository TRUST è incorporato nelle pratiche sui dati della sua comunità di utenti di destinazione e può quindi rispondere all’evoluzione dei requisiti della comunità. Abbiamo una visione ampia delle ‘comunità di utenti’ in quanto potrebbero includere utenti che depositano o accedono ai dati; coloro che accedono alle raccolte di dati in modo computazionale; e stakeholder indiretti come finanziatori, editori di riviste, altri partner istituzionali o cittadini.

L’uso e il riuso dei dati della ricerca sono una parte integrante del processo scientifico, e pertanto i repository TRUST dovrebbero consentire alla loro comunità di trovare, esplorare e comprendere i propri dati in merito al potenziale (ri)uso. I repository dovrebbero incoraggiare gli utenti a descrivere in forma completa i dati al momento del deposito e facilitare il feedback su eventuali problemi con i dati (ad esempio qualità o idoneità all’uso) che possono evidenziarsi dopo che i dati sono stati resi disponibili.

I repository hanno un ruolo vitale nell’applicazione e nell’attuazione delle norme e degli standard della comunità di utenti di riferimento, poiché la conformità facilita l’interoperabilità e la riusabilità dei dati. Gli standard di dati che i repository TRUST dovrebbero applicare includono schemi di metadati, formati di file di dati, vocabolari controllati, ontologie e altre semantiche, ove presenti nella comunità degli utenti. Un repository TRUST può dimostrare l’adesione a questo principio di:

  • Implementazione di rilevanti metriche di dati e la loro disponibilità degli utenti.
  • Fornire (o contribuire a) cataloghi di comunità per facilitare la scoperta dei dati.
  • Monitorare e identificare le aspettative della comunità in sviluppo e rispondere come richiesto per soddisfare queste variabili esigenze.

Sostenibilità

Garantire la sostenibilità di un repository TRUST è necessario per assicurare l’accesso ininterrotto alle sue preziose raccolte di dati per le comunità di utenti attuali e future. L’accesso continuo ai dati dipende dalla capacità del repository di fornire servizi nel tempo e di rispondere con servizi nuovi o migliorati per soddisfare l’evoluzione dei requisiti della comunità di utenti.

Un repository TRUST può dimostrare la sostenibilità delle sue patrimoni attraverso:

  • Sufficiente pianificazione per la mitigazione del rischio, la continuità aziendale, il disaster recovery e successione.
  • Garantire fondi per consentire un utilizzo continuo e per mantenere le preferibili proprietà delle risorse di dati che il repository ha il compito di preservare e diffondere.
  • Fornire governance per la necessaria conservazione a lungo termine dei dati in modo che le risorse dei dati rimangano scopribili, accessibili e utilizzabili in futuro.

Tecnologia

Un repository dipende dall’interazione di persone, processi e tecnologie a supporto di servizi sicuri, persistenti e affidabili. Le sue attività e funzioni sono supportate da software, hardware e servizi tecnici. Insieme, questi forniscono gli strumenti per consentire la consegna dei principi di TRUST.

Un repository TRUST può dimostrare l’idoneità delle sue capacità tecnologiche:

  • Implementazione di standard, strumenti e tecnologie pertinenti e appropriati per la gestione e la cura dei dati.
  • Avere piani e meccanismi in atto per prevenire, rilevare e rispondere alle minacce alla sicurezza informatica o fisica.

Impatto dei principi di TRUST

I principi di TRUST, nella loro astratta e non tecnica formulazione, facilitano la comunicazione e quindi influenzano le parti interessate sia all’interno che all’esterno della comunità di utenti dei dati. Quando i repository di dati, i finanziatori e i creatori di dati adottano i principi FAIR, e implementano i principi di TRUST, gli utenti dei repository beneficiano direttamente delle capacità continue e migliorate per un uso efficiente ed efficace dei dati. Insieme, gli stakeholder dei principi TRUST contribuiscono a un cambiamento culturale nella ricerca verso un ecosistema di dati e informazioni che si è evoluto durante l’era dell’informazione ma che è stato una parte essenziale del processo scientifico per secoli.

Vari studi hanno trovato che la trasparenza è associata alla fiducia negli archivi digitali9. Ad esempio, per gli utenti di dati video,

la trasparenza delle pratiche di deposito, e in particolare le pratiche di cura dei dati, sono importanti per la fiducia10.

Studiando le percezioni del personale del repository di dati sulla certificazione del repository, Donaldson, et al.11, hanno riscontrato che il processo di acquisizione della certificazione ha contribuito, tra gli altri vantaggi, alla trasparenza del loro archivio.

Il OAIS Reference Model descrive le responsabilità dei sistemi informativi archivistici cui è affidata la gestione delle risorse informative. Descrivendo le sfide di un’efficace gestione dei dati, Peng et al.12 hanno affermato che

La definizione di ruoli e responsabilità in ogni livello di gestione e in ogni fase del ciclo di vita del prodotto dati aiuterà a facilitare questa sfida”.

Inoltre, esaminando le pratiche relative ai dati di ricerca durante tutto il ciclo di vita dei dati, Kowalczyk13 ha riferito che

la probabilità di long-term data management per i dati di ricerca è bassa quando la responsabilità durante il processo è di un singolo ricercatore o studente laureato”.

Studiando come le esperienze degli utenti hanno influenzato la loro percezione della fiducia nei repository di dati, Yoon14 ha scoperto che

la consapevolezza degli utenti dei ruoli o delle funzioni dei repository può essere un fattore per sviluppare la fiducia degli utenti”.

Gli utenti spesso basano la fiducia nei repository in base alle proprie esperienze, pratiche e reputazione dei repository e sulle esperienze di altri membri della comunità9,14,15. La fiducia degli utenti nei dati è anche associata alla loro fiducia nell’archivio da cui il contenuto è stato ottenuto16.

Il rapporto di uno studio sulla sostenibilità degli archivi digitali condotto dall’Organizzazione per la cooperazione e lo sviluppo economico (OCSE) ha concluso che

i repository di dati di ricerca sono una parte essenziale dell’infrastruttura per l’Open Science…” [e che] “È importante per garantire la sostenibilità dei repository di dati di ricerca17.

L’importanza della sostenibilità dell’infrastruttura dei dati di ricerca è stata identificata in studi che descrivono le esigenze degli archeologi9,18. In assenza di effettive strategie di sostenibilità e piani di continuità efficaci, i repository di dati e le loro proprietà potrebbero scomparire, come molti ex database biologici19. Ironia della sorte, York et al.20 hanno osservato che

nonostante il gran numero di archivi di dati, iniziative di gestione e politiche nel panorama dei dati di ricerca, sappiamo relativamente poco sulla quantità totale, le caratteristiche o la sostenibilità dei dati di ricerca gestiti”.

L’adozione delle capacità tecnologiche dovrebbe essere completata congiuntamente alle capacità organizzative, gestionali e di amministrazione che facilitano l’uso continuo delle disponibilità di un repository di dati10,21. Descrivendo le necessità per guadagnare la fiducia del pubblico nei dati sanitari, Van Staa et al.22 hanno chiesto competenze che

combinino le nuove tecnologie con una chiara responsabilità, operazioni trasparenti e fiducia del pubblico …”,

affermando che

“la gestione dei dati non riguarda solo la sicurezza fisica e digitale: sono importanti la formazione del personale, le procedure operative standard e le competenze e attitudini del personale” 22.

Conclusioni

I principi TRUST forniscono un memorandum per ricordare alle parti interessate dei repository di dati la necessità di sviluppare e mantenere l’infrastruttura, per promuovere la gestione continua dei dati e consentire l’uso futuro delle loro raccolte di dati. I principi TRUST, tuttavia, non sono fini a sé stessi, ma piuttosto un mezzo per facilitare la comunicazione con tutti gli stakeholder, fornendo ai repository una guida per dimostrare Trasparenza, Responsabilità, Utente prima di tutto, Sostenibilità e Tecnologia.

Note

  1. RDA/WDS Certification of Digital Repositories IG. The TRUST Principles for Trustworthy Data Repositories – An Update. Research Data Alliance (RDA), https://www.rd-alliance.org/trust-principles-trustworthy-data-repositories-–-update (2019). <

  2. Mokrane, M. & Parsons, M. Imparano dall’anno polare internazionale per costruire il futuro della gestione dei dati polari. Data Sci. J. 13 , IFPDA-15 (2014). Vedi paper <

  3. Wilkinson, MD et al . I principi guida FAIR per la gestione e la gestione dei dati scientifici. Sci. Dati 3 , 160018 (2016). Vedi paper <

  4. Consultative Committee for Space Data Systems. Reference Model for an Open Archival Information System (OAIS). Recommended Practice CCSDS 650.0-M-2. Consultative Committee for Space Data Systems, https://public.ccsds.org/Pubs/650x0m2.pdf (2012). <

  5. Waters, D. & Garrett, J. Preserving Digital Information, Report of the Task Force on Archiving of Digital Information. 1400 16th St., NW, Suite 740, Washington, DC 20036-2217. 59 pp, https://www.clir.org/pubs/reports/pub63/ (1996). <

  6. CoreTrustSeal. CoreTrustSeal Certified Repositories. CoreTrustSeal, https://www.coretrustseal.org/why-certification/certified-repositories/ (2020). < <2

  7. Harmsen, H. et al. Explanatory notes on the Nestor seal for trustworthy digital archives. Nestor Certification Working Group, http://nbn-resolving.de/urn:nbn:de:0008-2013100901 (2013). <

  8. Audit and Certification of Trustworthy Digital Repositories. ISO 16363/CCSDS 652.0-M-1, https://public.ccsds.org/Pubs/652x0m1.pdf (2011). <

  9. Yakel, E., Faniel, I. M., Kriesberg, A. & Yoon, A. Trust in Digital Repositories. Int. J. Digit. Curation 8, 143–156 (2013). Vedi paper < <2 <3

  10. Frank, R. D., Chen, Z., Crawford, E., Suzuka, K. & Yakel, E. Trust in qualitative data repositories. In Proceedings of the Association for Information Science and Technology 54 102–111 Association for Information Science and Technology (2017). < <2

  11. Donaldson, D. R., Dillo, I., Downs, R. & Ramdeen, S. The Perceived Value of Acquiring Data Seals of Approval. Int. J. Digit. Curation 12, 130–151 (2017). Vedi paper <

  12. Peng, G. et al. A Conceptual Enterprise Framework for Managing Scientific Data Stewardship. Data Sci. J. 17, 15 (2018). Vedi paper <

  13. Kowalczyk, S. T. Modelling the Research Data Lifecycle. Int. J. Digit. Curation 12, 331–361 (2017). Vedi paper <

  14. Yoon, A. End users’ trust in data repositories: definition and influences on trust development. Arch. Sci. 14, 17–34 (2014). Vedi paper < <2

  15. Downs, R. & Chen, R. Organizational needs for managing and preserving geospatial data and related electronic records. Data Sci. J. 4, 255–271 (2006). Vedi paper <

  16. Donaldson, D. R. Trust in Archives–Trust in Digital Archival Content Framework. Archivaria 88, 50–83 (2019). Vedi abstract <

  17. OECD. Business models for sustainable research data repositories. 58, https://doi.org/10.1787/302b12bb-en (2017). <

  18. Williams, J. P. & Williams, R. D. Information science and North American archaeology: examining the potential for collaboration. Inf. Res. 24, paper 820. Retrieved from, http://InformationR.net/ir/24-2/paper820.html (Archived by WebCite® at, http://www.Webcitation.Org/78mnvhrti) (2019). <

  19. Attwood, T. K., Agit, B. & Ellis, L. B. M. Longevity of Biological Databases. EMBnet. journal 21, 803 (2015). Vedi articolo <

  20. York, J., Gutmann, M. & Berman, F. What Do We Know about the Stewardship Gap. Data Sci. J. 17, 19 (2018). Vedi paper <

  21. Corrado, E. M. Repositories, Trust, and the CoreTrustSeal. Tech. Serv. Q. 36, 61–72 (2019). Vedi paper <

  22. Staa, T.-P., van, Goldacre, B., Buchan, I. & Smeeth, L. Big health data: the need to earn public trust. BMJ 354, i3636 (2016). Vedi paper < <2