Biblioteche digitali sostenibili

Nei giorni scorsi mi sono trovato a leggere due cose il cui collegamento mi ha fatto un pò pensare. Non è un argomento del tutto specifico a IIIF, e non è nemmeno una mia intuizione, già da tempo nelle scene internazionali se ne parla.

Parto da questo messaggio nel canale slack Relevant Search (è una chat tecnica su motori di ricerca e information retrieval). Scrive Charlie Hull:

This got me thinking about search, where indexing tends to be intensive but occasional and could thus be timeshifted, and also about our shiny new ML models (we all know they need serious computing resources) and where best to run them. Could we build greener search applications?

Potremmo pensare a delle applicazioni di ricerca (che per noi che ci occupiamo di biblioteche digitali sono uno degli elementi centrali) più sostenibili dal punto di vista ambientale? Tenendo conto che i processi di indicizzazione sono intensivi da un punto di vista computazionale, ma avvengono poche volte nel tempo, mentre la ricerca lato utente oggi pesa veramente pochissimo con gli strumenti giusti (non prendo in considerazione nuove tecnologie, machine learning, nlp, etc etc).

La seconda lettura, che vi consiglio di leggere tutta perchè molto interessante, un report sullo stato dei processi di digitalizzazione della Welcome Collection:
https://stacks.wellcomecollection.org/weaving-a-digital-thread-through-wellcome-collection-4fe0ebbc62dc

Scrive Tom Scott:

We wanted to make it as easy as possible for as many people as possible to find and use items in the collection bearing in mind that in 2016, 71% of the digitised collection hadn’t been viewed over a 6 month period

Una statistica che penso sia facilmente applicabile a tutte le biblioteche digitali: un gran numero degli oggetti digitali che manteniamo perpetuamente online in realtà non vengono mai acceduti, ma i costi, e il consumo di energia, rimangono costanti.

In che modo oggi le biblioteche digitali sono pronte ad affrontare il problema del caro energia, della sostenibilità economica e ambientale, e al tempo stesso garantire le funzionalità agli utenti?

Non ho una risposta, ma provo ad elencare alcuni elementi tecnologici su cui potremmo discutere:

  1. offline — permettere che i contenuti delle biblioteche digitali siano fruibili interamente senza rete, con delle copie dei dati sui computer personali, ovviamente con una esperienza che non può essere quella del portale online. Su questo purtroppo oggi non si fa abbastanza: ci sono molte biblioteche che abbracciano la filosofia opendata rilasciando dei dump dei metadati, spesso molto elaborati, però spesso usabili con difficoltà dagli utenti comuni (e qui mi riferisco a Linkedata, RDF e ontologie complesse). C’è bisogno di esportare i metadati in formati semplici, e trovo molto intelligente ad esempio la soluzione adottata dalla Biblioteca Hertziana di esportare i metadati in formato SQLite. Rimane più complicata la questione nel replicare offline l’esperienza d’uso delle immagini con IIIF (ma su questo approfondisco in un altro messaggio).
  2. storage e cache — anzichè mantenere gli oggetti digitali tutti in unica tipologia di storage si potrebbero pensare a degli storage a basso costo e basse performance (velocità) per gli oggetti raramente acceduti, e a delle cache temporanee più performanti per gli oggetti acceduti con molta frequenza. Questa cosa potrei averla letta in un documento del Getty che devo ricercare.
  3. indici di ricerca, disaccoppiamento storage e compute — questo è un argomento nuovo su cui stanno investendo i nuovi motori di ricerca: mantenere separato lo storage con gli indici dagli applicativi di ricerca (anche questa cosa viene definita serverless). È una tecnologia non ancora matura, ma nel giro di mesi si potrebbero vedere le prime applicazioni. Riporto a titolo di esempio Quickwit

Sono perplesso dall’apparente presupposto che serva fare meno per consumare meno.

Per fare un esempio semplice: serve a poco ridurre il tempo CPU consumato da un’applicazione della biblioteca, se la stessa gira su una macchina fisica dedicata che poi non viene ridimensionata e continua a consumare la stessa quantità di elettricità. È probabilmente piú utile controllare le proprie risorse e consolidare o ridimensionare quelle sottoutilizzate.

Quando viceversa si scopre che una risorsa è sottodimensionata, bisognerebbe prima porsi la domanda se sia possibile renderla piú efficiente. Spesso si fa prima ad affrontare il problema dal punto di vista della velocizzazione del sito/applicazione, perché una funzione lenta può anche essere energivora (lato cliente o lato serviente). Un’applicazione minimalista, che esegua poco JavaScript nella macchina del visitatore, potrà probabilmente essere piú veloce e risparmiare molte risorse.

Queste operazioni sono spesso impossibili se la biblioteca si basa su software proprietari, anche perché non ci sarà nessuno in grado di ottimizzarli o di consigliare sulle relative necessità di scala. Sono altresí impossibili se la biblioteca aggiorna i sistemi ogni N anni e resta priva di qualsiasi competenza tecnica fra un aggiornamento e l’altro. Se bisogna fare un contratto di consulenza per ridimensionare una macchina o spostare un’applicazione o cambiare una configurazione standard, i costi saranno sempre sproporzionati rispetto a qualsiasi risparmio.

Chi ha l’opportunità di progettare una nuova biblioteca digitale da zero dovrebbe cogliere l’opportunità per basarsi su tecnologie piú efficienti. Per esempio Scaleway è un buon fornitore che usa energia rinnovabile (anche se purtroppo non sempre avere PPA, a differenza di OVH, e quindi non contribuisce direttamente all’espansione della produzione elettrica rinnovabile). Un fornitore che rende facile ridimensionare le macchine virtuali è meglio di uno che lo rende difficile. Un fornitore per cui ci sia trasparenza sulle emissioni dei vari prodotti è meglio di uno che risulti una scatola nera (per esempio ci sono alcune stime per AWS EC2, è complicato).

1 Mi Piace

Grazie per le segnalazioni, adesso sta diventando un tema centrale anche per Europeana non so se avete visto il loro manifesto per la sostenibilità The Europeana climate action manifesto | Europeana Pro e community dedicata. Effettivamente non sarebbe molto difficile per chi lavora on-premise cominciare a monitorare ed ottimizzare i consumi.