Nei giorni scorsi mi sono trovato a leggere due cose il cui collegamento mi ha fatto un pò pensare. Non è un argomento del tutto specifico a IIIF, e non è nemmeno una mia intuizione, già da tempo nelle scene internazionali se ne parla.
Parto da questo messaggio nel canale slack Relevant Search (è una chat tecnica su motori di ricerca e information retrieval). Scrive Charlie Hull:
This got me thinking about search, where indexing tends to be intensive but occasional and could thus be timeshifted, and also about our shiny new ML models (we all know they need serious computing resources) and where best to run them. Could we build greener search applications?
Potremmo pensare a delle applicazioni di ricerca (che per noi che ci occupiamo di biblioteche digitali sono uno degli elementi centrali) più sostenibili dal punto di vista ambientale? Tenendo conto che i processi di indicizzazione sono intensivi da un punto di vista computazionale, ma avvengono poche volte nel tempo, mentre la ricerca lato utente oggi pesa veramente pochissimo con gli strumenti giusti (non prendo in considerazione nuove tecnologie, machine learning, nlp, etc etc).
La seconda lettura, che vi consiglio di leggere tutta perchè molto interessante, un report sullo stato dei processi di digitalizzazione della Welcome Collection:
https://stacks.wellcomecollection.org/weaving-a-digital-thread-through-wellcome-collection-4fe0ebbc62dc
Scrive Tom Scott:
We wanted to make it as easy as possible for as many people as possible to find and use items in the collection bearing in mind that in 2016, 71% of the digitised collection hadn’t been viewed over a 6 month period
Una statistica che penso sia facilmente applicabile a tutte le biblioteche digitali: un gran numero degli oggetti digitali che manteniamo perpetuamente online in realtà non vengono mai acceduti, ma i costi, e il consumo di energia, rimangono costanti.
In che modo oggi le biblioteche digitali sono pronte ad affrontare il problema del caro energia, della sostenibilità economica e ambientale, e al tempo stesso garantire le funzionalità agli utenti?
Non ho una risposta, ma provo ad elencare alcuni elementi tecnologici su cui potremmo discutere:
- offline — permettere che i contenuti delle biblioteche digitali siano fruibili interamente senza rete, con delle copie dei dati sui computer personali, ovviamente con una esperienza che non può essere quella del portale online. Su questo purtroppo oggi non si fa abbastanza: ci sono molte biblioteche che abbracciano la filosofia opendata rilasciando dei dump dei metadati, spesso molto elaborati, però spesso usabili con difficoltà dagli utenti comuni (e qui mi riferisco a Linkedata, RDF e ontologie complesse). C’è bisogno di esportare i metadati in formati semplici, e trovo molto intelligente ad esempio la soluzione adottata dalla Biblioteca Hertziana di esportare i metadati in formato SQLite. Rimane più complicata la questione nel replicare offline l’esperienza d’uso delle immagini con IIIF (ma su questo approfondisco in un altro messaggio).
- storage e cache — anzichè mantenere gli oggetti digitali tutti in unica tipologia di storage si potrebbero pensare a degli storage a basso costo e basse performance (velocità) per gli oggetti raramente acceduti, e a delle cache temporanee più performanti per gli oggetti acceduti con molta frequenza. Questa cosa potrei averla letta in un documento del Getty che devo ricercare.
- indici di ricerca, disaccoppiamento storage e compute — questo è un argomento nuovo su cui stanno investendo i nuovi motori di ricerca: mantenere separato lo storage con gli indici dagli applicativi di ricerca (anche questa cosa viene definita serverless). È una tecnologia non ancora matura, ma nel giro di mesi si potrebbero vedere le prime applicazioni. Riporto a titolo di esempio Quickwit