Immagine: "The grass is always greener on the other side", Wiktionary.
Il recente appello a rendere disponibili, aperti, interoperabili (machine readable) e disaggregati i dati - che ha fra i primi promotori anche Scienza in rete - sta avendo molto successo e speriamo che sia compreso nella sua utilità anche dal Governo, che finora ha preferito condividere i dati solo con specifici gruppi di ricercatori (come l’Accademia nazionale dei Lincei).
Ma chiedere di pubblicare i dati e per di più in formato machine readable non comporta un lavoro aggiuntivo? No, visto che spesso chi fornisce i report sulla pandemia, lavora già su dati in questo formato, che poi trasforma in pubblicazioni a uso del governo o del pubblico. I report pubblicati dal Ministero della Salute sulla pagina "Covid-19 - Situazione in Italia" sono in formato pdf: tabelle e grafici hanno una base dati facilmente pubblicabili in formati interoperabili.
L'Istituto superiore di sanità, che pubblicava i dati in report pdf, ha compiuto un ulteriore sforzo di comunicazione pubblicando i report attraverso visualizzazioni interattive, come nell’esempio che si può vedere qui sotto nella versione statica.
Per completare il servizio è necessario un ulteriore piccolo sforzo: grafici come questo sono creati attraverso lo strumento Plotly, che permette di far scaricare l’immagine del grafico pubblicato (come si vede dalla schermata) ma anche di far scaricare direttamente la tabella dati e questo al momento non è possibile, ma l’atto che lo consentirebbe non ha costi aggiuntivi perché è un semplice link alla base dati di Plotly come in questo esempio.
La Protezione civile, che ha iniziato a raccogliere i dati sull’emergenza Covid-19 da febbraio 2020, in un primo momento si limitava a comunicare un bollettino in formato pdf. Ma successivamente, anche grazie alle pressioni del mondo open data, ha pubblicato tutto in formato machine readable. Da quel momento il dataset è stato esplorato da migliaia di utenti che hanno segnalato svariati difetti che, quando possibile, la Protezione civile ha corretto migliorando quindi la base dati.
Cosa succede altrove?
I dati nazionali servono anche al confronto internazionale, fondamentale per capire l’andamento dell’epidemia. L’ECDC pubblica i dati di fonti ufficiali per tutto il mondo e in particolare per l’Europa, i dataset però sono uniformati al dataset minimo: casi e morti, ricoveri. Eppure alcuni stati forniscono dati più granulari, più disaggregati ma sempre nel rispetto della privacy.
Per esempio in Belgio i dataset (di cui pubblichiamo di seguito alcuni estratti) contengono informazioni molto dettagliate sui casi e sui ricoveri disponibili in formato excel, csv e json. Per i casi giornalieri sono indicati provincia, regione, gruppo di età e sesso.
DATE | PROVINCE | REGION | AGEGROUP | SEX | CASES |
---|---|---|---|---|---|
Antwerpen | Flanders | 40-49 | M | 1 | |
2020-03-01 | Brussels | Brussels | 10-19 | F | 1 |
2020-03-01 | Brussels | Brussels | 10-19 | M | 1 |
2020-03-01 | Brussels | Brussels | 20-29 | M | 1 |
2020-03-01 | Brussels | Brussels | 30-39 | F | 1 |
2020-03-01 | Brussels | Brussels | 40-49 | F | 1 |
2020-03-01 | Brussels | Brussels | 50-59 | M | 1 |
2020-03-01 | Liège | Wallonia | 40-49 | M | 3 |
2020-03-01 | Limburg | Flanders | 70-79 | M | 1 |
2020-03-01 | OostVlaanderen | Flanders | 50-59 | F | 1 |
Lo stesso vale per i decessi.
DATE | REGION | AGEGROUP | SEX | DEATHS |
---|---|---|---|---|
Brussels | 85+ | F | 1 | |
2020-03-11 | Flanders | 85+ | M | 1 |
2020-03-11 | Brussels | 65-74 | M | 1 |
2020-03-11 | Brussels | 85+ | F | 1 |
2020-03-12 | Brussels | 75-84 | M | 1 |
2020-03-13 | Brussels | 75-84 | F | 2 |
2020-03-13 | Brussels | 85+ | M | 1 |
2020-03-14 | Flanders | 75-84 | M | 1 |
2020-03-14 | Brussels | 65-74 | M | 1 |
2020-03-14 | Brussels | 75-84 | M | 1 |
Il dataset del Belgio inoltre indica chiaramente i nuovi ingressi e le nuove dimissioni mentre in Italia si dà ancora il numero di nuove terapie intensive come differenza tra il totale di oggi e il totale di ieri.
Per non dire della Germania dove, già prima dell'emergenza covid, si pubblicano i ricoveri giornalieri in terpia intensiva: lì hanno solo dovuto aggiungere una colonna dedicata al covid nella tabella html esportabile in formato json e csv.
Un dato tenuto sotto osservazione e il vero indicatore finale della gravità di un pandemia è la mortalità generale. Questi dati sono i più lenti a essere pubblicati: normalmente uno o due anni in ritardo. Questo scarto temporale è comune per tutti i paesi d’Europa che si sono dotati si sistemi di sorveglianza rapida della mortalità basati su campioni più piccoli ma rappresentativi. I dati europei confluiscono su Euromomo, in Italia la struttura che se ne occupa è il SISMG, che osserva circa 30 città. Grafici e tabelle dei report SISMG sono molto utili per cogliere scostamenti della mortalità rispetto all'atteso ma sono pubblicati solo in formato pdf e non vengono riportate le basi dati dei grafici dell’andamento stagionale (qui sotto l'andamento stagionale della mortalità: periodo 2016-settimana 45 del 2020).
In seguito all’emergenza covid i servizi statistici di molti paesi hanno comunque velocizzato il rilascio dei dati di mortalità generale. Anche l’ISTAT, con grande anticipo anche rispetto ad altri paesi europei, a partire dal 4 maggio, ha pubblicato dati sempre più completi fino all’ultimo rapporto pubblicato il 22 ottobre con i dati relativi ad agosto 2020 per 7.903 comuni. Questo ha consentito una stima corretta dell’eccesso di mortalità rilevato durante la fase 1 (si legga l'articolo della London School of Hygiene & Tropical Medicine e del Dipartimento di epidemiologia della Region e Lazio). Tuttavia nulla ancora si sa circa la fase 2 (monitorata solo dal SISMG). Altri paesi stanno fornendo dati più aggiornati. Come si vede dalla tabella su dati di Our world in data, no-profit sostenuta dall’Università di Oxford, l’Italia ha uno scarto di circa 10 settimane rispetto ai paesi più celeri.
Paese | Ultima settimana disponibile |
---|---|
Denmark | 45 |
Estonia | 45 |
Latvia | 45 |
Netherlands | 45 |
Scotland | 45 |
Austria | 44 |
Bulgaria | 44 |
England & Wales | 44 |
Northern Ireland | 44 |
Belgium | 43 |
Chile | 43 |
Lithuania | 43 |
New Zealand | 43 |
Portugal | 43 |
Sweden | 43 |
Finland | 42 |
Germany | 42 |
Israel | 42 |
Norway | 42 |
Spain | 42 |
Hungary | 41 |
Iceland | 41 |
Switzerland | 41 |
United States | 41 |
France | 40 |
Poland | 40 |
Czech Republic | 39 |
Luxembourg | 39 |
Slovenia | 39 |
Slovakia | 37 |
South Korea | 36 |
Italy | 35 |
Croatia | 34 |
Canada | 30 |
Greece | 30 |
La Germania, che pure ha ritardato molto a pubblicare i dati di mortalità, ora tiene aggiornamenti più regolari e fornisce le basi dati dei grafici pubblicati.
Ancora più dettagliato il report del Regno Unito: oltre all’analisi dei decessi di persone con test positivo (paragonabile al bollettino della Protezione civile, ma più dettagliato), l’Office for National Statistics produce un bollettino sul numero di decessi totali per settimana con ampie analisi dettagliate e ricche di grafici e relativa base dati. L’intero dataset è scaricabile (nella tabella sotto un estratto, qui l'excel) e fornisce i decessi per tutte le 343 autorità locali disseminate sul territorio per i quali sono riportati causa (covid o no covid) e luogo (casa, hospice, ospedale ecc).
Questi sono solo alcuni esempi di quanto si dovrebbe fare anche in Italia per allineare il nostro paese alle migliori pratiche internazionali. Liberare i dati non fa perdere sovranità ai governi a cui è demandata la gestione della pandemia, ma rafforza la fiducia e la collaborazione da parte della società civile. Oltre a essere un diritto, conviene a tutti.
Belgio e UK forniscono ottimi dati ma l’epidemia ha imperversato lo stesso, è vero. Pubblicare ogni legge sulla Gazzetta ufficiale non garantisce la legalità e pubblicare il dataset migliore non garantisce un miglior controllo dell’epidemia. Però rende certamente la democrazia più trasparente. Se i dati ci sono e sono nel formato corretto, fornirli nel rispetto della privacy non è un problema. Quindi delle due l’una: o c’è una volontà di non rilasciare i dati oppure questi dati non sono pronti per essere distribuiti. Ma se non possono essere distribuiti al pubblico allora nemmeno il decisore li può avere nella forma migliore. Il che è a sua volta una informazione che è bene conoscere in modo anche da costituire consenso intorno a proposte che invece rafforzino il sistema di produzione e mantenimento dati.
Se poi ci sono dati che non possono essere divulgati, si dia almeno l’intestazione dei campi dei dataset, i metadati e i processi a monte del dataset in modo che si sappia qual è il grado di incertezza con cui il decisore sta fronteggiando l’emergenza.