fbpx I dati del vicino sono sempre più nerdy

I dati del vicino sono sempre più nerdy

Primary tabs

Immagine: "The grass is always greener on the other side", Wiktionary.

Tempo di lettura: 8 mins

Il recente appello - #Datibenecomune - a rendere disponibili, aperti, interoperabili (machine readable) e disaggregati i dati - che ha fra i primi promotori anche Scienza in rete - sta avendo molto successo e speriamo che sia compreso nella sua utilità anche dal Governo, che finora ha preferito condividere i dati solo con specifici gruppi di ricercatori (come l’Accademia nazionale dei Lincei).

Ma chiedere di pubblicare i dati e per di più in formato machine readable non comporta un lavoro aggiuntivo? No, visto che spesso chi fornisce i report sulla pandemia, lavora già su dati in questo formato, che poi trasforma in pubblicazioni a uso del governo o del pubblico. I report pubblicati dal Ministero della Salute sulla pagina "Covid-19 - Situazione in Italia" sono in formato pdf: tabelle e grafici hanno una base dati facilmente pubblicabili in formati interoperabili.

L'Istituto superiore di sanità, che pubblicava i dati in report pdf, ha compiuto un ulteriore sforzo di comunicazione pubblicando i report attraverso visualizzazioni interattive, come nell’esempio che si può vedere qui sotto nella versione statica. 

Per completare il servizio è necessario un ulteriore piccolo sforzo: grafici come questo sono creati attraverso lo strumento Plotly, che permette di far scaricare l’immagine del grafico pubblicato (come si vede dalla schermata) ma anche di far scaricare direttamente la tabella dati e questo al momento non è possibile, ma l’atto che lo consentirebbe non ha costi aggiuntivi perché è un semplice link alla base dati di Plotly come in questo esempio.

La Protezione civile, che ha iniziato a raccogliere i dati sull’emergenza Covid-19 da febbraio 2020, in un primo momento si limitava a comunicare un bollettino in formato pdf. Ma successivamente, anche grazie alle pressioni del mondo open data, ha pubblicato tutto in formato machine readable. Da quel momento il dataset è stato esplorato da migliaia di utenti che hanno segnalato svariati difetti che, quando possibile, la Protezione civile ha corretto migliorando quindi la base dati.

Cosa succede altrove?

I dati nazionali servono anche al confronto internazionale, fondamentale per capire l’andamento dell’epidemia. L’ECDC pubblica i dati di fonti ufficiali per tutto il mondo e in particolare per l’Europa, i dataset però sono uniformati al dataset minimo: casi e morti, ricoveri. Eppure alcuni stati forniscono dati più granulari, più disaggregati ma sempre nel rispetto della privacy. 
Per esempio in Belgio i dataset (di cui pubblichiamo di seguito alcuni estratti) contengono informazioni molto dettagliate sui casi e sui ricoveri disponibili in formato excel, csv e json. Per i casi giornalieri sono indicati provincia, regione, gruppo di età e sesso.

DATE PROVINCE REGION AGEGROUP SEX CASES
2020-03-01 Antwerpen Flanders 40-49 M 1
2020-03-01 Brussels Brussels 10-19 F 1
2020-03-01 Brussels Brussels 10-19 M 1
2020-03-01 Brussels Brussels 20-29 M 1
2020-03-01 Brussels Brussels 30-39 F 1
2020-03-01 Brussels Brussels 40-49 F 1
2020-03-01 Brussels Brussels 50-59 M 1
2020-03-01 Liège Wallonia 40-49 M 3
2020-03-01 Limburg Flanders 70-79 M 1
2020-03-01 OostVlaanderen Flanders 50-59 F 1

Lo stesso vale per i decessi.

DATE REGION AGEGROUP SEX DEATHS
2020-03-10 Brussels 85+ F 1
2020-03-11 Flanders 85+ M 1
2020-03-11 Brussels 65-74 M 1
2020-03-11 Brussels 85+ F 1
2020-03-12 Brussels 75-84 M 1
2020-03-13 Brussels 75-84 F 2
2020-03-13 Brussels 85+ M 1
2020-03-14 Flanders 75-84 M 1
2020-03-14 Brussels 65-74 M 1
2020-03-14 Brussels 75-84 M 1

Il dataset del Belgio inoltre indica chiaramente i nuovi ingressi e le nuove dimissioni mentre in Italia si dà ancora il numero di nuove terapie intensive come differenza tra il totale di oggi e il totale di ieri.

DATE PROVINCE REGION NR_REPORTING TOTAL_IN TOTAL_IN_ICU TOTAL_IN_RESP TOTAL_IN_ECMO NEW_IN NEW_OUT
2020-03-15 Antwerpen Flanders 14 50 9 4 0 8 8
2020-03-15 Brussels Brussels 14 58 11 8 0 7 2
2020-03-15 Hainaut Wallonia 15 56 13 11 1 26 1
2020-03-15 Limburg Flanders 7 20 6 3 0 9 3
2020-03-15 Liège Wallonia 12 22 2 1 0 4 1
2020-03-15 Luxembourg Wallonia 3 4 0 0 0 3 0
2020-03-15 Namur Wallonia 6 2 1 1 0 0 0
2020-03-15 OostVlaanderen Flanders 14 16 5 1 0 5 1
2020-03-15 VlaamsBrabant Flanders 6 14 2 0 0 2 0
2020-03-15 BrabantWallon Wallonia 2 5 2 2 0 1 0

Per non dire della Germania dove, già prima dell'emergenza covid, si pubblicano i ricoveri giornalieri in terpia intensiva: lì hanno solo dovuto aggiungere una colonna dedicata al covid nella tabella html esportabile in formato json e csv.

Un dato tenuto sotto osservazione e il vero indicatore finale della gravità di un pandemia è la mortalità generale. Questi dati sono i più lenti a essere pubblicati: normalmente uno o due anni in ritardo. Questo scarto temporale è comune per tutti i paesi d’Europa che si sono dotati si sistemi di sorveglianza rapida della mortalità basati su campioni più piccoli ma rappresentativi. I dati europei confluiscono su Euromomo, in Italia la struttura che se ne occupa è il SISMG, che osserva circa 30 città. Grafici e tabelle dei report SISMG sono molto utili per cogliere scostamenti della mortalità rispetto all'atteso ma sono pubblicati solo in formato pdf e non vengono riportate le basi dati dei grafici dell’andamento stagionale (qui sotto l'andamento stagionale della mortalità: periodo 2016-settimana 45 del 2020).

In seguito all’emergenza covid i servizi statistici di molti paesi hanno comunque velocizzato il rilascio dei dati di mortalità generale. Anche l’ISTAT, con grande anticipo anche rispetto ad altri paesi europei, a partire dal 4 maggio, ha pubblicato dati sempre più completi fino all’ultimo rapporto pubblicato il 22 ottobre con i dati relativi ad agosto 2020 per 7.903 comuni. Questo ha consentito una stima corretta dell’eccesso di mortalità rilevato durante la fase 1 (si legga l'articolo della London School of Hygiene & Tropical Medicine e del Dipartimento di epidemiologia della Region e Lazio). Tuttavia nulla ancora si sa circa la fase 2 (monitorata solo dal SISMG). Altri paesi stanno fornendo dati più aggiornati. Come si vede dalla tabella su dati di Our world in data, no-profit sostenuta dall’Università di Oxford, l’Italia ha uno scarto di circa 10 settimane rispetto ai paesi più celeri.

Paese Ultima settimana disponibile
Denmark 45
Estonia 45
Latvia 45
Netherlands 45
Scotland 45
Austria 44
Bulgaria 44
England & Wales 44
Northern Ireland 44
Belgium 43
Chile 43
Lithuania 43
New Zealand 43
Portugal 43
Sweden 43
Finland 42
Germany 42
Israel 42
Norway 42
Spain 42
Hungary 41
Iceland 41
Switzerland 41
United States 41
France 40
Poland 40
Czech Republic 39
Luxembourg 39
Slovenia 39
Slovakia 37
South Korea 36
Italy 35
Croatia 34
Canada 30
Greece 30

La Germania, che pure ha ritardato molto a pubblicare i dati di mortalità, ora tiene aggiornamenti più regolari e fornisce le basi dati dei grafici pubblicati. 

Ancora più dettagliato il report del Regno Unito: oltre all’analisi dei decessi di persone con test positivo (paragonabile al bollettino della Protezione civile, ma più dettagliato), l’Office for National Statistics produce un bollettino sul numero di decessi totali per settimana con ampie analisi dettagliate e ricche di grafici e relativa base dati. L’intero dataset è scaricabile (nella tabella sotto un estratto, qui l'excel) e fornisce i decessi per tutte le 343 autorità locali disseminate sul territorio per i quali sono riportati causa (covid o no covid) e luogo (casa, hospice, ospedale ecc).

Area code Geography type Area name Cause of death Week number Place of death Number of deaths
W06000021 Local Authority Monmouthshire All causes 46 Care home 4
W06000021 Local Authority Monmouthshire All causes 46 Elsewhere 0
W06000021 Local Authority Monmouthshire All causes 46 Home 8
W06000021 Local Authority Monmouthshire All causes 46 Hospice 1
W06000021 Local Authority Monmouthshire All causes 46 Hospital 14
W06000021 Local Authority Monmouthshire All causes 46 Other communal establishment 0
W06000021 Local Authority Monmouthshire COVID 19 46 Care home 0
W06000021 Local Authority Monmouthshire COVID 19 46 Elsewhere 0
W06000021 Local Authority Monmouthshire COVID 19 46 Home 0
W06000021 Local Authority Monmouthshire COVID 19 46 Hospice 0
W06000021 Local Authority Monmouthshire COVID 19 46 Hospital 9
W06000021 Local Authority Monmouthshire COVID 19 46 Other communal establishment 0

Questi sono solo alcuni esempi di quanto si dovrebbe fare anche in Italia per allineare il nostro paese alle migliori pratiche internazionali. Liberare i dati non fa perdere sovranità ai governi a cui è demandata la gestione della pandemia, ma rafforza la fiducia e la collaborazione da parte della società civile. Oltre a essere un diritto, conviene a tutti.

Belgio e UK forniscono ottimi dati ma l’epidemia ha imperversato lo stesso, è vero. Pubblicare ogni legge sulla Gazzetta ufficiale non garantisce la legalità e pubblicare il dataset migliore non garantisce un miglior controllo dell’epidemia. Però rende certamente la democrazia più trasparente. Se i dati ci sono e sono nel formato corretto, fornirli nel rispetto della privacy non è un problema. Quindi delle due l’una: o c’è una volontà di non rilasciare i dati oppure questi dati non sono pronti per essere distribuiti. Ma se non possono essere distribuiti al pubblico allora nemmeno il decisore li può avere nella forma migliore. Il che è a sua volta una informazione che è bene conoscere in modo anche da costituire consenso intorno a proposte che invece rafforzino il sistema di produzione e mantenimento dati. 
Se poi ci sono dati che non possono essere divulgati, si dia almeno l’intestazione dei campi dei dataset, i metadati e i processi a monte del dataset in modo che si sappia qual è il grado di incertezza con cui il decisore sta fronteggiando l’emergenza.

 


Scienza in rete è un giornale senza pubblicità e aperto a tutti per garantire l’indipendenza dell’informazione e il diritto universale alla cittadinanza scientifica. Contribuisci a dar voce alla ricerca sostenendo Scienza in rete. In questo modo, potrai entrare a far parte della nostra comunità e condividere il nostro percorso. Clicca sul pulsante e scegli liberamente quanto donare! Anche una piccola somma è importante. Se vuoi fare una donazione ricorrente, ci consenti di programmare meglio il nostro lavoro e resti comunque libero di interromperla quando credi.


prossimo articolo

Why have neural networks won the Nobel Prizes in Physics and Chemistry?

This year, Artificial Intelligence played a leading role in the Nobel Prizes for Physics and Chemistry. More specifically, it would be better to say machine learning and neural networks, thanks to whose development we now have systems ranging from image recognition to generative AI like Chat-GPT. In this article, Chiara Sabelli tells the story of the research that led physicist and biologist John J. Hopfield and computer scientist and neuroscientist Geoffrey Hinton to lay the foundations of current machine learning.

Image modified from the article "Biohybrid and Bioinspired Magnetic Microswimmers" https://onlinelibrary.wiley.com/doi/epdf/10.1002/smll.201704374

The 2024 Nobel Prize in Physics was awarded to John J. Hopfield, an American physicist and biologist from Princeton University, and to Geoffrey Hinton, a British computer scientist and neuroscientist from the University of Toronto, for utilizing tools from statistical physics in the development of methods underlying today's powerful machine learning technologies.