L'installazione Zapatos rojos di Elina Chauvet a Cremona il 25 novembre 2014. Immagine da Flickr (CC BY-SA 2.0).
Se mi chiedessero quali aggettivi faticherei di più ad accostare al termine “algoritmo” includerei di certo “artigianale”. Un prodotto di artigianato è fatto a mano, richiede tempo, è un pezzo unico e non può essere prodotto in serie. A volte viene ideato per una persona specifica e mal si adatta ai gusti e alle caratteristiche di altri. Eppure, l’ultimo progetto coordinato da Catherine D’Ignazio, direttrice del Data + Feminism Lab del Massachusetts Institute of Technology, mi ha aiutato a vedere come un algoritmo possa in un certo senso essere artigianale e personalizzato, soprattutto se sviluppato a beneficio di un gruppo di persone che, per questioni di potere o di numerosità, può essere considerato minoritario.
D’Ignazio e i suoi collaboratori hanno lavorato allo sviluppo di un algoritmo per automatizzare la ricerca di notizie online relative a casi di femminicidio e più in generale di uccisioni per motivi legati al genere, coinvolgendo oltre trenta associazioni statunitensi e sudamericane che raccolgono controdati su questo fenomeno. Con l’espressione controdati si intende dati alternativi o complementari a quelli raccolti dai governi e dalle istituzioni, che in questo modo vengono messi sotto pressione dagli attivisti e spinti prima ancora che a intervenire a riconoscere che il problema esiste. Perché, come ha scritto la geografa femminista Joni Seager: “conta ciò che viene contato”.
La prima versione dell’algoritmo, sviluppato in inglese e spagnolo, è risultata soddisfacente per tutte le associazioni coinvolte, tranne due che monitorano due tipi specifici di femminicidio. Si tratta dell’African American Policy Forum, che si concentra sulla violenza della polizia statunitense contro le donne nere nell’ambito della campagna #SayHerName e del Sovereign Bodies Institute, che ha costruito e mantiene il database MMIWG2 sulle donne, ragazze e two-spirit people, cioè persone LGBTQ+, di origine nativa americana uccise o scomparse dal 1900 a oggi.
Per rendere l’algoritmo utile alle attività delle due associazioni, D’Ignazio e collaboratori hanno messo a punto un processo iterativo di co-sviluppo. Le attiviste hanno condiviso con gli informatici il tipo di notizie a cui sono interessate, identificando un insieme di parole chiave. Gli informatici hanno quindi sviluppato una prima versione dell’algoritmo che è stata valutata dalle attiviste nella loro pratica quotidiana sia in modo quantitativo che qualitativo restituendo quindi dei feedback agli informatici che hanno così raffinato il modello. Questa procedura è stata ripetuta fin quando le performance dell’algoritmo sono state ritenute adeguate dalle associazioni, almeno in via preliminare. L’ultima fase di test prolungato sul campo è tuttora in corso.
L’approccio tenuto da D’Ignazio è ispirato dai principi del femminismo intersezionale, un termine coniato dall’avvocata e attivista statunitense Kimberlé Crenshaw, e che si riferisce ai movimenti che si battono per i diritti delle donne tenendo conto della diversità delle loro esperienze che possono portare anche a maggiori livelli di discriminazione. Per esempio, le donne nere negli Stati Uniti subiscono più discriminazioni di quelle bianche. Maschilismo e razzismo hanno radici comuni e per questo combatterli entrambi rappresenta un beneficio sia per le donne nere che per quelle bianche.
Sviluppo partecipato dell’algoritmo
Al cuore dell’algoritmo c’è un classificatore binario, cioè un sistema che analizzando una versione sintetizzata dei testi degli articoli, li etichetta come “casi positivi”, che descrivono cioè un caso di femminicidio rilevante per l’associazione, o “casi negativi”, che descrivono cioè altri tipi di crimini. In realtà, il classificatore calcola per ogni articolo la probabilità che sia un caso positivo e se questa supera una certa soglia stabilita dai programmatori, quel caso viene etichettato come positivo.
Per calcolare questa probabilità, il classificatore deve essere “allenato” su un database di partenza, che contiene articoli già etichettati “a mano”. In questa fase l’algoritmo impara a distinguere positivi da negativi. La composizione del database di allenamento è dunque fondamentale per tutto il resto del processo.
Il punto di partenza sono stati due database: uno in inglese, costruito dall’associazione Women Count USA, e uno in spagnolo, costruito dalla associazione Feminicidio Uruguay. Il classificatore è stato allenato e testato su questi database (in un processo di ri-campionamento parziale che si chiama cross-validation) raggiungendo un’accuratezza dell’85% in inglese e dell’82% in spagnolo (l’accuratezza è la frazione di articoli etichettati correttamente).
L’algoritmo è stato poi sottoposto a un secondo test “sul campo”, lasciando che venisse utilizzato dalle associazioni coinvolte nel progetto per una settimana. Quasi tutte si sono dichiarate soddisfatte del risultato, tranne l’African American Policy Forum (AAPF) e il Sovereign Bodies Institute (SBI). Gli informatici si sono resi conto che gli articoli identificati come rilevanti nei database di allenamento, raramente descrivevano l’uccisione di donne nere da parte della polizia o di donne, ragazze e two-spirit people native americane. Per questo l’algoritmo faticava a riconoscerli quando testato sul campo.
Per ovviare a questo problema, gli informatici hanno costruito due database di allenamento specifici per le due associazioni, chiedendo alle attiviste di raccogliere e inviare articoli rilevanti per la loro causa. Gli algoritmi allenati su questi nuovi database sono riusciti a individuare una maggiore frazione di articoli rilevanti, ma hanno allo stesso tempo etichettato come positivi molti articoli che non parlavano dei casi di interesse, per esempio uccisione di uomini neri da parte della polizia oppure iniziative relative a donne indigene scomparse o uccise ma senza riferimenti a vittime precise o recenti.
L’importanza del contesto
Questi risultati hanno fatto capire agli informatici che il problema stava nel fatto che i casi negativi su cui l’algoritmo veniva allenato erano troppo generici. In altre parole, il confine tra articoli rilevanti e irrilevanti era messo poco a fuoco dall’algoritmo poiché i negativi riguardavano casi generali di femminicidio. I tecnici hanno quindi deciso di prendere in considerazione il contesto (violenza della polizia, comunità nativa americana) esplicitamente, assegnando a ciascun articolo due etichette, una relativa appunto al contesto e una relativa all’identità della vittima. Per esempio, per il database di allenamento dell’AAPF ogni articolo può riguardare la violenza della polizia oppure no e può riguardare una vittima donna oppure no.
Allenando, per ciascun database, due diversi classificatori per riconoscere le due diverse etichette e moltiplicando le probabilità di essere un caso positivo rispetto a ciascuna di esse, sono stati ottenuti risultati più soddisfacenti da un punto di vista quantitativo.
Sottoponendo questi nuovi algoritmi al test sul campo, sono però emersi ancora dei limiti.
Da una parte c’è il problema che mentre i database su cui sono stati allenati gli algoritmi erano bilanciati, nella realtà, l’uccisione di donne nere per mano della polizia è un fenomeno molto più raro e meno raccontato dai media di quello di una donna bianca uccisa dal partner. Dall’altra, nel caso delle comunità native americane, l’algoritmo fatica a riconoscere il ruolo che le persone nominate negli articoli hanno nella storia, confondendo per esempio la moglie di un uomo nativo americano ucciso con la vittima dell’uccisione.
I risultati ottenuti in questo progetto mostrano con chiarezza che è fondamentale considerare il contesto in cui i dati vengono raccolti e aiuta così a capire quanto i dati non sia né neutri né oggettivi.
«In contrasto con i valori di velocità ed efficienza, [impegnarsi nello sviluppo di database e algoritmi intersezionali] richiede di dedicare molto tempo e risorse aggiuntive a questi casi d'uso più specifici», scrivono gli autori nelle conclusioni. Inoltre, sottolineano che questi strumenti non devono mai essere considerati definitivi. «Le esigenze delle organizzazioni con cui collaboriamo possono evolvere e anche i dati che trattiamo possono cambiare in modo sostanziale con l'evolversi del racconto mediatico dei femminicidi».
Riconoscono, infine, che i modelli sviluppati in questo progetto potrebbero non funzionare per altri gruppi specifici, in particolare quelli che si trovano all'intersezione di molte forze di dominio, per esempio le persone trans o le lavoratrici del sesso, per cui è probabile che i casi riportati dai media siano molto poco numerosi rispetto ai femminicidi in generale.
E in Italia?
In Italia, il Servizio Analisi Criminale del Ministero dell’Interno ogni settimana pubblica un rapporto con i dati aggiornati sui femminicidi. L’ultimo con dati a livello regionale è del 15 giugno 2022 e denuncia che dall’inizio dell’anno nei 126 omicidi commessi nel nostro paese, 53 hanno avuto come vittima una donna, il 42%. Questa percentuale sale al 75% se si considerano solo quelli avvenuti in ambito familiare o affettivo e al 100% se ci si limita a quelli commessi da partner o da un ex-partner. Anche l’ISTAT raccoglie i dati sugli omicidi di donne, ma sono fermi al 2020.
Dal 2020 l’Osservatorio nazionale Femminicidi Lesbicidi Trans*cidi dell’associazione Non Una di Meno raccoglie un database di controdati su femminicidi e uccisioni di persone trans estremamente dettagliato. Include anche i casi di suicidio “indotti dalla violenza patriarcale omolesbobitrans*fobica”. Per ogni vittima vengono indicati il comune di residenza, l’età, l’identità presunta dell’omicida, l’eventuale presenza di figli minori lasciati orfani.
«La ricerca (anche automatica) di notizie su omicidi di donne e di persone trans, suicidi indotti, tentati omicidi, si basa su alcune parole chiave e tanta rassegna stampa», mi hanno scritto le responsabili dell’Osservatorio in una e-mail. «Abbiamo partecipato a un workshop organizzato da D'Ignazio nell’ambito del progetto “Datos contra el feminicidio” sugli algoritmi che hanno sviluppato per la ricerca tramite parole chiave. Avevamo iniziato a discutere di come applicarlo per l'Italia, ma serve un lavoro di background perché attualmente il loro sistema cerca all’interno di testi in lingua spagnola e inglese».
Oltre alle notizie sui media locali e nazionali, l’Osservatorio sfrutta spesso un contatto a livello locale. «Succede soprattutto nei casi di sex worker e persone ai margini che difficilmente finiscono sui media, per esempio donne trans* o persone straniere».
Ma a cosa possono servire i controdati sui femminicidi oltre che a costituire uno strumento di pressione su chi governa? Possono aiutare a studiare le cause del fenomeno.
I dati del Ministero dell’Interno si fermano a livello regionale, come abbiamo detto, ma i pregiudizi di genere hanno una forte dimensione locale. Per questo, due ricercatrici del Gran Sasso Science Institute, Alessandra Faggian e Daria Denti, hanno costruito un database dei femminicidi con maggior dettaglio geografico e hanno messo in relazione il numero di femminicidi per abitante con la percentuale di donne elette nei consigli comunali. La ricerca, pubblicata ad aprile, ha mostrato che maggiore è il numero di donne elette più bassa è l’incidenza dei femminicidi. «Per delineare un quadro della geografia italiana dei pregiudizi di genere, abbiamo fatto riferimento a studi consolidati che ne individuano una buona misura nel livello di rappresentanza politica delle donne», scrivono le ricercatrici e aggiungono «infatti, i pregiudizi di genere influenzano sia le preferenze di voto degli elettori che la disponibilità di potenziali candidate a partecipare alle competizioni elettorali».