fbpx Come usare l’intelligenza artificiale e i big data per scovare talenti nel calcio | Scienza in rete

Come usare l’intelligenza artificiale e i big data per scovare talenti nel calcio

 --

Tempo di lettura: 5 mins

Luca Pappalardo ha ottenuto una menzione speciale al Premio giovani ricercatori edizione 2020 categoria Intelligenza artificiale e Big Data:  "PlayeRank: data-driven performance evaluation and player ranking in soccer via a machine learning approach" L. Pappalardo, P. Cintia, P. Ferragina, E. Massucco, D. Pedreschi, F. Giannotti. ACM Transactions on Intelligent Systems and Technology (TIST) 10 (5), 1-27".

Motivazione: Considera il problema di valutare le prestazioni dei calciatori utilizzando la grande quantità di dati acquisiti durante le partite (passaggi, tiri, placcaggi, ecc.) e propone un nuovo strumento software che, combinando i dati acquisiti durante le partite con un dataset di valutazioni di giocatori fatte dai talent scout di calciatori, ha prestazioni decisamente migliore di strumenti alternativi.


Della storia del calcio ricordiamo soltanto le gesta dei grandi, indimenticabili campioni: Maradona, Baggio, Ronaldo. Ma possiamo imparare lezioni importanti anche dalla carriera di giocatori meno conosciuti.

Carlos Henrique Raposo, noto come “Kaiser”, è stato un attaccante brasiliano che ha giocato in dieci club in Brasile, Argentina, Messico, Stati Uniti e Francia. La sua storia ha però una particolarità che la rende unica: Carlos Kaiser ha giocato solamente due partite ufficiali in tutta la sua carriera. Stringendo amicizia con calciatori famosi e chiedendo loro di raccomandarlo ai dirigenti dei loro nuovi club, Kaiser riusciva a cambiare squadra quasi ogni anno. Una volta assunto da un club, egli simulava falsi infortuni per tutta la stagione, nascondendo il suo mediocre talento calcistico. Una rete intricata di bugie e relazioni sociali che lo hanno fatto sopravvivere nel mondo del calcio per circa 20 anni.

Nonostante il caso di Kaiser sia più unico che raro, la storia del calcio non è nuova ad acquisti clamorosi che poi si sono rivelati clamorosi bidoni. Nemmeno i dirigenti più talentuosi e leggendari sono stati immuni ad eclatanti sviste.1 Errori umani, riconducibili ad una sola causa: la mancanza di dati sulle prestazioni dei calciatori. I dati avrebbero tenuto traccia dell'evoluzione delle prestazioni di Kaiser nelle partite e nelle sessioni di allenamento, evidenziando la sua inadeguatezza a giocare a calcio ad alti livelli.

Al giorno d'oggi, la rivoluzione digitale ci fornisce finalmente strumenti adeguati per evitare bidoni come Kaiser. Big data sulle prestazioni dei giocatori vengono raccolti per ogni partita da società specializzate, grazie a tecnologie di rilevamento ad alta fedeltà. In particolare, i cosiddetti soccer-log, raccolti tramite software di annotazione specializzati, descrivono tutti gli eventi che si verificano durante una partita. Ogni evento contiene informazioni sul suo tipo (passaggio, tiro, fallo, contrasto, ecc.), un timestamp, i giocatori coinvolti, la posizione in campo, ed informazioni aggiuntive (ad esempio, precisione del passaggio). Il volume e la complessità dei big data, in combinazione con l’Intelligenza Artificiale (IA), offrono l'opportunità di monitorare l’evoluzione delle prestazioni dei calciatori durante una stagione o l’intera carriera.

PlayeRank è un algoritmo progettato proprio a questo scopo che opera attraverso tre fasi: apprendimento (dai dati), valutazione (della prestazione), ordinamento (dei giocatori).3

Nella fase di apprendimento, PlayeRank utilizza l'IA per imparare dai dati quali sono gli eventi cruciali per vincere una partita. Intuitivamente, un passaggio che mette un compagno di squadra in condizione di segnare un gol (assist) è più prezioso di un passaggio a un compagno di squadra a centrocampo. Al contrario, ricevere un cartellino rosso è intuitivamente più grave, ad esempio, che perdere palla nella metà campo avversaria. Quelle azioni che aumentano (o diminuiscono) sensibilmente le possibilità di vincere una partita vengono pesate di più dall’algoritmo durante la valutazione, sia positivamente che negativamente.

Dopo aver appreso cosa significa giocare a calcio, PlayeRank valuta la qualità delle prestazioni in una partita aggregando la rilevanza di ciascun evento prodotto da ciascun giocatore e, nella fase di ordinamento, calcola una classifica dei giocatori tenendo conto delle valutazioni calcolate nelle due fasi precedenti.

PlayeRank è stato validato sul grande set di dati di partite più grande al mondo, composto da 31 milioni di eventi su 20.000 partite e 21.000 giocatori nelle ultime quattro stagioni di 18 competizioni (incluso il campionato italiano e l'ultima Coppa del Mondo). Un’analisi condotta da un gruppo di talent scout professionisti ha dimostrato che la classifica prodotta da PlayeRank concorda con quella degli esperti, con un miglioramento fino al 30% (relativo) e al 21% (assoluto) con rispetto agli attuali algoritmi all'avanguardia.

Una delle caratteristiche principali di PlayeRank è che, fornendo un punteggio che sintetizza in modo significativo la qualità delle prestazioni di un giocatore in una serie di partite, consente l'analisi, anch’essa senza precedenti, delle proprietà statistiche delle prestazioni calcistiche. Analisi che ha rivelato diversi risultati interessanti. 

In primo luogo, le prestazioni "anomale" (particolarmente eccellenti) sono rare e distribuite in modo non uniforme tra i giocatori: mentre la maggior parte dei giocatori effettua poche prestazioni eccellenti, una piccola frazione di giocatori effettuano molte prestazioni eccellenti. I giocatori migliori, tuttavia, non sempre giocano in modo eccellente.  Semplicemente, ottengono prestazioni eccellenti più frequentemente degli altri giocatori. In altre parole, se giocatori come Kaiser sono sulla testa della distribuzione delle prestazioni, il prossimo Messi deve essere scovato cercando sulla sua coda.

PlayeRank è un primo passo verso la valutazione automatica delle prestazioni umane, che ci consente di evitare situazione paradossali come quella di Kaiser. A meno che i nuovi Kaiser non siano anche buoni data hacker.

Note
[1] Chi ricorda il caso di Luther Blissett al Milan? https://www.theguardian.com/football/2005/jan/05/theknowledge.sport
[2] Ecco un esempio di visualizzazione, basata su registri di calcio, dell'evoluzione delle prestazioni dei giocatori per un'intera stagione: https://playerank.d4science.org/.
[3] Il codice open-source di PlayeRank è disponibile qui: https://github.com/mesosbrodleto/playerank. Gli open data usati per la sua validazione sono descritti nel seguente articolo:  https://www.nature.com/articles/s41597-019-0247-7.

 

 


Scienza in rete è un giornale senza pubblicità e aperto a tutti per garantire l’indipendenza dell’informazione e il diritto universale alla cittadinanza scientifica. Contribuisci a dar voce alla ricerca sostenendo Scienza in rete. In questo modo, potrai entrare a far parte della nostra comunità e condividere il nostro percorso. Clicca sul pulsante e scegli liberamente quanto donare! Anche una piccola somma è importante. Se vuoi fare una donazione ricorrente, ci consenti di programmare meglio il nostro lavoro e resti comunque libero di interromperla quando credi.


prossimo articolo

The Indi Gregory case: some questions for reflection

"The 'Indi Gregory Case' encompasses various levels of reflection (medical, ethical, legal, and political) that are interconnected but often confused in media debates. The philosopher of science and bioethicist Giovanni Boniolo analyzes them through a series of questions, the answers to which may also help us in similar cases that may arise in the future. Image: Twilight, by Dilma Freddi.

There has been, and continues to be, much talk about the "Indi Gregory Case." Indi was an eight-month-old baby suffering from a severe, and so far fatal, rare disease. More specifically, Indi was affected by D,L-2-hydroxyglutaric aciduria: a genetic disease with autosomal recessive inheritance caused by defects in the SLC25A1 gene.