Il nostro Lorenzo, con questo articolo, ci guida nel vasto mondo dei dati illustrandoci le diverse tipologie e le loro caratteristiche... quali dati sono ottenibili dall’analisi di una partita?
La raccolta di dati dagli incontri di calcio è ormai una realtà consolidata da anni. Dall’allenamento alla gara gli atleti sono sottoposti ad un continuo monitoraggio dei parametri fisici, tecnici e tattici.
Nell’ultimo decennio si sono susseguite ed evolute tecniche e tipologie di dati acquisiti intra e post match, che possiamo dividere in tre categorie: dati gps, dati evento (event data o soccer logs), dati di posizione (video-tracking data).
Ma sono proprio gli ultimi due a dominare la scena della “football data analysis”, rappresentando la principale risorsa per lo sviluppo di modelli matematici avanzati, algoritmi e statistiche.
Event Data
I dati evento possono esseri visti come un riassunto di tutti gli episodi (che siano passaggi, contrasti, interventi difensivi ed offensivi) che si sono verificati nel rettangolo di gioco nei 90’ (e più).
La raccolta di questo tipo di dati viene affidata ad esperti video analisti, chiamati operatori, sotto la supervisione di un terzo (per maggior controllo ed affidabilità dei dati acquisiti).
In generale si seguono questi passaggi:
- Si apre il video del match su un software creato appositamente
- All’occorrenza si stoppa il video e si “tagga” l’evento inserendo i relativi parametri (tag) aggiuntivi
- Si procede fino al termine della gara ottenendo come output un file, in genere con estensione .json, contenente tutte le informazioni registrate necessarie alle analisi
L’attuale presenza della componente umana in queste operazioni è legata soprattutto alla scarsa affidabilità dei moderni sistemi automatici.
Per chiarire meglio le idee vediamo un esempio concreto di event data file. È doveroso però fare una premessa: purtroppo, nonostante la grande quantità di dati raccolti, questi sono esclusivamente di tipo proprietario. Aziende come WyScout, Statsbomb, OptaSport e poche altre, riservano le loro rilevazioni a scopi privati, accessibili solamente tramite servizi a pagamento. Questo limita di molto lo sviluppo di metodi scientifici per il calcio.
Per fortuna c’è qualche eccezione: alcune delle aziende sopracitate hanno reso disponibili alcuni dei loro dati, sia soccer-logs sia tracking data, utili per estrarre una discreta varietà di analitche.
Utilizzeremo come esempio la più grande raccolta di soccer-logs mai rilasciata pubblicamente. Si tratta di dati collezionati e forniti da WyScout relativi ai cinque campionati principali europei nella stagione 2017/2018, messi a disposizione da Pappalardo and Masucco (2019) e descritti ampiamente sul paper “A public data set of spatio-temporal match events in soccer competitions” (Pappalardo et al. 2019). (https://www.nature.com/articles/s41597-019-0247-7)
I dati coprono circa 1.941 matches, 4.299 calciatori ed un totale di 3.251.294 eventi.
Vediamo come si presenta un file contenente dati di tipo evento:
In questo esempio l’evento taggato è un passaggio [eventName], effettuato dopo due secondi dal calcio di inizio [eventSec], dal giocatore [playerId]. Possiamo notare i tag aggiuntivi come la posizione dove è stato effettuato [positions] (espressa in coordinate x,y) e se è stato accurato o meno [il codice 1801 indica accuratezza].
Questa porzione di codice è riferita ad un solo evento: nel paper emerge che il numero medio di eventi che avvengono in un singolo match è pari a 1.682.
Ma questa mole di dati che informazioni ci permette di estrarre?
Sono 3 le possibili finalità che si possono percorrere, suggerite nel paper:
- analisi di performance: costruire algoritmi per la valutazione dei calciatori
- analisi di sistemi complessi: le due squadre seguono comportamenti dinamici relazionati dall’interazione dei 22 players in campo
- analisi della relazione tra performance e successo: “Quanto incide sulla vittoria lo schieramento di un determinato modulo?”, “Quali sono i fattori che influenzano il valore di un calciatore?”
Purtroppo però ci sono troppe informazioni, essenziali, trascurate con l’uso degli event data. La più importante su tutte è il contesto. Nell’esempio precedente sappiamo che è stato effettuato un passaggio; sappiamo inoltre chi e dove l’ha effettuato. È stato fatto sotto pressione? È una verticalizzazione tra le linee difensive avversarie? È stato effettuato in una situazione di possesso e costruzione o di conclusione sotto porta?
Inoltre lo stato in cui si trovano gli altri 21 in campo è ignoto. Un passaggio, che diventa poi pericoloso, viene dettato sempre dal movimento di un compagno di squadra che cerca di creare spazio nei reparti critici dell’avversario. Gli eventi circoscritti alla palla compongono solo il 3% delle situazioni in un match. Bisogna concentrarsi maggiormente sul restante 97%.
Tracking Data
Al contrario dei dati evento, i tracking data hanno bisogno di sistemi automatizzati per essere collezionati. Una serie di telecamere posizionate all’interno dello stadio riprendono da più angolazioni il rettangolo di gioco. Il flusso di immagini viene processato e adattato per essere proiettato sui vari software di visualizzazione in 2D. Il risultato finale, che sia in streaming o riprodotto nel post match, in generale è questo:
Il quadro che abbiamo di fronte è completamente ridimensionato. Passiamo da una visione locale al pallone, all’osservazione continua del posizionamento dei 22 protagonisti in campo.
Nell’immagine il pallino bianco indica il pallone; tutti gli altri sono i calciatori schierati.
Per fornire un esempio di tracking data file ci affideremo a dei sample data messi a disposizione da Metrica (https://github.com/metrica-sports/sample-data):
- La variabile Period indica uno dei due tempi di gioco
- La variabile Time [s] indica l’istante di rilevazione dell’osservazione
- Le restanti variabili sono composte da due parti: il numero di maglia e la coordinata (una per x ed una per y)
- È inclusa inoltre la variabile ball che traccia la posizione del pallone (nella foto non compare)
Possiamo renderci conto, guardando ad esempio agli istanti di rilevazione (quelli iniziali sono millisecondi!) che, rispetto ai 1.682 eventi medi in un match, il numero di dati di posizione può arrivare fino a centinaia di migliaia. Laurie Shaw nella lezione mostra che questo primo file contiente circa 145.000 osservazioni! Non c’è da stupirsi data l’elevata frequenza di acquisizione immagini di tali sistemi, sempre più avanzati.
Questi dati ci aprono la strada per molteplici analisi potendo tenere conto della dinamicità degli spazi creati da movimenti più o meno rischiosi da parte di entrambe le squadre.
David J.T. Sumpter, professore alla Uppsala University in Svezia, utilizza i tracking data per generare tre analitiche:
- Pass Probability: misura la probabilità che un passaggio fatto verso una zona di campo risulti nel mantenimento del possesso palla
- Pass Impact: data la posizione della palla, misura le zone di campo dove un passaggio può creare più pericolosità
- Pitch Control: misura e mette in evidenza il dominio territoriale di entrambe le squadre nelle varie zone di campo
Ognuno dei metodi però manca di fattori che gli altri posseggono. Per cui una scelta basta sul risultato di uno solo dei tre può rivelarsi comunque errata. È sempre saggio contestualizzare l’applicazione delle metodologie ed eventualmente prendere una decisione basata su una overview complessiva.
I tracking data risultano utili anche per scoprire i pattern creati da un sistema di gioco, adottato durante un’intera stagione.
Le limitazioni ovviamente non mancano.
Da un lato tecnico sorgono principalmente due problemi: può capitare, a volte, che il sistema “confonda” due calciatori comportando quindi uno scambio di ID.
Con la rappresentazione in 2D perdiamo inoltre l’asse z (l’altezza) in riferimento alla palla. È soltanto un dettaglio? Se ci pensate, probabilmente mentre la palla è in aria c’è più incertezza di riuscire a mantenere il possesso rispetto a quando viaggia sul terreno di gioco. Esistono però altri sistemi di tracciamento che ne tengono conto.
Un’altra problematica presente con i tracking data è la doverosa integrazione con i dati evento: i primi si limitano costantemente a tenere sott’occhio la posizione di ciascuno nel campo ma senza riconoscere le varie situazioni di gioco (passaggi, tiri, colpi di testa, contrasti). Sincronizzare le due tipologie di dati ci permette di aggiungere fino a 100 elementi extra al contesto per capire cosa sta effettivamente succedendo: in risposta ad un passaggio possiamo capire la copertura del ricevente, il cambio difensivo messo in atto dalla squadra avversaria, il numero di giocatori tagliati fuori dalla giocata e se il passaggio ha scavalcato le linee di difesa avversaria. (https://www.scisports.com/the-power-of-combining-tracking-and-event-data/)
Se riuscire ad avere tutte queste informazioni può sembrare abbastanza, c’è altro che manca: l’orientamento del corpo, una caratteristica fondamentale per la valutazione del singolo e dello spazio di una giocata o un movimento difensivo. È la sfida degli skeleton data: sebbene non esistano ancora algoritmi di deep learning abbastanza “allenati” da poter riconoscere tutte le posture assumibili, un team di esperti dell’Università Pompeu Fabra di Barcelona è riuscita a sviluppare una tecnica, basata su deep learning e computer vision, che identifica l’orientamento del corpo dei calciatori utlizzando semplici registrazioni video. Per approfondire: https://www.sportperformanceanalysis.com/article/automated-tracking-of-player-positioning-using-match-footage.
Infine, come accennato in precedenza, la poca disponibilità pubblica di questi dati può essere vista come una limitazione.
Broadcast Tracking Data
Un progetto molto interessante presentato dalla startup francese SkillCorner è quella dei cosiddetti broadcast tracking data. La particolarità di questi dati risiede nel differente metodo di acquisizione dati rispetto a quelli visti fino ad ora: tramite avanzati modelli di machine learning e l’utilizzo di reti neurali, i dati vengono recuperati dalle semplici trasmissioni video (broadcasts, per l’appunto) dei più famosi enti televisivi sportivi. Il vantaggio per cui è quello di riuscire a svincolarsi dagli strumenti necessari alla collezione dei tracking data “classici”, evitando così spese considerevoli.
Per approfondire, e conoscere quali sono invece i problemi da affrontare e gli svantaggi, clicca su questo link: https://www.youtube.com/watch?v=N9qZ-I63BL8
CONCLUSIONI
Le statistiche potrebbero essere il miglior strumento che abbiamo a disposizione per analizzare e discutere ciò che accade in campo in modo obiettivo, ma è la loro interpretazione che potrà davvero influenzare i risultati.
E’ bene sottolineare che l’oggettività, in questo tipo di dati, non è in realtà rispettata dato che vengono (al momento) raccolti manualmente, da persone. Ricordiamo che la mente umana è irrazionale e incline all’errore, caratteristiche che i dati non devono avere. Per questo motivo, ci sarà sempre una certa quantità di errori presenti nei dati raccolti, non importa quanto siano avanzati i processi di garanzia della qualità.
Non solo i dati raccolti sono spesso in balia dell’errore umano, ma anche le diverse definizioni utilizzate per raccoglierli sono soggette a un certo livello di errore. Qualunque azienda provider deve decidere una definizione per ogni evento che vuole catturare. Cos’è un passaggio? Cos’è un dribbling? Queste scelte non sono sempre bianche o nere, e ad un certo punto bisogna tracciare una linea.