Tactiek uit data-analyse

Tactiek uit data-analyse

Anna Buijsman
01 oktober 2017
Learning Academy

Het wordt de laatste tijd steeds populairder: data analyse in de sport. Er kan van alles gemeten worden bij sporters en wedstrijden. Hieruit kunnen onder meer tactieken ontwikkeld worden, waarmee hopelijk het spel verbeterd. Samen met Lucas, Reinier en Joost mocht ik voor de Learning Academy aan de slag met de data analyse van hockey wedstrijden.

Tijdens de Kickoff van de Learning Academy presenteerde de coach van het team Dames1 van hockeyclub Rood-Wit in Aerdenhout zijn probleem. Zijn team speelde middelmatig en hij wilde daar graag wat meer inzicht in krijgen. Om deze reden had hij al een programma aangeschaft waarmee hij de wedstrijden kon opdelen in de verschillende acties die op het veld gebeurden. Hieruit verzamelde hij statistiek over het aantal doelpogingen en cirkelpenetraties tijdens het spel, maar hij deed er verder nog niet zoveel mee. Zijn vraag aan ons was voornamelijk om een manier te vinden waarmee hij kon gaan beoordelen of een wedstrijd goed of slecht gespeeld werd. We werden erg vrij gelaten in de manier waarop we de data verder analyseerden. We konden kijken naar het individuele spel, cirkelpenetraties (bij hockey moet je in de cirkel van de tegenstander komen voordat je kan scoren), doelpogingen of het spel van de tegenstander. De coach zou het ook leuk vinden als we bepaalde patronen in een wedstrijd zouden kunnen ontdekken. Vragen zoals op welk tijdstip er een doelpunt gemaakt wordt en of Rood-Wit relatief vaak in de eerste 5 minuten scoorde kwamen hierbij naar voren. Voordat we ons konden verdiepen in de analyse van de data om conclusies te trekken, moesten we de data goed snappen. Dat was meteen ons eerste struikelblok.

De data kregen we aangeleverd in excel bestanden. Op het eerste gezicht was het een enorme matrix vol cijfers. In zo’n tabel stond hoeveel bepaalde acties hadden plaatsgevonden tijdens een wedstrijd, wat het rendement van een actie was en wie van Rood-Wit de acties had uitgevoerd. Onder acties vallen de positie van een balstart, positie van directe balwinst, positie van direct balverlies, cirkelpenetraties, doelpogingen en doelpunten. De coach gebruikte bepaalde afkortingen, dus binnen een week hadden wij al een afspraak met hem gemaakt om een legenda te kunnen opmaken. Dit laat meteen de toegevoegde waarde van de Learning Academey zien. Wij kregen absoluut geen “mooie” dataset waar we een aantal econometrische methoden op los konden laten. Getallen waarvan wij dachten dat die hetzelfde waren en dus gelijk moesten optellen, bleken dat helemaal niet te doen. We waren geregeld dingen aan het navragen bij de coach en hebben ook de beslissing moeten maken om bepaalde variabelen of bepaalde ideeën achterwege te laten wegens het gebrek aan goede data.

Joost kwam vervolgens met het idee om operationele research toe te passen. We hadden gegevens over de rendementen van bepaalde acties en daarmee konden we een transitiematrix opstellen. We namen de cirkelpenetraties, zowel voor Rood-Wit als de tegenstander, als absorberende toestanden. Na berekening van de steady state verdelingen konden we zien wat de kans was voor respectievelijk Rood-Wit en de tegenstander om in de cirkel terecht te komen vanuit een bepaalde positie balstart of balwinst. Hieruit concludeerden we dat Rood-Wit meer kans heeft om vanuit een balstart in de cirkel van de tegenstander te komen ten opzichte van directe balwinst. Hier kan de tactiek op aangepast worden, door bijvoorbeeld overtredingen te veroorzaken en zo vaker een balstart te creëren. Hiernaast is een figuur te zien waarbij de kansen zijn weergegeven voor een set acties. De groene staven laten de kansen zien voor Rood-Wit om vanuit die actie in de cirkel van de tegenstander te komen en de rode staven laten deze kansen zien voor de tegenstander. Voor de berekening van deze kansen is het totaal gespeelde wedstrijden door Rood-Wit gebruikt. BSA staat voor balstart aanvallend, wat betekent dat iemand van Rood-Wit de bal uitneemt. BWD staat voor directe balwinst voor Rood-Wit. De cijfers geven de positie op het veld aan, waarbij 1 begint bij het doel van Rood-Wit. Het veld is zo opgedeeld over de lengte. Het is dus logisch dat de kans voor Rood-Wit om de cirkel van de tegenstander in te komen het grootst is vanuit BS4A, omdat dit een balstart van Rood-Wit betreft in het gebied rondom het doel van de tegenstander.

Daarnaast leek het ons interessant om vanuit de cirkel verder te kijken naar de aanleiding van doelpunten. Helaas was hier geen goede data voor beschikbaar. We wilden data van de positie van binnenkomst van de cirkel (links, midden of rechts) combineren met wie de cirkel was binnen gekomen en wat er met de bal gebeurde direct na het binnen komen van de cirkel. Kreeg Rood-Wit een strafcorner of maakten één van de spelers een directe doelpoging? We hoopten hiermee beter inzicht in het aanvallende samenspel van het Dames1 team te verkrijgen. Het lukte de coach helaas niet om ons de benodigde data te leveren. We konden zelfs niet analyseren hoe Rood-Wit gemiddeld doelpunten maakten (via een strafcorner of direct) omdat de data over de doelpunten in de bestanden niet goed optelde.

Vervolgens lag nog de vraag op tafel of we een patroon konden ontdekken in de gemaakte doelpunten van Rood-Wit. Helaas had de coach de tijdstippen van de doelpunten in de wedstrijden niet goed bijgehouden. Er werden ofwel doelpunten tijdens de rust ofwel na het einde van de wedstrijd gemaakt. Daarnaast waren er te weinig wedstrijden beschikbaar om goede conclusies te kunnen trekken. Te weinig datapunten was bij ons onderzoek een terugkerend probleem. We hadden ook een regressiemodel met als afhankelijke variabele het winnen van een wedstrijd proberen te ontwikkelen. Zo dachten we te kunnen onderzoeken wat de belangrijke factoren zijn voor Rood-Wit om een wedstrijd te winnen. Zijn deze factoren tijdens een wedstrijd in te beperkte mate aanwezig, dan kan de coach zeggen dat de wedstrijd slecht gespeeld is. Alle schattingen van de coëfficiënten waren echter insignificant wegens te weinig datapunten om de schattingen op te baseren.  

Een les die wij geleerd hebben is dat datasets bij lange na niet perfect zijn en het soms zoeken is naar de juiste invalshoek om een dataset te benaderen. Wij hebben er verschillende invalshoeken gevonden en uitgeprobeerd, waarbij dus niet alles even goed werkte. We hopen dat de coach uit onze analyse meeneemt hoe hij gedetailleerder wedstrijden bij kan houden om in de toekomst betere analyses uit te voeren.

Cancel