Een stukje WK-data-analyse-analyse

Dit is het toernooi van de data-analisten. Tot voor kort wist ik helemaal niet wat data-analisten waren. Het blijken gewoon jongens die dingen analyseren op basis van data. Niet alle dingen hoor: een gemiddelde data-analist analyseert 0,3% (afgerond) van alle dingen in een voetbalwedstrijd. Dat gaat in 97% van de gevallen gepaard met het gebruik van de een of andere soort data.

Vroeger, toen Giovanni van Bronckhorst nog voetbalde, had je nog geen data-analisten. Je had analisten en die analyseerden wat ze zagen. Later kreeg je Jan van Halst die met behulp van een schootcomputertje lukraak wat pijlen en lijnen trok over een stilgelegd beeld en concludeerde dat er niet veel van deugde. Of wel, net hoe het uitkwam.

Diederiken Stapels
Nu blijkt dat al die analisten al die jaren maar wat voor de vuist weg hebben zitten analyseren. Met de statistieken van websites als Catenaccio.nl en Tussen de linies zijn de voetbalacademici ontmaskerd als Diederiken Stapels. Erger nog, wat Stapel deed tenminste nog de moeite om zijn statistieken te fingeren.

Het aardige van de data-analist is dat hij alles wat hij beweert met feiten onderbouwt. Of nu ja: alles… Bijna alles. In 92,3% van de gevallen is data-analyse dit WK ook direct een gevolg van de analyse van data. De andere 7,7% wordt gevormd door zogenaamde restwaarden als ‘inleiding’, ‘conclusie’ en andere overbodigheden. Zo weten wij nu dat Andrea Pirlo wel degelijk het hele middenveld beloopt (nu ja, bewandelt) en dat Robben en Van Persie de bal minder vaak afspelen dan Neymar en Messi.

Wat nu is het nut van deze kennis?
Allereerst natuurlijk de lol van het weten. 87,2% van het nut van data-analyse is direct gelegen in het plezier van het aftroeven van de ander, die nog niet weet waarvan jij wel – met aan religieuze overtuiging grenzende zekerheid – overtuigd bent. Speelt Wesley Sneijder te diep of juist niet diep genoeg? Een blik op zijn heatmap is voldoende om 65% van de discussies in het café te winnen. De overige 35% van de gesprekken gaan over de overhemden van Ronald de Boer of over relatieproblemen – waarvan je (nog) geen heatmaps tot je beschikking hebt.

De overige 12,8% van het belang van data-analyse kan worden samengevat onder de noemer ‘belang’. Dat belang geldt niet de data-analist zelf, maar de bondscoach en het Nederlands Elftal. Wie zijn eigen statistieken kent, kan daar zijn voordeel mee doen. Je zou het landsbelang kunnen noemen, maar het is slechts voetbal: had Catenaccio.nl honderd jaar geleden een heatmap van de loopgraven in Noord-Frankrijk gemaakt, dan was ‘landsbelang’ op z’n plek geweest. Maar toen gaven ze, om allerlei redenen, niet thuis.

Hoe gaat zo’n data-analyse eigenlijk in z’n werk?
Belangrijk is dat de data-analyse breed wordt opgezet. Slechts 17,3% van de data-analyses die inzoomen op een of enkele aspecten van het spel, wordt tot een goed einde gebracht. Een systeem van 1-3-2-2-1 (1 inleiding, 3 statistische buitenissigheden, 2 grafische toelichtingen, 2 gevolgtrekkingen uit voorgaande gegevens en 1 slotconclusie) wordt daarbij vaak als uitgangspunt gebruikt. In uitzonderlijke gevallen – bijvoorbeeld als de statistieken onbetrouwbaar lijken – kan gekozen worden voor een 2-5-3-0-1 of een 1-1-5-3-2.
Wie de analyse doet, maakt maar in 6% (!) van de gevallen het verschil; de statistieken spreken in 93,9% van de gevallen voor zich, de conclusies trekken als het ware zichzelf. Wat je wel ziet, is dat die conclusies zich met name in de tweede helft van de data-analyse openbaren. De persoon achter de specifieke analyse maakt vooral het verschil in aantal woorden: compacte toelichtingen versus breedsprakigheid. Compactheid lijkt op het eerste gezicht de voorkeur te hebben (93% daarvan heeft te maken met begrijpelijkheid, de restpercentages hebben allemaal te maken met tijdgebrek van de lezer), maar het wonderlijke is dat breedsprakigheid slechts in 3,6% van de gevallen een negatief effect heeft op de lezer, gesteld dat die breedsprakigheid zich uitstrekt binnen de grenzen van het artikel.

Ook onderbrekingen hebben een negatief effect op de leesbaarheid van de data-analyse.
Een voorbeeld: in de afgelopen 17 data-analyses van de jongens van Catenaccio.nl werd 100% van het beschikbare aantal woorden gebruikt. De analyse werd drie keer kort onderbroken door een voorbeeld, en twee keer daarvan kwam de analyse daardoor niet helemaal uit. In de overige 14 gevallen kwam de analyse 12 keer tot een goed eind.

Opvallend is dat onderbrekingen die rechtstreeks verband houden met het onderwerp veel vaker voorkomen dan alinea’s die niets met het voorgaande te maken hebben: 16 om 3. De conclusie dat de gemiddelde data-analyse een relatief coherent geheel vormt, lijkt daarmee gerechtvaardigd.

Een onderbreking
(De laatste keer dat een data-analyse in z’n geheel zonder data zonder data werd uitgevoerd, dateert van 25 juni 1994, toen Hans Kraay senior beweerde dat Stan Valckx ballen ‘vaak’ aan een medespeler links van hem afspeelde. Hier was in de NOS-archieven geen enkel bewijs van te vinden).

Data-analyse-analyse
Dit WK hebben we inmiddels 1.749 (geschreven) opmerkingen over data-analyse achter de rug. In exact 80% van die opmerkingen werd geconstateerd dat data-analyse ‘het nieuwe analyseren’ is. 93% van die 80% kwam van mensen die zelf nooit aan data-analyse hebben gedaan (89%) of zich in het verleden laatdunkend over data-analyse hebben uitgelaten (11%). Slechts in 0,3% van de gevallen werd gewag gemaakt van het nieuwste van het nieuwste: de data-analyseanalyse. Om maar aan te geven dat de Nederlandse sportjournalistiek nog voor 97,8% in de kinderschoenen staat.