Machine learning systeem voor marktwaarde voorspelling om recruitment te ondersteunen
Machine learning systeem voor NAC Breda dat de marktwaarde van spelers voorspelt op basis van prestatiestatistieken. Dataset van 14.445 profvoetballers uit 41 Europese competities met 115 kenmerken uit Opta professionele wedstrijddata. Een Random Forest-model met position-specific feature engineering behaalde 76% nauwkeurigheid voor keepers. Systematisch werden zes ML-algoritmes vergeleken (Linear Regression, Logistic Regression, Decision Tree, Random Forest, XGBoost, SVM) om het beste model te selecteren.
Position-specific modellen bouwen, omdat verschillende posities andere waarde-drivers hebben (keepers: reddingen; aanvallers: doelpunten). Feature selectie uit 115 kenmerken met RFECV om positie-relevante statistieken te isoleren. Dataset is imbalanced: de meeste spelers hebben een marktwaarde <€1M. Marktwaarde is bovendien subjectief en wordt beïnvloed door factoren buiten prestaties, zoals hype, nationaliteit en contractduur. Vergelijkbare posities moesten gescheiden worden (centrale vs. buitenverdedigers, box-to-box vs. aanvallende middenvelders).
Het Random Forest-model behaalde 76% nauwkeurigheid voor keepers, de beste prestatie van alle geteste modellen, wat gezien de subjectiviteit van voetbaltransfers een uitstekende score is. Position-specific feature selection identificeerde de belangrijkste statistieken per positie (keepers: reddingen en clean sheets; aanvallers: doelpunten en conversie %; verdedigers: verdedigende acties). Opgeleverd: complete Jupyter notebook en 12-pagina professioneel rapport met recruitment-aanbevelingen. Project uitgevoerd in samenwerking met NAC Breda, inclusief stadionrondleiding en kickoff-presentatie.
Dataset van NAC met uitgebreide prestatiestatistieken van 14.445 spelers uit 41 Europese competities. Opta-data wordt live gegenereerd via een combinatie van menselijke annotatie, computer vision en AI en geldt als de industriestandaard voor professionele voetbalanalyses.
RFECV (Recursive Feature Elimination met Cross-Validatie) gebruikt met Decision Tree om per positie de meest relevante kenmerken te selecteren:
Sterke verbanden bij keeperstatistieken:
Betekenis: Deze verbanden hielpen bij het kiezen van kenmerken voor keeper-specifieke modellen en bevestigden logische patronen in de data.
Verschillende ML-algoritmes getest om het meest geschikte model voor spelerwaardering te selecteren:
R² = 0.113 – te simpel voor complexe relaties
11% nauwkeurigheid – niet geschikt voor meerdere categorieën
62% nauwkeurigheid – begrijpelijk, maar gevoelig voor overfitting
76% nauwkeurigheid (keepers) – beste en stabielste resultaat
72% nauwkeurigheid – goed, maar hogere rekenkracht vereist
75% nauwkeurigheid – sterke concurrent, maar minder interpreteerbaar
Project uitgevoerd in samenwerking met NAC Breda, inclusief stadionrondleiding en kickoff-presentatie. Het project toont hoe data science kan bijdragen aan professionele voetbalorganisaties door objectieve, data-gedreven recruitment tools te ontwikkelen.