Reinforcement learning, een geavanceerde machine learning-techniek, wint snel aan populariteit. In tegenstelling tot ‘klassieke’ machine learning-methodes, die getraind worden op basis van door mensen gelabelde data, leert reinforcement learning-technologie door voortdurend met haar omgeving te interageren.
Zo ook in de haven van Antwerpen-Brugge. Daar werd recent onderzocht of reinforcement learning-modellen voorbereidende baggerwerkzaamheden in het Deurganckdok efficiënter kunnen inroosteren dan menselijke planners. De resultaten waren indrukwekkend.
Van gezichtsherkenning op je smartphone tot persoonlijke aanbevelingen in webshops
Webshops die boeken, films en kledij aanbevelen op basis van eerdere aankopen, Google Translate vertaalsoftware, of de gezichtsherkenningsfunctie op je smartphone: het zijn stuk voor stuk toepassingen die gebruik maken van machine learning-technologie.
Machine learning-algoritmen (en dan bevinden we ons in het domein van de artificiële intelligentie) leren door middel van voorbeelden – en zonder expliciete instructies – de relaties tussen grote hoeveelheden data in kaart te brengen, er patronen uit af te leiden, en aan die inzichten de gepaste acties te verbinden. Het is een continu leerproces waarbij de resultaten van het algoritme geleidelijk aan nauwkeuriger worden. Net zoals mensen hun vaardigheden verfijnen door meer te oefenen.
Reinforcement learning leert volledig zelfstandig – door middel van trial-and-error, en de daaraan verbonden beloningen en bestraffingen. Het is een leerproces dat sterk lijkt op hoe mensen nieuwe vaardigheden onder de knie proberen te krijgen.”
Eén van de bekendste methodes om de onderliggende algoritmen te trainen, is ‘supervised machine learning’; een techniek die gebruik maakt van (door mensen) gelabelde datasets. De intelligentie die de spamfilter van je mailbox aanstuurt, is daarvan een mooi voorbeeld. Door geannoteerde datasets te doorploegen, leert het model het onderscheid te maken tussen ‘spamberichten’ en ‘niet-spamberichten’ – zodat het daarna ook nieuwe, nooit eerder geziene mails succesvol kan classificeren.
Het is in dezelfde context dat we reinforcement learning moeten positioneren. Maar die technologie gaat zelfs nog een stap verder!
Reinforcement learning: het brein achter ‘alien chess’
Het grote voordeel van reinforcement learning-technologie is dat ze helemaal geen vooraf gelabelde trainingsdata nodig heeft. Ze leert volledig zelfstandig – door middel van trial-and-error,en de daaraan verbonden beloningen en bestraffingen.
Het maakt van reinforcement learning een AI-model dat uitermate geschikt is voor toepassingen met een quasi oneindig aantal mogelijke uitkomsten; toepassingen ook waarbij elke stap voortbouwt op eerdere beslissingen. Denk bijvoorbeeld aan schaakcomputers: in plaats van elke mogelijke zet (en tegenzet) voor te programmeren, verfijnen zij autonoom hun strategie door het spel steeds opnieuw te spelen. Acties die leiden tot een betere positie op het schaakbord worden daarbij beloond (grotere winstkansen), terwijl minder geslaagde acties worden bestraft (met verlies). Zo wordt het machine learning-algoritme aangemoedigd om steevast voor de meest succesvolle zetten te kiezen.
Het is een leerproces dat sterk lijkt op hoe mensen nieuwe vaardigheden onder de knie proberen te krijgen. Bovendien is het een werkwijze die vaak resulteert in innovatieve (en soms totaal onverwachte) strategieën/oplossingen. In de schaakwereld leidde het zelfs tot de introductie van een heel nieuw begrip: 'alien chess' – waarbij computers schaken op een bijna buitenaards niveau, met zetten die zelfs absolute schaakmeesters met verstomming slaan.

Figuur 1: De ECHODRONE is een autonoom peilbootje om dieptepeilingen uit te voeren. Een reinforcement learning-model optimaliseert de achterliggende planning. (Bron: imec)
ECHODRONE: reinforcement learning in actie in het Antwerpse Deurganckdok
Ook het ECHODRONE-project, dat recent liep in het Antwerpse Deurganckdok, illustreert de praktische (en meer industriële) toepassingen van reinforcement learning.
Het Deurganckdok staat in direct contact met de Schelde. Het is daarmee onderhevig aan de getijdenwerking, waardoor voortdurend sediment in het dok wordt afgezet, en regelmatige dieptepeilingen en baggerwerken noodzakelijk zijn. Het inplannen van die dieptepeilingen, wat vandaag een puzzel is die door menselijke planners moet worden gelegd, is echter erg complex. Er moet immers rekening worden gehouden met heel dynamische factoren zoals scheepsbewegingen, de getijdenwerking, de beschikbaarheid van inspectievaartuigen en hun bemanning, enz.
Tijdens het ECHODRONE-project gingen experts – waaronder onderzoekers van IDLab (een imec onderzoeksgroep aan UAntwerpen en de UGent) – samen met Kurt Stuyts (werkleider hydrografie van de haven van Antwerpen-Brugge) de uitdaging aan een volledig geautomatiseerd systeem voor dieptepeilingen te ontwikkelen.
“Omdat reinforcement learning-modellen autonoom leren, kan één enkel model flexibel met data van heel diverse cases omgaan. Zo kunnen de algoritmen die door de imec onderzoekers in het kader van ECHODRONE werden ontwikkeld ook relatief makkelijk voor tal van andere toepassingen worden ingezet.”
De oplossing die zij uitwerkten en testten, maakt enerzijds gebruik van een autonoom peilbootje (een drone, zo je wil) om de eigenlijke dieptepeilingen uit te voeren, en is anderzijds gebaseerd op een reinforcement learning-model om de achterliggende planning te optimaliseren. Belangrijkste voorwaarde waaraan die planning moest voldoen: de ECHODRONE toelaten om het Deurganckdok grondig te inspecteren, terwijl het aantal afgelegde kilometers zoveel mogelijk wordt beperkt (waardoor ook een aantal secundaire parameters – zoals verstreken tijd en batterijverbruik – kunnen worden geoptimaliseerd).
Om het reinforcement learning-model dat door de imec onderzoekers werd ontwikkeld te voeden, werd een jaar aan historische planningsdata verzameld. Met die input ging het algoritme vervolgens zelfstandig aan de slag. En wat bleek? Na slechts vier uur training presteerde het AI-systeem al beter dan de menselijke planners: het peilbootje bestreek effectief de gevraagde zones, maar de afgelegde afstand werd teruggebracht tot 25 km (in plaats van 60 km voordien).
Van data goud maken
ECHODRONE is een mooi voorbeeld van de kracht van reinforcement learning. Maar eigenlijk zijn de toepassingen ervan legio. In een havencontext behoort ook het stroomlijnen van scheepsbewegingen door sluizenstelsels tot de mogelijkheden, net zoals het inplannen van goederenoverslag. En ook in de bouwsector, waar materiaal voortdurend van de ene bouwplaats naar de andere moet worden gebracht, kan de technologie aanzienlijke efficiëntiewinsten opleveren. Denk maar aan het uitstippelen van de optimale route voor betonmolens.
Eigenlijk komt het steeds op hetzelfde neer: het AI-model verzamelt data, destilleert er verbanden en inzichten uit, en gaat daarmee aan de slag om optimalisaties te realiseren. Zo wordt – zeker in een bedrijfscontext – van data goud gemaakt.
En een extra voordeel: omdat reinforcement learning-modellen autonoom leren, kan één enkel model flexibel met data van heel diverse cases omgaan. Zo kunnen de algoritmen die door de imec onderzoekers in het kader van ECHODRONE werden ontwikkeld ook relatief makkelijk voor tal van andere toepassingen worden ingezet.
Extra aandacht voor betrouwbaarheid, robuustheid en verklaarbaarheid
Toch is het niet al goud wat blinkt. Reinforcement learning komt immers ook met een aantal uitdagingen. Die zijn in essentie te herleiden tot het opbouwen van vertrouwen in de technologie, een beter begrip van hoe AI-beslissingen tot stand komen, en een doorgedreven betrouwbaarheid en robuustheid van AI-systemen.
Betrouwbaarheid is alleszins een eerste werkpunt – vooral in industriële omgevingen waar foute interpretaties en beslissingen ernstige gevolgen kunnen hebben. Het verder optimaliseren van de onderliggende algoritmes blijft dus een prioriteit.
Robuustheid is een andere uitdaging. Denk aan slijtage: een AI-model dat een robotwagentje aanstuurt, kan perfect getuned zijn om een vracht van tien kilogram van het ene punt naar het andere te vervoeren. Maar naarmate de kogellagers in de wielen van dat wagentje verslijten, zal de extra opgewekte weerstand uiteindelijk tot efficiëntieverliezen beginnen te leiden. Vandaag worden zulke factoren nog niet in rekening gebracht. Ook dat is dus een interessant probleem dat verder onderzoek verdient.
Ten slotte blijft de verklaarbaarheid van AI-beslissingen een aandachtspunt. AI-systemen functioneren immers vaak als een mysterieuze ‘black box’: je weet welke data als input gebruikt worden, en je ziet welk resultaat eruit rolt – maar wat er precies achter de schermen gebeurt, is vaak een raadsel. Daardoor is het moeilijk om te begrijpen hoe beslissingen precies tot stand komen. En precies dat begrip is, zoals gezegd, cruciaal als we willen dat menselijke operatoren vertrouwen hebben in de suggesties aangeleverd door artificiële intelligentie. Visualisaties (die bijvoorbeeld duidelijk maken met welke delen van een foto rekening wordt gehouden om een beslissing te nemen) kunnen daarbij helpen, maar onderzoekers bekijken volop of er ook andere methodes ontwikkeld kunnen worden om de beslissingen van AI-modellen meer inzichtelijk te maken.
Conclusie: ondersteuning bij complexe besluitvorming
Reinforcement learning is dus een krachtige machine learning-techniek die snel aan populariteit wint door haar vermogen om zelfstandig te leren via trial-and-error, zonder vooraf gelabelde data. Dat maakt de technologie uitermate geschikt voor complexe toepassingen zoals logistieke planning in de haven van Antwerpen-Brugge, waar het ECHODRONE-project aantoont dat reinforcement learning – zelfs met een beperkte trainingsduur – menselijke planners kan overtreffen in efficiëntie.
Ondanks de vele voordelen van reinforcement learning, zoals de inherente flexibiliteit en toepasbaarheid in diverse sectoren, kent de technologie echter ook nog uitdagingen. Vooral op het gebied van betrouwbaarheid, robuustheid en de verklaarbaarheid van beslissingen moeten nog stappen worden gezet. Die aspecten blijven dan ook belangrijke aandachtspunten voor verder onderzoek, en zullen fundamenteel zijn om reinforcement learning-technologie nog breder en veiliger inzetbaar te maken.
Dit artikel verscheen eerder als bijdrage in Engineeringnet magazine.
Ali Anwar werkt sinds 2020 als hoofdonderzoeker bij IDLab – een imec onderzoeksgroep aan UAntwerpen en de UGent. Hij leidt er een team dat zich toelegt op het creëren van contextbewuste controlesystemen – met een speciale focus op autonome vaartuigen.
Ali heeft meer dan 30 peerreviewed wetenschappelijke artikels op zijn naam staan. Zij verschenen in een aantal vooraanstaande academische publicaties op het gebied van AI.
Gepubliceerd op:
12 mei 2025