Big data en kunstmatige intelligentie

De data scientist als medisch journalist

© wladimir1804 / stock.adobe.com

Wat betekent machine learning voor de zorg en hoe werken artsen en data scientists samen aan de ontwikkeling van algoritmen? In een serie blogs geven data scientist Janine Khuc en arts Caroline Yntema antwoord op deze vragen. In deel 2 het in de context plaatsen van data.

In deel 1 van deze serie gingen we in op de huidige medische evidence en de potentie van de enorme hoeveelheden data die in de zorg worden gegenereerd om zo van gemiddelde naar individuele behandeleffecten te gaan. Deel 2 gaat over de uitdagingen die de interpretatie van deze data met zich meebrengt.

Slechts één perspectief

Wanneer een arts formuleert wat er mis is met een patiënt en een behandeling kiest, integreert hij of zij de resultaten van medische onderzoeken en observaties, maar niet al deze informatie wordt vastgelegd. Als zodanig weerspiegelt alles wat wordt vastgelegd in data slechts één perspectief van de werkelijkheid.

_________________________________________________________________________________________

Abonneer u nu op de nieuwsbrief van QruxxTech en krijg daarmee iedere maandag een update van alle artikelen, blogs en nieuwsberichten.

___________________________________________________________________________________________

Zonder kennis van de factoren die de beslissing beïnvloeden, is het moeilijk om te leren welke factoren efficiënte behandelingen aandrijven. Om deze reden is de geregistreerde data een incomplete weerspiegeling van de werkelijkheid en alles wat van de data kan worden geleerd kan nooit de hele complexiteit van een patiëntencasus representeren.

Data in de context

Data-scientists zijn net journalisten. Ze willen het verhaal vertellen van de data die artsen genereren. De ervaringen van artsen en patiënten worden weerspiegeld in de deze data. Deze overvloed aan beschikbare data is niet alleen een kans om persoonlijke ervaringen te weerspiegelen, maar ook een uitdaging. De gegenereerde data vormt op zich nog geen bewijs. Om data om te zetten in bewijs, moeten we de data grondig beoordelen in zijn context. Op dezelfde manier zal een goede journalist altijd verwijzen naar en nadenken over de context waarin een ervaring werd uitgedrukt, terwijl een slechte journalist zinnen uit hun context haalt om hun eigen verhaal te maken, ongeacht de waarheid.

Wanneer een goede journalist grondig onderzoek doet naar een gebeurtenis en de context, zal het verhaal dat hij of zij schrijft via de krant een positief effect hebben op alle mensen die het lezen; zij zijn goed geïnformeerd. Hetzelfde geldt voor een data-scientist die (in samenwerking met artsen) van beschikbare trial and error data een model ontwikkelt om het effect van een behandeling te voorspellen. Alléén als de data-scientist de data nauwkeurig onderzoekt in de context, zal het model een positief effect hebben op vele patiënten; zij krijgen een effectieve behandeling op maat.

Om het verhaal uit de data te delen dat zo dicht mogelijk bij de werkelijkheid komt, moet dit om bruikbaar bewijs te worden in de context worden geplaatst om zo het besluitvormingsproces intelligenter te maken. En als medische gegevens een waarheidsgetrouw verhaal of bruikbare ‘evidence’ moeten worden, wie zou het dan beter kunnen contextualiseren dan d gene die de data verzamelt; de medische professional zelf?

Extractie van individuele behandeleffecten

Waar we naar op zoek zijn, is de beste behandeling voor de individuele patiënt. Maar helaas kunnen we dit niet zomaar uit de data halen.

In een ideale wereld zou het effect van iedere behandeling getest zijn voor ieder individu. Om het effect van een behandeling te beoordelen is een controlebehandeling met placebo echter noodzakelijk. En we hebben helaas geen toegang tot een parallel universum waarin we de behandeling en een placebo simultaan kunnen beoordelen. Daarom zijn individuele behandeleffecten eigenlijk niet onderzocht en kunnen deze alleen worden geschat met behulp van proxy’s.

Tot nu toe zijn RCT’s een nette manier om dit probleem van niet-geobserveerde uitkomsten te omzeilen geweest. Door beide behandelingen willekeurig aan groepen toe te wijzen, kan het voordeel van een behandeling worden bepaald op basis van de aanname dat de twee groepen relatief vergelijkbaar zijn. Vanwege deze aanname kan elk voordeel van de gevonden behandeling op zichzelf aan de behandeling worden toegeschreven. Echter betekent dit ook dat informatie die wordt geëxtraheerd uit gerandomiseerde gecontroleerde onderzoeken alleen van toepassing is op de subpopulatie die deel uitmaakt van de studie en het effect niet één-op-één van toepassing is op personen buiten deze populatie.

Het probleem van de prescriptie-bias

In de praktijk schrijven artsen niet willekeurig voor. Dit maakt het moeilijk om direct middels observationele data over de effectiviteit van behandelingen te leren en vergelijken en we moeten ons hiervan bewust zijn. Als het ene medicijn wordt voorgeschreven bij relatief zieke patiënten kan het lijken alsof deze behandeling zelden slaagt, en als een ander medicijn meestal wordt voorgeschreven aan minder zieke patiënten, dan lijkt de tweede misschien altijd te werken.

Dit effect (of deze bias) wordt weerspiegeld in de gegevens die we invoeren in het machine learning model. Daarom leidt het gedachteloos invoeren van gegevens in computers alleen maar tot vervormde beelden van behandeleffectiviteit. Hoewel statistische methoden beschikbaar zijn om deze vooroordelen te verminderen, hebben we medische professionals nodig die ons helpen de factoren te begrijpen die typisch hun besluitvorming beïnvloeden om deze mee kunnen nemen in het verhaal.

 Janine Khuc en Caroline Yntema zijn als data scientist en arts verbonden aan Pacmed. Pacmed ontwikkelt beslissingsondersteunende tools, gebaseerd op de analyse van zorgdata. In deel 3 van deze serie zullen zij ingaan op het belang van betrokkenheid van medische professionals bij het ontwikkelen van algoritmen en hoe hun expertise helpt bij het onderscheiden van signalen en ruis.

Reacties