
Data science: mogelijkheden, valkuilen en tips
donderdag 6 april 2023, 12:48Data science is al lang geen wetenschap meer. Vandaag de dag is data science iets waar elke organisatie wat mee kan en is big data voor iedereen beschikbaar. Je kunt data science bijvoorbeeld inzetten voor het screenen van cv’s en opzetten van gepersonaliseerde marketingcampagnes. Toch moet je voorzichtig te werk gaan, zodat je niet in de data science valkuilen loopt! Hoe zorg jij dat je slim en ethisch met big data en data science omgaat?
Steeds meer organisaties gebruiken data science. Dat is logisch, want er zijn steeds meer, voordeligere data science tools beschikbaar. Bovendien neemt de hoeveelheid big data exponentieel toe. Juist deze gegevens zijn de brandstof voor data science en een bijbehorende datagedreven business. Wat voor big data hebben we het dan over? “Denk aan verkeersinformatie, data van gemeenten en datasets over de volksgezondheid. Binnen enkele minuten heb je dergelijke gegevens wel gevonden”, zegt Peter Anema, docent van de training ‘Python for data science’ bij Computrain. In deze vijfdaagse training vertelt Peter ontwikkelaars alles over het vak van data science. Na afloop kunnen de deelnemers van de Python for data science training door middel van big data en data science nuttige inzichten uit hun eigen data en openbare gegevens destilleren.
Wat is data science?
Data science is vakgebied waarbij je bruikbare informatie uit grote hoeveelheden big data filtert. Deze big data is verspreid en ongestructureerd opgeslagen, in verschillende formats. Door middel van data science kun je deze gegevens doorspitten, analyseren en vertalen naar praktische inzichten. Daarbij maakt data science gebruik van statistiek, algoritmes en andere wiskundige methoden. Het vak van data science wordt meestal uitgevoerd door data analisten en data scientists. Data analisten verzamelen de big data en schonen die op. Vervolgens passen data scientist algoritmes toe om de gewenste informatie uit deze data te destilleren.
De mogelijkheden van data science
Weersvoorspellingen, fileverwachtingen, digitale persoonlijke assistenten en tips van streaming services – data science brengt vele voordelen met zich mee. “Maar het gebruik van data science heeft ook een paar diepe valkuilen. Als je data science inzet, moet je goed opletten om daar niet in te lopen. Voorbeelden van data science valkuilen zijn de manier waarop de algoritmes van de Belastingdienst door etnische profilering de toeslagenaffaire veroorzaakten en de wijze waarop het bedrijf Cambridge Analytica Facebook data misbruikte om diverse verkiezingen te beïnvloeden”, licht Anema toe. “Een data science algoritme moet geen black box worden: als data scientist moet je altijd weten hoe een algoritme werkt, anders volgt het data science algoritme zijn eigen pad, met alle gevolgen van dien.”
Data science valkuil: etnische profilering
De toeslagenaffaire bij de Belastingdienst ligt nog vers in ons geheugen. Dit is een bekend voorbeeld van een onbedoeld data science effect met verstrekkende gevolgen. Nog steeds ondervinden gedupeerde ouders problemen van een data science algoritme dat tussen 2012 en 2015 burgers met een dubbele nationaliteit sneller selecteerde voor extra controles. Deze etnische profilering is een schoolvoorbeeld van de bekende data science valkuil: een data science algoritme dat een black box is en zo ongemerkt zijn eigen weg gaat. “De Belastingdienst had een selectieregel in zijn systemen ingebouwd. Deze regel selecteerde aangiftes voor controle aan de hand van vijf criteria. Eén van deze criteria was het hebben van een dubbele nationaliteit”, volgens het dagblad Trouw.
Data science valkuil: misbruik van persoonsgegevens
Het bedrijf Cambridge Analytica had rond 2016 toegang tot grote aantallen big data van Facebook. Deze persoonsgegevens gebruikte het bedrijf om zwevende kiezers in verschillende verkiezingscampagnes te beinvloeden. Dat deed het bedrijf door deze kiezers op basis van de beschikbare big data met data science te identificeren en vervolgens gepersonaliseerd te benaderen via social media. Dat gebeurde onder ander in de verkiezingscampagne van Donald Trump en de Brexit-campagne. Een vorm van microtargeting en beïnvloeding, mede mogelijk gemaakt door big data en data science. Dit Cambridge Analytica-schandaal laat maar weer zien hoe belangrijk het is om te weten hoe een algoritme werkt.
Maatschappelijke mogelijkheden van data science
Data science en big data bieden ook grote maatschappelijke voordelen. Een aansprekend voorbeeld daarvan zagen we in de coronacrisis. Tijdens de lockdowns kon het RIVM met data science de besmettingsaantallen, ziekenhuisbezetting en andere trends voorspellen. Welke rol spelen kinderen bij de virusverspreiding en wat is het effect van bepaalde maatregelen? Ook bij dergelijke vraagstukken bood data science uitkomst. Tegenwoordig worden big data en data science nog ingezet om de verspreiding van het coronavirus en andere virussen in de gaten te houden. Ook hier is waakzaamheid geboden. Je moet in de gaten blijven houden of een data science algoritme geen verkeerde verbanden legt of dingen over het hoofd ziet.
Waarom een Python for data science training?
“Voorziet een data science algoritme je wel van de gewenste informatie? Begrijp je de resultaten? Dergelijke vragen met je jezelf als data scientist blijven stellen. Zo houd je als Python ontwikkelaar grip op jouw data science algoritme. En zorg je dat de mens de regie heeft over de technologie… en niet andersom. Zorg ook dat je je altijd bewust bent van de conservatieve werking van data science; big data uit het verleden bepaalt de toekomst”, legt Anema uit. Wil je zeker weten dat een data science algoritme geen eigen leven gaat leiden? Volg dan de training Python for data science. Hierin leer je hoe je onbedoeld misbruik van een data science algoritme voorkomt. Ontwerp je bijvoorbeeld een persoonsscreening-tool voor sollicitaties? Dan kun je beter geen functionaliteit inbouwen om op geslacht of afkomst te selecteren.
Bij Python for data science staat de vraagstelling centraal
Bij het begin van de training Python for data science bepalen de deelnemers hun vraagstelling. Tijdens de training proberen ze hierop antwoord te krijgen. Hoe? Door het antwoord op hun data science vraag uit de beschikbare big data te filteren, zoals uit datasets met demografische gegevens. “We kijken in de Python for data science training altijd naar actuele uitdagingen. Zo hebben we tijdens de coronacrisis de Nederlandse gegevens van het RIVM, Europese en wereldwijde datasets gebruikt om voorspellingen te doen”, zegt Anema. “We hebben bijvoorbeeld de besmettingsgraad in verschillende landen vergeleken door deze af te zetten tegen het aantal inwoners.” Op deze praktische manier leren deelnemers om data science inzichten te verkrijgen en deze objectief te vergelijken.
Bring your own data bij de training Python for data science
Deelnemers aan de training Python for data science gebruiken uiteenlopende datasets, van openbare big data tot hun eigen databases. Anema: “Dat noemen we bring your own data. Op deze manier leren deelnemers meteen hoe ze de opgedane kennis in de praktijk kunnen brengen en hebben ze daar direct wat aan in hun dagelijks werk. In de training Python for data science behandelen en doorlopen we het data science traject van start tot finish. We starten bij het verzamelen van big data, kijken hoe je die data analyseert en opschoont, en uiteindelijk vertaalt naar tabellen en diagrammen. Tot slot kijken we ook hoe je met data science statistiek kunt voorspellen en daarbij machine learning kunt inzetten.”
Data science speelt een steeds belangrijkere rol in onze maatschappij. Dat blijkt wel uit de data science fouten uit het recente verleden, zoals bij de toeslagenaffaire en het Cambridge Analytica-schandaal. Maar ook uit de manier waarop data science en big data ons geholpen hebben om uit de coronacrisis te komen. En niet te vergeten biedt data science veel zakelijke kansen, zoals gepersonaliseerde marketing, een gestroomlijnde productie of voorraadvoorspellingen. Redenen genoeg om hier als organisatie en professional snel mee aan de slag te gaan!
Benieuwd hoe je data science slim en ethisch inzet?
Lees meer over de training Python for data science>>
(i)Trouw, https://www.trouw.nl/economie/belastingdienst-erkent-toch-sprake-van-etnisch-profileren~b91d1a45/