Ontdekkingen doen in de berg aan Big Data

Steeds meer wetenschappers doen hun onderzoek met data van internet. De weg vinden in het oerwoud van gegevens is niet altijd even gemakkelijk. Ook zitten er nog wat haken en ogen aan werken met big data.

Pop-up page - Big image

Internet en sociale media hebben gezorgd voor een ware explosie aan data. Niet alleen worden alle boeken, kranten en tijdschriften stuk voor stuk gedigitaliseerd, ons menselijk gedrag wordt uitgebreid vastgelegd. Bezoeken aan websites, zoekvragen aan Google, het vriendennetwerk op Facebook – de mens laat grote hoeveelheden digitale sporen na. Deze big data bieden een schat aan informatie.

 

Gezondheidsdata via Google

In Utrecht proberen verschillende wetenschappers in de berg aan data ontdekkingen te doen. Eén van hen is de epilepsieonderzoeker Eric van Diessen. De kinderarts in opleiding in het UMC Utrecht heeft zich de laatste jaren met collega’s Jolien van Campen en Wim Otte verdiept in de mogelijkheden van Google Trends, een website waarmee je per land kunt zien welke woorden mensen intypen in de zoekmachine.

 

Het viel hen op dat in Nederland 14 procent vaker op het woord ‘epilepsie’ wordt gezocht als Sinterklaas in het land is. In andere landen bleef rond die tijd het zoekgedrag naar het woord ‘epilepsie’ gelijk. Dit bevestigt het vermoeden van de onderzoekers dat stress (veroorzaakt door de Sint) zorgt voor een toename aan epileptische aanvallen. Een mooi resultaat van een onderzoek waarvoor het drietal de deur niet uit hoefde.

 

Toch is Van Diessen vooralsnog sceptisch over big data als die van Google Trends: "Je hebt als onderzoeker geen controle over de manier waarop de data is verzameld. Ik ken het algoritme van Google niet. Als iemand het woord epilepsie verkeerd schrijft, wordt het dan wel of niet meegeteld in de hits? Dat maakt de data minder betrouwbaar"

 

Voor hem geldt dat de bevindingen gedaan met Google Trends een extra manier is om je hypothese te testen. “Voor ons epilepsieonderzoek hebben we naast Google Trends ook vragenlijsten gebruikt."

 

Facebookvrienden en jouw succes

Facebook is met 1,5 miljard actieve gebruikers voor Utrechters een bron om menselijke gedrag te onderzoeken. Via het sociale netwerk is te zien hoe mensen met elkaar communiceren en wie met wie verbonden is.

 

Onder leiding van hoogleraar Sociologie Frank van Tubergen gebruiken sociologen momenteel Facebook voor een groot onderzoek onder vierduizend allochtone en autochtone 14-jarigen op honderd verschillende scholen in Nederland. De wetenschappers bestuderen de relaties die ze online hebben en kijken of sociale netwerken van invloed zijn op integratie en studiesucces. Ditzelfde onderzoek wordt ook uitgevoerd in Engeland, Zweden en Duitsland. 

 

Scholieren vullen in dit onderzoek niet alleen traditionele vragenlijsten in, ook hun Facebookprofielen worden met hun toestemming uitgelezen. En dat heeft zo zijn voordelen, aldus collega-hoogleraar Theoretische Sociologie Vincent Buskens. "In enquêtes zitten heel belastende vragen voor scholieren, omdat we willen weten wie hun vrienden, kennissen en familieleden zijn. Als je toegang krijgt tot hun Facebookprofiel kun je in één keer heel veel netwerkdata verzamelen."

 

Door de combinatie van de traditionele vragenlijst en de Facebook-gegevens kun je zien of iemand die een groot offline sociaal netwerk heeft, dat ook online heeft, zegt Buskens. “Of dat scholieren juist online vrienden maken ter compensatie van het feit dat ze moeite hebben om offline vriendschappen te sluiten."

 

Het is volgens Buskens niet gemakkelijk om als socioloog met big data te werken. "Je moet samenwerken met informatici om bijvoorbeeld speciale software te ontwikkelen waarmee de Facebookgegevens zijn op te slaan. Ook moet je leren omgaan met hele grote databestanden. Sociologen zijn niet de grootste techneuten."

 

Buskens waarschuwt tot slot mensen die denken makkelijk te kunnen scoren met big data. "In grote databestanden ga je altijd correlaties vinden, maar de vraag die je je als wetenschapper moet stellen, is wáárom er een verband is."

 

Lezen met een computer

De massale digitalisering van teksten heeft in de geesteswetenschappen de basis gelegd voor het nieuwe vakgebied digital humanities ofwel e-humanities. Met behulp van slimme software doorzoeken deze geesteswetenschappers gigantische tekstbestanden op zoek naar verbanden die met het blote oog moeilijker te vinden zijn. 

 

Historicus Pim Huijnen is één van hen. Hij werkt als postdoc voor Translantis, een onderzoeksproject van de Universiteit Utrecht en de Universiteit van Amsterdam. Samen met zijn collega’s onderzoekt hij welke rol de Verenigde Staten in het Nederlandse publieke debat speelden tussen 1890 en 1990. Met behulp van zogeheten text-miningsoftware wordt 500 gigabyte aan kranten uit die jaren onderzocht en wordt gekeken in welke context er over de VS geschreven is. 

 

Huijnen vindt het werken met big data veelbelovend. "Als je vroeger historisch krantenonderzoek deed, moest je heel selectief te werk gaan. Het was gewoonweg niet te doen om alle kranten van a tot z te lezen. Nu kunnen we dankzij de digitalisering van kranten en nieuwe software veel makkelijker zoeken en krijgen we een veel completer beeld van alles wat relevant is. Zo stuitten we op teksten die we anders waarschijnlijk nooit hadden gevonden."

 

Hoewel Huijnen positief is over de nieuwe methode, blijkt de softwarematige aanpak in de praktijk nog best lastig. "We hebben nog moeite met tekstherkenning.” De kranten, legt hij uit, waren niet allemaal van de beste kwaliteit toen ze werden gedigitaliseerd, waardoor bijvoorbeeld niet alle woorden goed leesbaar zijn. Het oplossen van dit type problemen ziet hij als een uitdaging: “We moeten een goede methodologie ontwikkelen om op deze manier historisch onderzoek te doen."  

Tekst: Ernst-Jan Hamel  I  Illustratie: Helga Wellink

big-data-onderzoek

 
16/29
Klik op het menu voor inhoud en andere functies.

Gebruik de pijlen aan de zijkant om door het magazine te bladeren.
Loading ...