TopiBlog: Ter land, ter zee en into data science
06 augustus 2018
Ik ben Jeffrey Luppes en doe een master informatica aan de Radboud Universiteit. Ik volg de specialisatie Data Science, wat een soort van overlappend gebied is tussen de big-data tak van Software Engineering, old-school statistiek en kunstmatige intelligentie. Ik doe een korte onderzoeksstage bij Topicus om meer ervaring op te doen in de praktijk.
Buiten de stage zit ik veel in mijn zeekajak en trek ik er vaak op uit voor lange trektochten in de natuur, de grote rivieren of op de zee. Sinds een jaartje geef ik ook instructie aan onze beginnersgroep en soms ben ik verantwoordelijk voor het leiden van een groep op de wat rustigere binnenwateren van Nederland. Bij het kajakvaren komen aspecten, zoals veiligheid, communicatie, leiderschap en groepsgedrag kijken. Vaardigheden die ik ook tijdens mijn studie toepas.
Voor mijn stageopdracht zit ik ‘vast’ op het land en werk ik aan de applicatie Findesk. Findesk is een applicatie voor financieel adviseurs en wordt ontwikkeld door Topicus. Ik onderzoek de opties van machine learning om hypotheekadviseurs suggesties te geven over welke hypotheek het beste bij hun klant past.
Aan de slag met datavraagstukken
Als stagiair ben ik verbonden aan een team van data scientists en analisten van de divisie Finance. Ze pakken voornamelijk de datavraagstukken op. Denk hierbij aan ETL-processen, slimme dashboards, Predictive Analytics en Machine Learning. Ik word meegenomen in veel van wat het team doet, gebruik dezelfde tools en ga mee in de discussies die tijdens de demosessies ontstaan. Met mijn stagebegeleiders stel ik per sprint van twee weken een aantal doelen vast waar ik me op ga richten en verder draai ik gewoon mee met het team. Toch heb ik veel autonomie in mijn project. Keuze van wat ik doe, welke tools en programmeertalen ik gebruik etc., hangt allemaal van mijn eigen interesses af.
Ik zie het als mijn taak om goed uit te leggen wat we doen en hoe dat tot stand komt. We kennen allemaal de grote dataschandalen en datalekken van Facebook en consorten en “iets met data” heeft nog wel eens een bittere Orwelliaanse nasmaak. Ik wil bewijzen dat je met data nuttige dingen kan doen, op een compliant manier.
Topicus heeft als organisatie vrij vroeg ingezet op data waardoor er al expertise aanwezig is. Voor mij als stagiair is het dus een prima stageplek. Wat me aantrekt aan het werken bij Topicus is dat wat ik leer nu kan toepassen in de praktijk.
Toepassing van tools en technieken
Tijdens mijn stage werk ik veel in Python en JavaScript. Mijn Machine Learning ideeën werk ik uit in een Jupyter notebook – een dynamische omgeving waar je zowel code als visualisaties kan zien. Zo kan ik in één enkele omgeving mijn data door middel van diagrammen en dergelijke verkennen, bewerken, de distributies van de data plotten enzovoort, maar ook mijn machine learning modellen trainen en ze evalueren. Pas later implementeer ik het daadwerkelijk in een “proof of concept” omgeving in Python en JavaScript en draait het achter een API + web app dat ik voor deze gelegenheid geschreven heb.
De voornaamste technieken en tools die ik hiervoor gebruik zijn o.a. JupyterLab, Pandas, Numpy, Sklearn, Seaborn, Tensorflow, Keras, Flask, SQL Server, en XGBoost. Ook gebruik ik open databronnen zoals bijvoorbeeld het CBS.
Toegevoegde waarde voor Topicus
Topicus kan met onze bevindingen hun producten verbeteren, zodat een hypotheekadviseur er meer uit kan halen. Zou het bijvoorbeeld niet fijn zijn als een systeem voor een adviseur inschat welk product het nuttigste is voor de klant en deze automatisch op relevantie voor hem of haar rangschikt? Een andere mogelijke toepassing is dat de adviseur wordt voorzien van gepersonaliseerde tips om de klant nog beter van dienst te zijn. Hierdoor neemt de waarde van het hypotheekadvies toe.
Meer weten over Data Science?
Voor Data Science zijn er een paar bloeiende communities. Op kaggle.com worden continu data-wedstrijden georganiseerd, waar soms enorme geldbedragen aanhangen. KDnuggets.com en towardsdatascience.com zijn plekken waar je op je gemak het een en ander kan lezen. Wil je dieper op de materie ingaan, maar ben je nog niet bekend met Data Science? Andrew Nq, een beroemde onderzoeker en ondernemer, heeft op Coursera een goede Machine Learning cursus staan, die ik aanraad!
Meer informatie?
Kijk op de website van Stages voor meer informatie of neem contact op met Leon Kooijker