dinsdag 11 juni 2019

WORDT DE DATAJOURNALIST OOK DATASCIENTIST?


Ga ik nu echt met pensioen? Het merendeel van de journalisten beheerst tegenwoordig het bekende Excel spreadsheet en het maken van een grafiek of een kaartje met bijvoorbeeld Tableau of Plotly. In Tanzania by Mwananchi (Citizen) of Habari Leo (Daily News), werken journalisten met deze standaardtools. Het probleem is alleen dat de overheid de krant een verschijningsverbod oplegt als de cijfers niet passen in het overheidsbeleid. En als je niet op past beland je achter de tralies.

R in de mode
Trainingen voor financieel-economisch journalisten, tijdens Highway Africa Barclays/ABSA training, leerde mij dat we verder moeten gaan dan dit standaardgereedschap. Bij deze meer gespecialiseerde journalisten is belangstelling voor meer statistisch achtergrond bij de data. R is daarbij een goede start: https://www.denieuwereporter.nl/2014/04/vijf-redenen-om-r-te-gebruiken-in-datajournalistiek/
Binnen de datajournalistiek is R 'hot'. In trainingen van the IRE zit standaard een module over werken met R.
The Economist besloot onlangs analyse van data en visualisaties , gemaakt in R, the publiceren op Github. Je kunt ze gemakkelijk downloaden en zo zelf de analyse opniew uitvoeren. De Big Mac Index is een aardig voorbeeld( https://github.com/TheEconomist/big-mac-data ) Economische data voor Sub Sahara Africa ontbreken bij de Economist. Een aardige trainingsopdracht was die data te vinden en vervolgens een Big Mac Index te berekenen voor Sub Sahara Africa.
Ook de BBC besloot meer aandacht aan R te schenken; in het bijzonder visualisering met R(https://medium.com/bbc-visual-and-data-journalism/how-the-bbc-visual-and-data-journalism-team-works-with-graphics-in-r-ed0b35693535 )


Een analyse in R is eigenlijk een klein programmaatje; een serie opdrachten vanaf de command prompt. Dus een Big Mac Index is dus een stukje code in R. Omdat dit te delen met anderen, gebruikt je een jupyter-notebook formaat (https://d3-media.blogspot.com/2017/09/jupyter-notebook.html ) . Ook de Economist biedt dit soort notebooks aan om hun berekeningen te volgen. In een training staan de belangrijkste stappen voor de index al genoteerd in zo'n notebook. Na het invoeren van de data door de deelnemers volgt de berekening van de index en de visualisaties.

Model en voorspelling
Financieel-economisch journalisten zijn vooral geinteresseerd in verbanden tussen variabelen en voorspellingen. Een klassiek voorbeeld is de groei van BNP(bruto nationaal product) in relatie met aantal internet verbindingen, of toename van de levensverwachting bij groei van BNP en budget gezondheidszorg. Mobile banking en het effect op de economie is een andere hot topic.
Met een simpel lineair model zoals regressie, zijn gemakkelijk voorspellingen te doen. Met een behoorlijke foutenmarge, afhankelijk van de data. Echter het idee van voorspellen op grond van een model is zo snel inzichtelijk te makente maken.

Gezichtsherkenning
De praktijk is een stap verder. De NYTimes berichtte onlangs dat het mogelijk was data van openbare surveillance camera's te gebruiken en de beelden te draaien op foto-herkennings-software van Amazon: https://www.nytimes.com/interactive/2019/04/16/opinion/facial-recognition-new-york-city.html . Niet zo moeilijk en de kosten waren zeer beperkt! Dit artikel is een van een reeks over privacy(https://www.nytimes.com/interactive/2019/opinion/internet-privacy-project.html?action=click&module=Opinion&pgtype=Homepage ) en toont op verschillende manieren aan hoe onze privacy onderdruk staat. Het toont ook aan dat Machine Learning, Articial Intelligence(AI), niet alleen voor datascientist is. Herkennen van plaatjes, stemherkenning, muziekherkenning etc. zijn modules die volop in gebruik zijn. Ook kun je zelf met wat meer kennis nieuwe modellen bouwen voor het maken van voorspellen. Google speelt een belangrijke rol bij de ontwikkeling van deze deep learning software, zoals TensorFlow, dat als open source ter beschikking wordt gesteld.


Tensorflow voor het schatten van WOZ op grond van 6 andere variabelen( https://www.kaggle.com/peterverweij/kernel-tensorflow-woz )



Nederlandse gemeenten

Laten we eens een voorbeeld nemen dichter bij de datajournalistiek: Nederlandse Gemeenten en de politieke kleur van de burgemeester. Hier is de struktuur van de datamatrix:


'data.frame':   415 obs. of  12 variables:
 $ ID            : int  0 1 2 3 4 5 6 7 8 9 ...
 $ GEMEENTE      : Factor w/ 415 levels "'s-Gravenhage",..: 3 4 5 6 7 8 9 10 11 
 $ BEVOLKING     : num  25721 12746 30446 27299 28070 ...
 $ GESLACHT      : Factor w/ 2 levels "m","v": 1 1 1 1 1 1 1 1 1 2 ...
 $ BURGEMEESTER  : Factor w/ 413 levels "Aaltina Evenhuis-Meppelink",..: 95 102 
 $ PARTIJ        : Factor w/ 7 levels "CDA","CU","D66",..: 5 1 7 1 2 5 7 1 7 
 $ GEM_INKOMEN   : num  13400 12500 14700 11900 11400 12300 15100 13200 11900 
 $ GEM_WOZ       : num  255000 277000 301000 223000 196000 217000 277000 196000 
 $ WW_PER_100    : num  19 10 12 17 21 11 11 14 23 18 ...
 $ AUTOBEZIT     : num  488 470 499 460 448 ...
Deze (oude) data zijn een combinatie van 'kroonbenoemde benoemde burgemeesters' en het scrapen van data van wikipedia pagina's van Nederlandse gemeenten. Het begint natuurlijk met beschrijvende statistiek, de verdeling op de verschillende variabelen, zoals hoeveel mannen/Vrouwen welke partij levert de meeste burgemeesters etc.
Dan het analytische deel: de verbanden: is er een verband tussen geslacht en politieke partij? Of wel een procentuele vergelijking in een kruistabel, of een Chi-kwardraat laat zien of er een verband is.
Inkomen en WOZ-waarde ligt voor de hand: Pearson correlatie geeft de sterkte van de samenhang. Een regressielijn en een scatterdiagram visualiseert dit verband.

Voorspellen en categoriseren
Op grond van de regressie is een lineair model te maken een daarmee de WOZ waarde te voorspellen op grond van inkomen. En verder? Eigenlijk is de dataset te klein voor deep learning; desondanks geeft het een indruk van de mogelijkheden.

1. Kunnen we ook verschillende soorten gemeenten onderscheiden; groepen van gemeenten? Met behulp van bijvoorbeeld K-Means lukt het on grote steden als een afzonderlijk groep te benaderen. rijk en arm, hoge en lage werkloosheid, lukt minder omdat de data toch te dicht bij elkaar liggen.

2. Kunnen we ook de politieke kleur van de burgemeester of het geslacht voorspellen op grond van de andere variabelen? Met een model gebaseerd op 'Random Forest' (een model gebaseerd op Decision Trees) lukt dat heel aardig, binnen een foutenmarge.

3. Een tenslotte is de WOZ waarde te voorspellen op grond van de andere variabelen? Met Tensorflow en Keras geeft ook dit model een aardige voorspelling; na wat fine tuning daalde de fout van 253923 tot 34217. Keras is een API voor TensorFlow. TensorFlow van Google is een open source software voor machine learning gebaseerd op de idee van een 'neural network'.
Deze simpele voorbeelden laten zien dat machine learning software ook in de data journalistiek een toepassing vindt. Voldoende om wat meer onderzoek te verrichten naar de mogelijkheden. De datajournalist wordt een beetje datascientist. Geen pensioen; voorlopig is er denk ik nog genoeg te doen!

Noot
Peter Verweij (peter@d3-media.nl), werkte als docent aan de SvdJ te Utrecht en is nu consultant en trainer datajournalistiek in Afrika.
Wie geinteresseerd is in de berekeningen bij het bovenstaande voorbeelden: volg mijn (datasets en) kernels op kaggle.com: https://www.kaggle.com/peterverweij/kernels .
Voor meer achtergronden over machine learning, over kaggle.com: zie verschillende postings op mijn blog https://d3-media.blogspot.com/ .







Geen opmerkingen:

Een reactie posten

Opmerking: Alleen leden van deze blog kunnen een reactie posten.