Datajournalistiek,
zei Stephen
Doig
onlangs, is zoiets als “social science done on deadline”. Niet
ten onrechte, immers het aantal sociale en economische data dat zich
voor die vorm van journalistiek leent neemt exponentieel toe.
Bovendien is het gereedschap nodig voor analyse en visualisaties ruim
voor handen. Een spreadsheetprogramma als Microsoft Excel is een van
de standaarden. Dat ligt voor de hand. Je hoeft niets te installeren
want Office staat meestal toch wel op je machine, omdat Word de meest
gebruikte tekstverwerker is. Het werkt ook wel handig; een toptien,
percentageverschil of een(draai)tabel zijn met enige moeite te maken.
En als je wat dieper in je data wilt duiken is er altijd nog
SPSS(Statistical Package Social Sciences). Toch denk ik dat er vijf
goede redenen zijn om te besluiten R-project
te
gebruiken voor datajournalistiek. Gregor
Aisch,
Open
Knowledge Foundation,
zegt in het Data
Journalism Handbook:
“It
is hard to find any visualization method or data wrangling technique
that is not already built into R. R is a universe in its own, the
mecca of visual data analysis. …Trained data journalists can use R
to analyze huge dataset which extends the limits of Excel”.
Gepubliceerd op: De Nieuwe Reporter: http://www.denieuwereporter.nl/2014/04/vijf-redenen-om-r-te-gebruiken-in-datajournalistiek/
and in English on Memeburn: http://memeburn.com/2014/05/5-compelling-arguments-for-using-r-in-data-journalism/
and in English on Memeburn: http://memeburn.com/2014/05/5-compelling-arguments-for-using-r-in-data-journalism/
Voordelen
1.
R is vrij en het is 'open source'. Dat betekent dat je het gratis
kunt donwloaden, installeren en gebruiken. Voor Microsoft Office
daarentegen en ook voor SPSS moet betaald worden. Bovendien wordt R
voortdurend door de gebruikers zelf verder ontwikkeld. Specialisten
die zelf programmeren stellen hun eigen paketten ter beschikking en
dat opent nieuwe terreinen en instrumenten voor analyse.
2.
R is beschikbaar voor alle verschillende platformen: Windows, Apple
en Linux. Je downloadt het R basispakket voor jouw operating system
en je kunt aan de slag. Handig, want ik raakte lichtelijk in paniek
tijdens een analyse met een groep journalisten die twee
verschillende versies van Excel gebruikten(2003 en 2007 ) en een
Excel versie van Apple en nog een versie van Open Office. Hoorndol
word je van de verschillende menu's, ribbons en contekst afhankelijke
opties.
3.
R is niet zoals Excel een eenvoudig software programma voor het maken
van berekenen, maar een taal die gebruikt wordt in combinatie met
verschillende paketten om een specifieke analyse of berekening uit te
voeren. Wanneer R is gedownload zijn al een aantal standaardpaketten
geinstalleerd, ruim voldoende voor eenvoudige statistische
berekeningen en grafieken. Wil je wat verder? Bijvoorbeeld sociale
netwerk analyse, scraping data, of betere grafieken, dan moeten extra
paketten worden gedownload van de zgn CRAN
servers
. Nederland
heeft er twee in Utrecht en Amsterdam, en op deze mirrors zijn alle
R packages (5449) beschikbaar.
Dat
klinkt ingewikkeld. Inderdaad, R is een omgeving die begint met een
terminal en een kale prompt. Maar gelukkig er zijn ook grafische
interfaces(GUI) voor R die het een stuk makkelijker maken. R
Commander,
is een complete GUI voor gedetailleerde statistische analyse. En R
Studio
werkt heel aardig voor het laden van paketten, exporteren van
grafieken en het werken op een terminal. En de resultaten, kunnen die
ook online? Niet met de bekende 'embedded link, maar met Shiny.
Hiermee maak je interactieve webpagina's van je data en grafieken
uit R Studio.
4.
Als gebruiker van R sta je er niet alleen voor. R kent een
uitgebreide community, die de software onderhoudt, de handleidingen
maakt of voorbeelden van analyse publiceert. Er zijn ook online
trainingen, bijvoorbeeld van Johns Hopkins University's Coursera
course R
Programming.
Een belangrijke bron om te volgen is R-Bloggers,
met kantenklare voorbeelden over scrapen, twitter of een mooi
scatterplot.
5.
De belangstelling voor het gebruik van R groeit. Angela
Hay
van de Mountain
View Voice, een
weekly uit
Silicon Valley omschrijft
R als "a
fast growing language for statistics, forecasting and graphs"
Kijken
we bijvoorbeeld naar het aantal downloads van R, dan ligt dat rond
20-30
per week.
Of naar het aantal Wikipedia pagina's over R dat wordt bekeken;
totaal zo'n 1000
per dag
. Ook de ontwikkeling op de banenmarkt is interessant. De vraag
naar dataspecialisten met kennis van R overtreft de vraag naar SPSS
experts. Ben je als journalist je baan kwijt en je hebt
belangstelling voor data en data journalistiek, dan liggen hier zeker
mogelijkheden.
Moeilijkheid
Met
al die voordelen is er natuurlijk ook een nadeel. Gregor
Aisch:
”
One drawback is that you need to learn (yet another) programming
language as R has it’s own language. But once you have taken the
initial climb on the learning curve, there’s no tool more powerful
than R”.
R is zeker geen programma waar je wat rond clickt in menu's in
afwachting van de tovenarij. Je moet zelf opdrachten geven van af de
prompt in de terminal; van het importeren van je data, het maken van
tabel, het berekenen van randtotalen, tot het tekenen van een
histogram, een kaart of een regressielijn, het is allemaal 'command
driven'. Dat moet je leren, maar dat geldt ook voor Excel. Swirl
is daarvoor een goed, interactief instructieprogramma. Voor de
(beginnende) gebruiker is R-Studio een fantastische omgeving, die
precies bijhoudt welke berekeningen of opdrachten je hebt
uitgevoerd(bij Excel weet je dat nooit!). Ook is het eenvoudig om een
serie bewerkingen om te zetten in een script, om dat later nog eens
te gebruiken.
R
leert je geen statistiek, scrappen of netwerkanalyse. Het past
berekeningen toe op data en je moet zelf besluiten welke dat zijn.
Maar ja, dat moet je ook in Excel. Een goede online training in
statistiek is bijvoorbeeld Stat
Trek.
Natuurlijk, je kunt beide tegelijk doen, je statistische kennis
ophalen en oefenen met R, daar zijn heel aardige boeken voor bij
Amazon.
Ik
begon heel lang geleden met data analyse, eerst gewoon rekenen met
pen en papier, daarna kwam SPSS(op een mainframe) en later kwamen de
spreadsheets. Ik geef les in Excel en ontsluier in trainingen voor
(data) journalisten de geheimen van rijen en kolommen. Dat is zeker
een goed begin. Maar ik denk ook dat het leren van R de moeite waard
is voor datajournalisten. R biedt meer controle, is flexibeler en
biedt meer mogelijkheden.
Geen opmerkingen:
Een reactie posten
Opmerking: Alleen leden van deze blog kunnen een reactie posten.