vrijdag 14 juni 2019

Habermas 90!

Die Zeit is a great newspaper, still a broad sheet, wide pages for more than 200 words and it smells like a newspaper. From the all the  sections one is very interesting: FEUILLETON, dedicated to 90th birthday of Habermas. A crowed of professors are given their opinion on the greastest living philosopher. A must read!

dinsdag 11 juni 2019

WORDT DE DATAJOURNALIST OOK DATASCIENTIST?


Ga ik nu echt met pensioen? Het merendeel van de journalisten beheerst tegenwoordig het bekende Excel spreadsheet en het maken van een grafiek of een kaartje met bijvoorbeeld Tableau of Plotly. In Tanzania by Mwananchi (Citizen) of Habari Leo (Daily News), werken journalisten met deze standaardtools. Het probleem is alleen dat de overheid de krant een verschijningsverbod oplegt als de cijfers niet passen in het overheidsbeleid. En als je niet op past beland je achter de tralies.

R in de mode
Trainingen voor financieel-economisch journalisten, tijdens Highway Africa Barclays/ABSA training, leerde mij dat we verder moeten gaan dan dit standaardgereedschap. Bij deze meer gespecialiseerde journalisten is belangstelling voor meer statistisch achtergrond bij de data. R is daarbij een goede start: https://www.denieuwereporter.nl/2014/04/vijf-redenen-om-r-te-gebruiken-in-datajournalistiek/
Binnen de datajournalistiek is R 'hot'. In trainingen van the IRE zit standaard een module over werken met R.
The Economist besloot onlangs analyse van data en visualisaties , gemaakt in R, the publiceren op Github. Je kunt ze gemakkelijk downloaden en zo zelf de analyse opniew uitvoeren. De Big Mac Index is een aardig voorbeeld( https://github.com/TheEconomist/big-mac-data ) Economische data voor Sub Sahara Africa ontbreken bij de Economist. Een aardige trainingsopdracht was die data te vinden en vervolgens een Big Mac Index te berekenen voor Sub Sahara Africa.
Ook de BBC besloot meer aandacht aan R te schenken; in het bijzonder visualisering met R(https://medium.com/bbc-visual-and-data-journalism/how-the-bbc-visual-and-data-journalism-team-works-with-graphics-in-r-ed0b35693535 )

maandag 10 juni 2019

NEDERLAND 5% KANS OP WINNEN VAN DE FIFA WOMEN' S WORLD CUP

AI -a random forest ensemble learner- voorspelt:
NEDERLAND 5% KANS OP WINNEN VAN DE FIFA WOMEN' S WORLD CUP

AI is ook doorgebroken in het voorspellen van sportwedstrijden. R-Bloggers - https://www.r-bloggers.com/hybrid-machine-learning-forecasts-for-the-2019-fifa-womens-world-cup/ - publiceerde onlangs de voorspellingen van een onderzoek dat gebruikt maakt van random forest, een programma dat gebruik maakt van artificiele intelligentie software.

De voorspellingen zijn gebaseerd op de volgende data:
- een schatting van de sterkte gebaseerd op een reeks historische matches;
- een schatting gebaseerd op de voorspellingen van 18 bookmakers;
- een aantal teamvariabelen en een aantal variabelen die specifiek zijn voor elk land.


Met deze data wordt het random forest algoritme getraind en een model geconstrueerd.
Met dit model:
- wordt de kans op 'winnen, verliezen, of een gelijk spel' berekend;
- en tenslotte de kans op winnen van de FIFA Women' s World Cup  2019.

Dit is een interessante ontwikkeling, die ook nieuwe mogelijkheden opent voor de sportjournalistiek in het algemeen en de datajournalistiek in het bijzonder.





 



dinsdag 4 juni 2019

Airdroid connect your phone to pc

I had a backup of all my apps. Huray! My phone crashed again.  It is an old Samsung S5, working fine but could not root it using the standard method flashing an root image using Odin/Jodin(for Linux). Let's try some new Magisk  seems an easy to use tool. No way...I had to flash a stock Rom for the S5.

The  update of the apps was made with Airdoid, and in no time I had restored my apps.
Airdroid is an app that must be installed on your phone. After installation create an account. And then you can login to your phon using a local address in your browser.
First you have access to all the files and apps of your phone and second back up apps or install new one. The most important option are in security and remote features : finding your phone, when lost or stolen, remote control or using your phone as a webcam.


donderdag 9 mei 2019

Ad blocking over VPN

Have a Raspberry Pi in one of my drawers. Found a new job: blocking web advertisement over a VPN. Just install Pi-Hole and PIVPN (openvpn) on the Raspberry. Now I run for free a VPN that blocks all these annoying ads and trackers. There are lots of howto's available for installing. Here is an example.
On the pic below you see on the right mobile phone connection to the VPN,  the log of the VPN server and left Pi Hole data.



woensdag 17 april 2019

Google colaboratry: datajournalists' little helper

Jupyter notebooks are very helpful to share and publish your R code. See more: https://d3-media.blogspot.com/2017/09/jupyter-notebook.html .  However one has to install the software. Now Google has an interesting solution: jupyter notebooks online. To access the notebook go to Google drive and look for colab or colaboratry. If not present install the app: drive, new, more , connect to apps. There is one limitation, that is you can only use python code. Pity because I like R better.

Start to enter the code or add comment  with #. Run the code immediately to see the result. The amazing thing is that you have access to all kind of machine learning software like 'random forest' or 'tensor-flow'. And you run your code free on a GPU. Try to build a model for your prediction.
Here is an example to build a classification.


Of course Google offers help to get started: https://colab.research.google.com/notebooks/welcome.ipynb or try this intro with lot's of extra info: https://towardsdatascience.com/getting-started-with-google-colab-f2fff97f594c .
There is also a free book online to introduce python and the basics of data science: https://github.com/jakevdp/PythonDataScienceHandbook 

donderdag 14 maart 2019

KAGGLE: IS THERE DATA JOURNALISM IN MACHINE LEARNING(4)

The answer is YES, there is data journalism in machine learning. For example there are sessions at IRE 2019 training for machine learning. Here are a few other links relating data journalism and machine learning:

Is there any use of the learning in the newsroom?


What could be the output for data journalist working with machine learning?
I have done some experiments in R at Kaggle using a data set about Dutch municipalities.

1. Clustering using kmeans: makes it possible to generate meaningful clusters of municipalities based on income, population, house value, unemployment etc. Although not very impressive, it is possible to create various centers or clusters  in the data: large municipalities; high income municipalities, and high unemployment. Here is the kernel with the coding and the results: https://www.kaggle.com/peterverweij/clustering-gemeentedata-using-kmeans 


2. Predicting using a simple Linear Model: using two variables in the data set: income and house value. A plot of the data show that there is a strong relationship, shown also by the regression line. Creating a linear model for these variables makes it possible to predict for example income from the value of the house
3. Predicting using randomForrest: The linear model is simple and works for interval variables. But predicting nominal values, for example gender or political party of the mayor, requires a different approach. RandomForrest provided interesting outcomes.
Here is the link to both predicting models: https://www.kaggle.com/peterverweij/prediction-simple-machine-learning
Dat journalists have to dig deep into statistics, but these example show that there is added value for reporting. These example are of course limited; there is a whole set of different machine learning algorithms in R available; i have only tried two. Here is the list:
https://www.kdnuggets.com/2015/06/top-20-r-machine-learning-packages.html

https://www.r-bloggers.com/what-are-the-best-machine-learning-packages-in-r/