Scraping is
belangrijk gereedschap in de datajournalistiek. Het importeren van
data in een spreadsheet vanaf een webpagina of een database, lukt
niet altijd met simpel copy-paste en download. Outwit-Hub is een
aardige tool om deze klus te klaren, maar ook die schiet soms te
kort. Dan zelf maar een scraper maken. Scraperwiki is de place to go.
Paul Bradshaw besteedt daar in “Scraping for Journalists”
uitgebreid aandacht aan
(http://www.denieuwereporter.nl/2013/05/paul-bradshaws-recepten-voor-datasoep/)
.
Onlangs werd
scraperwiki vernieuwd en dat gaat niet om een nieuw jasje of een
nieuwe interface, ook de opzet is anders. Gelukkig kun je de recepten
van Bradshaw blijven gebruiken.
Gepubliceerd op Nieuwe Reporter: http://www.denieuwereporter.nl/2013/07/scraperwiki-is-vernieuwd/
Memeburn: http://memeburn.com/2013/07/data-journalist-heres-how-to-deal-with-the-changes-to-scraperwiki/
Gepubliceerd op Nieuwe Reporter: http://www.denieuwereporter.nl/2013/07/scraperwiki-is-vernieuwd/
Memeburn: http://memeburn.com/2013/07/data-journalist-heres-how-to-deal-with-the-changes-to-scraperwiki/
Community
Om de vernieuwde
Scraperwiki te kunnen gebruiken moet een nieuw account worden
aangemaakt op https://scraperwiki.com/
. De oude login werkt niet op de nieuwe versie. Ook je oude scrapers
en data zijn daar niet meer te vinden. Ze staan nog op de oude
versie https://classic.scraperwiki.com/
, waar je met je oude password kunt inloggen. Er is een scriptje
beschikbaar om ze importeren, maar ook copy paste werkt. Echter er
zijn nu wel beperkingen. In de gratis versie, Community
geheten, kunnen 3 datasets gebruikt worden van maximaal 8 MB tot 30
minuten CPU tijd. Heb je meer nodig dan zijn er de volgende opties:
Datascientist met onbeperkt aantal datasets met een maximum
van 256 MB per set voor $29 per maand; en Explorer met
maximaal 10 datasets voor $9. Toen ik probeerde een nieuwe dataset
aan te maken, terwijl er al 3 sets stonden kreeg ik direct een
upgrade menu op het scherm.
“More powerful
for the end user and more flexible for the coder”, is het
adagium van de nieuwe scraperwiki. En dat blijkt zodra je begint met
het creeeren van een nieuwe dataset. Geen keuze menu meer maar
'tiles'. 'Code in your browser' brengt je bij de vertrouwde oude
interface om een scraper te maken, met keus voor verschillende
talen(naast Python, en Ruby en PHP is aantal flink uitgebreid). Heb
je een werkende scraper dan zijn er de volgende mogelijkheden om met
de verzamelde data te werken. Opnieuw verschijnt een menu met tiles:
Bekijken van de data in tabelvorm; grafiek of kaart maken van de
data; het selecteren van data met SQL. Tenslotte kun je je data
downloaden. Dat werkt een stuk sneller en makkelijker dan in de oude
interface, waar de data in een aparte view moesten worden gedownload.
Private service
Nieuw in het
hoofdmenu is dat je direct naar Tweets kan zoeken of in Flickr op
geo-tags. Leuke service die goed werkt. Ook de mogelijkheid om een
spreadsheet te uploaden om vervolgens grafieken/kaarten te maken, of
selecties te maken met SQL is handig. Voor coders is er nog
mogelijkheid om een eigen tool te maken door direct in te loggen op
de scraperwiki server.
Maar waar is de
mogelijkheid om de scrapers van andere gebruikers te bekijken en te
copieren?
“Unlike
Classic, the new ScraperWiki is not aiming to be a place where people
publically share code and data. The new ScraperWiki is, at its heart,
a more private, personal service”. Ai, dat is een
tegenvaller, want het bewerken van bestaande scrapers is niet alleen
leerzaam maar ook handig om snel wat te scrapen. Je kunt dus niet
meer snel door een verzameling van bestaande scrapers lopen om wat te
lenen. Maar, zegt Scraperwiki, je kunt je code bijvoorbeeld
publiceren op Github; je data kun je delen op datahub.io.
Een schrale troost,
voorlopig – tot september waarschijnlijk- kan ik nog even werken in
de oude versie.
Geen opmerkingen:
Een reactie posten
Opmerking: Alleen leden van deze blog kunnen een reactie posten.