vrijdag 5 juli 2013

SCRAPERWIKI VERNIEUWD


Scraping is belangrijk gereedschap in de datajournalistiek. Het importeren van data in een spreadsheet vanaf een webpagina of een database, lukt niet altijd met simpel copy-paste en download. Outwit-Hub is een aardige tool om deze klus te klaren, maar ook die schiet soms te kort. Dan zelf maar een scraper maken. Scraperwiki is de place to go. Paul Bradshaw besteedt daar in “Scraping for Journalists” uitgebreid aandacht aan (http://www.denieuwereporter.nl/2013/05/paul-bradshaws-recepten-voor-datasoep/) .
Onlangs werd scraperwiki vernieuwd en dat gaat niet om een nieuw jasje of een nieuwe interface, ook de opzet is anders. Gelukkig kun je de recepten van Bradshaw blijven gebruiken.
Gepubliceerd op Nieuwe Reporter: http://www.denieuwereporter.nl/2013/07/scraperwiki-is-vernieuwd/  
Memeburn: http://memeburn.com/2013/07/data-journalist-heres-how-to-deal-with-the-changes-to-scraperwiki/


Community
Om de vernieuwde Scraperwiki te kunnen gebruiken moet een nieuw account worden aangemaakt op https://scraperwiki.com/ . De oude login werkt niet op de nieuwe versie. Ook je oude scrapers en data zijn daar niet meer te vinden. Ze staan nog op de oude versie https://classic.scraperwiki.com/ , waar je met je oude password kunt inloggen. Er is een scriptje beschikbaar om ze importeren, maar ook copy paste werkt. Echter er zijn nu wel beperkingen. In de gratis versie, Community geheten, kunnen 3 datasets gebruikt worden van maximaal 8 MB tot 30 minuten CPU tijd. Heb je meer nodig dan zijn er de volgende opties: Datascientist met onbeperkt aantal datasets met een maximum van 256 MB per set voor $29 per maand; en Explorer met maximaal 10 datasets voor $9. Toen ik probeerde een nieuwe dataset aan te maken, terwijl er al 3 sets stonden kreeg ik direct een upgrade menu op het scherm.

More powerful for the end user and more flexible for the coder”, is het adagium van de nieuwe scraperwiki. En dat blijkt zodra je begint met het creeeren van een nieuwe dataset. Geen keuze menu meer maar 'tiles'. 'Code in your browser' brengt je bij de vertrouwde oude interface om een scraper te maken, met keus voor verschillende talen(naast Python, en Ruby en PHP is aantal flink uitgebreid). Heb je een werkende scraper dan zijn er de volgende mogelijkheden om met de verzamelde data te werken. Opnieuw verschijnt een menu met tiles: Bekijken van de data in tabelvorm; grafiek of kaart maken van de data; het selecteren van data met SQL. Tenslotte kun je je data downloaden. Dat werkt een stuk sneller en makkelijker dan in de oude interface, waar de data in een aparte view moesten worden gedownload.

Private service
Nieuw in het hoofdmenu is dat je direct naar Tweets kan zoeken of in Flickr op geo-tags. Leuke service die goed werkt. Ook de mogelijkheid om een spreadsheet te uploaden om vervolgens grafieken/kaarten te maken, of selecties te maken met SQL is handig. Voor coders is er nog mogelijkheid om een eigen tool te maken door direct in te loggen op de scraperwiki server.

Maar waar is de mogelijkheid om de scrapers van andere gebruikers te bekijken en te copieren?
Unlike Classic, the new ScraperWiki is not aiming to be a place where people publically share code and data. The new ScraperWiki is, at its heart, a more private, personal service”. Ai, dat is een tegenvaller, want het bewerken van bestaande scrapers is niet alleen leerzaam maar ook handig om snel wat te scrapen. Je kunt dus niet meer snel door een verzameling van bestaande scrapers lopen om wat te lenen. Maar, zegt Scraperwiki, je kunt je code bijvoorbeeld publiceren op Github; je data kun je delen op datahub.io.
Een schrale troost, voorlopig – tot september waarschijnlijk- kan ik nog even werken in de oude versie.

Geen opmerkingen:

Een reactie posten

Opmerking: Alleen leden van deze blog kunnen een reactie posten.