A falta de APIs buenas son tortas. XV Betabeers Zaragoza

Post on 13-May-2015

711 views 0 download

description

Una introducción al web scraping

transcript

A falta de APIs buenas son TORTAS

!XV BetaBeers Zaragoza!

@dani_latorre!!

11/04/2014

Ego slide

• Fundador de Biera Solutions!

• Desarrollador freelance!

• Ex-socio de Jobsket!

• Open Data (DNDzgz, elDisparate.de...)

Introducción al Web Scraping

La web

• Compartir y divulgar investigaciones!

• Tim Berners-Lee y Robert Cailliau!

• HTML, HTTP, URL!

• Internet

APIs

Comunicación entre máquinas

• Web semántica!

• Microformatos!

• SOAP!

• REST!

• ...

Pero no siempre es posible...

Web Scraping

• “... es una técnica utilizada mediante programas de software para extraer información de sitios web.”!

• Ingeniería inversa!

• Controvertido

¿Qué necesitas?

• Entender HTTP y URL!

• Conocer HTML!

• Un navegador web (con buenas herramientas para devs)

Y más...

• Selectores CSS!

• XPath!

• Manejar sesiones/coockies!

• Expresiones Regulares

PACIENCIA

¿Qué lenguaje uso?• Python!

• Ruby!

• Java!

• Javascript!

• …!

• “Cualquiera”

¿Librerías?

• Gestión de peticiones (GET Y POST)!

• Parseo del HTML!

• Ambas

Por ejemplo

• Requests, OpenURI/Net::HTTP, Mechanize, Phantom, HTMLUnit, Casper, Geb, Nokogiri, BeutifulSoup, Cheerio, Scrapy, Selenium…

Veamos un ejemplo