Shaare your links...
34097 links
Liens en vrac de sebsauvage Home Login RSS Feed ATOM Feed Tag cloud Picture wall Daily
Links per page: 20 50 100
page 1 / 1
  • programmation python web
    Scrapy | An open source web scraping framework for Python
    Scrapy, une lib Python conçue pour extraire des données des pages web. Démonstration avec la récupération des torrents disponibles sur mininova: http://doc.scrapy.org/en/latest/intro/overview.html
    Pratique quand des services web n'ont pas d'API ou des API pourries.

    L'avantage de Scrapy est qu'il est relativement concis (la syntaxe n'est pas trop compliquée et on peut utiliser XPath pour exprimer les éléments à extraire). Il s'occupe de suivre les liens, récupérer les pages (selon les règles que vous fixez), supporte la compression http, l'authentification, le user-agent spoofing, gestion des encodages...  ça évite de se taper tout ça à la main.
    Il peut exporter les données récupérées en json/csv/xml.
    2013-03-13 16:24:51
    http://scrapy.org/
Links per page: 20 50 100
page 1 / 1
Shaarli 0.0.41 beta modifiée - 2022-08-11 - The personal, minimalist, super-fast, no-database delicious clone. By sebsauvage.net. Theme by idleman.fr. I'm on Mastodon.
shelter.moe