BeautifulSoup et html invalide - Liens en vrac de sebsauvage

Shaare your links...
31036 links

Liens en vrac de sebsauvage Home Login RSS Feed ATOM Feed Tag cloud Picture wall Daily

Links per page: 20 50 100

page 1 / 1

discussion python
BeautifulSoup et html invalide

Si vous êtes utilisateur de longue date de BeautifulSoup pour parser des pages html, et que tout à coup ce module n'arrive plus à parser du html invalide alors qu'il y arrivait très bien avant, c'est parce que désormais BeautifulSoup délègue le boulot au HTMLParser de Python, module qui n'est capable de parser que du html valide. Et merde. Tout l'intérêt de BeautifulSoup c'était **justement** de bien travailler même sur du html de merde.
ElementTree se prend aussi les pieds dans le tapis.
Quelqu'un aurait-ils une lib Python qui tienne la route pour parser de l'html de merde ?
http://sebsauvage.net/paste/?340905d7033fea2d#znGPa0PK/rEThv2oYghDoFBGJ0fdW9g7r9sOfbY7X0s=

EDIT: J'ai quelques pistes là: http://stackoverflow.com/questions/4114722/python-html-parsing-that-actually-works
2013-06-17 13:43:31
?PwAG5g

Links per page: 20 50 100

page 1 / 1