Arquivo de regex

Script buscador dos 1001 discos para ouvir antes de morrer

Posted in Scripts with tags , , on 21/11/2010 by felipessilveira

Há um tempo, um amigo me mostrou o site http://nobrasil.org/1001-discos-para-ouvir-antes-de-morrer, e perguntou se eu conseguia pegar os links pra ele.

Então eu fiz um script em python pra pegar os links =D

Basicamente, o script pega por expressões regulares os links para a página de download de cada disco e depois pega o link de download de cada página
Só que essa abordagem é um pouco ruim porque a maior parte do tempo é perdida nas requisições de download da página, logo, surgiu a idéia de fazer com várias threads.

O que eu fiz foi passar um parâmetro pro script dizendo quantos links cada thread vai pegar, e disparo 1001/X threads pra pegar os links.
Na minha internet de 1MB eu consigo sobrecarregar a rede deixando cada thread responsável por 10 links

Se alguém se interessar e quiser os links: basta rodar o script do seguindo modo:

python downloader.py X | sort

O “| sort” só está ali pra deixar a saída em ordem cresce, porque cada thread pode acabar em um tempo diferente e eu fiquei com preguiça de fazer isso dentro do script =/

No script, eu usei as bibliotecas nativas do python: urllib e re

Download do script: downloader.py (tá comentado =])
Lembrando, não esqueça de mudar a extensão pra .py, o wordpress não me deixa colocar arquivos com extensões de verdade =/

Era isso. Até =]

Ps: Se alguém tiver alguma dúvida, posta aí =]