Criando um Webcrawler em Python

Os webcrawlers são processos automatizados para busca ou manutenção de sites (checar links e validação do código). Através dos crawlers temos os mecanismos de buscas do Google e Altavista!! Eles interagem com o ambiente através do uso de protocolos HTTP, SMTP, RSS, etc. O Googlebot usa o algoritmo do PageRank para classificar a ordem de importância dos sites.
Exitem questões legais para o uso de crawlers, por isso respeite as regras do robots.txt e suas políticas de cortesia.

Os webcrawlers se identificam no servidor pelo User-Agent http header. Podemos ver esses dados usando o urllib2:


import urllib2
url = raw_input('url: ')
if 'http' not in url:
 url = 'http://'+url
resposta = urllib2.urlopen(url)
html = resposta.read()
print html.split('\n')[0]
print resposta.info()

Agora vamos aos exemplos!! Para testar os códigos abaixo, é preciso instalar a biblioteca BeautifulSoup e o Requests:
$ apt-get install python-bs4
$ easy_install beautifulsoup4
ou
$ pip install beautifulsoup4

$ pip install requests
ou
$ easy_install requests

Exemplo 01:

from bs4 import BeautifulSoup
import requests
url = 'http://www.youtube.com/results?search_query=%(q)s'
busca = {
    'q': raw_input('>> Buscar: '),
}
r = requests.get(url % busca)
soup = BeautifulSoup(r.text)
titulo = [title.text for title in soup.findAll('h3')]
i = 0
for t in titulo:
 i+=1
 print str(i)+')',t

Nesse exemplo foi utilizado a biblioteca beautiful soup, para processar o html e extrair os dados das páginas web de maneira simplificada e a biblioteca requests, que fornece a integração com os serviços web (usa o urllib3). Praticamente, o primeiro exemplo vai buscar pelos títulos com a tag h3 do url (no caso o site do youtube) pela função soup.findAll('h3')].

Podemos também fazer uma busca por links:

Exemplo 02:

from bs4 import BeautifulSoup
import requests
import sys

def buscar_links(url):
    if 'http' not in url:
        url = 'http://'+url
    lista = []
    i = 0
    r = requests.get(url)
    soup = BeautifulSoup(r.text)
    for a in soup.findAll('a',href=True):
        link = a['href']
        i += 1
        lista.append(link)
        links = str(link).strip('[]').replace("u", "").replace("'", "")
        print str(i) + ") " + str(links)
    print "\n>> Total = %d \n" % i
    sys.exit()

for arg in sys.argv:
    if arg == "-l":
       url = raw_input('url: ')
       buscar_links(url)

O segundo exemplo vai se conectar ao url pelo request.get(url), buscar pelas tags a href com a função soup.findAll('a', href=True), e adicionar cada url encontrada na lista através do lista.append(link). O str(links) vai converter os urls encontrados em string, retirando os caracteres de lista (colchetes) e das strings unicodes (u'). O sys.argv vai ler os argumentos da linha de comando, no exemplo foi utilizado o arg = "-l", então execute o script usando esse argumento: exemplo02.py -l (e depois digite o url para buscar os links).

Você pode usar a sua criatividade para buscar o conteúdo de seu interesse (respeitando sempre o robots.txt), usando expressões regulares como filtro!! Como exemplo, criei um web scraper (busca conteúdos específicos) para ver a previsão do tempo pelo terminal:

Exemplo 03:

from bs4 import BeautifulSoup
import requests

estado=raw_input('Estado: ').lower()
cidade=raw_input('Cidade: ')
cidade=cidade[0].upper()+cidade[1::].lower()

site = 'http://www.tempoagora.com.br/previsao-do-tempo/'+estado+'/'+cidade
print '>> Site:',site,'\n'
r = requests.get(site)
soup = BeautifulSoup(r.text, "html5lib")

print '\n======[ Previsao do Tempo: ]======'
for ul in soup.find_all('ul', {'class': 'dsp-table day-info'}):
    for li in ul.find_all('li'):
        print li.text.replace("\t", " ").replace("\r", "").replace("\n", "")

print '\n======[ Proximas horas: ]======'
for ul in soup.find_all('ul', {'class': 'dsp-table next-hours-list'}):
    for li in ul.find_all('li'):
        print li.text.replace("\t", " ").replace("\r", "").replace("\n", "")

O terceiro exemplo vai abrir a página do Tempo Agora pelo requests.get(site), buscar pela tag ul com a classe "dsp-table day-info" em seguida ler todas as tags li e mostrar a previsao do tempo, o mesmo processo acontece com a busca das proximas horas. Assim não precisamos esperar carregar a página, procurar os links para ver o conteúdo, basta criar um script que ele faz tudo para você!! ;)

* Fontes:

http://herberthamaral.com/2010/02/criando-web-crawlers-em-python-parte-i/

http://www.ibm.com/developerworks/br/library/l-spider/

http://www.oxigenweb.com.br/artigos/pagerank-e-googlebot-como-funciona/

http://www.erickfernandes.com/post/2012/04/06/Web-Crawler-em-Python.aspx

Building a webcrawler in python - Frank M., Harding University
http://alextrle.blogspot.com.br/2011/09/how-to-scrape-web-page-with-python.html

7 comentários:

Fernando disse...: Muito bom o seu blog, tem bastante conteúdo relevante.
Passando a te seguir no twitter para ficar por dentro dos novos post.; 9 de dezembro de 2012 às 18:14
zeldani disse...: Obrigada Fernando!! É fato os webcrawlers são bem interessantes para serem estudados!! ;); 18 de janeiro de 2013 às 11:15
Unknown disse...: Boa tarde sera que teria como a gente conversa a respeito de como fazer um crawler?; 10 de novembro de 2015 às 17:46
Fabio Niglio disse...: Boa tarde, no ultimo exemplo não consegui fazer a execução do programa.
Digitava meu signo com a primeira letra maiúscula e não retornava nada.; 13 de fevereiro de 2017 às 01:58
zeldani disse...: Ola Fabio, obrigada por avisar! Atualizei o Exemplo 03 com um script para buscar a previsão do tempo. :); 14 de março de 2017 às 18:11
Jack disse...: Ola, Gostei bastante do conteudo do seu blog e gostaria de saber o por que vc esta tao inativo... Por acaso vc tem algum meio de contato, como facebook, wapp, skype ou algo do tipo?; 3 de agosto de 2017 às 22:18
Unknown disse...: Boa tarde! Parabéns pelo post!
Uma pergunta...
Como eu faço para integrar um cralwer simples exemplo, site de noticias, dentro do meu site utilizando django?
Obrigado!; 30 de maio de 2018 às 15:10

13 de nov. de 2012

Criando um Webcrawler em Python

7 comentários:

Postar um comentário

Translate

Blog Archive

Labels