Www :: raspador :: lite

Um framework para raspagem de resultados de mecanismos de pesquisa
Baixe Agora

Www :: raspador :: lite Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • GPL v3
  • Nome do editor:
  • Roger Pettett
  • Site do editor:
  • http://search.cpan.org/~rpettett/

Www :: raspador :: lite Tag


Www :: raspador :: lite Descrição

Um framework para raspagem dos resultados dos mecanismos de pesquisa Www :: scraper :: lite é um módulo de raspador HTTP escrito em perl.synopsis meu $ domínio = 'http: //devsite.local/'; Meu $ scraper = www :: raspador :: lite-> new (); $ scraper-> rastejar ($ domínio, {'// a' => sub {# manipulador para todos 'A' tags meu ($ scraper, $ nós) = @_; $ scraper-> enqueue (grep {$ _ = ~ m {^ $ domain}} # somente este mapa de domínio {$ scraper-> url_remove_anchor ($ _)} # apenas páginas de índice sem #anchor map {$ scraper-> url_make_absolute ($ _)} # indexador precisa map de urls absoluto { $ _--> {href}} # puxe href fora do 'A' Dom nó @ {$ nós});}}, '/ *' => sub {# manipulador para todo o conteúdo meu ($ scraper, $ nós) = @_; imprimir $ scraper -> {atual} -> {Response} -> Conteúdo; # Faça algo útil com resposta HTTP},}); Requisitos: · Perl. · rigoroso · Avisos · Lwp :: useragent · HTML :: treebuilder :: xpath


Www :: raspador :: lite Software Relacionado