| Www :: raspador :: lite Um framework para raspagem de resultados de mecanismos de pesquisa |
Baixe Agora |
Www :: raspador :: lite Classificação e resumo
- Nome do editor:
- Roger Pettett
- Site do editor:
- http://search.cpan.org/~rpettett/
Www :: raspador :: lite Tag
Www :: raspador :: lite Descrição
Um framework para raspagem dos resultados dos mecanismos de pesquisa Www :: scraper :: lite é um módulo de raspador HTTP escrito em perl.synopsis meu $ domínio = 'http: //devsite.local/'; Meu $ scraper = www :: raspador :: lite-> new (); $ scraper-> rastejar ($ domínio, {'// a' => sub {# manipulador para todos 'A' tags meu ($ scraper, $ nós) = @_; $ scraper-> enqueue (grep {$ _ = ~ m {^ $ domain}} # somente este mapa de domínio {$ scraper-> url_remove_anchor ($ _)} # apenas páginas de índice sem #anchor map {$ scraper-> url_make_absolute ($ _)} # indexador precisa map de urls absoluto { $ _--> {href}} # puxe href fora do 'A' Dom nó @ {$ nós});}}, '/ *' => sub {# manipulador para todo o conteúdo meu ($ scraper, $ nós) = @_; imprimir $ scraper -> {atual} -> {Response} -> Conteúdo; # Faça algo útil com resposta HTTP},}); Requisitos: · Perl. · rigoroso · Avisos · Lwp :: useragent · HTML :: treebuilder :: xpath
Www :: raspador :: lite Software Relacionado