Www :: spyder.

www :: spyder é um módulo Perl que age como uma aranha da web.
Baixe Agora

Www :: spyder. Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • Perl Artistic License
  • Preço:
  • FREE
  • Nome do editor:
  • Ashley Pond V.
  • Site do editor:
  • http://search.cpan.org/~ashley/WWW-Spyder-0.18/Spyder.pm

Www :: spyder. Tag


Www :: spyder. Descrição

Www :: spyder é um módulo Perl que age como uma aranha na web. Www :: spyder é um módulo Perl que atua como uma aranha da Web Spider.A Web aranha que retorna texto simples, HTML e outras informações por página rastejou e pode determinar quais páginas para obter e analisar com base em termos fornecidos em relação ao texto em links Além do conteúdo da página.Methods $ Spyder-> Novo () Construa um novo objeto Spyder. Sem pelo menos o conjunto de sementes (), ou go_to_seed () ligado, o Spyder não está pronto para rastrear. $ Spyder = www :: spyder-> novo (turno || morrer "me dê um url! N"); # ... ou ... $ Spyder = www :: spyder-> novo (% opções); opções incluem: sleep_base (em segundos), exit_on (hash de métodos e configurações). Exemplos abaixo. $ Spyder-> SEED ($ URL) Adiciona um URL (ou URLs) ao topo das filas para crawl'ing. Se o Spyder for construído com um único argumento escalar, que é considerado o Seed_Url. $ Spyder-> Bell () Isso imprimirá um sino ("A") para Stderr em todas as páginas rastejadas com sucesso. Pode parecer irritante, mas é uma excelente maneira de saber que seu Spyder está se comportando e funcionando. O valor verdadeiro liga-o. Agora ele não pode ser desligado. $ Spyder-> Spyder_time () Retorna segundos RAW desde que o Spyder foi criado se for dado um valor booleano, caso contrário retorna "D Day (s) HH :: MM: SS." Spyder-> Termos () Quanto mais termos, mais o Spyder vai entender. Se você der uma lista direta de strings, eles serão transformados em regexes muito abertas. E. "King" combinaria "Sulking" e "Kinglet", mas não "rei". É sensível a maiúsculas agora. Se você quiser um comportamento mais específico ou comportamento diferente, passe suas próprias regras em vez de strings. $ Spyder-> Termos (QR / Bkings? BQUENS / BQUENENS? B / I); termos () só () é apenas configurável uma vez agora, então é um negócio feito. $ Spyder-> spyder_data () um número formatado em vírgula de kilobytes recuperados até agora. Não dê um argumento. É uma rotina de conjunto / get. $ Spyder-> dormir () retorna o número total de segundos que o Spyder dormiu durante a execução. Útil para obter uma página precisa de página / tempo de contagem de tempo (desempenho do Spyder) Descontando os naps de cortesia adicionados. $ Spyder-> ua -> ... o lwp :: useragent. Você pode redefini-los, eu acredito, chamando métodos no UA. Aqui estão os valores inicializados que você pode querer ajustar (consulte LWP :: Usuário para mais informações): $ Spyder-> UA-> Tempo limite (30); $ Spyder-> ua-> max_size (250_000); $ spyder-> ua-> agente ('mozilla / 5.0'); Alterar o nome do agente pode ferir o seu Spyder B / C Alguns servidores não retornarão conteúdo, a menos que seja solicitado por um "navegador", eles reconhecerem. Você provavelmente deveria adicionar seu e-mail com de () também. $ spyder-> ua-> de ('bluefintuna@fish.net '); $ Spyder-> cookie_file () eles moram em $ Env {home} / spydercookie por padrão, mas você pode definir seu próprio arquivo se você preferir ou quer salvar diferentes arquivos de cookie para diferentes spyders.Requirements: · Perl


Www :: spyder. Software Relacionado

XML :: Regras.

XML :: Regras é um módulo Perl que pode analisar as tags XML e processo por regras a partir de folhas. ...

182

Download