htmltotext.

Extrair texto e alguns Metainfo de HTML, lidando com páginas malformadas, bem como possível
Baixe Agora

htmltotext. Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • GPL
  • Preço:
  • FREE
  • Nome do editor:
  • Richard Boulton
  • Site do editor:
  • http://pypi.python.org/pypi/htmltotext/
  • Sistemas operacionais:
  • Mac OS X
  • Tamanho do arquivo:
  • 26 KB

htmltotext. Tag


htmltotext. Descrição

Extrair texto e alguns metainfo de HTML, lidando com páginas malformadas, bem como possível O HTMLToText foi escrito para um mecanismo de pesquisa, para permitir que ele extraia facilmente os metadados e o conteúdo textual de páginas HTML. HTMLToText tenta lidar com marcação inválida e conjuntos de caracteres especificados incorretamente e tire as tags html (palavras divididas em tags apropriadamente) .htmltotext também descarta o conteúdo das tags de script e etiquetas de estilo. Além de texto do corpo da página, ele extrai o título da página e o conteúdo da meta descrição e tags de palavras-chave. HTMLToText também analisa as tags Meta Robots para determinar se a página deve ser indexada. O analisador HTML usado por este módulo foi extraído da biblioteca de mecanismos de busca XAPIAN (e especificamente, do utilitário de indexação da OmIndex nessa biblioteca).


htmltotext. Software Relacionado

QPY.

uma ferramenta fácil de usar e gratuita para gerar HTML ...

194 21 KB

Download

Honeydo.

Ferramenta de código aberto e aberto para automação de formulário da Web ...

166 29 KB

Download