| htmltotext. Extrair texto e alguns Metainfo de HTML, lidando com páginas malformadas, bem como possível |
Baixe Agora |
htmltotext. Classificação e resumo
- Nome do editor:
- Richard Boulton
- Site do editor:
- http://pypi.python.org/pypi/htmltotext/
- Sistemas operacionais:
- Mac OS X
- Tamanho do arquivo:
- 26 KB
htmltotext. Tag
htmltotext. Descrição
Extrair texto e alguns metainfo de HTML, lidando com páginas malformadas, bem como possível O HTMLToText foi escrito para um mecanismo de pesquisa, para permitir que ele extraia facilmente os metadados e o conteúdo textual de páginas HTML. HTMLToText tenta lidar com marcação inválida e conjuntos de caracteres especificados incorretamente e tire as tags html (palavras divididas em tags apropriadamente) .htmltotext também descarta o conteúdo das tags de script e etiquetas de estilo. Além de texto do corpo da página, ele extrai o título da página e o conteúdo da meta descrição e tags de palavras-chave. HTMLToText também analisa as tags Meta Robots para determinar se a página deve ser indexada. O analisador HTML usado por este módulo foi extraído da biblioteca de mecanismos de busca XAPIAN (e especificamente, do utilitário de indexação da OmIndex nessa biblioteca).
htmltotext. Software Relacionado