| Htmllist. Extrair dados de páginas HTML que têm algum tipo de padrão repetitivo |
Baixe Agora |
Htmllist. Classificação e resumo
- Nome do editor:
- Erez Bibi
- Site do editor:
- http://frontiernet.net
Htmllist. Tag
Htmllist. Descrição
Extrair dados de páginas HTML que têm algum tipo de padrão repetitivo A HTMLList é uma ferramenta escrita em Python que tenta encontrar um padrão repetitivo em uma página HTML que contenha algum tipo de uma lista (como as páginas do Digest). Ele extrai o texto sub-HTML que cria o padrão e tenta extrair informações úteis a partir dela. A ideia é que em uma página de dados HTML típica que contém uma lista de itens, haverá um padrão repetitivo para o olho humano (o formato de página). Se este padrão será o mais prevalente na página (este será o caso da maioria das páginas), poderemos reconhecê-lo e "raspar" os dados relevantes. Requisitos: · Pitão
Htmllist. Software Relacionado