| Analisador HTML. HTML Parser é uma biblioteca Java usada para analisar HTML em uma forma linear ou aninhada. |
Baixe Agora |
Analisador HTML. Classificação e resumo
- Nome do editor:
- Derrick Oswald
- Site do editor:
- http://htmlparser.org
Analisador HTML. Tag
Analisador HTML. Descrição
O HTML Parser é uma biblioteca Java usada para analisar HTML em uma moda linear ou aninhada. O HTMLParser é um parser em tempo real super-rápido para o HTML do mundo real. O que atraiu a maioria dos desenvolvedores para o HTMLParser tem sido a sua simplicidade em design, velocidade e capacidade de lidar com o streaming do mundo real HTML. Os dois casos de uso fundamental que são tratados pelo analisador são extração e transformação (o caso de uso de sínteses, onde HTML As páginas são criadas a partir do zero, é melhor manipulada por outras ferramentas mais próximas da fonte de dados). Enquanto as versões prévias concentradas na extração de dados das páginas da Web, a versão 1.4 do HTMLParser possui melhorias substanciais na área de transformar páginas da Web, com criação de tag simplificadas e edição de etiqueta e saída do método Verbatim TOHTML (). Para usar o HTMLParser, você precisará para ser capaz de escrever código na linguagem de programação Java. Embora alguns programas de exemplo sejam fornecidos que possam ser úteis à medida que provavelmente você precisará (ou deseja) criar seus próprios programas ou modificar os fornecidos para corresponder ao aplicativo pretendido. Para usar a biblioteca, você precisará Adicione o htmllexer.jar ou o htmlparser.jar ao seu caminho de classe ao compilar e funcionar. O htmllexer.jar fornece acesso de baixo nível a nós genéricos, observação e nós de tag na página de uma maneira linear, plana e seqüencial. O htmlparser.jar, que inclui as classes encontradas no HTMLlexer.jar, fornece acesso a uma página como uma sequência de tags diferenciadas aninhadas contendo string, observação e outros nós de tag. Então, onde a saída das chamadas para o método Lexer NextNode () pode ser:
"Bem-vindo" etc ... A saída do nódero do analisador faria Aninhe as etiquetas como filhos dos nós, e outros nós (aqui representados por indentação):
"Bem-vindo" etc ... O analisador tenta equilibrar Abrindo tags com tags finais para apresentar a estrutura da página, enquanto o Lexer simplesmente cuspa os nós. Se o seu aplicativo exigir apenas o conhecimento estrutural modesto da página, e é principalmente preocupado com nós individuais, você deve considerar o uso do Lexer Leve. Mas se o seu aplicativo requer conhecimento da estrutura aninhada da página, por exemplo, você provavelmente desejará usar o parser completo.ExtractionExtraction engloba todos os programas de recuperação de informações que não devem preservar a página de origem. Essas tampas usam como: · Extração de texto, para uso como entrada para bancos de dados de mecanismo de pesquisa de texto, por exemplo · Extração de links, para rastejar através de páginas da Web ou coleta de endereços de e-mail · raspagem de tela, para entrada de dados programáticas de páginas da Web · Extração de recursos, coleta de imagens ou SOUNDO · Um front end do navegador, a fase preliminar do display de página · Verificação de links, garantindo links é válida · Monitoramento de sites, verificação de diferenças de página para além de difs simplistas são várias instalações na HTMLParser Codebase para ajudar com a extração, incluindo filtros, visitantes e JavaBeans.TransformationTransformação inclui todo o processamento onde a entrada e a saída são páginas HTML. Alguns exemplos são: · Reescrevendo URL, modificando alguns ou todos os links em uma página · Captura do site, movendo o conteúdo da Web para o disco local · Censura, removendo palavras ofensivas e frases de páginas · Limpeza HTML, corrigindo páginas erradas · Remoção de anúncios URLS Referenciando a publicidade · Conversão para XML, movendo as páginas da Web existentes para XMLDuring ou após a leitura em uma página, as operações nos nós podem realizar muitas tarefas de transformação "no lugar", que podem ser enviadas com o método TOHTML (). Dependendo do propósito de sua inscrição, você provavelmente vai querer olhar para decoradores de nó, visitantes ou tags personalizados em conjunto com o prototypicalnodefactory.O Parser HTML é uma biblioteca de código aberto lançada sob a Licença Pública Geral GNU, que basicamente diz que você é Livre para usar a biblioteca "como está" em outros produtos (mesmo proprietários), desde que o crédito devido seja dado aos autores e o código-fonte do HTMLParser esteja incluído ou disponível com o outro produto. Para uso modificado ou incorporado, consulte a licença LGPL.
Analisador HTML. Software Relacionado