| Máquina de Wayback. Wayback Machine é uma implementação Java de código aberto da máquina de wayback da Internet. |
Baixe Agora |
Máquina de Wayback. Classificação e resumo
- Nome do editor:
- Jeff Kaplan
- Site do editor:
- http://www.archive.org
Máquina de Wayback. Tag
Máquina de Wayback. Descrição
O Wayback Machine é uma implementação Java de código aberto da máquina de wayback da Internet Archive. O Wayback Machine é uma implementação Java de código aberto da máquina de wayback da Internet. A versão de produção atual do Wayback Machine é implementada em Perl, e carece de manutenção e extensibilidade. Além disso, o código não é de código aberto. A motivação primária para a nova versão é abordar esses três problemas, permitindo a distribuição pública do aplicativo e fácil experimentação com novos recursos e tecnologias de acesso. A versão java atual do Wayback Machine suporta dois modos de acesso ou replay de operação: modo "Archival URL" e modo "proxy". O modo de URL de arquivamento fornece uma experiência de usuário muito próxima da máquina de gabinete de produção atual. Todas as solicitações de acesso de consulta e replay podem ser expressas como URLs. No Modo de Replay de URL de Arquivo, os documentos HTML são entregues com JavaScript adicional incorporado na página. Este JavaScript altera o documento dentro do navegador, tentando fazer links e conteúdo incorporado, consulte a máquina, reescrevendo-os como URLs arquivísticos. O modo de URL do proxy permite a repetição de documentos arquivados dentro de um navegador de cliente, configurando o navegador para proxy todas as solicitações HTTP através da máquina do Wayback. Isso tem a forte vantagem de que nenhuma marcação de página de JavaScript é necessária para coagir o navegador do cliente para solicitar URLs adicionais e conteúdo incorporado a partir do Wayback Machine - Conteúdo apenas funciona como está. Uma grande desvantagem deste modo é que não há maneira de encaminhar informações temporais com cada solicitação de reprodução. Por causa dessa limitação, apenas a versão arquivada mais recentemente de qualquer recurso é acessível através do Wayback Machine no modo de URL do proxy.Outro Limitação do modo de URL do proxy é que ele requer uma configuração especial do navegador da Web do cliente para acessar o serviço Wayback. Esta configuração do navegador não é complexa, mas significa que o conteúdo não pode ser acessado como URL global. Veja o manual do usuário para saber mais sobre os modos de acesso. A versão atual Java destina-se a operar como um webapp independente, mantendo um índice na máquina que hospeda o WebApp. Este índice contém registros dos recursos dentro de um conjunto de arquivos ARC, que também são assumidos para serem armazenados na mesma máquina que hospeda o WebApp. Este software inclui a capacidade de digitalizar arquivos de arco em um local especificado e para indexar automaticamente e atender conteúdo em arquivos de arco recém-descobertos como eles aparecem. Direcionando o Wayback Machine para procurar arquivos de arco no diretório onde uma instância do rastreador da Web Heritrix está escrevendo a saída do arco deve fornecer a capacidade de procurar conteúdo arquivado por Heritrix, pois é rastejado. As versões futuras deste software podem integrar-se com mais força ao aplicativo Heritrix Web Crawler.O que é novo nesta versão: · Uma implementação classificada do CDX Filt Filt ResourceIndex foi adicionada, permitindo vários conjuntos de dados muito maiores. · Suporte para solicitações de faixa de dama Archivalurl . · A detecção de conjunto de caracteres foi melhorada para que as páginas não sejam mantidas quando ocorre a modificação do lado do servidor. · Várias novas ferramentas de linha de comando foram adicionadas para gerar e atualizar cada tipo de recursoIndex. · A indexação e o processamento de mesclagem foram separados em threads diferentes. · BugFixes foram feitos para permitir a integração com a pesquisa de texto completo nutchwax.
Máquina de Wayback. Software Relacionado