Gerenciando Gigabytes para Java

Gerenciando Gigabytes para Java é um sistema de indexação de texto completo gratuito para grandes coleções de documentos escritos em Java.
Baixe Agora

Gerenciando Gigabytes para Java Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • LGPL
  • Preço:
  • FREE
  • Nome do editor:
  • Sebastiano Vigna
  • Site do editor:
  • http://archive4j.dsi.unimi.it/

Gerenciando Gigabytes para Java Tag


Gerenciando Gigabytes para Java Descrição

Gerenciando Gigabytes para Java é um sistema de indexação de texto completo gratuito para grandes coleções de documentos escritos em Java. Gerenciando Gigabytes para Java (MG4J) é um sistema de indexação de texto completo gratuito para grandes coleções de documentos escritos em Java. Como subproduto, oferece várias classes otimizadas de propósito geral, incluindo cadeias de mutáveis rápidas e compactas, I / O nível de bits, fluxos tamponados não insistentes rápidos, (possivelmente assinados) Hashing perfeito mínimo para coleções de strings muito grandes, etc. Release 1.1, o MG4J torna-se um sistema de indexação de texto altamente customizável, de alto desempenho, fornecendo recursos de última geração (como Pontuação BM25) e novos algoritmos de pesquisa.Aqui são alguns recursos importantes de "Gerenciamento de Gigabytes Java ": - Indexação poderosa. O suporte para coleções de documentos e fábricas permite analisar, indexar e consulta consistentemente grandes coleções de documentos, fornecendo snippets fáceis de entender que destacam passagens relevantes nos documentos recuperados. - eficiência. Não fornecemos dados sem sentido, como "nós índicamos x gib por segundo" (com qual configuração? Qual idioma? Qual fonte de dados?) - Nós convidamos você a experimentá-lo. O MG4J pode indexar sem esforço A coleção TREC GOV2 (fábricas de documentos são fornecidas a esse propósito) e escalas para centenas de milhões de documentos. - Semântica de intervalo de índice multi-índice. Quando você envia uma consulta, o MG4J retorna, para cada índice, uma lista de intervalos que satisfazem a consulta. Isso fornece a base para vários marcadores de alta precisão e para implementação muito eficiente de operadores sofisticados. Os intervalos são construídos em tempo linear usando novos algoritmos de pesquisa. - Operadores expressivos. O MG4J vai muito além do modelo de saco de palavras, proporcionando uma implementação eficiente de consultas de frases, restrições de proximidade, conjunção ordenada e consultas combinadas de múltiplos índices. Cada operador é representado internamente por um objeto abstrato, para que você possa conectar facilmente sua sintaxe favorita. - Campos Virtuais. O MG4J suporta campos virtuais-campos contendo texto para um documento virtual diferente; O exemplo típico é o texto da âncora, que deve ser atribuído ao documento-alvo. - Flexibilidade. Você pode construir índices muito menores caindo posições de prazo ou até mesmo contagens de termo. Você decide. Vários tipos diferentes de códigos podem ser escolhidos para equilibrar a eficiência e o tamanho do índice. Os documentos provenientes de uma coleção podem ser renumerados (por exemplo, para corresponder a uma classificação estática ou experimento com técnicas de indexação). - abertura. A coleta de documentos / interfaces de fábrica fornece uma maneira fácil de apresentar sua própria representação de dados ao MG4J, tornando-se uma brisa para configurar um mecanismo de pesquisa baseado na Web que acessa diretamente seus dados. Cada elemento ao longo do caminho da resolução de consulta (analisadores, construtores de iterador de documentos, motores de consulta, etc.) podem ser substituídos com suas próprias versões. - Processo de distribuição. Índices podem ser construídos para uma coleção dividida em várias partes e combinadas mais tarde. A combinação de índices permite índices não contíguos e até mesmo o mesmo documento pode ser dividido em diferentes coleções (por exemplo, ao indexar texto âncora). - Multithreading. Os índices podem ser consultados e marcados simultaneamente. - Clustering. Índices podem ser agrupados tanto lexicalmente quanto documentalmente (possivelmente após um particionamento). O sistema de cluster está completamente aberto e as estratégias definidas pelo usuário decidem como combinar documentos de diferentes fontes. Essa arquitetura torna possível, por exemplo, para carregar na RAM, a parte de um índice que contém os termos que aparecem com mais frequência em consultas de usuário. Requisitos: · Fastutil. · Jal. O que há de novo nesta versão: · ADVERTÊNCIA: Revamp massivo do subsistema documentiteratorvisitor. Agora, esses visitantes podem retornar dados, muito parecidos com um QueryiteratorBuildervisitor. Ele também tem um método de visita especial para multitermindexeradores. Você terá que adaptar suas implementações anteriores. · Aviso: as instâncias do QueryParser são necessárias para fornecer um método de parse (mutablestring) e dois novos métodos de escape que podem ser usados para virar uma string em um token de texto. Esse recurso é fundamental para a geração automática de consulta (graças a Hugo Zaragoza por apontar este problema). · Aviso: Para tornar algumas coisas mais fáceis, agora temos iteradores de documentos explícitos representando verdadeiro e falso. Sua construção requer um índice de referência (contrariamente a isso acontecer com documentiterators.empty_iterator), então os métodos GetInstance () da maioria dos iteradores de documentos tiveram que ser atualizados, e as instâncias do DocumeriterAdvisor precisam implementar dois novos métodos de visita (). Os iteradores são gerados pelos tokens #True e #false. · Aviso: A indexação de campos virtuais usa muito menos memória, mas os lotes agora têm um conteúdo diferente: eles representam posições reais no documento virtual final. Tamanhos de cada lote representam o tamanho conhecido de um momento virtual quando o lote foi escrito. Com essa mudança, a pasta não requer mais mais memória do que concatenate. · ADVERTÊNCIA: Uma nova classe de remoçãoDocumenterator torna possível misturar resultados de diferentes índices com operadores posicionais. Como há um novo nó de consulta de remapagem, todos os Documentvisitors terão que ser atualizados. · Aviso: todas as classes deprecadas foram removidas. · ADVERTÊNCIA: A opção -b do indexbuilder agora está alinhada para digitalizar - especifica o nome de bases de uma coleção a ser construída no tempo de indexação. Costumava ser o tamanho do buffer de combinação. · Novas classes para construção eficiente de coleta de documentos no tempo de indexação. A arquitetura agora também está muito aberta - você pode conectar seus próprios construtores. · Manuseio de tamanho completamente reestruturado para combinação e subclasses. A menos que você use codificação de Golomb, você não precisará carregar tamanhos. Isso é verdade até mesmo de lotes de campos virtuais, como pasta agora por padrão não renumeram posições, mas espera que eles já sejam renumerados. O antigo comportamento pode ser obtido através de uma bandeira. · Nós nos mudamos para o Jetty 6. Além disso, alguns problemas com velocidade que não encontram modelos foram corrigidos. · Novo, manipulação de memória mais inteligente que deve ser capaz de evitar erros completamente fora de memória. Há também um limite no número de termos por lote que deve ajudar na coleta de lixo. · Corrigido um bug na criação de coleta: usamos para fornecer a fábrica original, mas isso é errado, pois podemos não estar indexando todos os campos. Agora, geramos uma fábrica adequada que contém apenas os campos indexados. · Novo recurso importante: os índices de alto desempenho podem ter agora quanta variável, dependendo da frequência e densidade da lista. Índices agora esporte um arquivo .posnumbits que registra quantos bits são usados para armazenar posições. É usado como estatísticas básicas para calcular o Quantum correto. Você pode pedir uma porcentagem do índice a ser usado para pular torres, e o Quantum certo para cada lista será calculado para você. O processo é bastante empírico, então sempre olhe para arquivos .stats para verificar se você está realmente usando não mais do que a porcentagem solicitada. Em geral, os índices antigos terão que ser reconstruídos antes de poder combiná-los em um índice com quanta variável, mas para os índices de alto desempenho, a ferramenta ComputePosnumbitsPosições pode ser usada para adicionar o arquivo ausente. · O mapeamento de memória de índices agora usa a nova abordagem multiplexada implementada em ByteBufferIputStream. Isso significa que podemos mapear a memória essencialmente todos os índices. Graças a Valentin Tablan e Ian Roberts por sugerir essa abordagem. · Agora apresentamos uma implementação da função de classificação BM25F de última geração. · ZipDocumentCollection.GetInstance () torna possível carregar as instâncias realiavelmente zipdocumentcollection, mesmo que não estejam no diretório atual. · Novos símbolos matemáticos agradáveis UTF-8 para conjunção, disjunção, verdadeiro e falso. · Problema fixo com muitas conexões abertas ao usar o JDBCDocumentCollection. · Um novo Succinstaliza a chave de URI permite solicitar tamanhos de carga em uma lista comprimida Elias-Fano. Isso desacelerará o acesso por duas ordens de magnitude, mas pode ser muito útil ao colar grandes índices, como a colagem precisa carregar uma grande quantidade de dados de tamanho. · As instâncias de esvaziças não são mais singletons baseadas em índices. Essa mudança foi necessária para possibilitar a execução de algoritmos de classificação que exigem para definir o peso ou id, mesmo de iteradores vazios. Isso não deve causar nenhum problema. · Todos os iteradores de documentos têm agora um peso estabelecível. O peso pode ser esprimido na sintaxe padrão usando chaves. Note que pesos por si não têm significado - cabe aos marcadores usá-los. · Agora a opção de combinação de metadados e suas implementações gera o arquivo de freqüências. Isso é muito útil, pois possibilita calcular as freqüências de prazo para os documentos virtuais obtidos por concatenar todos os campos - algo que é necessário para o cálculo correto de BM25F. · Corrigido um bug na gramática: consultas como "(a))" teria sido analisada como "(a)" por falta de verificação de eof (graças a Hugo Zaragoza para relatar esse bug). · O analisador agora aceitará caracteres Unicode 0x2227 e 0x2228 (os símbolos matemáticos padrão para conjunção e disjunção) para e ou ou, respectivamente. · Após alguns testes Trec Gov2, os padrões para Maxpreanchor e MaxPostanchor em HTMLDocumentFactory foram reduzidos para 8 e 4, respectivamente. · Bug antigo fixo em semiexternalgamalista; Readbits (0) não foi chamado após a estimativa numplonges, levando a eofexceptions. · Os ponteiros do documento agora podem ser codificados em unário. · Corrigido bug mau em partiticicamente: para índices de alto desempenho, as posições do último termo não estavam sendo escritas. · Httpfileserver tem uma porta estabelecível. · Método de novo marcador.getweights () para obter pesos. · Corrigido um bug no marcador do TFIDF que teria causado a Nans. · Consulta aceita uma lista de títulos separados por nova linha, além do objeto serializado habitual.


Gerenciando Gigabytes para Java Software Relacionado

rql.

Linguagem de consulta de relacionamento (RQL) utilitários ...

166

Download