Xapian e Omega.

Xapian é uma biblioteca de recuperação de informações probabilísticas de código aberto, liberada sob a GPL.
Baixe Agora

Xapian e Omega. Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • GPL
  • Preço:
  • FREE
  • Nome do editor:
  • Xapian Team
  • Site do editor:
  • http://www.xapian.org/

Xapian e Omega. Tag


Xapian e Omega. Descrição

O Xapian é uma biblioteca de recuperação de informações probabilísticas de código aberto, liberada sob a GPL. O Xapian é uma biblioteca de recuperação de informações probabilísticas de código aberto, liberada sob a GPL. A ISS Xapian escrita em C, com ligações para permitir a utilização de outros idiomas (Perl, Java, Python, PHP e TCL são atualmente suportados; Guile e C # estão sendo trabalhados) .xapian é projetado para ser um kit de ferramentas altamente adaptável para permitir que os desenvolvedores Para adicionar facilmente a indexação avançada e as instalações de pesquisa a suas próprias aplicações. Se você estiver depois de um mecanismo de pesquisa embalado para o seu site, você deve dar uma olhada no Omega, que é uma aplicação que fornecemos construídas no Xapian. Mas, ao contrário da maioria das outras soluções de pesquisa de sites, a versatilidade do Xapian permite estender ômega para atender às suas necessidades à medida que crescem. Aqui estão algumas características-chave de "Xapian e ômega": · Software livre / código aberto - licenciado sob a GPL. · Altamente portátil - é executado em muitos outros linux, MacOS X, muitas outras plataformas UNIX e Microsoft Windows. · Escrito em c. Ligações Perl estão disponíveis na pesquisa do módulo :: Xapian no CPAN. Java JNI As ligações estão incluídas no módulo de ligações Xapian. Também apoiamos o swig que podem gerar ligações para 13 idiomas. Atualmente aqueles para Python, PHP4 e TCL estão funcionando. Guile e C # estão sendo trabalhados. · Pesquisa probablística classificada - palavras importantes Obtenha mais peso do que palavras sem importância, portanto, os documentos mais relevantes são mais propensos a chegar perto da parte superior da lista de resultados. · Feedback de relevância - Dado um ou mais documentos, o Xapian pode sugerir os termos mais relevantes do índice para expandir uma consulta, sugerir documentos relacionados, categorizar documentos, etc. · Pesquisa de frase e proximidade - os usuários podem procurar palavras que ocorrem em uma frase exata ou dentro de um número especificado de palavras, em uma ordem especificada ou em qualquer ordem. · Gama completa de operadores de busca de booleios estruturados ("estoque não mercado", etc). Os resultados da pesquisa booleana são classificados pelos pesos probablísticos. Os filtros booleanos também podem ser aplicados para restringir uma pesquisa probabilística. · Suporta stemming de termos de pesquisa (por exemplo, uma busca por "futebol" corresponderia a documentos que mencionam "futebol" ou "jogador de futebol"). Isso ajuda a encontrar documentos relevantes que possam ser perdidos. Os summers estão atualmente incluídos para dinamarquês, holandês, inglês, finlandês, francês, alemão, italiano, norueguês, português, russo, espanhol e sueco. · Suporta arquivos de banco de dados> 2GB - essencial para dimensionar para grandes coleções de documentos. · Formatos de dados independentes da plataforma - Você pode criar um banco de dados em uma máquina e pesquisar em outro. · Permite atualização simultânea e pesquisa. Novos documentos se tornam pesquisáveis imediatamente. Bem como a biblioteca, fornecemos vários programas de exemplo, e uma aplicação maior - um aplicativo baseado em indexação e CGI chamado Omega: · O indexador fornecido pode indexar HTML, PHP, PDF, PostScript e texto simples. Adicionar suporte para indexação Outros formatos é fácil onde os filtros de conversão estão disponíveis (por exemplo, o Microsoft Word). Este indexador funciona usando o sistema de arquivamento, mas também fornecemos um script para permitir que o rastreador da Web HTDIg seja conectado, permitindo que sites remotos sejam pesquisados usando Omega. · Você também pode indexar dados de qualquer SQL ou outros rdbms suportados pelo módulo Perl DBI. Isso inclui mysql, postgresql, sqlite, sybase, ms sql, ldap e odbc. · Pesquisa CGI Front-end fornecida com aparência altamente personalizável. Isso também pode ser personalizado para resultados de resultados em XML ou CSV, que é útil se você estiver gerando dinamicamente páginas (por exemplo, com php ou mod_perl) e apenas desejar resultados de pesquisa RAW que você pode processar em seu próprio código de layout da página. O que há de novo nesta versão: API: · Xapian :: O documento já não armazena os valores vazios explicitamente. Este não foi comportamento intencional, e como este caso foi tratado não foi documentado. O comportamento alterado é consistente com a forma como os metadados do usuário são tratados. Essa mudança não é observável usando o documento :: get_value (), mas pode ser notado ao iterating com documento :: valores_begin (), usando o documento :: valores_count () ou tentando excluir o valor com o documento :: Remove_Value (). suíte de teste: · Corrigir Scaleweweight de Testcase4 para não falhar no X86 quando compilado com -O0. O problema estava no código de teste e foi causado pelo excesso de precisão nos valores de FP intermediários. · Testases que verificam que as operações têm o esperado O (...) Comportamento Não verificar o tempo da CPU em vez de tempo de WallClock na maioria das plataformas, que deve eliminar falhas ocasionais devido a picos de carga de outros processos. · (Bilhete # 308) · Corrigir falhas de teste devido a skip_test_for_backend ("inmemory") não pulando quando deve ser devido a comparar as cadeias de caracteres com == (no tronco, o valor de retorno que está sendo testado é STD :: string em vez de Char *). · Melhorar a cobertura de teste em vários casos de canto. · Corrigir consistência de testes de testes2 para realmente ser executado (felizmente passa). · Nos testas de testes geradas, ligue para Get_Description () no objeto construído padrão de cada classe para garantir que funcione (e não tente desencadear nulo ou falhar alguma afirmação, etc). Todas as aulas atualmente verificadas são boas - isso é para evitar regressões futuras ou tais problemas com novas classes. · Na construção de cobertura de teste, use "--coverage" em vez de "-fprofile-arcos -ftest-cobertura". · O arnês de teste agora tem a back-end injeção sinalizada como suporte de metadados especificados pelo usuário (além da iteração sobre chaves de metadados). Matcher: · Se uma consulta contiver uma subconsulta de Matchall, verifique isto antes de verificar os outros termos para que o loop que verifique quantos termos correspondam pode sair mais cedo se todos corresponderem. · Quando um ou ou qualquer_maybe for decaído a um e, fomos cuidadosamente trocando as crianças para a máxima eficiência, mas a condição foi revertida por isso, fomos de fato piorar as coisas. Isso foi notado porque estava resultando na mesma consulta mais rapidamente quando mais resultados foram solicitados! · Construa apenas o nome do termário para TermFREQ e mapa de peso para a primeira subdatabase em vez de reconstruí-lo para cada um. Também não copie este mapa para devolvê-lo. Isso deve acelerar procura um pouco, especialmente aqueles em vários bancos de dados. · Se um submatcher falhar, mas o ErrorHandler nos diz para continuar sem ele, nós apenas usamos um ponteiro nulo para ficar em vez de alocar um objeto especial do suporte de lugar de manequim. · Remover andpostlist, em favor da multiancerlist. Andpostlist só foi usado como um produto de decaimento (por andmayBepostList e OrpostList), e não parece ser mais rápido. Removendo reduz a pressão de cache da CPU e é menos código para manter. · Chame check () em vez de skip_to () no ramo opcional de and_maybe. Backend de Flint: · Corrigir um bug no Termiterator :: Skip_to () sobre as teclas de metadados. Backend remoto: · Corrigir opção Xapian-TCPSRV - Interface para funcionar no MacOS X (Bilhete # 373). · Corrigir erro de digitação que nos levou a devolver o docid em vez do peso máximo que um documento de uma correspondência remota poderia retornar! Isso poderia ter levado a resultados errados ao pesquisar vários bancos de dados com o back-end remoto, mas provavelmente geralmente não importava como com BM25 os pesos são geralmente pequenos (muitas vezes todos <1) enquanto os docids s


Xapian e Omega. Software Relacionado

Adaptcms lite.

Um PHP CMS (Sistema de gerenciamento de conteúdo) que é feito para controle total do seu site. ...

95

Download

MARACH LETTBOX.

Framework de código aberto para arquivamento e recuperação de grandes volumes de documentos estáticos ...

473

Download