Texto :: Bloom.

Texto :: Bloom pode avaliar a assinatura Bloom de um conjunto de termos.
Baixe Agora

Texto :: Bloom. Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • Perl Artistic License
  • Preço:
  • FREE
  • Nome do editor:
  • Andrea Spinelli and Walter Vannini
  • Site do editor:
  • http://search.cpan.org/~aspinelli/Text-Document-1.07/Bloom.pod

Texto :: Bloom. Tag


Texto :: Bloom. Descrição

Texto :: Bloom pode avaliar a assinatura de Bloom de um conjunto de termos. Texto :: Bloom pode avaliar a assinatura de Bloom de um conjunto de termos.synopsis Meu $ B = Texto :: Bloom-> Novo (); $ b-> compute (qw (foo bar baz)); meu $ SIG = $ B-> Writetostring (); $ b-> writetofile ('afile.sig'); Meu $ B2 = Texto :: Bloom :: NewfromFile ('afile.sig'); Meu $ B3 = Texto :: Bloom-> Novo (); $ B3-> Compute (QW (Foo Bar Barbaz)); Meu SIM = $ B-> similaridade ($ B2); Meu $ B4 = Text :: Bloom :: NewFromString ($ SIG); Texto :: Bloom aplica a técnica de filtragem de Bloom para a análise estatística de documentos. Os termos do documento são quantizados usando uma representação de RADIX BASE-36; Cada termo corresponde a um inteiro no intervalo 0..p-1, onde P é um primo, atualmente definido para o maior primo menor que 2 ^ 32.Acto valor quantificado é mapeado para d inteiros no intervalo 0..size -1, onde o tamanho é um número inteiro menor que p, atualmente 2 ^ 17, usando uma família de funções de hash, calculada pela função HASHV.Acreva o valor do Hashed é usado como o índice em um vetor de bits grande. Bits correspondentes aos termos presentes no documento são definidos como 1; Todos os outros bits são definidos para o curso, as colisões podem fazer com que o mesmo bit seja definido duas vezes, por termos diferentes. Segue-se que, se o documento contiver n termos distintos, no vetor de bit resultante na maioria dos bits n * d são definidos como 1.A string de bit resultante é uma representação muito compacta da presença / ausência de termos no documento e é portanto, caracterizado como uma assinatura. Além disso, não depende de um dicionário pré-definido de termos. A assinatura pode ser usada para: testar se um determinado conjunto de termos está presente no documento, a computação que fração de termos são comuns a dois documentos. A representação de bits pode ser escrito e ler de um arquivo. Texto :: Bloom Prepara um cabeçalho para o rumbo adequado; Além disso, sempre que a compactação do pacote :: Zlib está disponível, o vetor de bits é compactado, para que os requisitos de espaço em disco sejam drasticamente reduzidos, especialmente para documentos pequenos. A função hash é obviamente um componente crucial do filtro; A implementação de referência usa uma representação de cordas de radix. Cada termo deve, portanto, corresponder à expressão regular /+/. Há algumas alternativas viáveis, que podem ser perseguidas subclassificando e redefinindo o método Quantizev.Requirements: · Requisitos de Perl: · Perl.


Texto :: Bloom. Software Relacionado

Neem.

Neem é uma biblioteca que fornece uma implementação de multicast epidêmica. ...

148

Download