Texto :: DEDUPER.

Módulo de detecção de duplicatas
Baixe Agora

Texto :: DEDUPER. Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • Perl Artistic License
  • Preço:
  • FREE
  • Nome do editor:
  • Jan Pomikalek
  • Site do editor:
  • http://search.cpan.org/~janpom/

Texto :: DEDUPER. Tag


Texto :: DEDUPER. Descrição

Perto do módulo de detecção de duplicatas Texto :: Deduper é um módulo Perl que usa a medida da semelhança como proposto por Andrei Z. Broder em al (http://www.ra.ethz.ch/cdstore/www6/ptechnical/paper205/paper205.html) para detectar (próximo-duplicado) documentos com base em seu texto.Note de cautela: O módulo funciona apenas corretamente com idiomas onde os textos podem ser totalmente tokenizados para palavras detectando seqüências de caracteres alfabéticos. Portanto, pode não fornecer resultados muito bons para e. Chinese.Synopsis usa texto :: DEDUPER; $ DEDUPER = NOVO TEXTO :: DEDUPER (); $ deduper-> add_doc ("doc1", $ doc1Text); $ deduper-> add_doc ("doc2", $ doc2Text); @similar_docs = $ deduper-> find_similar ($ doc3Text); ... # Excluir perto de duplicatas de uma matriz de textos $ DEDUPER = novo texto :: DEDUPER (); foreach $ text (@texts) {próximo se $ deduper-> find_similar ($ text); $ deduper-> add_doc ($ i ++, $ text); push @no_near_duplicates, $ texto; } Requisitos: · Perl.


Texto :: DEDUPER. Software Relacionado

filtrounit.

permite que os testes unitários sejam criados para programas de linha de comando ...

125

Download