| Texto :: DEDUPER. Módulo de detecção de duplicatas |
Baixe Agora |
Texto :: DEDUPER. Classificação e resumo
- Licença:
- Perl Artistic License
- Nome do editor:
- Jan Pomikalek
- Site do editor:
- http://search.cpan.org/~janpom/
Texto :: DEDUPER. Tag
Texto :: DEDUPER. Descrição
Perto do módulo de detecção de duplicatas Texto :: Deduper é um módulo Perl que usa a medida da semelhança como proposto por Andrei Z. Broder em al (http://www.ra.ethz.ch/cdstore/www6/ptechnical/paper205/paper205.html) para detectar (próximo-duplicado) documentos com base em seu texto.Note de cautela: O módulo funciona apenas corretamente com idiomas onde os textos podem ser totalmente tokenizados para palavras detectando seqüências de caracteres alfabéticos. Portanto, pode não fornecer resultados muito bons para e. Chinese.Synopsis usa texto :: DEDUPER; $ DEDUPER = NOVO TEXTO :: DEDUPER (); $ deduper-> add_doc ("doc1", $ doc1Text); $ deduper-> add_doc ("doc2", $ doc2Text); @similar_docs = $ deduper-> find_similar ($ doc3Text); ... # Excluir perto de duplicatas de uma matriz de textos $ DEDUPER = novo texto :: DEDUPER (); foreach $ text (@texts) {próximo se $ deduper-> find_similar ($ text); $ deduper-> add_doc ($ i ++, $ text); push @no_near_duplicates, $ texto; } Requisitos: · Perl.
Texto :: DEDUPER. Software Relacionado