Texto :: Registro :: DEDUPRE

Registros de texto completo, parcial e quase duplicado
Baixe Agora

Texto :: Registro :: DEDUPRE Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • Perl Artistic License
  • Preço:
  • FREE
  • Nome do editor:
  • Kim Ryan
  • Site do editor:
  • http://search.cpan.org/~kimryan/Locale-SubCountry-1.37/lib/Locale/SubCountry.pm

Texto :: Registro :: DEDUPRE Tag


Texto :: Registro :: DEDUPRE Descrição

Separam registros de texto completos, parciais e próximos duplicados Text :: Gravar :: DEDUPER é um módulo Perl com registros de texto completos, parciais e quase duplicados separados.Synopsis use texto :: Registro :: DEDUPER; Meu $ DEDUPE = NOVO TEXTO :: RECORD :: DEDUPER; # Encontrar e remover linhas inteiras que são duplicadas $ DEDUPER-> DEDUPE_FILE ("orig.txt"); # Dedupe vírgula separados registros, duplicatas definidos por vários campos $ DEDUPER-> Field_Separador ('', '); $ deduper-> add_key (field_number => 1, ignore_case => 1); $ deduper-> add_key (field_number => 2, ignore_whitespace => 1); # Registros exclusivos Ir para arquivo nomes_uniqs.csv, dupes para nomes_dupes.csv $ DEDUPER-> DEDUPE_FILE ('nomes.csv'); # Encontrar 'perto dos dupes, permitindo o nome de alias de nome My% Nick_names = (Bob =>' Robert ', Rob =>' Robert '); Meu $ Near_DoDUPER = NOVO TEXTO :: RECORD :: DEDUPER (); $ near_deduper-> add_key (field_number => 2, alias => \% nick_names) ou morrer; $ near_deduper-> deduado_file ('nomes.txt'); # Criar um relatório de texto, nomes_report.txt Para identificar todas as duplicatas $ near_deduper-> report_file ('nomes.txt', all_records => 1); # Encontrar 'Perto' DuPes em uma matriz de registros, retornando referências # para um array exclusivo e duplicado minhas ($ UNIQS, $ DUPES) = $ near_deper-> dedupe_array (@some_records); este módulo permite que você faça um arquivo de texto de registros e dividi-lo em um arquivo de exclusivo e um arquivo de registros duplicados.Records são definidos como um conjunto de campos. Os campos podem ser separados por espaços, vírgulas, guias ou qualquer outro delimitador. Os registros são separados por uma nova linha.Se nenhuma opção especificada, uma duplicata será criada somente quando todos os campos em um registro (toda a linha) forem duplicados. Especificando opções Um registro duplicado é definido pelo qual os campos ou campos parciais devem não ocorrem mais de uma vez por registro. Há também opções para ignorar a sensibilidade de maiúsculas e minúsculas, liderando e arrastando o espaço branco.Aditcionalmente 'perto' ou 'fuzzy' duplicados podem ser definidos. Isso é feito criando aliases, como Bob => Robert.Se módulo é útil para encontrar duplicatas que foram criadas por múltipla entrada de dados ou mesclagem de registros semelhantes. Requisitos: · Perl.


Texto :: Registro :: DEDUPRE Software Relacionado