Pdflib tet.

PDFLIB TET (Text Extaction Toolkit) é o software para extrair informações de texto de forma confiável de qualquer arquivo PDF.
Baixe Agora

Pdflib tet. Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • Other/Proprietary Li...
  • Preço:
  • USD 995.00 | BUY the full version
  • Nome do editor:
  • PDFlib GmbH
  • Site do editor:
  • http://www.pdflib.com/download/resources/icc-profiles/

Pdflib tet. Tag


Pdflib tet. Descrição

PDFLIB TET (Toolkit de Extração de Texto) é o software para extrair de forma confiável informações de texto de qualquer arquivo PDF. PDFLIB TET (Toolkit de Extração de Texto) é o software para extrair de forma confiável informações de texto de qualquer arquivo PDF. Está disponível como uma biblioteca / componente e como ferramenta de linha de comando. O Tet disponibiliza o conteúdo de texto de um PDF como strings Unicode ou XML estruturado, além de informações detalhadas de glifo e fonte. Com o Tet, você pode recuperar os valores de Unicode correspondentes para texto em um documento PDF, bem como sua posição na página. Além da recuperação de texto de baixo nível contém algoritmos avançados de análise de conteúdo para determinar os limites da palavra, removendo o texto duplicado redundante (tal como sombras e negrito artificial). Usando a interface PCOs auxiliares, você pode recuperar objetos arbitrários do PDF, como metadados, hipertexto, etc. Versões de avaliação funcionais do TET, incluindo documentação e amostras estão disponíveis na página de download de Tet para todas as plataformas suportadas. Comprar uma licença e aplicar a chave de licença permitirá totalmente a versão de avaliação para implantação de produção. Com pdflib tet você pode: · Extrair texto de PDF, e. Para armazená-lo em um banco de dados · Implementar um mecanismo de pesquisa para processamento de PDF · Converta o conteúdo de texto das páginas PDF para o XML para processamento com outras ferramentas · Processar PDFs com base em seus contentsSupported PDF InppDflib Tet suporta todos os sabores relevantes da entrada PDF: · Todo o PDF versões até PDF 1.7 (Acrobat 8) · Todos os tipos de fonte e codificação: Base 14 fontes, TrueType, PostScript, OpenType, Fontes CID · PDF criptografado com criptografia de 40 e 128 bits (configurações de permissão apropriadas) Texto de texto unicodealthough PDF geralmente não está codificado no Unicode, o PDFLIB TET normalizará o texto de um documento PDF para Unicode: · Tet converte todos os conteúdos de texto para Unicode. Em c, o texto será devolvido nos formatos UTF-8 ou UTF-16 e como seqüências de unicode nativas em todas as outras ligações linguísticas. · As ligaduras e outros glifos de vários caracteres serão decompostos em uma seqüência de seus personagens UNICODE constituintes. · Atribuições Unicode específicas do fornecedor (área de uso privado, PUA) são identificadas e mapeadas para caracteres na área comum Unicode, se possível. · Glifos sem mapeamentos unicode apropriados são identificados como tal, e são mapeados para um personagem de substituição configurável. O Suporte CJK CJK inclui suporte total para extrair o texto chinês, japonês e coreano. Todos os cmaps CJK predefinidos (codificações) são reconhecidos; Os modos de escrita horizontal e vertical são suportados. A análise e o Word IdentificationTet de palavra podem ser usadas para recuperar informações de glifo de baixo nível, mas também inclui algoritmos avançados para análise de conteúdo: · Detectar limites da palavra para recuperar palavras em vez de caracteres. · Recombine as partes de hifenizado palavras. · Remover instâncias duplicadas de texto, por exemplo Sombra e texto negrito artificial. · Nos parágrafos de recombina em ordem de leitura. · Reordenar texto que é espalhado pela página. · Reconstruir linhas de texto.geometrytet fornece métricas precisas para o texto, como a posição na página, larguras de glifo, direção de texto. . Áreas específicas na página podem ser excluídas ou incluídas na extração de texto, e. Para ignorar cabeçalhos e rodapés ou margens.limitações: · As versões não licenciadas suportam todos os recursos, mas só processarão documentos PDF com até 10 páginas e tamanho de 1 MB. As versões de avaliação do TET não devem ser usadas para fins de produção, mas apenas para avaliar o produto. Usando o Tet para fins de produção requer uma licença de Tet válida. O que é novo nesta versão: · Modo de reparo para reparos de PDF danificados Documentos danificados que foram rejeitados por versões anteriores do Tet · Suporte para PDF 1.7, o formato de arquivo do Acrobat 8 · Suporte para AES -Encrypted PDF (Senha apropriada necessária) · Ferramenta de linha de comando do TET: Extraia o texto com base nos encadeamentos do artigo no documento · Interface PCOs atualizada (os mesmos PCOs como no PDFLIB 7) · Perl Language Ligando · Muitas novas heurísticas e soluções alternativas · Unicode Mapeamentos para mais documentos · Melhorias no Wordfinder · Várias correções de bugs · Tet Plugin para Acrobat como ferramenta gratuita e demonstração de tecnologia Tet


Pdflib tet. Software Relacionado

HPGL-DISTILER.

HPGL-Distiller é um pequeno programa que foi escrito para filtrar aspectos de um arquivo HPGL. ...

275

Download

Ggi.

GGI significa interface gráfica geral, e é um projeto que visa desenvolver um sistema gráfico confiável, estável e rápido. ...

196

Download

Foto da missão

Foto da Missão, um aplicativo de gerenciamento de fotos fácil de usar para a área de trabalho do Linux. ...

169

Download