jtakener.

Uma solução de software livre que combina um conjunto de tokenisers que lidam intuitivamente com linguagem natural
Baixe Agora

jtakener. Classificação e resumo

Propaganda

  • Rating:
  • Licença:
  • GPL
  • Nome do editor:
  • Andy Roberts
  • Sistemas operacionais:
  • Windows All / Unix
  • Tamanho do arquivo:
  • 83 KB

jtakener. Tag


jtakener. Descrição

As cordas do tokenising em seus tokens / palavras constituintes podem ser complicadas para exemplos não triviais. Em particular, quando você está lidando com a linguagem natural, você deve levar em consideração a pontuação também para isolar as palavras. Cada um dos tokenisers adotam uma estrutura semelhante ao java.util.stringTokenizer em termos de como instanciar as classes e extrair os tokens. Isso significa que eles são simples de usar. Você pode digitar, copiar e colar ou até mesmo carregar um arquivo de texto no aplicativo. Você deve selecionar seu tokeniser de escolha (e quaisquer opções de interesse) e, em seguida, pressione o botão Tokenise. Seus resultados serão exibidos assim que forem processados e você tiver a opção de salvar os resultados ao arquivo, se você escolher. A GUI é particularmente útil para experimentar métodos de tokenização em um ambiente de ensino (como um curso de NLP). Também será de interesse para aqueles que desejam usar a biblioteca JTokener, mas não têm a experiência de programação Java para utilizar o código diretamente. O JTAKEIner é composto por quatro tokenisers que se estendem de uma classe Tokeniser: · WhiteSpacetAltoKeiser - Isso divide uma string em todas as ocorrências de espaço em branco, que incluem espaços, newlines, guias e linefleeds. · StringTokeniser - Isso é basicamente o mesmo que java.util.stringTokenizer com alguns métodos extras (e se estende do tokeniser). Seu comportamento padrão é atuar como um WhiteSpacetTekeiser, no entanto, você pode especificar um conjunto de caracteres que devem ser usados para indicar delimitadores de palavras. · Regebite - Este tokeniser é muito mais flexível, pois você pode usar expressões regulares para definir um que é um token. Então, "\ W +" significa que sempre corresponde a uma ou mais letras, considerará uma palavra. Por padrão, ele usa uma expressão regular equivalente a um tokeniser do espaço em branco. · REGEXSERATIROKAGEISER - Isso pode ser considerado como um stringtenhener avançado. Considerando que o StringTokener é limitado a definir delimitadores como um conjunto de caracteres individuais, o regexsparatortado pode utilizar expressões regulares para uma abordagem mais rica e flexível. · BreakiteratortItener - Um dos tokenisers mais sofisticados da biblioteca, embora só deve ser usado em cadeias linguísticas naturais para isolar palavras. Ele também vem com regras internas sobre como encontrar palavras, sabendo como desconsiderar a pontuação, etc. · Sentencetake - Isso também usa uma breakiterater como o acima, mas sintonizado para encontrar fronteiras de frase. Os "tokens" neste tokeniser são de fato sentenças individuais.


jtakener. Software Relacionado