Compreender como a linguagem é processada
Algumas das primeiras técnicas usadas para analisar texto com computadores envolvem a análise estatística de um corpo de texto (um corpus ) para inferir algum tipo de significado semântico. Simplificando, se você puder determinar as palavras mais usadas em um determinado documento, muitas vezes poderá ter uma boa ideia do que é o documento.
Tokenização
O primeiro passo para analisar um corpus é dividi-lo em tokens. Por uma questão de simplicidade, você pode pensar em cada palavra distinta no texto de treinamento como um token, embora, na realidade, tokens possam ser gerados para palavras parciais, ou combinações de palavras e pontuação.
Por exemplo, considere esta frase de um famoso discurso presidencial dos EUA: "we choose to go to the moon"
. A frase pode ser dividida nos seguintes tokens, com identificadores numéricos:
1. we
2. choose
3. to
4. go
5. the
6. moon
Observe que "to"
(token número 3) é usado duas vezes no corpus. A frase "we choose to go to the moon"
pode ser representada pelos tokens {1,2,3,4,3,5,6}.
Usamos um exemplo simples em que os tokens são identificados para cada palavra distinta no texto. No entanto, considere os seguintes conceitos que podem se aplicar à tokenização, dependendo do tipo específico de problema de PNL que você está tentando resolver:
Conceito | Descrição |
---|---|
Normalização de texto | Antes de gerar tokens, você pode optar por normalizar o texto removendo a pontuação e alterando todas as palavras para minúsculas. Para análises que dependem exclusivamente da frequência das palavras, essa abordagem melhora o desempenho geral. No entanto, algum significado semântico pode ser perdido - por exemplo, considere a frase "Mr Banks has worked in many banks." . Você pode querer que a sua análise diferencie entre a pessoa "Mr Banks" e o "banks" em que ele trabalhou. Você também pode considerar "banks." como um token separado para "banks" porque a inclusão de um ponto fornece a informação de que a palavra vem no final de uma frase |
Parar remoção de palavras | Stop words são palavras que devem ser excluídas da análise. Por exemplo, "the" , "a" ou "it" tornar o texto mais fácil para as pessoas lerem, mas acrescentam pouco significado semântico. Ao excluir essas palavras, uma solução de análise de texto pode ser mais capaz de identificar as palavras importantes. |
n-gramas | Frases multitermos, como "I have" ou "he walked" . Uma frase de uma única palavra é um unigram , uma frase de duas palavras é um bi-gram , uma frase de três palavras é um tri-gram e assim por diante. Ao considerar as palavras como grupos, um modelo de aprendizado de máquina pode dar mais sentido ao texto. |
Radicalização | Uma técnica em que algoritmos são aplicados para consolidar palavras antes de contá-las, de modo que palavras com a mesma raiz, como "power" , "powered" , e "powerful" , são interpretadas como sendo o mesmo token. |
A seguir, vamos ver como as técnicas estatísticas nos permitem modelar a linguagem.