Compreender técnicas estatísticas para PNL

Concluído

Duas técnicas estatísticas importantes que formam a base do processamento de linguagem natural (PNL) incluem: Naïve Bayes e Term Frequency - Inverse Document Frequency (TF-IDF).

Entendendo Naïve Bayes

Naïve Bayes é uma técnica estatística que foi usada pela primeira vez para filtragem de e-mails. Para saber a diferença entre spam e não spam, dois documentos são comparados. Os classificadores Naïve Bayes identificam quais tokens estão correlacionados com e-mails rotulados como spam. Em outras palavras, a técnica encontra qual grupo de palavras só ocorre em um tipo de documento e não no outro. O grupo de palavras é muitas vezes referido como características de saco de palavras .

Por exemplo, as palavras miracle cure, lose weight fast, e anti-aging podem aparecer com mais frequência em e-mails de spam sobre produtos de saúde duvidosos do que seus e-mails comuns.

Embora Naïve Bayes tenha provado ser mais eficaz do que simples modelos baseados em regras para classificação de texto, ainda era relativamente rudimentar, pois apenas a presença (e não a posição) de uma palavra ou token era considerada.

Compreender TF-IDF

A técnica Term Frequency - Inverse Document Frequency (TF-IDF) teve uma abordagem semelhante, na medida em que comparou a frequência de uma palavra num documento com a frequência da palavra num corpus inteiro de documentos. Ao entender em que contexto uma palavra estava sendo usada, os documentos podiam ser classificados com base em determinados tópicos. TF-IDF é frequentemente utilizado para a recuperação de informações, ajudando a entender quais palavras ou tokens relativos devem ser pesquisados.

Observação

No contexto da PNL, um corpus refere-se a uma coleção grande e estruturada de documentos de texto que é usada para tarefas de aprendizado de máquina. Corpora (plural de corpus) servem como recursos essenciais para treinamento, teste e avaliação de vários modelos de PNL.

Por exemplo, depois de tokenizar as palavras no "we choose to go to the moon", você pode realizar algumas análises para contar o número de ocorrências de cada token. As palavras mais comumente usadas (exceto palavras de parada como "a", "the", e assim por diante) muitas vezes podem fornecer uma pista sobre o assunto principal de um corpus de texto. Por exemplo, as palavras mais comuns em todo o texto do discurso de "go to the moon" que consideramos anteriormente incluem "new", "go", "space"e "moon". Se fôssemos tokenizar o texto como bi-grams (pares de palavras), a bi-gram mais comum no discurso é "the moon". A partir dessas informações, podemos facilmente supor que o texto está preocupado principalmente com viagens espaciais e ir à Lua.

A análise de frequência simples, na qual você simplesmente conta o número de ocorrências de cada token, pode ser uma maneira eficaz de analisar um único documento, mas quando você precisa diferenciar vários documentos dentro do mesmo corpus, precisa de uma maneira de determinar quais tokens são mais relevantes em cada documento. O TF-IDF calcula pontuações com base na frequência com que uma palavra ou termo aparece em um documento em comparação com sua frequência mais geral em toda a coleção de documentos. Utilizando esta técnica, assume-se um elevado grau de relevância para palavras que aparecem frequentemente num determinado documento, mas relativamente raramente numa vasta gama de outros documentos.

Em seguida, vamos olhar para as técnicas de aprendizagem profunda usadas para criar os modelos semânticos de hoje.