Compreender as diferenças nos modelos linguísticos
Hoje, é importante ressaltar que os desenvolvedores não precisam treinar modelos do zero. Para criar um aplicativo de IA generativa, você pode usar modelos pré-treinados. Alguns modelos linguísticos são de código aberto e estão disponíveis publicamente. Outros são oferecidos em catálogos proprietários. Existem hoje diferentes modelos que diferem principalmente pelos dados específicos usados para treiná-los, ou pela forma como implementam a atenção dentro de suas arquiteturas.
Modelos linguísticos grandes e pequenos
Em geral, os modelos de linguagem podem ser considerados em duas categorias: modelos de linguagem grandes (LLMs) e modelos de linguagem pequenos (SLMs).
Modelos de linguagem grande (LLMs) | Modelos de linguagem pequena (SLMs) |
---|---|
Os LLMs são treinados com grandes quantidades de texto que representam uma ampla gama de assuntos gerais – normalmente através da obtenção de dados da Internet e de outras publicações geralmente disponíveis. | Os SLMs são treinados com conjuntos de dados menores e mais focados no assunto |
Quando treinados, os LLMs têm muitos bilhões (até trilhões) de parâmetros (pesos que podem ser aplicados a incorporações vetoriais para calcular sequências de token previstas). | Normalmente têm menos parâmetros do que LLMs. |
Capaz de exibir capacidades abrangentes de geração de linguagem em uma ampla gama de contextos de conversação. | Este vocabulário focado torna-os eficazes em tópicos de conversação específicos, mas menos eficazes na geração de linguagem mais geral. |
Seu tamanho grande pode afetar seu desempenho e torná-los difíceis de implantar localmente em dispositivos e computadores. | O tamanho menor dos SLMs pode fornecer mais opções para implantação, incluindo implantação local em dispositivos e computadores locais; e torna-os mais rápidos e fáceis de ajustar. |
Ajustar o modelo com mais dados para personalizar sua experiência no assunto pode ser demorado e caro em termos do poder de computação necessário para executar o treinamento extra. | O ajuste fino pode ser potencialmente menos demorado e dispendioso. |