Os Quatro Estágios Cruciais no Desenvolvimento de Large Language Models e o seu crescimento exponencial

Alex Barros
5 min readJan 29, 2024

--

O teste proposto por Alan Turing nos anos de 1950 está cada vez mais perto de ser quebrado.

Imagem gerada no Midjourney

Nos anos de 1950, o cientista britânico Alan Turing propôs um desafio conhecido depois como “teste de turing” para responder a seguinte pergunta: “As máquinas podem pensar?”.

Desde então os humanos tem tentado desenvolver inteligência de linguagem nos computadores. Linguagem é uma habilidade dos seres humanos de se expressar e comunicar, começa a ser desenvolvida na infância e segue ao longa da vida.
Mesmo com poderosos algoritmos de inteligência artificial, as máquinas ainda não tem a habilidade de entender e se comunicar da mesma forma que os humanos.

Os modelos de linguagem (LM) tem sido a abordagem mais avançada nesse sentido, utilizando de probabilidade para prever uma sequencia de palavras (ou tokens). Os quatro principais estágios de desenvolvimento da pesquisa em LM podem ser divididos em:

  • Statistical language models (SLM):
    Os modelos foram desenvolvidos com base em métodos de aprendizado estatístico que estavam em alta na década de 90 e que foram utilizados até o inicio dos anos 2000. A ideia básica é construir um modelo de previsão de palavras baseado em Markov, ou seja, prever a próxima palavra baseada no contexto mais recente. Os SLMs tinham um tamanho limitado de contexto, chamados de n-grama. Bigrama e trigrama representavam a sequência contígua de n itens de uma determinada amostra de texto ou fala). Foram amplamente utilizados em tarefas de recuperação de informações (RI) e processamento de linguagem natural (PNL).
  • Neural language models (NLM):
    Modelos de Linguagem Neural (NLMs) utilizam redes neurais, como multi-layer perceptron (MLP) e recurrent neural networks (RNNs), para calcular a probabilidade de sequências de palavras. Eles introduziram o conceito de representação distribuída de palavras, onde as palavras são representadas por vetores baseados no contexto. Essa abordagem foi ampliada para desenvolver soluções gerais de redes neurais para diversas tarefas de Processamento de Linguagem Natural (NLP). Além disso, o word2vec, que é uma rede neural mais simples, foi criado para aprender essas representações de palavras distribuídas, marcando o início do uso de modelos de linguagem para aprender representações mais amplas de palavras.
  • Pre-trained language models (PLM):
    Um dos primeiros esforços foi um modelo chamado ELMo, capaz de capturar representações de palavras conscientes do contexto. em seguida, baseando-se na arquitetura Transformer, que é altamente paralelizável e usa mecanismos de autoatenção, o BERT foi proposto. Ele é pré-treinado em modelos de linguagem bidirecionais com tarefas de pré-treinamento especialmente desenhadas. Essas representações de palavras, conscientes do contexto e pré-treinadas, mostraram-se muito eficazes como recursos semânticos de uso geral, melhorando significativamente o desempenho em tarefas de NLP. Muitos estudos sobre Modelos de Linguagem Pré-treinados (PLMs) foram desenvolvidos, introduzindo diferentes arquiteturas (como GPT-2 e BART).
  • Large language models (LLM):
    Os Pesquisadores descobriram que aumentar o tamanho dos Modelos de Linguagem Pré-treinados (PLMs), seja em termos de tamanho do modelo ou quantidade de dados, geralmente melhora sua capacidade em tarefas específicas. Vários estudos tentaram entender os limites de desempenho treinando PLMs cada vez maiores, como o GPT-3 com 175 bilhões de parâmetros e o PaLM com 540 bilhões de parâmetros. Embora o aumento de escala seja principalmente no tamanho do modelo, mantendo arquiteturas e tarefas de pré-treinamento semelhantes, esses PLMs de grande porte se comportam de maneira diferente dos menores (como o BERT com 330 milhões de parâmetros e o GPT-2 com 1,5 bilhão de parâmetros) e demonstram habilidades surpreendentes em resolver tarefas complexas. Por exemplo, o GPT-3 é capaz de resolver tarefas com poucos exemplos através da aprendizagem no contexto, algo que o GPT-2 não faz bem.

Crescimento exponencial

Foi assim que o termo “large language models (LLM)” surgiu, basicamente aumentando o tamanho do modelo e fornecendo mais dados para treinamento. O ChatGPT foi sem dúvida a aplicação mais marcante, adaptando um LLM para o diálogo e conversação com humanos.
Depois do lançamento do ChatGPT a quantidade de artigos sobre o tema cresceu de modo exponencial:

Figura 1: Quantidade de artigos no arxiv

A figura 1 mostra a tendência exponencial de artigos no arXiv com as palavras-chaves “language model” (desde Junho/2018) e “large language model” (desde Outubro/2019), respectivamente.

Depois do lançamento do ChatGPT, a média de artigos publicados com o termo “large language model” no título ou resumo saiu de 0,40 por dia para 8,58.

Modelos de linguagem não são um conceito novo e vem evoluindo nas últimas décadas. Os primeiros modelos focavam principalmente em modelar e gerar texto dos dados, os mais recentes como o GPT-4 já são capazes de tarefas mais complexas.

Os quatro estágios de desenvolvimento que apresentamos podem ser classificadas em gerações e possuem diferentes níveis de capacidade.

A figura abaixo descreve essa evolução em termos de capacidade de resolver tarefas:

Figura 2: Tarefas possíveis em cada estágio

Os SLM ajudavam em tarefas específicas de fala e recuperação de dados. Os NLM se concentraram em aprender representações sem focar em uma tarefa específica, possibilitando extrair características dos dados (feature engineering). Depois, os PLM aprenderam representações conscientes do contexto que podem ser otimizadas de acordo com tarefas específicas. Até que chegamos nas LLMs, a última geração dos modelos de linguagem. Esses são aprimorados explorando o efeito de escala na capacidade do modelo, o que pode ser considerado como solucionadores de tarefas de propósito geral.

Resumindo, no processo de evolução, o escopo de tarefas que podem ser resolvidas por modelos de linguagem foi amplamente expandido, e o desempenho de tarefas alcançado por modelos de linguagem foi significativamente aprimorado.

Conclusão

Os modelos LLMs possuem habilidades de realizar tarefas mais complexas, tornando os algoritmos de IA poderosos e capaz de revolucionar como desenvolvemos algoritmos. O uso de prompts tem transformado como interagimos com essa tecnologia e cada vez há menos distinção entre a área de pesquisa e a indústria. Podem mudar a forma como interagimos com sites de pesquisa (Novo Bing) e também as aplicações de visão computacional de modelos multimodais (GPT4 Vision).

Por último, precisamos ficar atentos aos custos para treinar esses modelos com grande quantidade de dados e seus impactos ao produzir conteúdo falso, conflituoso ou perigoso.

Para informações mais completas, acessem o artigo “A Survey of Large Language Models”, disponível no link.

Siga no instagram para mais conteúdo @aprendadatascience

--

--

Alex Barros
Alex Barros

Written by Alex Barros

Engenheiro da Computação. Mestre e Doutorando em Computação Aplicada. Coordenador do Escritório de Projetos e Processos no TRT8.

No responses yet