Ferramentas

GPT-4: O Próximo Estágio da Tecnologia da OpenAI

Por Raquel Pereira 22/03/2023

A OpenAI anunciou o novo GTP-4, um modelo multimodal de IA desenvolvido para aprimorar o ChatGPT Plus.

Raquel Pereira

22/03/2023

Início > Ferramentas > GPT-4: O Próximo Estágio da Tecnologia da OpenAI

Em março de 2023, apenas uma semana depois do pronunciamento do CTO da Microsoft Germany, Andreas Braun, a OpenAI anunciou o lançamento do novo GPT-4!

Confira os detalhes sobre o novo sistema de inteligência artificial da OpenAI:

O que é o GPT-4 e por que ele está revolucionando os sistemas atuais da OpenAI?

O GPT-4 é o novo sistema de linguagem de inteligência artificial da OpenAI que conta com um modelo multimodal de entrada, ou seja, ele aceita entradas com imagem e texto, emitindo saídas de texto.

Conforme o pronunciamento realizado pela OpenAI, o novo modelo:

“[…] embora menos capaz que os humanos em muitos cenários do mundo real, exibe desempenho de nível humano em vários benchmarks profissionais e acadêmicos.”

A nova versão do Generative Pre-trained Transformer (Transformador pré-treinado generativo ou GPT), promete ser mais precisa e oferecer uma base de conhecimentos gerais mais ampla e com um raciocínio mais eficiente.

O GPT é a rede neural da OpenAI que, com a nova atualização, poderá utilizar os modelos multimodais para oferecer respostas mais rápidas e assertivas aos usuários.

Além do lançamento, a OpenAI ainda informou que o GPT-4 já foi incorporado ao Chat Bing durante as últimas semanas e está totalmente disponível agora.

“Se você usou o novo Bing em pré-visualização a qualquer momento nas últimas seis semanas, já deu uma olhada no poder do modelo mais recente da OpenAI. À medida que a OpenAI atualiza o GPT-4 e além, o Bing se beneficia dessas melhorias para garantir que nossos usuários tenham os recursos de copiloto mais abrangentes disponíveis.”

Como foi desenvolvido o GPT-4?

A OpenAI mostra que o GPT-4 foi aprimorado nos últimos seis meses para oferecer os melhores resultados da empresa em todos os tempos. Para a criação e otimização desse novo modelo, a empresa analisou testes de sistemas e adversários e do próprio ChatGPT para identificar pontos de melhoria que poderiam ser implementados ao sistema multimodal.

Além disso, com o auxílio da Azure, a OpenAI conseguiu desenvolver um supercomputador que possui capacidade de suportar a carga de trabalho do novo GPT-4.

O empresa comunicou que, com os avanços realizados, o GPT-4 se tornou:

“estável sem precedentes, tornando-se nosso primeiro grande modelo cujo desempenho de treinamento pudemos prever com precisão com antecedência.”

Agora, o objetivo é continuar acompanhando os resultados obtidos com o novo modelo multimodal, para ter maior previsibilidade de recursos no futuro.

Como o GPT-4 funciona?

A empresa afirma que o novo GPT-4 está mais criativo e colaborativo que as versões anteriores, ajudando os usuários com tarefas que exigem mais do seu lado artístico, como escrever músicas ou poemas, até aquelas que exigem uma linguagem mais técnica e formal.

O novo modelo ainda pode superar o ChatGPT em questão de raciocínio e solução de problemas, confira o exemplo compartilhado pela OpenAI:

Fonte: OpenAI

A entrada (input) inserida pelo usuário diz: “Andrew está livre das 11 às 15 horas, Joanne está livre das 14 às 15:30 e depois a partir das 17 horas. Hanna está disponível por meia hora ao meio dia (12 horas) e depois das16 às 18 horas. Quais são as opções para uma reunião de 30 minutos com Hanna, Andrew e Joanne?”

A reposta (output) do ChatGPT foi: “Aqui está uma lista das disponibilidades: – Andrew: das 11 às 15 horas; – Joanne: 30 minutos às 14 horas e depois das 15:30 às 17 horas; – Hanna: 30 minutos até 12:30 e depois das 16 às 18 horas. Baseado nas disponibilidades, há uma janela de meia hora onde os três estão disponíveis das 16 às 16:30. Então, a reunião pode ser marcada às 16 horas.”

Já a resposta do GPT-4 foi: “Andrew: 11 – 15 horas; Joanne: 12 – 14 horas, 15:30 – 17 horas; Hanna: 12 – 12:30, 16 – 18 horas. Disponibilidade comum para uma reunião de 30 minutos: 12 – 12:30.”

No exemplo, a mesma entrada com um problema sobre indisponibilidade de horários foi inserida em ambos os modelos. Enquanto o ChatGPT retorna uma série de informações repetidas, o GPT-4 vai direto ao ponto e ainda encontra um horário alternativo àquele sugerido pelo chatbot.

Os estudos mostram que o GPT-4 tem 82% menos chances de responder a solicitações de conteúdo proibido e 40% mais chances de produzir respostas factuais do que o GPT-3.5, com base em avaliações internas.

Capacidades e Limitações do GPT-4

As diferenças entre o GPT-3.5 e o GPT-4 podem ser sutis em solicitações mais comuns, no entanto, quanto maior a complexidade da tarefa, maior é a percepção do usuário sobre as diferenças nos quesitos de criatividade, qualidade e rapidez da resposta e a capacidade de dar e receber instruções.

A OpenAI realizou diversos testes para comparar o desempenho de ambos os modelos e publicou um relatório técnico completo com os resultados. Esses testes mostram que o GPT-4 supera os demais modelos de IA em praticamente todos os aspectos.

Além disso, com a funcionalidade multimodal, o GPT-4 pode ir além dos comandos de texto. Em alguns exemplos compartilhados pela OpenAI, a empresa mostra como o sistema trabalha com comandos utilizando imagem + texto:

Fonte: OpenAI

Outros exemplos de comandos mostram como a ferramenta pode resolver questões complexas de vestibular, explicar memes ou situações registradas em imagens engraçadas ou fora do comum e até mesmo como ela pode resumir páginas de um relatório e explicar detalhes sobre os dados apresentados.

Outro recurso interessante apresentado pela OpenAI é a capacidade da ferramenta de personalizar seu estilo de linguagem, segundo as especificações do usuário. Por exemplo, utilizando o seguinte comando:

“Você é um tutor que sempre responde no estilo socrático. Você *nunca* dá a resposta ao aluno, mas sempre tenta fazer a pergunta certa para ajudá-lo a aprender a pensar por si mesmo. Você deve sempre ajustar sua pergunta ao interesse e conhecimento do aluno, dividindo o problema em partes mais simples até que esteja no nível certo para eles.”

A partir desse comando, todas as perguntas seguintes serão respondidas seguindo essa personalização. Confira o exemplo:

Fonte: OpenAI

Essa é uma ótima forma de auxiliar no aprendizado infantil, estudar para provas e, até mesmo, aprender mais sobre um assunto sem ter uma resposta direta. A empresa mostra outros exemplos como “AI Assistente”, “Personagem de Shakespeare” e outras formas de personalizar a comunicação com o chat.

No entanto, a empresa reforça que o sistema possui limitações e está passível de erros, menos do que as versões anteriores, mas ainda pode ocorrer.

“Deve-se tomar muito cuidado ao usar as saídas do modelo de linguagem, particularmente em contextos de alto risco, com o protocolo exato (como revisão humana, fundamentação com contexto adicional ou evitar usos de alto risco completamente) correspondendo às necessidades de um caso de uso específico .”

Quem pode utilizar o GPT-4?

Por enquanto, o modelo está disponível ao público apenas no Chat Bing. No entanto, assinantes do ChatGPT Plus têm acesso a uma versão limitada e, para aqueles que têm a API do ChatGPT e querem acessar o GPT-4, a lista de espera já está disponível.

As expectativas quanto ao GTP-4 antes do seu lançamento

De acordo o jornal The New York Times, o GPT-4 estava previsto para ser lançado já no primeiro trimestre de 2023.

Atualmente, o ChatGPT utiliza a tecnologia de modelo de linguagem GPT-3 e, com o upgrade, o novo chatbot pode ser um sistema muito parecido com o atual, que gera apenas texto, mas há a possibilidade de que ele possa manipular imagens e textos.

O New York Times ainda fala sobre os investimentos da Microsoft e que alguns profissionais já viram a tecnologia em ação:

“Alguns capitalistas de risco e funcionários da Microsoft já viram o serviço em ação. Mas a OpenAI ainda não determinou se o novo sistema será lançado com recursos envolvendo imagens.”

Em entrevista recente ao StrictlyVC, o CEO da OpenAI, Sam Altman, deu mais detalhes sobre o lançamento do GPT-4. Ele afirma que a tecnologia está em desenvolvimento e será lançada quando estiver totalmente segura, mas não refutou o New York Times quanto ao fato de poder chegar ainda neste trimestre.

Ele afirma que:

“Vai sair em algum momento quando estivermos confiantes de que podemos fazer isso com segurança e responsabilidade. Acho que, em geral, vamos lançar a tecnologia muito mais lentamente do que as pessoas gostariam […] eventualmente, as pessoas ficarão felizes com nossa abordagem para isso.”

O CEO inteira ainda que entende que as pessoas podem ficar frustradas no começo, mas logo terão um “brinquedo brilhante” e ficarão muito mais contentes.

O que era esperarado do GPT-4 segundo o CEO da OpenAI?

No passado (setembro de 2021), Sam Altman deu uma entrevista para o podcast (AI for the Next Era, em português: IA para a Próxima Era), no qual o CEO deu detalhes sobre os próximos passos da inteligência artificial e, principalmente, da OpenAI.

Não há como afirmar com certeza que as informações compartilhadas por Altman na época estejam presentes em sua totalidade no novo GPT-4, mas é possível ter uma previsibilidade sobre as novas ferramentas. Confira:

Um sistema de Inteligência Artificial Multimodal

Atualmente, o ChatGPT e o Dall-E são os principais projetos da OpenAI e ambos utilizam apenas entradas de texto para interação com os humanos. Para Sam, o futuro (próximo) da tecnologia de IA envolve a inclusão de recursos multimodais.

Uma inteligência artificial com recursos multimodais pode interagir com humanos por meio da fala, imagens e texto. Dessa forma, ela pode ouvir comandos e realizar tarefas.

A expectativa é que o GTP-4 inclua esses recursos. Apesar de não ter afirmado, Altman deu a entender que isso estaria chegando à OpenAI em breve. De acordo com o CEO:

“Eu acho que as pessoas estão fazendo um trabalho incrível com agentes que podem usar computadores para fazer coisas para você, usar programas e essa ideia de uma interface de linguagem onde você fala uma linguagem natural – o que você quer nesse tipo de diálogo de um lado para o outro.”

Modelos de Inteligência Artificial que se auto-melhoram

Num futuro não tão próximo, os pesquisadores da OpenAI já têm como objetivo o desenvolvimento de ferramentas de inteligência artificial que possam se auto aperfeiçoar.

Essa capacidade ainda não está disponível no ChatGPT, por exemplo. Altman explica que, se você realizar uma interação totalmente nova com o chatbot hoje, ele trará a resposta, mas não aprenderá nada com ela.

O objetivo é que, com o aumento no número de dados de treinamento gerados, o chat possa desenvolver novas habilidades e aprender sozinho, crescendo por conta própria em uma versão melhorada.

Altman avisa ao público para não criar expectativas muito elevadas. Tanto na última entrevista ao podcast, quanto na mais recente, o CEO afirmou que as informações compartilhadas são fruto de muita pesquisa, o que significa que são possíveis.

No entanto, muitos profissionais do meio digital estão esperando que o GPT-4 seja o próximo grande nível da inteligência artificial:

There are several coming that will completely change the game. GPT-4 is next level, I hear, for instance.

There is a revolution in AI coming.

— Robert Scoble (@Scobleizer) November 8, 2022

Por fim, Sam afirmou que há muitos boatos circulando pela internet. Um deles, que foi desmentido pelo próprio CEO, é de que o GPT-4 teria 100 trilhões de parâmetros (em comparação com os 175 bilhões de parâmetros do GPT-3).

“As pessoas estão implorando para ficarem desapontadas e ficarão. Não temos um AGI real e acho que isso é o que se espera de nós e você sabe, sim… vamos decepcionar essas pessoas.”

Por isso, o CEO da OpenAI reafirma que as tecnologias ainda estão em desenvolvimento e só serão realmente lançadas quando for seguro.

O Pronunciamento do CTO da Microsoft e o que era esperado do GPT-4

O evento, intitulado “AI in Focus – Digital Kickoff”, contou com a participação de quatro funcionários da Microsoft Alemanha que apresentaram um novo sistema de linguagem chamado Large Language Models (LLM).

Desde janeiro, quando foi anunciada a extensão da parceria entre Microsoft e OpenAI, as empresas também comunicaram o público sobre o projeto Azure-OpenAI (você pode conferir mais detalhes sobre o projeto mais adiante neste artigo). O evento desta quinta-feira trouxe novos detalhes sobre a integração e os próximos passos da multimodalidade de usos da ferramenta do ChatGPT.

De acordo com Braun:

“Apresentaremos o GPT-4 na próxima semana, teremos modelos multimodais que oferecerão possibilidades completamente diferentes – por exemplo, vídeos”

O CTO chamou o novo sistema de linguagem de “mudança no jogo”, pois o objetivo é que esse lançamento ajude as ferramentas de inteligência artificial da OpenAI a entender a linguagem natural de uma forma que, anteriormente, seria possível apenas para seres humanos.

Com a multimodalidade, as empresas parceiras querem “tornar os modelos abrangentes”, utilizando machine learning para que as máquinas reconheçam padrões e possam operar em diferentes idiomas, formatos e estilos de comunicação.

CEO da Microsoft Alemanha tranquiliza profissionais e incentiva o uso de tecnologias baseadas em IA

O evento também contou com a presença da CEO da Microsoft Alemanha, Marianne Janik, que deu uma declaração esclarecedora sobre o uso de tecnologias baseadas em IA dentro das empresas.

A CEO afirma que o desenvolvimento de IA e o ChatGPT podem ser considerados como um “momento do iPhone”. O objetivo dessas tecnologias não é substituir a inteligência humana e os empregos, mas facilitar tarefas rotineiras de forma criativa, utilizando uma ferramenta que se propõe a otimizar o dia a dia dos profissionais.

Ela reforça que a Alemanha é um país que possui legado em suas empresas e valoriza os “velhos tesouros”, mas é imprescindível ignorar que novas descrições de trabalho estão surgindo todos os dias com os avanços tecnológicos e, por isso, os profissionais estão enriquecidos com novas possibilidades.

A recomendação de Janik é que as empresas formem centros de especialização e formação de profissionais, para que eles possam utilizar a IA em seus projetos e agrupar ideias na ferramenta.

Afinal, quanto mais as pessoas utilizam o ChatGPT para procurar soluções criativas, mais a ferramenta aprende. Janik reforça que serão necessários “muitos especialistas para agregar valor ao uso da IA”

Casos de Utilização e Próximos Passos Esperados com o GPT-4

Para trazer mais detalhes técnicos sobre o novo GPT-4, foram convidados os especialistas da Microsoft Alemanha Clemens Sieber (Especialista Sênior em IA) e Holger Kenn (Tecnólogo Chefe de Desenvolvimento de Negócios IA e Tecnologias Emergentes).

Eles trouxeram uma visão sobre sobre o uso prático de IA e informações de casos de uso concretos nos quais suas equipes estão trabalhando atualmente, além de detalhes sobre experiências técnicas das ferramentas.

Kenn explica que o modelo de IA multimodal inclui uma linguagem avançada que pode traduzir texto não apenas em imagens, mas também em música e vídeo. Dessa forma, a inteligência artificial poderá auxiliar profissionais de todas as áreas de criação e multimídia na construção de seus materiais e criativos, apenas com comandos de texto.

Ele explica ainda que os embeddings (tradução de vetores de alta dimensão, que idealmente são captadores de semânticas de entrada, ou seja, comandos de texto), utilizados no novo modelo superam o atual GPT-3.5 e já está incorporada aos produtos da Microsoft.

Os participantes foram questionados sobre a confiabilidade das informações apresentadas por IA, e Siebler explicou que nem sempre a IA vai fornecer informações 100% corretas, por isso, todas as soluções oferecidas pelas ferramentas devem ser verificadas.

Essa fala reitera o pronunciamento de Janik sobre a necessidade de profissionais para operar ferramentas de IA. Além disso, os participantes tranquilizaram o público informando que a Microsoft está implementado métricas de confiança para resolver esse problema.

Para os clientes dos produtos OpenAI, Siebler explica que a confiabilidade das informações é mais precisa, pois utiliza uma base de dados própria da empresa. Um dos casos apresentados pelo especialista é o de um call center holandês que conseguiu reduzir 500 horas de trabalho por dia com o uso de IA.

A IA foi utilizada nesse caso para responder perguntas frequentes das mais de 30.000 ligações diárias que a empresa recebe. Com a tecnologia, foi possível gravar diversas respostas que são transmitidas aos clientes, com base nas perguntas feitas, automaticamente.

Isso ajudou a empresa e os funcionários a se concentrarem em resolver os problemas dos clientes que, realmente, precisam de um apoio do atendente para resolver suas dores. Sem a “preocupação” de ter outra linha em espera, o atendente consegue dar mais suporte aos clientes e entender suas necessidades.