Imagine que um modelo de IA possa realmente falar, demonstrando emoção, com sotaque e em qualquer idioma?
O PlayHT2.0 é o novo modelo de IA Generativa da PlayHT, desenvolvido para conversão de texto em voz e treinado para gerar fala conversacional. Conheça os detalhes sobre essa nova ferramenta:
PlayHT e a IA de Voz Generativa
A empresa, que se classifica como “Líderes em IA de Voz Conversacional”, lançou a segunda versão do seu sistema de IA de conversão de texto em voz, o PlayHT2.0, no dia 6 de agosto.
Segundo compartilhado em seu portal oficial, o modelo é o primeiro a apresentar um sistema capaz de direcionar as emoções e a forma como o locutor IA expressará o texto:
“Este modelo também apresenta pela primeira vez o conceito de Emotions to Generative Voice AI, permitindo controlar e direcionar a geração de fala com uma emoção particular. O modelo está disponível em beta fechado e será disponibilizado por meio de nossa API e Studio.”
Today, we’re introducing PlayHT2.0 – our new Conversational Text-to-Voice AI Model that’s trained and built to generate humanlike conversations across languages with <1s latency.
Sign up for beta access – https://t.co/Yj3tK4ZjPp pic.twitter.com/g1ftZ1I2V9
— PlayHT (@play_ht) August 10, 2023
O novo modelo está chegando ao mercado apenas oito meses após o lançamento do PlayHT1.0, seu primeiro modelo a alcançar qualidade de síntese de fala e clonagem de voz.
O modelo foi apresentado, inicialmente, com o lançamento do Podcast de IA entre Joe Rogan e Steve Jobs, gerado inteiramente com a ferramenta e inspirando a criação de um novo gênero para Conversational Generative Speech.
Conforme compartilhado pela empresa:
“Pela primeira vez na história, ficou claro para as pessoas que a fala gerada por IA pode alcançar resultados semelhantes aos humanos em termos de expressividade e qualidade de voz.”
Limitações do Modelo PlayHT1.0
Segundo a empresa, apesar do seu sistema de IA baseado em aplicação de LLMs ser bem avançado em relação aos demais, ainda havia pontos de melhoria e limitações, como:
- pouca capacidade de “disparo zero”;
- gerações de fala curta;
- incapacidade de controlar estilos de fala ou emoções;
- trabalho apenas na língua inglesa.
Por isso, a empresa começou a investir na expansão do seu sistema para o lançamento do novo modelo 2.0.
Apresentando o PlayHT2.0
O PlayHT2.0 foi anunciado oficialmente no dia 6 de agosto de 2023 e, segundo a empresa, o modelo foi aumentado em 10 vezes (quando comparado com a versão anterior) e seu conjunto de dados foi expandido para mais de 1 milhão de horas de fala em vários idiomas, sotaques e estilos de fala.
O modelo funciona como um “ChatGPT” de voz. Ao inserir o texto, prompt ou comando, a ferramenta realiza ações como: geração de fala em tempo real, clonagem de voz e sotaque e direcionamento de emoções.
Além disso, o novo modelo foi treinado para gerar conversas humanas, tornando-o adequado para casos de uso como chamadas telefônicas, podcasts e mensagens de áudio. Confira mais algumas características do PlayHT2.0:
Geração de Fala em Tempo Real e Clonagem de Voz Instantânea
O modelo é considerado um “salto no campo da Síntese de Fala”, segundo a empresa, e é baseado em um modelo avançado de rede neural, semelhante aos métodos da OpenAI em seus modelos como o DALLE-2, exclusivamente voltado para o domínio do áudio.
O PlayHT2.0 pode gerar fala em menos de 800ms e replicar vozes com precisão impressionante a partir de apenas 3 segundos de fala. Segundo a empresa, a geração de fala exige que o modelo aja como um “ser pensante” enquanto fala, o que o torna um modelo conversacional mais convincente.
Clonagem de Idioma e Sotaque
Além disso, utilizando sistemas de Cross-language, o modelo é capaz de clonar idiomas e sotaques, tornando a conversação mais personalizada.
Devido aos extensos conjuntos de dados, ele ainda é capaz de identificar o idioma de uma fala e dublá-la para outras línguas, mantendo o sotaque original ou não.
Direcionando Emoções
Por fim, o modelo ainda foi treinado para entender emoções e estilos de fala e aplicá-los a qualquer voz em tempo real. Dessa forma, é possível controlar a forma como a mensagem será transmitida.
Inicialmente, o modelo concentra-se em emoções básicas, como alegria, tristeza, nojo e medo. Mas, a empresa explica que o direcionamento de emoções tende a melhorar com o tempo, principalmente com a utilização dos usuários e o uso de palavras-chave como “assustado”, “ofegante” ou “horrorizado” para deixar que o modelo gere uma emoção com base nelas.
Como o PlayHT2.0 pode ser útil no dia a dia?
Assim como as demais ferramentas de IA anunciadas nos últimos meses, o PlayHT2.0, com suas capacidades avançadas de síntese de fala e compreensão emocional, tem um grande potencial de aplicação em diversas áreas.
Aqui estão algumas aplicações práticas para o dia a dia dos profissionais de marketing digital:
Publicidade Personalizada
Com a nova ferramenta, as marcas podem criar anúncios com áudios personalizados que se adaptam às emoções e preferências do ouvinte. Dessa forma, um anúncio pode ser gerado em tempo real para soar mais entusiasmado para um ouvinte jovem ou mais calmo e informativo para um público mais velho.
Além disso, os áudios podem ser utilizados para um anúncio em podcast ou como parte de um vídeo nas mídias sociais, por exemplo.
Assistentes Virtuais e Chatbots
Ampliando a capacidade dos assistentes virtuais de “conversar” e entender emoções, o uso do PlayHT2.0 pode tornar seus chatbots mais humanizados e melhorar a experiência do usuário, tornando a interação mais natural e empática.
Podcasts e Conteúdo de Áudio
Criadores de conteúdo podem usar o PlayHT2.0 para gerar episódios de podcast, áudio livros ou outros formatos de conteúdo de áudio com vozes que soam incrivelmente realistas. Além disso, os áudios podem ser utilizados para criação de vídeos, moldando o sotaque e a emoção ao storytelling do conteúdo.
Leia também: Estratégias de Conteúdo Interativo para Aumentar o Engajamento
Outro ponto importante é que os criadores podem expandir o alcance de seus conteúdos dublando-os para idiomas e sotaques específicos sem a necessidade de contratar um locutor nativo.
Testes A/B de Conteúdo de Áudio
Algo fundamental para o sucesso das estratégias de marketing digital são os testes A/B e, com o PlayHT2.0, as empresas podem gerar rapidamente várias versões de um áudio com diferentes emoções ou estilos de fala.
Esses áudios podem ser utilizados em suas campanhas e anúncios online, para testar qual personalidade e tom de voz da sua empresa se adequa melhor ao esperado pela sua audiência.
Tradução e Dublagem
Como dito anteriormente, a ferramenta possui alta capacidade para traduzir e dublar conteúdo em diferentes idiomas, enquanto mantém o sotaque original ou adapta-se ao sotaque desejado.
Essa funcionalidade é particularmente útil para empresas que desejam globalizar seu conteúdo sem perder a autenticidade da voz.
Treinamento e Educação
O modelo pode ser usado para criar materiais de treinamento em áudio que se adaptam ao ritmo e estilo de aprendizagem do ouvinte.
Digamos, por exemplo, que o seu curso online tem um módulo de treinamento que pode ser gerado para soar mais encorajador para um novato ou mais direto e informativo para alguém mais avançado.
Com a ferramenta, você não precisa regravar o mesmo conteúdo, pode apenas adequá-lo ao estilo desejado.
Estas são apenas algumas das muitas aplicações práticas do PlayHT2.0! A capacidade de gerar fala realista e adaptar-se às emoções do ouvinte torna este modelo uma ferramenta poderosa para empresas e criadores de conteúdo, por isso, novas funcionalidades e atualizações devem ser lançadas em breve.
Coloque este artigo nos seus favoritos e não perca nenhuma novidade!