Ferramentas

SeamlessM4T: Conheça o sistema de Voz Multimodal da Meta

Por Raquel Pereira 28/08/2023

Comunique-se em quase 100 idiomas com eficiência e precisão com a nova ferramenta da Meta para traduções.

Raquel Pereira

28/08/2023

Início > Ferramentas > SeamlessM4T: Conheça o sistema de Voz Multimodal da Meta

“O primeiro modelo de tradução e transcrição de IA multimodal multilíngue completo.” A Meta está avançando em suas inovações com IA e acaba de lançar o SeamlessM4T.

Esse novo modelo único da big tech é capaz de realizar traduções de texto para fala, fala para fala e fala para texto; tudo isso em mais de 100 idiomas. Descubra os detalhes sobre a novidade:

O que é o SeamlessM4T?

O SeamlessM4T, anunciado pela Meta (empresa detentora do Facebook, Instagram e WhatsApp) em 22 de agosto, é considerado o primeiro modelo multimodal completo de IA focado em tradução multilíngue.

Segundo a Meta, o modelo permite que as pessoas se comuniquem “sem esforço por meio de fala e texto em diferentes idiomas.”

Fonte: about.fb.com/news | Reprodução | Tradução: “Tradução fala para fala; Tradução fala para texto; Tradução texto para texto; e Reconhecimento de fala.”

O modelo suporta as seguintes funcionalidades:

reconhecer fala em mais de 100 idiomas;
tradução de fala para texto em quase 100 idiomas de entrada e saída. Ou seja, a ferramenta pode gerar áudio por meio de texto, em diferentes idiomas;
tradução de áudios (em áudio), para mais de 100 idiomas de entrada e 36 idiomas de saída (incluindo inglês);
tradução de texto (em texto) em mais de 100 idiomas;
geração de áudio com base em texto em mais de 36 idiomas de saída e 100 idiomas de entrada.

Em linha com sua abordagem de ciência aberta, a Meta está lançando publicamente o SeamlessM4T sob uma licença de pesquisa, permitindo que pesquisadores e desenvolvedores ampliem este trabalho.

Além disso, a bigtech informa que está disponibilizando seu conjunto de metadados chamado SeamlessAlign, o maior conjunto de dados de tradução multimodal aberto até o momento, totalizando 270 mil horas de fala minada e alinhamentos de texto.

Como o SeamlessM4T funciona?

Segundo a Bigtech, esse novo modelo de IA do SeamlessM4T é fruto de avanços feitos ao longo dos anos na busca por um tradutor universal:

“Construir um tradutor de linguagem universal, como o fictício Babel Fish em O Guia do Mochileiro das Galáxias , é um desafio porque os sistemas existentes de fala para fala e fala para texto cobrem apenas uma pequena fração dos idiomas do mundo. Mas acreditamos que o trabalho que anunciamos hoje é um avanço significativo nesta jornada.”

Basicamente, a ferramenta funciona exatamente como o PlayHT2.0, ou seja, um modelo multimodal de IA que pode gerar áudio com base em texto. O diferencial do sistema, no entanto, é a possibilidade de criar e traduzir saídas de áudios e textos com base em entradas de áudio e texto – o PlayHT2.0 foca na criação de áudio apenas.

Fonte: about.fb.com/news | Reprodução | Tradução: “Tradução de texto para fala.” | Exemplo de uso da ferramenta.

O SeamlessM4T será disponibilizado para uso comercial?

A big tech pretende descobrir como esse modelo fundamental pode habilitar novas capacidades de comunicação, aproximando-nos de um mundo onde todos podem ser compreendidos.

Segundo compartilhado em seu blog oficial, a Meta classifica o SeamlessM4T como o primeiro passo de uma jornada de criação de áudio e tradução:

“Este é apenas o passo mais recente no nosso esforço contínuo para construir uma tecnologia alimentada por IA que ajude a conectar pessoas entre idiomas. No futuro, queremos explorar como este modelo fundamental pode permitir novas capacidades de comunicação — em última análise, aproximando-nos de um mundo onde todos possam ser compreendidos.”

Portanto, apesar de não confirmar com certeza quando a ferramenta será disponibilizada, a Meta deixa implícito a expansão da ferramenta e outras funcionalidades também.