“O primeiro modelo de tradução e transcrição de IA multimodal multilíngue completo.” A Meta está avançando em suas inovações com IA e acaba de lançar o SeamlessM4T.
Esse novo modelo único da big tech é capaz de realizar traduções de texto para fala, fala para fala e fala para texto; tudo isso em mais de 100 idiomas. Descubra os detalhes sobre a novidade:
O que é o SeamlessM4T?
O SeamlessM4T, anunciado pela Meta (empresa detentora do Facebook, Instagram e WhatsApp) em 22 de agosto, é considerado o primeiro modelo multimodal completo de IA focado em tradução multilíngue.
Segundo a Meta, o modelo permite que as pessoas se comuniquem “sem esforço por meio de fala e texto em diferentes idiomas.”
Fonte: about.fb.com/news | Reprodução | Tradução: “Tradução fala para fala; Tradução fala para texto; Tradução texto para texto; e Reconhecimento de fala.”
O modelo suporta as seguintes funcionalidades:
- reconhecer fala em mais de 100 idiomas;
- tradução de fala para texto em quase 100 idiomas de entrada e saída. Ou seja, a ferramenta pode gerar áudio por meio de texto, em diferentes idiomas;
- tradução de áudios (em áudio), para mais de 100 idiomas de entrada e 36 idiomas de saída (incluindo inglês);
- tradução de texto (em texto) em mais de 100 idiomas;
- geração de áudio com base em texto em mais de 36 idiomas de saída e 100 idiomas de entrada.
Em linha com sua abordagem de ciência aberta, a Meta está lançando publicamente o SeamlessM4T sob uma licença de pesquisa, permitindo que pesquisadores e desenvolvedores ampliem este trabalho.
Além disso, a bigtech informa que está disponibilizando seu conjunto de metadados chamado SeamlessAlign, o maior conjunto de dados de tradução multimodal aberto até o momento, totalizando 270 mil horas de fala minada e alinhamentos de texto.
Como o SeamlessM4T funciona?
Segundo a Bigtech, esse novo modelo de IA do SeamlessM4T é fruto de avanços feitos ao longo dos anos na busca por um tradutor universal:
“Construir um tradutor de linguagem universal, como o fictício Babel Fish em O Guia do Mochileiro das Galáxias , é um desafio porque os sistemas existentes de fala para fala e fala para texto cobrem apenas uma pequena fração dos idiomas do mundo. Mas acreditamos que o trabalho que anunciamos hoje é um avanço significativo nesta jornada.”
Basicamente, a ferramenta funciona exatamente como o PlayHT2.0, ou seja, um modelo multimodal de IA que pode gerar áudio com base em texto. O diferencial do sistema, no entanto, é a possibilidade de criar e traduzir saídas de áudios e textos com base em entradas de áudio e texto – o PlayHT2.0 foca na criação de áudio apenas.
Fonte: about.fb.com/news | Reprodução | Tradução: “Tradução de texto para fala.” | Exemplo de uso da ferramenta.
O SeamlessM4T será disponibilizado para uso comercial?
A big tech pretende descobrir como esse modelo fundamental pode habilitar novas capacidades de comunicação, aproximando-nos de um mundo onde todos podem ser compreendidos.
Segundo compartilhado em seu blog oficial, a Meta classifica o SeamlessM4T como o primeiro passo de uma jornada de criação de áudio e tradução:
“Este é apenas o passo mais recente no nosso esforço contínuo para construir uma tecnologia alimentada por IA que ajude a conectar pessoas entre idiomas. No futuro, queremos explorar como este modelo fundamental pode permitir novas capacidades de comunicação — em última análise, aproximando-nos de um mundo onde todos possam ser compreendidos.”
Portanto, apesar de não confirmar com certeza quando a ferramenta será disponibilizada, a Meta deixa implícito a expansão da ferramenta e outras funcionalidades também.