PARA LANÇAMENTO IMEDIATO N.º 3112

Este texto é uma tradução da versão em inglês oficial deste comunicado de imprensa, sendo fornecido apenas para referência e conveniência. Consulte a versão em inglês original para obter detalhes e/ou informações específicas. Em caso de discrepância, prevalecerá o conteúdo da versão em inglês original.

A Mitsubishi Electric separa a voz dos discursos simultâneos de vários locutores desconhecidos, gravados com um microfone

A tecnologia de separação de voz foi obtida através do método exclusivo de IA denominado "Deep Clustering"

Versão em PDF (PDF:272.4KB)

TÓQUIO, 24 de maio de 2017 - A Mitsubishi Electric Corporation (TÓQUIO: 6503) anunciou hoje a criação da primeira tecnologia que separa e, em seguida, reconstitui a voz dos discursos simultâneos de vários locutores desconhecidos com elevada qualidade, gravada com um único microfone em tempo real. Nos testes, a voz dos discursos simultâneos de dois e três indivíduos foi separada com uma precisão de até 90 e 80%, respetivamente, valores estes que a empresa acredita serem inéditos no mundo à data deste comunicado. Prevê-se que a nova tecnologia, obtida através do método exclusivo de "Deep Clustering" da Mitsubishi Electric baseado na inteligência artificial (IA), venha a contribuir para comunicações de voz mais inteligíveis e uma maior precisão no reconhecimento de voz automático.

No caso do discurso simultâneo de dois locutores, a precisão excedeu os 90%, um valor suficiente para aplicações comerciais, comparado com a precisão de 51% obtida através da utilização de tecnologia convencional. A nova tecnologia consegue distinguir entre combinações de vários idiomas falados e diferentes sexos. Os resultados acima baseiam-se em condições de gravação ideais, incluindo baixo ruído ambiente e volume de voz praticamente semelhante entre locutores.
A tecnologia "Deep Clustering" utiliza o método exclusivo de aprendizagem profunda da Mitsubishi Electric para aprender a codificar componentes de sinal dos dados de voz originais de várias pessoas, para que os componentes de sinal pertencentes a cada locutor possam ser facilmente distinguíveis pelas suas codificações. Para obter este resultado, as codificações são otimizadas para que componentes de sinal diferentes que pertençam ao mesmo locutor disponham de codificações semelhantes, e os que pertençam a outros locutores disponham de codificações distintas. A transformação da codificação aprendida é aplicada à voz de entrada e as codificações dos componentes de sinal de cada locutor são identificadas através de um algoritmo de aglomeração. Este algoritmo converte pontos de dados em grupos, dependendo das suas semelhanças. A voz de cada pessoa é então reconstituída através de uma nova sintetização dos respetivos componentes de voz separados.

Precisão na separação da voz dos discursos simultâneos de vários locutores*

  Dois locutores (um único microfone) Três locutores (um único microfone)
Nova tecnologia >90% (valor inédito a nível mundial) >80% (valor inédito a nível mundial)
Tecnologia convencional 51%

*Com base em condições de gravação ideais

Tenha em atenção que as informações apresentadas são válidas no momento da publicação, mas podem estar sujeitas a alterações sem aviso prévio.