É possível incorporar sons realistas em imagens de vídeos. Os sons usados automaticamente a partir de uma base de dados têm uma “boa sincronização temporal com os ‘inputs’ visuais”.

A tese é demonstrada em “Visual to Sound: Generating Natural Sound for Videos in the Wild“, em que os investigadores afirmam que os sons usados pelos modelos desenvolvidos conseguiram levar 70% dos “turkers” (conjunto de utilizadores humanos) a pensar que eram reais.

Segundo eles, “estas capacidades podem possibilitar aplicações em realidade virtual (gerar som para cenas virtuais automaticamente) ou fornecer acessibilidade adicional a imagens ou vídeos para pessoas com incapacidade visual”.

Actualização: “You can take a test yourself here“.