Animação facial com fala sincronizada em modelos virtuais obtidos a partir de imagens de profundidade
Resumo
Uma imagem de profundidade, obtida com uso de um escaneador 3D, consiste de um número grande de pontos tridimensionais que representa de maneira fiel a geometria de um objeto do mundo real, visto a partir de um ponto de vista. A partir desta imagem construímos uma malha triangular ou modelo 3D que passamos a animar com os recursos que o programa Blender oferece. Após isso, as imagens da animação são exportadas para serem trabalhadas em outros programas ou utilizadas como entrada em nosso programa de incorporação e sincronização de áudio. Para a criação do áudio e para obter o conhecimento do tempo na qual cada fonema leva para ser executado foi utilizado o programa eSpeak. A tela inicial do programa nos da à opção de escrevermos um texto, e cada palavra, silaba ou letra pertencentes a este texto são discriminadas. Com ele podemos manipular o volume do áudio que ira ser criado, a velocidade de fala, entonação e a linguagem na qual será criado o áudio. Utilizando esse recurso criamos o básico da linguagem, os fonemas, que são letras e sílabas e os visemas que são a representação visual dos fonemas. Com os visemas e os fonemas criados, a sincronização foi realizada da seguinte maneira: O texto contendo letras, palavras e frases do usuário serão lidas por meu programa. Então a partir dessa leitura é feita uma analise compassada de cada fonema, podendo assim identificar qual visema devera ser reproduzido junto do seu respectivo fonema.