Animação facial com fala sincronizada em modelos virtuais obtidos a partir de imagens de profundidade

Maicon Aparecido Viana

Autores

Maicon Aparecido Viana Universidade Estadual de Mato Grosso do Sul

Resumo

Uma imagem de profundidade, obtida com uso de um escaneador 3D, consiste de um número grande de pontos tridimensionais que representa de maneira fiel a geometria de um objeto do mundo real, visto a partir de um ponto de vista. A partir desta imagem construímos uma malha triangular ou modelo 3D que passamos a animar com os recursos que o programa Blender oferece. Após isso, as imagens da animação são exportadas para serem trabalhadas em outros programas ou utilizadas como entrada em nosso programa de incorporação e sincronização de áudio. Para a criação do áudio e para obter o conhecimento do tempo na qual cada fonema leva para ser executado foi utilizado o programa eSpeak. A tela inicial do programa nos da à opção de escrevermos um texto, e cada palavra, silaba ou letra pertencentes a este texto são discriminadas. Com ele podemos manipular o volume do áudio que ira ser criado, a velocidade de fala, entonação e a linguagem na qual será criado o áudio. Utilizando esse recurso criamos o básico da linguagem, os fonemas, que são letras e sílabas e os visemas que são a representação visual dos fonemas. Com os visemas e os fonemas criados, a sincronização foi realizada da seguinte maneira: O texto contendo letras, palavras e frases do usuário serão lidas por meu programa. Então a partir dessa leitura é feita uma analise compassada de cada fonema, podendo assim identificar qual visema devera ser reproduzido junto do seu respectivo fonema.

Animação facial com fala sincronizada em modelos virtuais obtidos a partir de imagens de profundidade

Autores

Resumo

Downloads

Publicado

Como Citar

Edição

Seção

Enviar Submissão

Idioma

Informações

Palavras-chave