Home ] [ Research ] [ Software ] [ Databases ] [ Teaching ] [ People ] [ Links ] [ Internal ] [ Oferta pfc ] [ Talp ]

   

 

 

OFERTES PFC

Oferta de Projecte Final de Carrera:

Síntesis de voz basada en Modelos Ocultos de Markov (HMM)
y coeficientes cepstrales (MFCC).

La mayoría de los sistemas actuales están basados en la concatenación de segmentos de voz pregrabados, escogidos cuidadosamente de grandes bases de datos. Este método ofrece buena calidad pero requiere corpus orales muy grandes y es muy poco flexible, tanto en lo que se refiere a la manipulación prosódica (F0, duración) como a la manipulación espectral (timbre).

En el departamento se ha desarrollado un prototipo para generar voz a partir de la representación del espectro MFCC (hasta ahora, el uso de los coeficientes MFCC se reducía al ámbito del reconocimiento de voz). Este prototipo se ha programado en Matlab y ha demostrado ser capaz de generar voz de un alta calidad.

El objetivo de este PFC es incorporar el modelado mediante HMM a esta técnica de generación de señal a partir de MFCC e integrarla como módulo en el sintetizador de voz del departamento. Una de las ventajas potenciales de este metodo es la facilidad para generar voces distintas con muy pocos datos de adaptación o crear sintesis en lenguas diversas por un mismo locutor (aunque el original fuera monolingue).

Para ello, se propone una división del proyecto en las siguientes fases:

  • Estudio de la bibliografía (estimación espectral, representación MFCC, modelos ocultos de Markov HMM).
  • Implementación en C/C++ del algoritmo de reconstrucción de voz a partir de MFCC (basándose en el código Matlab).
  • Incorporación de Modelos Ocultos de Markov (HMM) para generación de parámetros MFCC y adaptación al sistema modular del TTS del esquema propuesto.
  • Evaluación de los resultados obtenidos en síntesis de voz.
  • Opcional: creación de nuevas voces y adaptación locutor a diferentes lenguas.

Es recomendable:

  • Tener conocimientos en lenguaje de programación C++ y Matlab.
  • Cursar o haber cursado Procesado de Voz.

Información adicional


Si estás interesado o deseas información puedes contactar con:

Javier Pérez Mayos
javierp@gps.tsc.upc.edu
Dept. Teoria de la Senyal i Comunicacions
D5-214, tel. 93 401 0964.

OFERTES PFC

Home ] [ Research ] [ Software ] [ Databases ] [ Teaching ] [ People ] [ Links ] [ Internal ] [ Oferta pfc ] [ Talp ]

Send us any suggestion ag_mail.gif (994 bytes)

This page was last updated on March 18th, 2005