SciELO - Scientific Electronic Library Online

 
vol.15 número1COMPRENSIÓN DE LAS DISTRIBUCIONES MUESTRALES EN UN CURSO DE ESTADÍSTICA PARA INGENIEROSINTEGRACION DE UNA CELULA FLEXIBLE DE MECANIZADO, DE TIPO DOCENTE índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

Compartir


Ingeniare. Revista chilena de ingeniería

versión On-line ISSN 0718-3305

Ingeniare. Rev. chil. ing. v.15 n.1 Arica abr. 2007

http://dx.doi.org/10.4067/S0718-33052007000100003 

 

Ingeniare. Revista chilena de ingeniería, vol. 15 No 1, 2007, pp. 18-26

DISEÑO Y MANIPULACIÓN DE MODELOS OCULTOS DE MARKOV, UTILIZANDO HERRAMIENTAS HTK. UNA TUTORÍA

DESIGN AND MANIPULATION OF HIDDEN MARKOV MODELS USING HTK TOOLS. A TUTORIAL

Roberto Carrillo Aguilar1

1 Universidad de La Frontera. Av. Fco. Salazar 01145. Temuco, Chile. rcarrill@ufro.cl


RESUMEN

Este trabajo da a conocer el sistema de desarrollo de software para el diseño y manipulación de modelos ocultos de Markov, denominado HTK. Actualmente, la técnica de modelos ocultos de Markov es la herramienta más efectiva para implementar sistemas reconocedores del habla. HTK está orientado principalmente a ese aspecto. Su arquitectura es robusta y autosuficiente. Permite: la entrada lógica y natural desde un micrófono, dispone de módulos para la conversión A/D, preprocesado y parametrización de la información, posee herramientas para definir y manipular modelos ocultos de Markov, tiene librerías para entrenamiento y manipulación de los modelos ocultos de Markov ya definidos, considera funciones para definir la gramática, y además: Una serie de herramientas adicionales permiten lograr el objetivo final de obtener una hipotética transcripción del habla (conversión voz - texto).

Palabras clave: Reconocimiento automático del habla, HTK, HMM.

ABSTRACT

This paper presents HTK, a software development platform for the design and management of Hidden Markov Models. Nowadays, the Hidden Markov Models technique is the more effective one to implement voice recognition systems. HTK is mainly oriented to this application. Its architecture is robust and self-sufficient. It allows a natural input from a microphone, it has modules for A/D conversion, it allows pre-processing and parameterization of information, it possesses tools to define and manage the Hidden Markov Models, libraries for training and use the already defined Hidden Markov Models. It has functions to define the grammar and it has additional tools to reach the final objective, to obtain an hypothetical transcription of the talking (voice to text translation).

Keywords: Automatic Speech Recognition, HTK, HMM.



AGRADECIMIENTOS

El autor desea agradecer de manera especial al CMCC (Centro de Modelación Científica y Computacional), de la Universidad de La Frontera, por todo el apoyo brindado en la ejecución de este proyecto.

REFERENCIAS

[1] S. Young, D. Kershaw, J. Odell. "The HTK Book". V3.2. CUED. UK. July 2004.         [ Links ]

[2] B. Resch. "Automatic Speech Recognition with HTK". Signal Processing and Speech Communication Laboratory. Inffeldgase. Austria. Disponible en Internet: http://www.igi.tugraz.at/lehre/CI         [ Links ]

[3] L. Rabiner, B.H Juang. "Fundamentals of Speech Recognition". Prentice Hall. NY, USA. 1993.         [ Links ]

[4] R. Barrientos, C. Zamora. "Reconocimiento de Palabras Aisladas, Usando Modelos Ocultos de Markov". Tesis para optar al título de Ingeniero Civil Electrónico. Universidad de La Frontera. Temuco, Chile. 2004.         [ Links ]

[5] J. Proakis, Ch. D. G. Manolakis; "Tratamiento Digital de Señales". Prentice - Hall. 1998.         [ Links ]

[6] A. Oppenheim, R. Schafer. "Discrete-Time Signal Processing". Prentice-Hall. USA. 1989.         [ Links ]

[7] A. Procházka, J. Uhlír and P. Sovka. "Signal Analysis and Prediction I". Procházka et al. Prague, Czech Republic. 1998.         [ Links ]

[8] M. Karnjanadecha, S. Zahorian. "Signal modeling for High-Performance Robus Isolated. Word Recognitions". IEEE Transactions On speech and Audio Processing. Vol 9 No 6. September 2001.         [ Links ]


Recibido 20 de abril de 2006, aceptado 8 de enero de 2007


 

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons