Paso 8 - Realineación de los datos de entrenamiento
Fondo
Esta operación es similar a la operación de cartografía HLEd de palabra a fonema realizada en el paso 4, sin embargo, en este caso, el comando HVite puede considerar todas las pronunciaciones de cada palabra (en el caso de que una palabra tenga más de una pronunciación) Emite la pronunciación que mejor coincide con los datos acústicos.
Pasos
Ejecute el comando HVite de la siguiente manera:
Linux:
../soft/htk/HTKTools/HVite -A -D -T 1 -l '*' -o SWT -b SENT-END -C config -H hmm7/macros -H hmm7/hmmdefs -i aligned.mlf -m -t 250.0 150.0 1000.0 -y lab -a -I palabras.mlf -S train.scp dict monophones1> HVite_log
Windows:
C:>HVite -A -D -T 1 -l * -o SWT -b SENT-END -C config -H hmm7/macros -H hmm7/hmmdefs -i aligned.mlf -m -t 250.0 150.0 1000.0 -y lab -a -I palabras.mlf -S train.scp dict monophones1> HVite_log
Esto crea el archivo aligned.mlf.
Revise la salida del comando HVite con mucho cuidado. La captura de errores aquí ahorrará mucho dolor de cabeza más adelante. Debido a problemas aparentemente menores en este paso a veces aparecen como errores importantes en pasos posteriores, y son muy difíciles de rastrear hasta aquí. Aquí está la salida del registro del comando antedicho: hvite_log. Es tiempo bien invertido revisar el registro para asegurarse de que HVite reconoció todas las palabras para cada línea en su archivo de avisos.
A continuación ejecute HERest 2 veces más:
../soft/htk/HTKTools/HERest -A -D -T 1 -C config -I aligned.mlf -t 250.0 150.0 3000.0 -S train.scp -H hmm7/macros -H hmm7/hmmdefs -M hmm8 monophones1
Los archivos creados por este comando son:
- hmmdefs
- macros
Y ejecutamos otra vez:
../soft/htk/HTKTools/HERest -A -D -T 1 -C config -I aligned.mlf -t 250.0 150.0 3000.0 -S train.scp -H hmm8/macros -H hmm8/hmmdefs -M hmm9 monophones1
Los archivos creados por este comando son:
- hmmdefs
- macros
Nota: los modelos de monófonos creados en hmm9 podrían utilizarse con Julius para el reconocimiento de voz, pero la precisión de reconocimiento se puede mejorar enormemente con el uso de triphones de estado atado (consulte las siguientes secciones).
Fondo
Esta operación es similar a la operación de cartografía HLEd de palabra a fonema realizada en el paso 4, sin embargo, en este caso, el comando HVite puede considerar todas las pronunciaciones de cada palabra (en el caso de que una palabra tenga más de una pronunciación) Emite la pronunciación que mejor coincide con los datos acústicos.
Pasos
Ejecute el comando HVite de la siguiente manera:
Linux:
../soft/htk/HTKTools/HVite -A -D -T 1 -l '*' -o SWT -b SENT-END -C config -H hmm7/macros -H hmm7/hmmdefs -i aligned.mlf -m -t 250.0 150.0 1000.0 -y lab -a -I palabras.mlf -S train.scp dict monophones1> HVite_log
Windows:
C:>HVite -A -D -T 1 -l * -o SWT -b SENT-END -C config -H hmm7/macros -H hmm7/hmmdefs -i aligned.mlf -m -t 250.0 150.0 1000.0 -y lab -a -I palabras.mlf -S train.scp dict monophones1> HVite_log
Esto crea el archivo aligned.mlf.
Revise la salida del comando HVite con mucho cuidado. La captura de errores aquí ahorrará mucho dolor de cabeza más adelante. Debido a problemas aparentemente menores en este paso a veces aparecen como errores importantes en pasos posteriores, y son muy difíciles de rastrear hasta aquí. Aquí está la salida del registro del comando antedicho: hvite_log. Es tiempo bien invertido revisar el registro para asegurarse de que HVite reconoció todas las palabras para cada línea en su archivo de avisos.
A continuación ejecute HERest 2 veces más:
../soft/htk/HTKTools/HERest -A -D -T 1 -C config -I aligned.mlf -t 250.0 150.0 3000.0 -S train.scp -H hmm7/macros -H hmm7/hmmdefs -M hmm8 monophones1
Los archivos creados por este comando son:
- hmmdefs
- macros
Y ejecutamos otra vez:
../soft/htk/HTKTools/HERest -A -D -T 1 -C config -I aligned.mlf -t 250.0 150.0 3000.0 -S train.scp -H hmm8/macros -H hmm8/hmmdefs -M hmm9 monophones1
Los archivos creados por este comando son:
- hmmdefs
- macros
Nota: los modelos de monófonos creados en hmm9 podrían utilizarse con Julius para el reconocimiento de voz, pero la precisión de reconocimiento se puede mejorar enormemente con el uso de triphones de estado atado (consulte las siguientes secciones).