A multimodal corpus developed for research of speech recognition based on audio-visual data is presented. Besides usual video and sound excerpts, the prepared database contains also thermovision images and depth maps. All streams were recorded simultaneously, therefore the corpus enables to examine the importance of the information provided by different modalities. Based on the recordings, it is also possible to develop a speech recognition system which analyzes many modalities at the same time. The paper describes the process of multimodal material collection and the post-processing procedure applied to this material. Parameterization methods of signals belonging to different modalities are also proposed.
Autorzy
- dr inż. Bartosz Kunka link otwiera się w nowej karcie ,
- mgr inż. Adam Kupryjanow link otwiera się w nowej karcie ,
- mgr inż. Piotr Dalka link otwiera się w nowej karcie ,
- mgr inż. Piotr Bratoszewski link otwiera się w nowej karcie ,
- dr inż. Maciej Szczodrak link otwiera się w nowej karcie ,
- mgr inż. Paweł Spaleniak link otwiera się w nowej karcie ,
- mgr inż. Marcin Szykulski link otwiera się w nowej karcie ,
- prof. dr hab. inż. Andrzej Czyżewski link otwiera się w nowej karcie
Informacje dodatkowe
- Kategoria
- Aktywność konferencyjna
- Typ
- materiały konferencyjne indeksowane w Web of Science
- Język
- angielski
- Rok wydania
- 2013
Źródło danych: MOSTWiedzy.pl - publikacja "Multimodal English corpus for automatic speech recognition" link otwiera się w nowej karcie