Praca dotyczy rejestracji i parametryzacji alofonów w języku angielskim z wykorzystaniem dwóch modalności. W badaniach dokonano rejestracji wypowiedzi w języku angielskim mówców, których znajomość tego języka odpowiada poziomowi rodowitego mówcy. W kolejnym etapie wyodrębnione zostały alofony z nagrań fonicznych i odpowiadające im sygnały wizyjne. W procesie tworzenia wektorów cech wykorzystano odrębne systemy parametryzacji, osobne dla każdej modalności. Do parametryzacji sygnału fonicznego użyto typowych deskryptorów stosowanych w obszarze rozpoznawania mowy i muzyki. W nagraniach z systemu przechwytywania ruchu zaproponowano własne rozwiązania. Do klasyfikacji alofonów wykorzystano sieci neuronowe oraz maszynę wektorów nośnych w podejściu jedno- i dwumodalnym. Stwierdzono, że skuteczność rozpoznawania wzrasta wraz z wykorzystaniem więcej niż jednej modalności.
Autorzy
- mgr inż. Szymon Zaporowski link otwiera się w nowej karcie ,
- dr inż. Sebastian Cygert link otwiera się w nowej karcie ,
- dr hab. inż. Grzegorz Szwoch link otwiera się w nowej karcie ,
- dr Grazina Korvel link otwiera się w nowej karcie ,
- prof. dr hab. inż. Andrzej Czyżewski link otwiera się w nowej karcie
Informacje dodatkowe
- DOI
- Cyfrowy identyfikator dokumentu elektronicznego link otwiera się w nowej karcie 10.32016/1.60.28
- Kategoria
- Publikacja w czasopiśmie
- Typ
- artykuły w czasopismach recenzowanych i innych wydawnictwach ciągłych
- Język
- polski
- Rok wydania
- 2018