Celem projektu jest stworzenie kompleksowego podsystemu interakcji głosowej dla autonomicznego robota. Nowo opracowany moduł komunikacji głosowej umożliwi naturalną wymianę informacji między użytkownikami a robotem, co znacząco zwiększy jego użyteczność w aplikacjach takich jak pomoc osobom starszym, wsparcie w instytucjach publicznych czy orientacja w złożonych środowiskach wewnętrznych. Proponowany podsystem obejmuje integrację modułów przetwarzania dźwięku, transkrypcji mowy na tekst, generowania odpowiedzi za pomocą dużych modeli językowych (LLm, np. GPT-4) oraz odtworzenia odpowiedzi za pomocą własnego syntezatora mowy. Moduły te będą działały w sposób zintegrowany, tworząc całościowe rozwiązanie gotowe do zastosowania w praktyce.
Cele szczegółowe projektu:
- Opracowanie i implementacja metod przetwarzania mowy na tekst i odwrotnie;
- Zbadanie wydajności algorytmów rozpoznawania mowy pod kątem dokładności (WER), szybkości (RTF) i odporności na szumy;
- Opracowanie scenariuszy testowych i analiza wyników z użyciem Python Speach Recognition Toolkit;
Opracowanie i implementacja metod syntezy mowy z tekstu;
- Stworzenie syntezatora głosu opartego na modelach głębokiego uczenia;
- Integracja podsystemu interakcji głosowej z Systemem Semantycznej Orientacji w przestrzeni;
Projekt wypełnia istotną lukę badawczą w zakresie analizy efektywności systemów rozpoznawania mowy i klonowania głosu w złożonych środowiskach aplikacyjnych. Prace pozwolą na pogłębienie wiedzy o wydajności algorytmów przetwarzania mowy w warunkach zakłóceń akustycznych. Dodatkowo projekt umożliwi opracowanie gotowego rozwiązania generowani a głosu z wykorzystaniem technologii AI.