System Sematycznej Orientacji w Przestrzeni - podsystem interakcji głosowej i przetwarzania mowy

Celem projektu jest stworzenie kompleksowego podsystemu interakcji głosowej dla autonomicznego robota. Nowo opracowany moduł komunikacji głosowej umożliwi naturalną wymianę informacji między użytkownikami a robotem, co znacząco zwiększy jego użyteczność w aplikacjach takich jak pomoc osobom starszym, wsparcie w instytucjach publicznych czy orientacja w złożonych środowiskach wewnętrznych. Proponowany podsystem obejmuje integrację modułów przetwarzania dźwięku, transkrypcji mowy na tekst, generowania odpowiedzi za pomocą dużych modeli językowych (LLm, np. GPT-4) oraz odtworzenia odpowiedzi za pomocą własnego syntezatora mowy. Moduły te będą działały w sposób zintegrowany, tworząc całościowe rozwiązanie gotowe do zastosowania w praktyce.

Cele szczegółowe projektu:

- Opracowanie i implementacja metod przetwarzania mowy na tekst i odwrotnie;

- Zbadanie wydajności algorytmów rozpoznawania mowy pod kątem dokładności (WER), szybkości (RTF) i odporności na szumy;

- Opracowanie scenariuszy testowych i analiza wyników z użyciem Python Speach Recognition Toolkit;

Opracowanie i implementacja metod syntezy mowy z tekstu;

- Stworzenie syntezatora głosu opartego na modelach głębokiego uczenia;

- Integracja podsystemu interakcji głosowej z Systemem Semantycznej Orientacji w przestrzeni;

Projekt wypełnia istotną lukę badawczą w zakresie analizy efektywności systemów rozpoznawania mowy i klonowania głosu  w złożonych środowiskach aplikacyjnych. Prace pozwolą na pogłębienie wiedzy o wydajności algorytmów przetwarzania mowy w warunkach zakłóceń akustycznych. Dodatkowo projekt umożliwi opracowanie gotowego rozwiązania generowani a głosu z wykorzystaniem technologii AI.

Numer projektu: 

IITIS/BW/03/25

Termin: 

od 01/02/2025 do 30/06/2025

Typ projektu: 

Badania własne

Wykonawcy projektu: 

Kierownik zespołu / promotor: 

Historia zmian

Data aktualizacji: 18/02/2025 - 14:17; autor zmian: Katarzyna Chmelik (kchmelik@iitis.pl)

Celem projektu jest stworzenie kompleksowego podsystemu interakcji głosowej dla autonomicznego robota. Nowo opracowany moduł komunikacji głosowej umożliwi naturalną wymianę informacji między użytkownikami a robotem, co znacząco zwiększy jego użyteczność w aplikacjach takich jak pomoc osobom starszym, wsparcie w instytucjach publicznych czy orientacja w złożonych środowiskach wewnętrznych. Proponowany podsystem obejmuje integrację modułów przetwarzania dźwięku, transkrypcji mowy na tekst, generowania odpowiedzi za pomocą dużych modeli językowych (LLm, np. GPT-4) oraz odtworzenia odpowiedzi za pomocą własnego syntezatora mowy. Moduły te będą działały w sposób zintegrowany, tworząc całościowe rozwiązanie gotowe do zastosowania w praktyce.

Cele szczegółowe projektu:

- Opracowanie i implementacja metod przetwarzania mowy na tekst i odwrotnie;

- Zbadanie wydajności algorytmów rozpoznawania mowy pod kątem dokładności (WER), szybkości (RTF) i odporności na szumy;

- Opracowanie scenariuszy testowych i analiza wyników z użyciem Python Speach Recognition Toolkit;

Opracowanie i implementacja metod syntezy mowy z tekstu;

- Stworzenie syntezatora głosu opartego na modelach głębokiego uczenia;

- Integracja podsystemu interakcji głosowej z Systemem Semantycznej Orientacji w przestrzeni;

Projekt wypełnia istotną lukę badawczą w zakresie analizy efektywności systemów rozpoznawania mowy i klonowania głosu  w złożonych środowiskach aplikacyjnych. Prace pozwolą na pogłębienie wiedzy o wydajności algorytmów przetwarzania mowy w warunkach zakłóceń akustycznych. Dodatkowo projekt umożliwi opracowanie gotowego rozwiązania generowani a głosu z wykorzystaniem technologii AI.