MUSSLAP

Z Wikipedie, otevřené encyklopedie

MUSSLAP je projekt řešený na Západočeské univerzitě v Plzni na katedře kybernetiky, oddělení umělé inteligence. Slovo MUSSLAP je akronym z celého názvu Multimodal Human Speech and Sign Language Processing for Human-Machine Communication v českém překladu pak znamená Multimodální zpracování lidské znakové a mluvené řeči počítačem pro komunikaci člověk-stroj.

Obsah

[editovat] Výzkumné oblasti

  • Akustická syntéza řeči
  • Audiovizuální syntéza řeči
  • Audiovizuální rozpoznávání řeči
  • Překlad znakové řeči
  • Syntéza znakové řeči
  • Vyhledávání informací
  • Anotace dat

[editovat] Akustická syntéza řeči

Obecné schéma systému konkatenační syntézy řeči z textu
Obecné schéma systému konkatenační syntézy řeči z textu

Akustická syntéza řeči vytváří řečový signál - vlastní mluvenou řeč. Jako doprovodná složka modelu mluvící hlavy či systému zpracování znakové řeči může pomáhat například lidem s menším postižením sluchu, kteří by tak mohli současně využívat informace vizuální, získané odezíráním modelu mluvící hlavy (zejména rtů), i akustické, obsažené ve vytvářeném řečovém signálu. Neocenitelné služby může syntetizér řeči poskytnout i jinak handicapovaným lidem: němí lidé nebo lidé s poruchami hlasu mohou k vytváření „své“ řeči využívat svůj „osobní“ systém syntézy řeči; lidé, kteří ztratili řeč například po mozkové mrtvici, mohou využít technologii založenou na modelu mluvící hlavy pro výuku řeči. Významné uplatnění může najít i například k výuce znakové řeči sluchově nepostižených.

Cílem akustické syntézy řeči je vytvářet řeč, a to v takové formě a kvalitě, aby obvykle co nejvěrněji kopírovala řečové charakteristiky konkrétního člověka; tedy nejen samotný hlas a jeho kvalitu, ale i styl mluvení atd. Jde o časově nejnáročnější část tvorby mluvící hlavy. K automatickému vytváření řeči se využívá technologie syntézy řeči z textu (z anglického text-to-speech, TTS) - nejobecnější a také nejtěžší úloha syntézy řeči, jejímž úkolem je převést libovolný text na odpovídající řeč. Díky technologii TTS „může“ mluvící hlava „ozvučit“ libovolný text - tj. může vyslovit libovolnou promluvu. Jde o sadu speciálních modulů a algoritmů, které zajišťují automatický převod psaného textu na mluvenou řeč. Zahrnují zpracování textu (např. analýza a normalizace), převod textu do výslovnostní podoby (tj. fonetickou transkripci a generování průběhů prozodických vlastností řeči), tvorbu inventáře akustických jednotek a vlastní metodu vytváření řeči.

[editovat] Audiovizuální syntéza řeči

Obecné schéma systému Mluvící hlava
Obecné schéma systému Mluvící hlava

Syntézou řeči rozumíme napodobení lidské promluvy a v tomto případě využitím počítače. Tuto problematika je obecně složena ze dvou částí: syntéza akustické řeči a syntéza vizuální řeči. Syntéza vizuální i akustické části řeči se často skrývá pod společným názvem „Mluvící hlava“ nebo také ve zkratce TTAVS systém. Syntéza akustické části řeči je vytváření právě té složky řeči, kterou můžeme slyšet a vizuální syntéza je pak tedy plynulé vytváření viditelné složky řeči, tedy to co můžeme pozorovat na tváři mluvícího člověka. Obecné schéma můžeme vidět na obr.1. Vstupem tohoto systému jsou libovolná slova ve formě posloupnosti hlásek doplněná o prozodické informace. Výstupem je pak audio-vizální řeč ve formě obrazu a zvuku.

[editovat] Audiovizuální rozpoznávání řeči

Schéma audiovizuálního rozpoznávání řeči
Schéma audiovizuálního rozpoznávání řeči

Jedná se o úlohu rozpoznávání řeči počítačem, v níž je využíváno obou složek řeči: akustické složky a vizuální složky. Řeč je produkována řečovým ústrojím a výsledkem produkce řeči člověkem je akustický signál, který můžeme slyšet a pohyb řečového ústrojí, který můžeme vidět. Bohužel viditelnou část hlasového ústrojí představují pouze rty, zuby, jazyk a tváře člověka. Proto vizuální složka řeči obsahuje méně informace než akustická složka řeči. Vizuální složku řeči využívají nejen lidé se sluchovým postižením (odezírání ze rtů), ale používáme ji nevědomě všichni v běžné komunikaci především v hlučných prostředích.

[editovat] Překlad znakové řeči

Základní jednotkou znakového jazyka je znak (zhruba odpovídá jednomu slovu (pojmu) v mluveném jazyce, to ale neplatí vždy). Znak má dvě složky: nemanuální a manuální. Nemanuální složka je vyjádřena mimikou, pohyby a pozicemi hlavy a horní části trupu (tzv. nemanuální nosiče). Manuální složka je vyjádřena tvary, pohyby a pozicemi rukou (tzv. manuální nosiče). Znaky se realizují ve znakovacím prostoru, který je zhruba vymezen rozpaženými lokty, temenem a linií vedenou pod žaludkem. Hlavní rozdíl mezi češtinou a ČZJ je dán tím, že ČZJ je vizuálně-motorický jazyk, tj. tento jazyk není vnímán sluchem ale zrakem a je založen na tvarech, pozicích a pohybu ne na zvuku. Z toho pramení dvě základní odlišnosti znakového jazyka: simultánnost a existence v trojdimenzionálním prostoru.

[editovat] Syntéza znakové řeči

Syntézou znakové řeči rozumíme napodobení pohybů znakující lidské postavy. Úkolem syntézy je vytvoření obrazu modelu člověka ukazující znakovou řeč například na obrazovce počítače. Spojením této animace se systémem překládající psaný text do znakové řeči dostáváme virtuálního tlumočníka překládající například televizní zprávy.

[editovat] Vyhledávání informací

Information retrieval neboli automatické vyhledávání informací je obsáhlá úloha zahrnující několik oborů z oblastí ukládání, analýzy a vyhledávání v datech. Základní úloha je uložení dokumentů a v nich následné vyhledání odpovědi na dotaz položený uživatelem. Cílem je tedy správná sémantická interpretace obsahu dokumentů. Dokumentem je myšlena základní jednotka textu, která je systémem zpracovaná a lze v ní vyhledávat. Rozsah jednotlivých dokumentů závisí na konkrétní úloze. Může o celá literární díla, webové stránky, novinové články až po nejmenší jednotky jako odstavec a samostatná věta. Výsledkem vyhledávání není jeden dokument, ale množina dokumentů týkající se tématu, který je vyjádřen uživatelským dotazem. Další úlohy z oblasti Information retrieval jsou kategorizace dokumentů, sdružování podobných dokumentů, segmentace a sumarizace textu.

[editovat] Anotace dat

Anotace dat spočívá v transkripci zvukového signálu do textové formy. Tato transkripce muže být doplněna dalšími informacemi z doprovodné obrazové složky. Takto anotovaná data jsou poté použita pro trénování modelu rozpoznávání mluvené či znakové řeči.

[editovat] Externí odkazy