Studijní program: N2612 – Elektrotechnika a informatika Studijní obor: 1802T007 - Informační technologie
Možnosti hlasové interaktivní komunikace pomocí bezdrátových technologií v robotických aplikacích The options of interactive voice communications via
wireless technologies in robotic applications
Diplomová práce
Autor: Issatay Iskakov
Vedoucí diplomové práce:
Ing. Miroslav Holada, Ph.D.
V Liberci 17. 5. 2012
Byl jsem seznámen č. 121/2000 o právu autorské
Beru na vědomí, že diplomové práce a prohlašuji, diplomové práce (prodej, zapů
Jsem si vědom toho, jejímu využití mohu jen přiměřený příspěvek na úhradu (až do jejich skutečné výše).
Diplomovou práci jsem a na základě konzultací s vedoucím
Datum: 17. květen 2012
Podpis
Prohlášení
en s tím, že na mou diplomovou práci se plně vztahuje autorském, zejména § 60 (školní dílo).
že TUL má právo na uzavření licenční smlouvy prohlašuji, že s o u h l a s í m s případným ové práce (prodej, zapůjčení apod.).
toho, že užít své diplomové práce či poskytnout se souhlasem TUL, která má právo ode mne úhradu nákladů, vynaložených univerzitou na vytvoře jejich skutečné výše).
jsem vypracoval samostatně s použitím uvedené konzultací s vedoucím diplomové práce.
vztahuje zákon
louvy o užití mé ným užitím mé
poskytnout licenci k mne požadovat vytvoření díla
uvedené literatury
PODĚKOVÁNÍ
Rád bych tímto poděkoval a za konzultace při zpracová
Dále bych chtěl po diplomové práce.
poděkoval panu Ing. Miroslavu Holadovi za odborné ři zpracovávání diplomové práce.
poděkovat všem, kteří mě podporovali běhe
Issatay Iskakov odborné vedení
hem realizace
Issatay Iskakov
ANOTACE
Cílem mé práce je prostudovat možnos používal jsem pro to tři typy bezdrátových technologií
Bluetooth. Zpočátku jsem vytvořil aplikaci, která rozpoznává lidskou řeč a pokud najde náležitou řešící odpověď na tuto řeč v
potřeboval pro vytvoření nevelkého dialogu mezi robotem a počítačem. K jsem využil dva programy
Instaloval jsem na robotu, postupně, tři typy bezdrátových zařízení, která mají mikrofon a reproduktor, provedl jsem testy ve formě dialogu, který jsem opatřil přechodnými intervaly. Testy byly provedeny s
výsledků jsem použil prům
Klíčová slova:
Hlasová syntéza
Rozpoznávání řeči
Bluetooth
Wifi
Radiové spojení
Cílem mé práce je prostudovat možnosti hlasové komunikace
pro to tři typy bezdrátových technologií – to jsou radiové spojení, W luetooth. Zpočátku jsem vytvořil aplikaci, která rozpoznává lidskou řeč a pokud najde náležitou řešící odpověď na tuto řeč v zásobě slov, reprodukuje ji.
potřeboval pro vytvoření nevelkého dialogu mezi robotem a počítačem. K
jsem využil dva programy, které mi dal Ing. Miroslav Holada: Epos a „DUNDIS“.
, postupně, tři typy bezdrátových zařízení, která mají mikrofon a reproduktor, provedl jsem testy ve formě dialogu, který jsem opatřil přechodnými intervaly. Testy byly provedeny s každým zařízením desetkrát, na základě získaných výsledků jsem použil průměrné hodnoty pro každý typ bezdrátové technologie.
Hlasová syntéza Rozpoznávání řeči
Radiové spojení
ti hlasové komunikace s robotem, to jsou radiové spojení, Wifi a luetooth. Zpočátku jsem vytvořil aplikaci, která rozpoznává lidskou řeč a pokud najde zásobě slov, reprodukuje ji. Toto jsem potřeboval pro vytvoření nevelkého dialogu mezi robotem a počítačem. K tomu účelu : Epos a „DUNDIS“.
, postupně, tři typy bezdrátových zařízení, která mají mikrofon a reproduktor, provedl jsem testy ve formě dialogu, který jsem opatřil přechodnými každým zařízením desetkrát, na základě získaných ěrné hodnoty pro každý typ bezdrátové technologie.
ANNOTATION
The aim of my work is to study the possibilities of voice communication with the robot, for this purpose I use three types of wireless technology,
connection, Wifi and Bluetooth. First, I created an application that recognizes human speech and when it finds an appropriate response to the human speech in the library, then play it. I needed that procedure to create a short dialogue between the robot and the computer. I used for this purpose two programmes: Epos and
were given me by Ing. Miroslav Holada
types of wireless equipments, which have microphones and speakers, I made tests in the form of dialogue, which I measured with the help of time intervals. Tests were conducted with each equipment 10 times, from the given results, I took the average value for each type of wireless technology.
Key words:
Speech synthesis
Speech recognition
Bluetooth
Wifi
Radio link
The aim of my work is to study the possibilities of voice communication with purpose I use three types of wireless technology, they are : a radio luetooth. First, I created an application that recognizes human speech and when it finds an appropriate response to the human speech in the library, I needed that procedure to create a short dialogue between the robot and
I used for this purpose two programmes: Epos and „DUNDIS“
Miroslav Holada. After installing on the robot one by one three equipments, which have microphones and speakers, I made tests in the form of dialogue, which I measured with the help of time intervals. Tests were conducted with each equipment 10 times, from the given results, I took the average
ireless technology.
Speech synthesis Speech recognition
The aim of my work is to study the possibilities of voice communication with they are : a radio luetooth. First, I created an application that recognizes human speech and when it finds an appropriate response to the human speech in the library, I needed that procedure to create a short dialogue between the robot and
„DUNDIS“, which After installing on the robot one by one three equipments, which have microphones and speakers, I made tests in the form of dialogue, which I measured with the help of time intervals. Tests were conducted with each equipment 10 times, from the given results, I took the average
OBSAH_______________________________________________________STRANA
1. ÚVOD...
2. Hlasová syntéza a rozpoznávání řeči 2.1 Řeč robotů...
2.2 Úvod do hlasové syntézy a
2.3 Dialogové systémy...
2.3.1 Definice dialogu
2.3.2 Typy dialogu ...
2.3.3 Dialogový systém
3. DUNDIS ...
3.1 Koncepce DSR klient 3.2 Architektura serveru
3.3 DSR klient...
4. Epos ...
4.1 Systém pro syntézu řeči
4.2 Architektura...
5. Přehled bezdrátových sítí
5.1 Bluetooth ...
5.1.1 Technické řešení 5.2 Wifi ...
5.2.1 IEEE 802.11a 5.2.2 IEEE 802.11b 5.2.3 IEEE 802.11g 5.2.4 IEEE 802.11n 5.3 Princip radiového přenosu
OBSAH_______________________________________________________STRANA
...
2. Hlasová syntéza a rozpoznávání řeči...
...
syntézy a rozpoznávání řeči ...
...
2.3.1 Definice dialogu...
...
2.3.3 Dialogový systém...
...
Koncepce DSR klient – server ...
Architektura serveru ...
...
...
ro syntézu řeči ...
...
Přehled bezdrátových sítí...
...
ešení...
...
5.2.1 IEEE 802.11a ...
5.2.2 IEEE 802.11b...
802.11g...
5.2.4 IEEE 802.11n...
5.3 Princip radiového přenosu...
OBSAH_______________________________________________________STRANA
...14
...16
...16
...17
...18
...18
...18
...19
...21
...21
...22
...23
...25
...25
...26
...28
...28
...28
...30
...30
...30
...30
...31
...31
6.1 Creative HS-1200 Digital Wireless 6.1.1 Technické specifikace 6.2 SuperTooth Buddy
6.2.1 Vlastnosti Supertooth
6.3 ASUS HS-1000W...
6.3.1 Technické parametry a specifikace
7. Vytvoření aplikace a provedení testování 7.1 Aplikace ...
7.2 Nainstalování bezdrátového zařízení na robotu a testování 7.3 Výsledky testování...
8. ZÁVĚR ...
9. POUŽITÁ LITERATURA
1200 Digital Wireless ...
Technické specifikace ...
SuperTooth Buddy- Bluetooth HF...
6.2.1 Vlastnosti Supertooth Buddy ...
...
Technické parametry a specifikace ...
7. Vytvoření aplikace a provedení testování...
...
bezdrátového zařízení na robotu a testování...
...
...
POUŽITÁ LITERATURA ...
...33
...33
...34
...34
...34
...35
...36
...36
...38
...39
...45
...47
SEZNAM ZKRATEK A SYMBOLŮ
aj. a jiné
atd. a tak dále
cit. citace
CMS Content Management S
dBm decibel
dB decibel
DSR Distributed Speech R
EDR Enhanced Data
GHz gigahertz
GPS Global Positioning System
GUI Graphical User Interface
Hz hertz -
IEEE The Institute of Electrical and Electronics Engineers
IP Internet
kHz kilohertz
L2CAP Logical Link Control and Adaptation Protocol
LAN Local Area Network
m metr - jednotka délky
mm milimetr
Mbit/s megabity za sekundu
MIMO multiple
MFCC Mel-Frequency Cepstral C
mW milliwatt
Obr. obrázek
Pa pascal
Tab. tabulka
t.j. to je
TCP Transmission Control Protocol
TTS Text-to
SEZNAM ZKRATEK A SYMBOLŮ
a tak dále
Content Management System
decibel - součinitel výkonu v decibelech decibel - jednotka intenzity zvuku Distributed Speech Recognition Enhanced Data-Rate
igahertz - jednotka frekvence Global Positioning System Graphical User Interface
jednotka frekvence
Institute of Electrical and Electronics Engineers Internet Protocol
hertz - jednotka frekvence
Logical Link Control and Adaptation Protocol Local Area Network
jednotka délky ilimetr - jednotka délky
megabity za sekundu – jednotka rychlosti přenosu dat multiple input multiple output
Frequency Cepstral Coefficient milliwatt - jednotka výkonu
brázek
– fyzikální jednotka tlaku tabulka
Transmission Control Protocol to-Speech
USB Universal Serial Bus
v verze
VB Visual Basic
W3C World Wide Web Consortium
Wifi Wireless Fidelity
WPAN Wireless Personal Area
Universal Serial Bus
Visual Basic
World Wide Web Consortium Wireless Fidelity
Wireless Personal Area Networks
SEZNAM OBRÁZKŮ
Obr. 2.1: Schéma základních komponent dialogového systému Obr. 3.1: Bloková schéma „DUNDIS“ DSR platformy
Obr. 3.2: Bloková schéma DSR serveru s úloh...
Obr. 4.1: TTS systém...
Obr. 5.1: Základní koncepce Bluetooth Obr. 5.2: Radiová přenosová cesta
Obr. 6.1: Creative HS-1200 Digital Wireless Obr. 6.2: SuperTooth BUDDY
Obr. 6.3: ASUS HS-1000W Obr. 7.1: Bloková schémata Obr. 7.2: Interface aplikace pro Obr. 7.3: Slovník pro robota Obr. 7.4: Slovník pro počitač Obr. 7.5: Schéma testování
veškerého zařízení...
Obr. 7.6: Textový soubor „timing“ pro počitač Obr. 7.7: Textový soubor „timing“ pro robota Obr. 7.8: Diagram z hodnot získaných bez Obr. 7.9: Diagram z hodnot získaných Obr. 7.10: Diagram z hodnot získaných Obr. 7.11: Diagram z hodnot získaných
SEZNAM OBRÁZKŮ
Obr. 2.1: Schéma základních komponent dialogového systému ...
Bloková schéma „DUNDIS“ DSR platformy ...
Bloková schéma DSR serveru s možným paralelním procesem rozpoznání ...
...
Obr. 5.1: Základní koncepce Bluetooth...
Radiová přenosová cesta...
1200 Digital Wireless ...
SuperTooth BUDDY- Bluetooth HF...
1000W...
schémata aplikace pro rozpoznávání a reprodukci řeči ...
aplikace pro rozpoznávání a reprodukci řeči...
Slovník pro robota ...
Slovník pro počitač...
testování s použitím zařízení Wifi, Bluetooth, radiové spojení a ...
Obr. 7.6: Textový soubor „timing“ pro počitač ...
Obr. 7.7: Textový soubor „timing“ pro robota ...
hodnot získaných bez zařízení ...
hodnot získaných pomocí technologie Bluetooth ...
hodnot získaných pomocí rádiového spojení...
hodnot získaných pomocí technologie Wifi...
...20
...21
možným paralelním procesem rozpoznání ...23
...26
...29
...32
...33
...34
...35
...36
...37
...37
...38
použitím zařízení Wifi, Bluetooth, radiové spojení a bez ...39
...40
...40
...41
...42
...43
...44
SEZNAM TABULEK
Tab. 5.1: Třídy Bluetooth modulů dle komunikačního dosahu Tab. 5.2: Přenosové rychlosti podle
Tab. 7.1: Získané hodnoty testování bez
Tab. 7.2: Získané hodnoty pomocí technologie Bluetooth Tab. 7.3: Získané hodnoty testování
Tab. 7.4: Získané hodnoty testování
SEZNAM TABULEK
Tab. 5.1: Třídy Bluetooth modulů dle komunikačního dosahu ...
5.2: Přenosové rychlosti podle standardů ...
Tab. 7.1: Získané hodnoty testování bez zařízení...
pomocí technologie Bluetooth...
Tab. 7.3: Získané hodnoty testování pomocí rádiového spojení ...
Tab. 7.4: Získané hodnoty testování pomocí technologie Wifi ...
...29
...29
...41
...42
...43
...44
1. ÚVOD
Problém efektivního zadávání príkazů a dat do počítače je stejně starý, jako výpočetní technika sama. Způsob komunikace, který je přirozený pro č
není ve své podstatě vhodný pro počítač. Zatímco lidé se vě mluvené řeči nebo písma (přič
je možno vyjádřit mnoha způsoby), počítač pracuje s přesně
signály. Z tohoto důvodu je nutno vstupní informace nejprve pr zpracovatelné počítačem.
Do prvních počítačů zadávala údaje výhradně prostřednictvím přepínačů nebo dě
počítače stala klávesnice a obrazovka, pozdě Ovládání počítače se tak priblížilo
vybavením počítače grafický operač Tím, že úloha prevodu i
vzrostly nároky na jeho výpočetní výkon. Není př použití počítače se vetšina výpočetního výkonu spotř uživatele a vykreslení výsledků
V současnosti se ve sp
počítače pomocí hlasu. Jak bylo zmíněno na zač človeka nejpřirozenější. To ovš
zpracování hlasu proto není jednoduché mluvené reci do podoby
hlasových příkazů. Ovládání počítače pomocí zcela př počítač chápal význam jednotlivých slov, a proto z
Možnost hlasového ovládání je atraktivní mimo jiné i v oblasti mobilní robotiky.
Mobilní robot sice mužeme na dálku ovládat např schopnost zasahovat do jeho činnosti pomocí ně představuje určitý přínos [1]
Tato diplomová práce se zabývá otázkou možnosti využívání bezdrátových technologií v komunikaci s
lém efektivního zadávání príkazů a dat do počítače je stejně starý, jako technika sama. Způsob komunikace, který je přirozený pro človeka, bohužel podstatě vhodný pro počítač. Zatímco lidé se většinou dorozumívají pomocí nebo písma (přičemž význam je často závislý na kontextu a tentýž obsah mnoha způsoby), počítač pracuje s přesně definovanými elektrickými
vodu je nutno vstupní informace nejprve prevést
Do prvních počítačů zadávala údaje výhradně vyškolená obsluha prostřednictvím přepínačů nebo děrné pásky. S dalším rozvojem se nedílnou součástí
a obrazovka, později i myš nebo obdobné ukazovací
e se tak priblížilo lidem. V současné době, kdy je standardním vybavením počítače grafický operační systém, zvládne jeho obsluhu i laik.
Tím, že úloha prevodu informace do vhodné formy byla přenechána počítač jeho výpočetní výkon. Není přehnané tvrdit, že pri bežném domácím
ina výpočetního výkonu spotřebuje na zpracování vstupu od a vykreslení výsledků, pouze malá cást slouží k rešení samotné úlohy.
asnosti se ve specializovaných oblastech začíná uplatňovat ovládání pomocí hlasu. Jak bylo zmíněno na začátku, tato forma komunikace je pro
To ovšem zároveň znamená, že je poměrně vzdálená počítač hlasu proto není jednoduché. Uspokojivě je vyřešen problém př mluvené reci do podoby textu a ovládání počítače pomocí omezeného souboru
Ovládání počítače pomocí zcela přirozené mluvy vyž jednotlivých slov, a proto zatím nebylo plně realizováno.
Možnost hlasového ovládání je atraktivní mimo jiné i v oblasti mobilní robotiky.
eme na dálku ovládat např. pomocí notebooku a bezdrátové sítě schopnost zasahovat do jeho činnosti pomocí několika hlasových povelů přesto
[1].
Tato diplomová práce se zabývá otázkou možnosti využívání bezdrátových komunikaci s robotem. Důležitým předpokladem k řešení této práce bylo lém efektivního zadávání príkazů a dat do počítače je stejně starý, jako loveka, bohužel dorozumívají pomocí asto závislý na kontextu a tentýž obsah definovanými elektrickými evést do formy
kolená obsluha ím rozvojem se nedílnou součástí ovací zařízení.
kdy je standardním
nformace do vhodné formy byla přenechána počítači, ehnané tvrdit, že pri bežném domácím ebuje na zpracování vstupu od , pouze malá cást slouží k rešení samotné úlohy.
ovat ovládání , tato forma komunikace je pro e je poměrně vzdálená počítači a en problém přepisu í omezeného souboru irozené mluvy vyžaduje, aby
realizováno.
Možnost hlasového ovládání je atraktivní mimo jiné i v oblasti mobilní robotiky.
mocí notebooku a bezdrátové sítě, ch povelů přesto
Tato diplomová práce se zabývá otázkou možnosti využívání bezdrátových řešení této práce bylo
vytvoření dialogu na základě rozpoznávání a syntézy řeči. Výsledkem d bude získání údajů v podobě přechodových intervalů.
Pro získání nevelkého dialogu bude vytvořena aplikace, která bude rozpoznávat a reprodukovat řeč. Aby byla vytvořena tato aplikace, budou využívány dva programy, Epos a „DUNDIS“, které mi d
aplikace instalována u dvou počítačů, na jednom z zařízení s třemi typy bezdráto
budou mít mikrofon i reproduktor. Ře
postupně. Při spuštění aplikace na počítačích zpočátku jedna instalace reprodukuje jakýkoli text, potom druhá aplikace jej rozpozná a bude hledat příslušnou odpověď na tento text ve své slovní zásobě. Jakmi
tak dále. Tímto způsobem se vytvoří nevelký dialog, který se bude měřit přechodovými intervaly. Takže se provede otestování přímo, bez jakéhokoliv doprovodného zařízení, aby se mohly porovnat výsledky.
Diplomová práce je tématicky rozdělena na čtyři části, v práce systémů rozpoznávání a reprodukování řeči v
práce programů Epos a „DUNDIS“
V druhé části se nachází
charakteristiky. Zařízení, které budu využívat k popsána práce, kterou jsem prováděl k reprodukování řeči. V závěrečné části je provedena
vytvoření dialogu na základě rozpoznávání a syntézy řeči. Výsledkem diplomové práce podobě přechodových intervalů.
Pro získání nevelkého dialogu bude vytvořena aplikace, která bude rozpoznávat a reprodukovat řeč. Aby byla vytvořena tato aplikace, budou využívány dva programy,
, které mi dal k dispozici Ing. Miroslav Holada. Potom bude tato aplikace instalována u dvou počítačů, na jednom z nich bude zapojeno postupně
třemi typy bezdrátových systémů: radiové spojení, Wifi, Blueto
budou mít mikrofon i reproduktor. Řešil jsem, že zařízení budou instalována u robota, postupně. Při spuštění aplikace na počítačích zpočátku jedna instalace reprodukuje jakýkoli text, potom druhá aplikace jej rozpozná a bude hledat příslušnou odpověď na tento text ve své slovní zásobě. Jakmile najde odpověď, ihned bude reprodukována, a tak dále. Tímto způsobem se vytvoří nevelký dialog, který se bude měřit přechodovými intervaly. Takže se provede otestování přímo, bez jakéhokoliv doprovodného zařízení, aby se mohly porovnat výsledky.
á práce je tématicky rozdělena na čtyři části, v první části je popsána práce systémů rozpoznávání a reprodukování řeči v aplikacích pro roboty. Také sys práce programů Epos a „DUNDIS“, které budu využívat k vytvoření aplikace.
druhé části se nachází popsání bezdrátových systémů, jejich technické charakteristiky. Zařízení, které budu využívat k provedení testů. V třetí části bude popsána práce, kterou jsem prováděl k vytvoření aplikace rozpoznávání a
závěrečné části je provedena analýza získaných výsledků.
iplomové práce
Pro získání nevelkého dialogu bude vytvořena aplikace, která bude rozpoznávat a reprodukovat řeč. Aby byla vytvořena tato aplikace, budou využívány dva programy,
Miroslav Holada. Potom bude tato nich bude zapojeno postupně
luetooth. Zařízení šil jsem, že zařízení budou instalována u robota, postupně. Při spuštění aplikace na počítačích zpočátku jedna instalace reprodukuje jakýkoli text, potom druhá aplikace jej rozpozná a bude hledat příslušnou odpověď na le najde odpověď, ihned bude reprodukována, a tak dále. Tímto způsobem se vytvoří nevelký dialog, který se bude měřit přechodovými intervaly. Takže se provede otestování přímo, bez jakéhokoliv doprovodného zařízení,
první části je popsána aplikacích pro roboty. Také systém
vytvoření aplikace.
popsání bezdrátových systémů, jejich technické třetí části bude vytvoření aplikace rozpoznávání a
analýza získaných výsledků.
2. Hlasová syntéza a rozpoznávání řeči
2.1 Řeč robotů
Současně s nespornými přednostmi výroby robotů, které bezprostředně rozumí řeči a pracují v souladu s příkazy lidí, sotva se podle všeho v
s průmyslovou výrobou robotů, které jsou schopny reprodukovat řeč.
Reprodukování některýc
nevyžaduje zvláštní obtížnost. Nejvíce známou cestou je ukládání do paměti přesně stanoveného množství předem zadaných slov, které řekne kterýkoli člověk, která by mohla být měněna jak podle míry potřeby, tak po
Prakticky se tato forma řeči používá dost dlouho v
předem se nahrávají oznamování o přesném čase, které se automaticky tvoří z počtu jednotlivě zapsaných slov. V
dveří vlaku s výslovností třicátých let nutnost uvolnění dveří.
Tuto formu řeči lze velmi rychle využít v
několika let, jak je zřejmé, jedinou formou jazyka robotů. Nicméně je možné, že budou vytvářena také zařízení, která budou sestavovat lidskou řeč z
Toto se provádí už dost dlouho. Tak systém, ve kterém se člověku podobná řeč reprodukovala jako výsledek některých činností s
operátorem, představoval systém, ve kterém se ovládání reprodukované řeči uskutečňovalo pomocí signálů o nízké frekvenci, které byly produkovány na vstupním zařízení, které předávalo jazyk dále.
Elektrické signály, které usměrňují výstup ze zařízení, mohou být produková robotem, kterému bude takto zcela dostupná melodická forma řeči. Avšak budou takováto zařízení disponovat samostatně ovladatelným mechanismem vyžadovat ještě dlouhotrvající časové období studia.
V současné době se v reprodukce řeči. Ovšem
zabezpečení mobilnosti a přenositelnosti používáno zařízení pokud možno velmi malé po stránce rozměrů i váhových parametrů.
2. Hlasová syntéza a rozpoznávání řeči
nespornými přednostmi výroby robotů, které bezprostředně rozumí příkazy lidí, sotva se podle všeho v nejbližším období začne průmyslovou výrobou robotů, které jsou schopny reprodukovat řeč.
Reprodukování některých druhů člověku podobných řečových signálů nevyžaduje zvláštní obtížnost. Nejvíce známou cestou je ukládání do paměti přesně stanoveného množství předem zadaných slov, které řekne kterýkoli člověk, která by mohla být měněna jak podle míry potřeby, tak podle magnetofonových zařízení.
Prakticky se tato forma řeči používá dost dlouho v telefonních systémech, například předem se nahrávají oznamování o přesném čase, které se automaticky tvoří z
počtu jednotlivě zapsaných slov. V londýnském metru oznamuje hlas před zavřením výslovností třicátých let nutnost uvolnění dveří.
Tuto formu řeči lze velmi rychle využít v různých systémech , proto bude během několika let, jak je zřejmé, jedinou formou jazyka robotů. Nicméně je možné, že budou ytvářena také zařízení, která budou sestavovat lidskou řeč z jednotlivých elementů.
Toto se provádí už dost dlouho. Tak systém, ve kterém se člověku podobná řeč reprodukovala jako výsledek některých činností s využitím ovládání člověkem
dstavoval systém, ve kterém se ovládání reprodukované řeči uskutečňovalo pomocí signálů o nízké frekvenci, které byly produkovány na vstupním zařízení, které předávalo jazyk dále.
Elektrické signály, které usměrňují výstup ze zařízení, mohou být produková robotem, kterému bude takto zcela dostupná melodická forma řeči. Avšak budou takováto zařízení disponovat samostatně ovladatelným mechanismem vyžadovat ještě dlouhotrvající časové období studia.
současné době se v digitálních přístrojích prakticky využívají oba druhy reprodukce řeči. Ovšem – je velmi důležité, aby u mobilních robotů bylo pro zabezpečení mobilnosti a přenositelnosti používáno zařízení pokud možno velmi malé po stránce rozměrů i váhových parametrů.
nespornými přednostmi výroby robotů, které bezprostředně rozumí nejbližším období začne
h druhů člověku podobných řečových signálů nevyžaduje zvláštní obtížnost. Nejvíce známou cestou je ukládání do paměti přesně stanoveného množství předem zadaných slov, které řekne kterýkoli člověk, která by dle magnetofonových zařízení.
telefonních systémech, například předem se nahrávají oznamování o přesném čase, které se automaticky tvoří z určitého uje hlas před zavřením
různých systémech , proto bude během několika let, jak je zřejmé, jedinou formou jazyka robotů. Nicméně je možné, že budou jednotlivých elementů.
Toto se provádí už dost dlouho. Tak systém, ve kterém se člověku podobná řeč využitím ovládání člověkem – dstavoval systém, ve kterém se ovládání reprodukované řeči uskutečňovalo pomocí signálů o nízké frekvenci, které byly produkovány na vstupním
Elektrické signály, které usměrňují výstup ze zařízení, mohou být produkovány robotem, kterému bude takto zcela dostupná melodická forma řeči. Avšak – pokud budou takováto zařízení disponovat samostatně ovladatelným mechanismem - bude to
řístrojích prakticky využívají oba druhy mobilních robotů bylo pro zabezpečení mobilnosti a přenositelnosti používáno zařízení pokud možno velmi malé
Pro miniaturizaci jednotlivých druhů zvukového zařízení , jak je vidět, není příliš mnoho uděláno. V zařízeních s
pohyb, což je pro mobilní roboty nežádoucí. Na druhé straně je takovýto systém podstatně jednodušší, než sta
Je možné, že se v dalších propracováních budou využívat speciální integrované varianty dekodérů o malých rozměrech i o malé hmotnosti, aby byla dána možnost zříci se využívání kinematiky. Pro první roboty je nutné napr
slovník, ale, podle všeho, bude lepší jako základní variantu uplatňovat více melodické varianty dekodérů.Takové, ve kterých se využívají řečové prvky, a nikoliv celá slova, což bude umožňovat rozšiřování možností řečových z
2.2 Úvod do hlasové syntézy a
Hned při počátku vývoje počítače musel člověk vymyslet, jakým způsobem se s ním bude komunikovat. V ranných fázích vývoje se převážně používaly děrné štítky, později se pro zadávání dat
monitoru. S postupem času ke klávesnici ještě přibyla počítačová myš a grafické uživatelské rozhraní (GUI –
používat v praxi další způsob kom pomocí hlasu. Technologie, které umož
mohou být rozděleny do tří hlavních kategorií:
• Hlasová syntéza (Speech synthesis) je umělá reprodukce lidského hlasu. Ta technologie je potřebná k tomu, aby počítač mohl uživateli odpovědět lidským hlasem.
Systémy TTS (Text-to-Speech) převádějí běžný jazyk zaznamenaný v textové podobě do hlasového projevu. V dnešní době jsou tyto technologie využívány v praxi například na nádražích, kde příjezdy a odjezdy vlaků místo výpravčího hlásí počítač.
• Rozpoznávání řeči (Speech recognition) je technologie, která převádí lidskou řeč do textové podoby. Tato technologie je nezbytná pro možnost použití hlasového vstupu k ovládání počítače. V dnešní době mají technologie určené k rozpoznávaní řeči pro praktické využití značné rezervy. Prozatím se v praxi používají systémy s velmi omezenou slovní zásobou (hlasové ovládání GPS navigace, hlasové vytáčení, hlasové ovládání některých počítač
rizaci jednotlivých druhů zvukového zařízení , jak je vidět, není zařízeních s předběžnou nahrávkou se využívá mechanický pohyb, což je pro mobilní roboty nežádoucí. Na druhé straně je takovýto systém podstatně jednodušší, než statické zařízení přejímajícího typu.
dalších propracováních budou využívat speciální integrované varianty dekodérů o malých rozměrech i o malé hmotnosti, aby byla dána možnost zříci se využívání kinematiky. Pro první roboty je nutné naprosto nutně mít omezený řečový slovník, ale, podle všeho, bude lepší jako základní variantu uplatňovat více melodické varianty dekodérů.Takové, ve kterých se využívají řečové prvky, a nikoliv celá slova, což bude umožňovat rozšiřování možností řečových zařízení [2].
syntézy a rozpoznávání řeči
Hned při počátku vývoje počítače musel člověk vymyslet, jakým způsobem se s ním bude komunikovat. V ranných fázích vývoje se převážně používaly děrné štítky, později se pro zadávání dat začala používat klávesnice a výsledek se zobrazoval na postupem času ke klávesnici ještě přibyla počítačová myš a grafické – Graphical User Interface). Dnes se vyvíjí a postupně začíná používat v praxi další způsob komunikace člověka s počítačem – ovládání počítače pomocí hlasu. Technologie, které umožňují lidem komunikovat s počítači pomocí hlasu, mohou být rozděleny do tří hlavních kategorií:
• Hlasová syntéza (Speech synthesis) je umělá reprodukce lidského hlasu. Ta technologie je potřebná k tomu, aby počítač mohl uživateli odpovědět lidským hlasem.
Speech) převádějí běžný jazyk zaznamenaný v textové podobě do hlasového projevu. V dnešní době jsou tyto technologie využívány v praxi například
nádražích, kde příjezdy a odjezdy vlaků místo výpravčího hlásí počítač.
• Rozpoznávání řeči (Speech recognition) je technologie, která převádí lidskou řeč do textové podoby. Tato technologie je nezbytná pro možnost použití hlasového tače. V dnešní době mají technologie určené k rozpoznávaní řeči pro praktické využití značné rezervy. Prozatím se v praxi používají systémy s velmi omezenou slovní zásobou (hlasové ovládání GPS navigace, hlasové vytáčení, hlasové ovládání některých počítačových aplikací atd.) nebo systémy, které úspěšně rizaci jednotlivých druhů zvukového zařízení , jak je vidět, není předběžnou nahrávkou se využívá mechanický pohyb, což je pro mobilní roboty nežádoucí. Na druhé straně je takovýto systém
dalších propracováních budou využívat speciální integrované varianty dekodérů o malých rozměrech i o malé hmotnosti, aby byla dána možnost zříci osto nutně mít omezený řečový slovník, ale, podle všeho, bude lepší jako základní variantu uplatňovat více melodické varianty dekodérů.Takové, ve kterých se využívají řečové prvky, a nikoliv celá slova,
Hned při počátku vývoje počítače musel člověk vymyslet, jakým způsobem se s ním bude komunikovat. V ranných fázích vývoje se převážně používaly děrné štítky, začala používat klávesnice a výsledek se zobrazoval na postupem času ke klávesnici ještě přibyla počítačová myš a grafické Graphical User Interface). Dnes se vyvíjí a postupně začíná ovládání počítače ují lidem komunikovat s počítači pomocí hlasu,
• Hlasová syntéza (Speech synthesis) je umělá reprodukce lidského hlasu. Tato technologie je potřebná k tomu, aby počítač mohl uživateli odpovědět lidským hlasem.
Speech) převádějí běžný jazyk zaznamenaný v textové podobě do hlasového projevu. V dnešní době jsou tyto technologie využívány v praxi například
nádražích, kde příjezdy a odjezdy vlaků místo výpravčího hlásí počítač.
• Rozpoznávání řeči (Speech recognition) je technologie, která převádí lidskou řeč do textové podoby. Tato technologie je nezbytná pro možnost použití hlasového tače. V dnešní době mají technologie určené k rozpoznávaní řeči pro praktické využití značné rezervy. Prozatím se v praxi používají systémy s velmi omezenou slovní zásobou (hlasové ovládání GPS navigace, hlasové vytáčení, hlasové ových aplikací atd.) nebo systémy, které úspěšně
rozpoznávají řeč za určitých podmínek (například tichá kancelář nebo laboratorní prostory) pouze u konkrétní osoby, na kterou byly kalibrovány. Mezi tyto aplikace patří zejména různé diktovací systémy, kde u
používá svůj hlas.
• Technologie pro tvorbu dialogových aplikací. Dialogová aplikace
od běžných aplikací - nemá grafické uživatelské rozhraní, ale komunikuje s uživatelem prost řednictvím dialogu –
aplikace pomocí gramatik rozezná a provede zadaný příkaz a uživateli sdělí výsledek.
Pro tvorbu dialogových aplikací se převážně používají standardy W3C Voice Browser [3].
2.3 Dialogové systémy 2.3.1 Definice dialogu
Dialog je definován jako rozmluva mezi dvěma subjekty (účastníky dialogu).
Jednotlivá sdělení těchto subjektů se nazývají promluvy. Tato práce uvažuje pouze dialog typu člověk - počítač. Jednotlivé promluvy na sebe plynule navazu
dialog primárně soustředí k nalezení společného cíle, kvůli kterému je veden, je označován jako kooperativní dialog.
2.3.2 Typy dialogu
Podle toho, kdo vede dialog (klade otázky) a kdo odpovídá, rozlišujeme tři základní typy dialogu.
Dialogy s iniciativou
tak, že systém pokládá otázky a uživatel na ně pouze odpovídá. Systém zárove definuje povolený vstup. U tohoto typu dialogu je vysoká úspěšnost porozumění ovšem za cenu nepříliš vy
rozpoznávají řeč za určitých podmínek (například tichá kancelář nebo laboratorní prostory) pouze u konkrétní osoby, na kterou byly kalibrovány. Mezi tyto aplikace patří zejména různé diktovací systémy, kde uživatel k psaní dokumentu místo klávesnice
• Technologie pro tvorbu dialogových aplikací. Dialogová aplikace
nemá grafické uživatelské rozhraní, ale komunikuje s uživatelem uživatel pomocí dialogu aplikaci přikáže, co si přeje provést, aplikace pomocí gramatik rozezná a provede zadaný příkaz a uživateli sdělí výsledek.
Pro tvorbu dialogových aplikací se převážně používají standardy W3C Voice Browser
Dialog je definován jako rozmluva mezi dvěma subjekty (účastníky dialogu).
Jednotlivá sdělení těchto subjektů se nazývají promluvy. Tato práce uvažuje pouze počítač. Jednotlivé promluvy na sebe plynule navazu
dialog primárně soustředí k nalezení společného cíle, kvůli kterému je veden, je označován jako kooperativní dialog.
Podle toho, kdo vede dialog (klade otázky) a kdo odpovídá, rozlišujeme tři
y s iniciativou systému - celý dialog je řízen systémem. V praxi to vypadá tak, že systém pokládá otázky a uživatel na ně pouze odpovídá. Systém zárove definuje povolený vstup. U tohoto typu dialogu je vysoká úspěšnost porozumění ovšem za cenu nepříliš vysokého uživatelského komfortu.
rozpoznávají řeč za určitých podmínek (například tichá kancelář nebo laboratorní prostory) pouze u konkrétní osoby, na kterou byly kalibrovány. Mezi tyto aplikace patří živatel k psaní dokumentu místo klávesnice
• Technologie pro tvorbu dialogových aplikací. Dialogová aplikace - na rozdíl nemá grafické uživatelské rozhraní, ale komunikuje s uživatelem uživatel pomocí dialogu aplikaci přikáže, co si přeje provést, aplikace pomocí gramatik rozezná a provede zadaný příkaz a uživateli sdělí výsledek.
Pro tvorbu dialogových aplikací se převážně používají standardy W3C Voice Browser
Dialog je definován jako rozmluva mezi dvěma subjekty (účastníky dialogu).
Jednotlivá sdělení těchto subjektů se nazývají promluvy. Tato práce uvažuje pouze počítač. Jednotlivé promluvy na sebe plynule navazují. Pokud se dialog primárně soustředí k nalezení společného cíle, kvůli kterému je veden, je
Podle toho, kdo vede dialog (klade otázky) a kdo odpovídá, rozlišujeme tři
celý dialog je řízen systémem. V praxi to vypadá tak, že systém pokládá otázky a uživatel na ně pouze odpovídá. Systém zároveň definuje povolený vstup. U tohoto typu dialogu je vysoká úspěšnost porozumění
Dialogy s iniciativou uživatele
kontrolu. Uživatel pokládá dotazy, systém na ně postupně odpovídá. Systém nezobrazuje výzvy a nepřesouvá se v rámci dialogu do jiného stavu bez interakce uživatele. Tento typ dialogu je nejnáročnější na vývoj, nebot’ uživatel má volnost dotazu a systém musí být připraven zareagovat na nejrůznější vstupy. Často může stát, že systém uživateli nerozumí, pokud dotazy nejsou formulovány správně a uživ
Dialogy se smíšenou iniciativou
systém střídají v řízení dialogu. Je to nejčastěji užívaný typ dialogu a nejvíce připomíná reálnou komunikaci. Probíhá tak, že se systém i uži
zadávání otázek a dodávání odpovědí. Předpokládá se uživatelská znalost systému, ale jsou přítomny opravné sekvence. Tento přístup je nejpraktičtější, nabízí jednoduchost uživateli, který systém nezná, a zárověn svobodu zkušenému uživateli
proces. Kromě typu dialogu jsou důležité specifikace fungování systému jako celku. Určují způsob jakým bude naloženo se získanými informacemi a jak systém zareaguje na výjimečné situace, které nej
2.3.3 Dialogový systém
Dialogovým systémem se označuje komplexní systém disponující prostředky hlasové komunikace, který umož
prostřednictvím dialogu. Architektury dialogových systémů se byměly všechny obsahovat tyto části:
Porozumění přirozenému jazyku.
Rozpoznávání/dekódování vstupu.
Generátor výstupu.
Renderer výstupu.
Dialogy s iniciativou uživatele - dialog je řízen uživatelem, který má jeho plnou kontrolu. Uživatel pokládá dotazy, systém na ně postupně odpovídá. Systém nezobrazuje výzvy a nepřesouvá se v rámci dialogu do jiného stavu bez interakce uživatele. Tento typ dialogu je nejnáročnější na vývoj, nebot’ uživatel má volnost dotazu a systém musí být připraven zareagovat na nejrůznější vstupy. Často může stát, že systém uživateli nerozumí, pokud dotazy nejsou formulovány správně a uživatel není se systémem obeznámen.
Dialogy se smíšenou iniciativou - při tomto typu dialogu se uživatel i dialogový systém střídají v řízení dialogu. Je to nejčastěji užívaný typ dialogu a nejvíce připomíná reálnou komunikaci. Probíhá tak, že se systém i uživatel střídají v zadávání otázek a dodávání odpovědí. Předpokládá se uživatelská znalost systému, ale jsou přítomny opravné sekvence. Tento přístup je nejpraktičtější, nabízí jednoduchost uživateli, který systém nezná, a zárověn svobodu zkušenému uživateli, který má možnost klást vlastní dotazy a tím urychlit celý proces. Kromě typu dialogu jsou důležité specifikace fungování systému jako celku. Určují způsob jakým bude naloženo se získanými informacemi a jak systém zareaguje na výjimečné situace, které nejsou cílem dialogu.
Dialogovým systémem se označuje komplexní systém disponující prostředky hlasové komunikace, který umožňuje komunikovat s počítačem přirozenou řečí prostřednictvím dialogu. Architektury dialogových systémů se různí, ale v principu byměly všechny obsahovat tyto části:
Porozumění přirozenému jazyku.
Rozpoznávání/dekódování vstupu.
dialog je řízen uživatelem, který má jeho plnou kontrolu. Uživatel pokládá dotazy, systém na ně postupně odpovídá. Systém nezobrazuje výzvy a nepřesouvá se v rámci dialogu do jiného stavu bez interakce uživatele. Tento typ dialogu je nejnáročnější na vývoj, nebot’ uživatel má volnost dotazu a systém musí být připraven zareagovat na nejrůznější vstupy. Často může stát, že systém uživateli nerozumí, pokud dotazy nejsou
při tomto typu dialogu se uživatel i dialogový systém střídají v řízení dialogu. Je to nejčastěji užívaný typ dialogu a nejvíce vatel střídají v zadávání otázek a dodávání odpovědí. Předpokládá se uživatelská znalost systému, ale jsou přítomny opravné sekvence. Tento přístup je nejpraktičtější, nabízí jednoduchost uživateli, který systém nezná, a zárověn svobodu , který má možnost klást vlastní dotazy a tím urychlit celý proces. Kromě typu dialogu jsou důležité specifikace fungování systému jako celku. Určují způsob jakým bude naloženo se získanými informacemi a jak
Dialogovým systémem se označuje komplexní systém disponující prostředky uje komunikovat s počítačem přirozenou řečí různí, ale v principu
Obr. 2.1: Schéma základních komponent dialogového systému
Kromě těchto elementů obsahuje každý dialogový systém manažer dialogu, který vykonává patřičnou dialogovou strategii podle konkrétní aplikace a uchovává aktuální stav. Celému systému jsou dále přístupné interní datové proměnné, které mohou být využity pro generování výstupu. Klíčovou částí systému, se kterou jedinou přichází uživatel do kontaktu, je hlasové dialogové rozhraní. Představuje rozhraní mezi počítačem a uživatelem podobně jako je tomu v případě např. textového či grafického uživatelského rozhraní. Toto rozhraní je zodpovědné za zpracování vstupu a generování výstupu [4].
Obr. 2.1: Schéma základních komponent dialogového systému.
Kromě těchto elementů obsahuje každý dialogový systém manažer dialogu, který vykonává patřičnou dialogovou strategii podle konkrétní aplikace a uchovává aktuální stav. Celému systému jsou dále přístupné interní datové proměnné, které generování výstupu. Klíčovou částí systému, se kterou jedinou přichází uživatel do kontaktu, je hlasové dialogové rozhraní. Představuje rozhraní mezi počítačem a uživatelem podobně jako je tomu v případě např. textového či grafického . Toto rozhraní je zodpovědné za zpracování vstupu a generování Kromě těchto elementů obsahuje každý dialogový systém manažer dialogu, který vykonává patřičnou dialogovou strategii podle konkrétní aplikace a uchovává aktuální stav. Celému systému jsou dále přístupné interní datové proměnné, které generování výstupu. Klíčovou částí systému, se kterou jedinou přichází uživatel do kontaktu, je hlasové dialogové rozhraní. Představuje rozhraní mezi počítačem a uživatelem podobně jako je tomu v případě např. textového či grafického . Toto rozhraní je zodpovědné za zpracování vstupu a generování
3. DUNDIS
3.1 Koncepce DSR klient
Systém DSR klient
hlavně pro dálkové ovládání a testování systému hlasových dialogů. Jeho schema, které je ukázáno na obr.3.1 i jeho design plnění těchto postulátů a praktických potřeb:
Obr. 3.1: Bloková schéma „
Koncepce DSR klient – server
Systém DSR klient – server („DUNDIS“) byl vypracován v roce 2002, tehdy hlavně pro dálkové ovládání a testování systému hlasových dialogů. Jeho schema, které je ukázáno na obr.3.1 i jeho design plnění těchto postulátů a praktických potřeb:
„DUNDIS“ DSR platformy.
roce 2002, tehdy hlavně pro dálkové ovládání a testování systému hlasových dialogů. Jeho schema, které je ukázáno na obr.3.1 i jeho design plnění těchto postulátů a praktických potřeb:
Klient – server využívá odkaz stabilního kanálu předání, což garantuje komunikační protokol (například TCP/IP), tak, že se získává jedině správný tok údajů.
Tímto způsobem se nemusíme zajímat o chybné soubory.
Formát předávaných údajů je jednoduchý a lze
programování (například C, Java, VB). I když může být využíván také pro obměnu textových údajů, hlavní většina klient
povelů ke startu dvojkové formy.
„DUNDIS“ se skládá z
snadno kumulovat s jazykem modulů zpracování
návrhu vět. Kromě toho toto modulární schema zjednodušuje vyřešení a změnu velkých systémů. Tato platforma má ješt
studentům) účastnit se na výzkumu řeči bez hlubokých znalostí složitých témat, jako jsou dekódované úpravy v reálném čase a podobně.
3.2 Architektura serveru
Schema toku údajů v
mnoho možností (paralelní počítač) pozastavit odpověď po krátkou dobu, dokonce i když je napojeno hodně klientů. V
jednotlivými klienty, formuje pořadí a rozdělování se dostává
Rozpoznávání se uskutečňuje na straně serveru, podporuje se pouze diskrétní přípojka řeči (oddělená slova nebo fráze) v
s velkou slovní zásobou (10000 bodů u více). Jeho akustický model inve vyhotoven pro český jazyk.
server využívá odkaz stabilního kanálu předání, což garantuje komunikační protokol (například TCP/IP), tak, že se získává jedině správný tok údajů.
Tímto způsobem se nemusíme zajímat o chybné soubory.
Formát předávaných údajů je jednoduchý a lze jej lehce číst ve většině jazyků programování (například C, Java, VB). I když může být využíván také pro obměnu textových údajů, hlavní většina klient – serveru je sdružování i protokol předávání povelů ke startu dvojkové formy.
se skládá z několika funkčních oddělených bloků. Ty je možné jazykem modulů zpracování – úpravy pro vytvoření konkrétního návrhu vět. Kromě toho toto modulární schema zjednodušuje vyřešení a změnu velkých systémů. Tato platforma má ještě jednu přednost, že dovoluje jiným lidem (zpravidla studentům) účastnit se na výzkumu řeči bez hlubokých znalostí složitých témat, jako
reálném čase a podobně.
Schema toku údajů v serveru je ukázán na obr.2.3. Tento systém ponechává mnoho možností (paralelní počítač) pozastavit odpověď po krátkou dobu, dokonce i když je napojeno hodně klientů. V takovém případě jsou úkoly, které jsou předávány jednotlivými klienty, formuje pořadí a rozdělování se dostává k volným procesorům.
se uskutečňuje na straně serveru, podporuje se pouze diskrétní přípojka řeči (oddělená slova nebo fráze) v konkrétním momentě, ale server může pracovat
velkou slovní zásobou (10000 bodů u více). Jeho akustický model inve vyhotoven pro český jazyk.
server využívá odkaz stabilního kanálu předání, což garantuje komunikační protokol (například TCP/IP), tak, že se získává jedině správný tok údajů.
jej lehce číst ve většině jazyků programování (například C, Java, VB). I když může být využíván také pro obměnu serveru je sdružování i protokol předávání
několika funkčních oddělených bloků. Ty je možné úpravy pro vytvoření konkrétního návrhu vět. Kromě toho toto modulární schema zjednodušuje vyřešení a změnu velkých ě jednu přednost, že dovoluje jiným lidem (zpravidla studentům) účastnit se na výzkumu řeči bez hlubokých znalostí složitých témat, jako
Tento systém ponechává mnoho možností (paralelní počítač) pozastavit odpověď po krátkou dobu, dokonce i takovém případě jsou úkoly, které jsou předávány volným procesorům.
se uskutečňuje na straně serveru, podporuje se pouze diskrétní přípojka konkrétním momentě, ale server může pracovat velkou slovní zásobou (10000 bodů u více). Jeho akustický model inventarizace byl
Computer
Computer Computer
…
… ...
DSR clients Internet
Obr. 3.2: Bloková schéma DSR serveru s rozpoznání úloh.
3.3 DSR klient
Aplikace na straně klienta je budována na několika modulech tohoto procesu údajů v několika různých úrovních:
Server – klient v nízké úrovni základu sdružování TCP/IP.
„DUNDIS“ vlastní protokol
zabezpečuje obměny údajů mezi klientem a serverem. Toto dov
předávat dvojkové údaje, ať funkcí vektorů nebo jejich kvantové podoby, a dovoluje ovládání údajů, jako je začátek a konec podávání, určení běžné slovní zásoby atd.
Internet
IP address, port (input point)
Processor
Processor Processor Queue of recognition tasks
DSR Server
Bloková schéma DSR serveru s možným paralelním procesem
Aplikace na straně klienta je budována na několika modulech tohoto procesu několika různých úrovních:
nízké úrovni – poslední verze „DUNDIS“ se ponechává na základu sdružování TCP/IP.
vlastní protokol – zde se využívá jednoduchý formát, který zabezpečuje obměny údajů mezi klientem a serverem. Toto dovoluje klientovi předávat dvojkové údaje, ať funkcí vektorů nebo jejich kvantové podoby, a dovoluje ovládání údajů, jako je začátek a konec podávání, určení běžné slovní
Processor #1
Processor #N
… Processor #2
možným paralelním procesem
Aplikace na straně klienta je budována na několika modulech tohoto procesu
se ponechává na
zde se využívá jednoduchý formát, který oluje klientovi předávat dvojkové údaje, ať funkcí vektorů nebo jejich kvantové podoby, a dovoluje ovládání údajů, jako je začátek a konec podávání, určení běžné slovní
Rozhraní aplikace řeči
s tím, aby zpracovatelé rychlé aplikace DSR mohli pracovat bez detailního poznání prostředků rozeznávání řeči a při nízké úrovni komunikace.
Využitelné rozhraní
mohou být například okna s [5].
Rozhraní aplikace řeči – tento modul zahrnuje funkce dvou předchozích slov tím, aby zpracovatelé rychlé aplikace DSR mohli pracovat bez detailního poznání prostředků rozeznávání řeči a při nízké úrovni komunikace.
Využitelné rozhraní – to je jedinečná aplikace, jednoznačná na straně klienta. To mohou být například okna s bohatou textovou formou při předepisování úloh tento modul zahrnuje funkce dvou předchozích slov tím, aby zpracovatelé rychlé aplikace DSR mohli pracovat bez detailního poznání prostředků rozeznávání řeči a při nízké úrovni komunikace.
to je jedinečná aplikace, jednoznačná na straně klienta. To u textovou formou při předepisování úloh
4. Epos
4.1 Systém pro syntézu řeči
Systém pro syntézu řeči z psaného textu Epos (jinak také TTS systém z angl.
Text-To-Speech) je vyvíjen jako volně šířitelný software
Hlavním impulsem pro jeho vývoj byla skutečnost, že v dosavadních řečových syntezátorech bylo nutno veškeré jazykové vlastnosti jako např. fonetickou transkripci (převod psané formy na mluvenou) a prozodická pravidla (tj. popis intonace a rychlosti řeči) psát přímo do zdrojového kódu syntezátoru. Z toho vyplývá, že prozodická pravidla mohl modifikovat v podstatě pouze autor zdrojového kódu syntezátoru.
Na základě této situace byl v r. 1996 motivován vývoj otevřeného systému pro převod psaného textu na řeč,
mohou zapisovat pomocí speciálního makrojazyka do konfiguračních souborů bez nutnosti znalosti zdrojového kódu a následné kompilace. Tento systém, původně určený především pro potřeby výzkumu a výuky,
Jelikož zdrojový kód systému Epos je téměř nezávislý na syntetizovaných jazycích, je Epos vysoce konfigurovatelný. Epos umožňuje též paralelní zpracování více úloh v různých konfiguracích a v různých jazycích. K dispozici jsou
pro češtinu a slovenštinu, v experimentální fázi jsou pravidla pro angličtinu, němčinu a latinu.
TTS systém Epos je založen na klient
kombinovat s několika různými syntezátory řeči ve frekvenční a v
Epos byly vytvořeny jak mužské, tak ženské hlasy lišící se kvalitou i velikostí řečového inventáře. Dále je možné vybírat z několika strategií modelování prozodie:
prostřednictvím přímých pravidel, pomocí lineární predikce melodie či po neuronových sítí. Po instalaci do Windows se Epos spustí jako služba TTSCP (Text Speech Control Protocol).
4.1 Systém pro syntézu řeči
Systém pro syntézu řeči z psaného textu Epos (jinak také TTS systém z angl.
Speech) je vyvíjen jako volně šířitelný software
Hlavním impulsem pro jeho vývoj byla skutečnost, že v dosavadních řečových syntezátorech bylo nutno veškeré jazykové vlastnosti jako např. fonetickou transkripci (převod psané formy na mluvenou) a prozodická pravidla (tj. popis intonace a rychlosti sát přímo do zdrojového kódu syntezátoru. Z toho vyplývá, že prozodická pravidla mohl modifikovat v podstatě pouze autor zdrojového kódu syntezátoru.
Na základě této situace byl v r. 1996 motivován vývoj otevřeného systému pro převod psaného textu na řeč, ve kterém se jak transkripční, tak prozodická pravidla mohou zapisovat pomocí speciálního makrojazyka do konfiguračních souborů bez nutnosti znalosti zdrojového kódu a následné kompilace. Tento systém, původně určený především pro potřeby výzkumu a výuky, později dostal jméno Epos.
Jelikož zdrojový kód systému Epos je téměř nezávislý na syntetizovaných jazycích, je Epos vysoce konfigurovatelný. Epos umožňuje též paralelní zpracování více úloh v různých konfiguracích a v různých jazycích. K dispozici jsou nyní konfigurace pro češtinu a slovenštinu, v experimentální fázi jsou pravidla pro angličtinu, němčinu a
TTS systém Epos je založen na klient-server architektuře. Epos je možné kombinovat s několika různými syntezátory řeči ve frekvenční a v časové oblasti. Pro Epos byly vytvořeny jak mužské, tak ženské hlasy lišící se kvalitou i velikostí řečového inventáře. Dále je možné vybírat z několika strategií modelování prozodie:
prostřednictvím přímých pravidel, pomocí lineární predikce melodie či po neuronových sítí. Po instalaci do Windows se Epos spustí jako služba TTSCP (Text
Systém pro syntézu řeči z psaného textu Epos (jinak také TTS systém z angl.
Hlavním impulsem pro jeho vývoj byla skutečnost, že v dosavadních řečových syntezátorech bylo nutno veškeré jazykové vlastnosti jako např. fonetickou transkripci (převod psané formy na mluvenou) a prozodická pravidla (tj. popis intonace a rychlosti sát přímo do zdrojového kódu syntezátoru. Z toho vyplývá, že prozodická pravidla mohl modifikovat v podstatě pouze autor zdrojového kódu syntezátoru.
Na základě této situace byl v r. 1996 motivován vývoj otevřeného systému pro ve kterém se jak transkripční, tak prozodická pravidla mohou zapisovat pomocí speciálního makrojazyka do konfiguračních souborů bez nutnosti znalosti zdrojového kódu a následné kompilace. Tento systém, původně určený
Jelikož zdrojový kód systému Epos je téměř nezávislý na syntetizovaných jazycích, je Epos vysoce konfigurovatelný. Epos umožňuje též paralelní zpracování více nyní konfigurace pro češtinu a slovenštinu, v experimentální fázi jsou pravidla pro angličtinu, němčinu a
server architektuře. Epos je možné časové oblasti. Pro Epos byly vytvořeny jak mužské, tak ženské hlasy lišící se kvalitou i velikostí řečového inventáře. Dále je možné vybírat z několika strategií modelování prozodie:
prostřednictvím přímých pravidel, pomocí lineární predikce melodie či pomocí neuronových sítí. Po instalaci do Windows se Epos spustí jako služba TTSCP (Text-to-
4.2 Architektura
Aby se vyhnul kompromisu mezi efektivností a konfigurování, využívá Epos model práce klient – servis. Všechny potřebn
pojmenování Epos skutečně vytahuje k
Obr. 4.1: TTS systém
Když spouštíte Epos, probíhá proces přes fáze i interpretuje povelové body
přečetl několik konfiguračních souborů, velká část tohoto procesu se skládá z parametrů a analýzy pravidel transformace textu na řeč pro každý nas
Aby se vyhnul kompromisu mezi efektivností a konfigurování, využívá Epos servis. Všechny potřebné procesy probíhají na serveru, takže se pojmenování Epos skutečně vytahuje k procesům serveru, a ne ke klientům.
TTS systém.
Když spouštíte Epos, probíhá proces přes fáze inicializace, ve kterých Epos terpretuje povelové body serveru a přístup k textovému systémovému souboru, aby přečetl několik konfiguračních souborů, velká část tohoto procesu se skládá z
parametrů a analýzy pravidel transformace textu na řeč pro každý nastavený jazyk. Epos Aby se vyhnul kompromisu mezi efektivností a konfigurování, využívá Epos é procesy probíhají na serveru, takže se procesům serveru, a ne ke klientům.
nicializace, ve kterých Epos textovému systémovému souboru, aby přečetl několik konfiguračních souborů, velká část tohoto procesu se skládá z nastavení tavený jazyk. Epos
všeobecně, u všech, lze ukrýt některé vložené typy informací a ty jsou zadržovány do toho okamžiku, kdy se tato informace může využít přednostně. Téměř celá konfigurace se uskutečňuje pomocí textových s
forem.
Potom, jakmile je ukončena inicializace, stává se Epos službou operačního systému nebo démonem odposlouchávající port TCP pro nová odposlouchávání TTSCP. TTSCP představuje jediný protokol, který Ep
informací a údajů. Neexistuje omezení ohledně množství současně připojených klientů, ani vyřizovaných dotazů, a konfigurace konstrukcí pro všechny klienty je naprosto nezávislá.
Nejvíce závažným úkolem Eposu je přeměna text
akceptovat, jestli budou ve výsledku slova odesílána nazpět přes spojení pro předávání údajů nebo je musí server je předávat přímo
operačního systému výstupu. Zároveň se seřizováním a logováním z pravidla, že TTSCP je jediným výstupním kanálem pro Epos (a v vstupní kanál) [6].
všeobecně, u všech, lze ukrýt některé vložené typy informací a ty jsou zadržovány do toho okamžiku, kdy se tato informace může využít přednostně. Téměř celá konfigurace se uskutečňuje pomocí textových souborů, které se vybírají do efektivních vnitřních
Potom, jakmile je ukončena inicializace, stává se Epos službou operačního systému nebo démonem odposlouchávající port TCP pro nová odposlouchávání TTSCP. TTSCP představuje jediný protokol, který Epos využívá pro přenos a kontrolu informací a údajů. Neexistuje omezení ohledně množství současně připojených klientů, ani vyřizovaných dotazů, a konfigurace konstrukcí pro všechny klienty je naprosto
Nejvíce závažným úkolem Eposu je přeměna textu na řeč. Každý klient může akceptovat, jestli budou ve výsledku slova odesílána nazpět přes spojení pro předávání údajů nebo je musí server je předávat přímo – bezprostředně do audio souboru operačního systému výstupu. Zároveň se seřizováním a logováním je to jediná výjimka pravidla, že TTSCP je jediným výstupním kanálem pro Epos (a v podstatě také pouze všeobecně, u všech, lze ukrýt některé vložené typy informací a ty jsou zadržovány do toho okamžiku, kdy se tato informace může využít přednostně. Téměř celá konfigurace ouborů, které se vybírají do efektivních vnitřních
Potom, jakmile je ukončena inicializace, stává se Epos službou operačního systému nebo démonem odposlouchávající port TCP pro nová odposlouchávání
os využívá pro přenos a kontrolu informací a údajů. Neexistuje omezení ohledně množství současně připojených klientů, ani vyřizovaných dotazů, a konfigurace konstrukcí pro všechny klienty je naprosto
u na řeč. Každý klient může akceptovat, jestli budou ve výsledku slova odesílána nazpět přes spojení pro předávání bezprostředně do audio souboru je to jediná výjimka podstatě také pouze
5. Přehled bezdrátových sítí
5.1 Bluetooth
Bluetooth využívá k přenosu radiové vlny vysílané v
GHz, ale s menším dosahem 30 metrů ve verzi 2.1 (průmyslové moduly umožňují komunikaci až na vzdálenost několika stovek metrů). Původně byla tato technologie navrhnuta jako náhrada kabelového spojení dvou telefonů, odtud tedy vyplývají její hlavní použití. Moduly jsou vestavěny ve většině dnešních mobilních telefonů, notebooků a dalších periferiích (headset, klávesnice, myš aj.) Specifikace definuje 29 profilů, které slouží jako pod
například profily pro přenos obrázků, hlasu, zpřístupnění telefonního seznamu, synchronizaci, přístup do LAN
Fyzická vrstva (Radio layer) pro přenos radiových signálů využívá Frequency Hopping Spread Spectrum, které přeskakuje mezi 79 kanály podle pseudonáhodné frekvence, což minimalizuje rušení jinými sítěmi. Kvůli zabránění kolizím může slave stanice vysílat pouze, pokud je k tomu vyzvána master stanicí. Komunikace je duplexovaná pomocí Time Div
Baseband definující dva typy logických spojů: synchronní (Synchronous Connection Oriented) pro přenos hlasu a asynchronní (Asynchronnous Connection
pro přenos dat. Nad touto vrstvou se
stanicí, starající se o ustanovení spojení, autentizaci a konfiguraci spoje. Poslední vrstvou před profily a aplikační vrstvou je Logical Link Control and
(L2CAP), zajišťující kvalitu služeb
5.1.1 Technické řešení
Bluetooth systém je složen ze tří částí
Bluetooth radio - je ve funkci vysílač, přijímač
Bluetooth Link Manager Bluetooth modulem
. Přehled bezdrátových sítí
Bluetooth využívá k přenosu radiové vlny vysílané v bezlicenčním pásmu 2.4 GHz, ale s menším dosahem 30 metrů ve verzi 2.1 (průmyslové moduly umožňují komunikaci až na vzdálenost několika stovek metrů). Původně byla tato technologie kabelového spojení dvou telefonů, odtud tedy vyplývají její hlavní použití. Moduly jsou vestavěny ve většině dnešních mobilních telefonů, notebooků a dalších periferiích (headset, klávesnice, myš aj.) Specifikace definuje 29 profilů, které slouží jako podpůrné protokoly pro aplikace běžící na zařízeních, například profily pro přenos obrázků, hlasu, zpřístupnění telefonního seznamu,
přístup do LAN a další.
Fyzická vrstva (Radio layer) pro přenos radiových signálů využívá Frequency read Spectrum, které přeskakuje mezi 79 kanály podle pseudonáhodné frekvence, což minimalizuje rušení jinými sítěmi. Kvůli zabránění kolizím může slave stanice vysílat pouze, pokud je k tomu vyzvána master stanicí. Komunikace je duplexovaná pomocí Time Division Duplex. Nad fyzickou vrstvou je definována vrstva Baseband definující dva typy logických spojů: synchronní (Synchronous Connection Oriented) pro přenos hlasu a asynchronní (Asynchronnous Connection-Less) sloužící pro přenos dat. Nad touto vrstvou se nachází Link Manager Protocol, využívaný master stanicí, starající se o ustanovení spojení, autentizaci a konfiguraci spoje. Poslední vrstvou před profily a aplikační vrstvou je Logical Link Control and Adaption Protocol (L2CAP), zajišťující kvalitu služeb, multiplexing a adresování konkrétních aplikací
Bluetooth systém je složen ze tří částí – komponent:
je ve funkci vysílač, přijímač.
Bluetooth Link Manager - připravuje data a zaručuje komunikaci se zařízením s Bluetooth modulem.
bezlicenčním pásmu 2.4 GHz, ale s menším dosahem 30 metrů ve verzi 2.1 (průmyslové moduly umožňují komunikaci až na vzdálenost několika stovek metrů). Původně byla tato technologie kabelového spojení dvou telefonů, odtud tedy vyplývají její hlavní použití. Moduly jsou vestavěny ve většině dnešních mobilních telefonů, notebooků a dalších periferiích (headset, klávesnice, myš aj.) Specifikace definuje 29 půrné protokoly pro aplikace běžící na zařízeních, například profily pro přenos obrázků, hlasu, zpřístupnění telefonního seznamu,
Fyzická vrstva (Radio layer) pro přenos radiových signálů využívá Frequency read Spectrum, které přeskakuje mezi 79 kanály podle pseudonáhodné frekvence, což minimalizuje rušení jinými sítěmi. Kvůli zabránění kolizím může slave stanice vysílat pouze, pokud je k tomu vyzvána master stanicí. Komunikace je ision Duplex. Nad fyzickou vrstvou je definována vrstva Baseband definující dva typy logických spojů: synchronní (Synchronous Connection Less) sloužící nachází Link Manager Protocol, využívaný master stanicí, starající se o ustanovení spojení, autentizaci a konfiguraci spoje. Poslední Adaption Protocol adresování konkrétních aplikací.
připravuje data a zaručuje komunikaci se zařízením s