• No results found

Možnosti hlasové interaktivní komunikace pomocí bezdrátových technologií v robotických aplikacíchThe options of interactive voice communications via wireless technologies in robotic applications

N/A
N/A
Protected

Academic year: 2022

Share "Možnosti hlasové interaktivní komunikace pomocí bezdrátových technologií v robotických aplikacíchThe options of interactive voice communications via wireless technologies in robotic applications"

Copied!
48
0
0

Loading.... (view fulltext now)

Full text

(1)

Studijní program: N2612 – Elektrotechnika a informatika Studijní obor: 1802T007 - Informační technologie

Možnosti hlasové interaktivní komunikace pomocí bezdrátových technologií v robotických aplikacích The options of interactive voice communications via

wireless technologies in robotic applications

Diplomová práce

Autor: Issatay Iskakov

Vedoucí diplomové práce:

Ing. Miroslav Holada, Ph.D.

V Liberci 17. 5. 2012

(2)
(3)
(4)

Byl jsem seznámen č. 121/2000 o právu autorské

Beru na vědomí, že diplomové práce a prohlašuji, diplomové práce (prodej, zapů

Jsem si vědom toho, jejímu využití mohu jen přiměřený příspěvek na úhradu (až do jejich skutečné výše).

Diplomovou práci jsem a na základě konzultací s vedoucím

Datum: 17. květen 2012

Podpis

Prohlášení

en s tím, že na mou diplomovou práci se plně vztahuje autorském, zejména § 60 (školní dílo).

že TUL má právo na uzavření licenční smlouvy prohlašuji, že s o u h l a s í m s případným ové práce (prodej, zapůjčení apod.).

toho, že užít své diplomové práce či poskytnout se souhlasem TUL, která má právo ode mne úhradu nákladů, vynaložených univerzitou na vytvoře jejich skutečné výše).

jsem vypracoval samostatně s použitím uvedené konzultací s vedoucím diplomové práce.

vztahuje zákon

louvy o užití mé ným užitím mé

poskytnout licenci k mne požadovat vytvoření díla

uvedené literatury

(5)

PODĚKOVÁNÍ

Rád bych tímto poděkoval a za konzultace při zpracová

Dále bych chtěl po diplomové práce.

poděkoval panu Ing. Miroslavu Holadovi za odborné ři zpracovávání diplomové práce.

poděkovat všem, kteří mě podporovali běhe

Issatay Iskakov odborné vedení

hem realizace

Issatay Iskakov

(6)

ANOTACE

Cílem mé práce je prostudovat možnos používal jsem pro to tři typy bezdrátových technologií

Bluetooth. Zpočátku jsem vytvořil aplikaci, která rozpoznává lidskou řeč a pokud najde náležitou řešící odpověď na tuto řeč v

potřeboval pro vytvoření nevelkého dialogu mezi robotem a počítačem. K jsem využil dva programy

Instaloval jsem na robotu, postupně, tři typy bezdrátových zařízení, která mají mikrofon a reproduktor, provedl jsem testy ve formě dialogu, který jsem opatřil přechodnými intervaly. Testy byly provedeny s

výsledků jsem použil prům

Klíčová slova:

 Hlasová syntéza

 Rozpoznávání řeči

 Bluetooth

 Wifi

 Radiové spojení

Cílem mé práce je prostudovat možnosti hlasové komunikace

pro to tři typy bezdrátových technologií – to jsou radiové spojení, W luetooth. Zpočátku jsem vytvořil aplikaci, která rozpoznává lidskou řeč a pokud najde náležitou řešící odpověď na tuto řeč v zásobě slov, reprodukuje ji.

potřeboval pro vytvoření nevelkého dialogu mezi robotem a počítačem. K

jsem využil dva programy, které mi dal Ing. Miroslav Holada: Epos a „DUNDIS“.

, postupně, tři typy bezdrátových zařízení, která mají mikrofon a reproduktor, provedl jsem testy ve formě dialogu, který jsem opatřil přechodnými intervaly. Testy byly provedeny s každým zařízením desetkrát, na základě získaných výsledků jsem použil průměrné hodnoty pro každý typ bezdrátové technologie.

Hlasová syntéza Rozpoznávání řeči

Radiové spojení

ti hlasové komunikace s robotem, to jsou radiové spojení, Wifi a luetooth. Zpočátku jsem vytvořil aplikaci, která rozpoznává lidskou řeč a pokud najde zásobě slov, reprodukuje ji. Toto jsem potřeboval pro vytvoření nevelkého dialogu mezi robotem a počítačem. K tomu účelu : Epos a „DUNDIS“.

, postupně, tři typy bezdrátových zařízení, která mají mikrofon a reproduktor, provedl jsem testy ve formě dialogu, který jsem opatřil přechodnými každým zařízením desetkrát, na základě získaných ěrné hodnoty pro každý typ bezdrátové technologie.

(7)

ANNOTATION

The aim of my work is to study the possibilities of voice communication with the robot, for this purpose I use three types of wireless technology,

connection, Wifi and Bluetooth. First, I created an application that recognizes human speech and when it finds an appropriate response to the human speech in the library, then play it. I needed that procedure to create a short dialogue between the robot and the computer. I used for this purpose two programmes: Epos and

were given me by Ing. Miroslav Holada

types of wireless equipments, which have microphones and speakers, I made tests in the form of dialogue, which I measured with the help of time intervals. Tests were conducted with each equipment 10 times, from the given results, I took the average value for each type of wireless technology.

Key words:

 Speech synthesis

 Speech recognition

 Bluetooth

 Wifi

 Radio link

The aim of my work is to study the possibilities of voice communication with purpose I use three types of wireless technology, they are : a radio luetooth. First, I created an application that recognizes human speech and when it finds an appropriate response to the human speech in the library, I needed that procedure to create a short dialogue between the robot and

I used for this purpose two programmes: Epos and „DUNDIS“

Miroslav Holada. After installing on the robot one by one three equipments, which have microphones and speakers, I made tests in the form of dialogue, which I measured with the help of time intervals. Tests were conducted with each equipment 10 times, from the given results, I took the average

ireless technology.

Speech synthesis Speech recognition

The aim of my work is to study the possibilities of voice communication with they are : a radio luetooth. First, I created an application that recognizes human speech and when it finds an appropriate response to the human speech in the library, I needed that procedure to create a short dialogue between the robot and

„DUNDIS“, which After installing on the robot one by one three equipments, which have microphones and speakers, I made tests in the form of dialogue, which I measured with the help of time intervals. Tests were conducted with each equipment 10 times, from the given results, I took the average

(8)

OBSAH_______________________________________________________STRANA

1. ÚVOD...

2. Hlasová syntéza a rozpoznávání řeči 2.1 Řeč robotů...

2.2 Úvod do hlasové syntézy a

2.3 Dialogové systémy...

2.3.1 Definice dialogu

2.3.2 Typy dialogu ...

2.3.3 Dialogový systém

3. DUNDIS ...

3.1 Koncepce DSR klient 3.2 Architektura serveru

3.3 DSR klient...

4. Epos ...

4.1 Systém pro syntézu řeči

4.2 Architektura...

5. Přehled bezdrátových sítí

5.1 Bluetooth ...

5.1.1 Technické řešení 5.2 Wifi ...

5.2.1 IEEE 802.11a 5.2.2 IEEE 802.11b 5.2.3 IEEE 802.11g 5.2.4 IEEE 802.11n 5.3 Princip radiového přenosu

OBSAH_______________________________________________________STRANA

...

2. Hlasová syntéza a rozpoznávání řeči...

...

syntézy a rozpoznávání řeči ...

...

2.3.1 Definice dialogu...

...

2.3.3 Dialogový systém...

...

Koncepce DSR klient – server ...

Architektura serveru ...

...

...

ro syntézu řeči ...

...

Přehled bezdrátových sítí...

...

ešení...

...

5.2.1 IEEE 802.11a ...

5.2.2 IEEE 802.11b...

802.11g...

5.2.4 IEEE 802.11n...

5.3 Princip radiového přenosu...

OBSAH_______________________________________________________STRANA

...14

...16

...16

...17

...18

...18

...18

...19

...21

...21

...22

...23

...25

...25

...26

...28

...28

...28

...30

...30

...30

...30

...31

...31

(9)

6.1 Creative HS-1200 Digital Wireless 6.1.1 Technické specifikace 6.2 SuperTooth Buddy

6.2.1 Vlastnosti Supertooth

6.3 ASUS HS-1000W...

6.3.1 Technické parametry a specifikace

7. Vytvoření aplikace a provedení testování 7.1 Aplikace ...

7.2 Nainstalování bezdrátového zařízení na robotu a testování 7.3 Výsledky testování...

8. ZÁVĚR ...

9. POUŽITÁ LITERATURA

1200 Digital Wireless ...

Technické specifikace ...

SuperTooth Buddy- Bluetooth HF...

6.2.1 Vlastnosti Supertooth Buddy ...

...

Technické parametry a specifikace ...

7. Vytvoření aplikace a provedení testování...

...

bezdrátového zařízení na robotu a testování...

...

...

POUŽITÁ LITERATURA ...

...33

...33

...34

...34

...34

...35

...36

...36

...38

...39

...45

...47

(10)

SEZNAM ZKRATEK A SYMBOLŮ

aj. a jiné

atd. a tak dále

cit. citace

CMS Content Management S

dBm decibel

dB decibel

DSR Distributed Speech R

EDR Enhanced Data

GHz gigahertz

GPS Global Positioning System

GUI Graphical User Interface

Hz hertz -

IEEE The Institute of Electrical and Electronics Engineers

IP Internet

kHz kilohertz

L2CAP Logical Link Control and Adaptation Protocol

LAN Local Area Network

m metr - jednotka délky

mm milimetr

Mbit/s megabity za sekundu

MIMO multiple

MFCC Mel-Frequency Cepstral C

mW milliwatt

Obr. obrázek

Pa pascal

Tab. tabulka

t.j. to je

TCP Transmission Control Protocol

TTS Text-to

SEZNAM ZKRATEK A SYMBOLŮ

a tak dále

Content Management System

decibel - součinitel výkonu v decibelech decibel - jednotka intenzity zvuku Distributed Speech Recognition Enhanced Data-Rate

igahertz - jednotka frekvence Global Positioning System Graphical User Interface

jednotka frekvence

Institute of Electrical and Electronics Engineers Internet Protocol

hertz - jednotka frekvence

Logical Link Control and Adaptation Protocol Local Area Network

jednotka délky ilimetr - jednotka délky

megabity za sekundu – jednotka rychlosti přenosu dat multiple input multiple output

Frequency Cepstral Coefficient milliwatt - jednotka výkonu

brázek

– fyzikální jednotka tlaku tabulka

Transmission Control Protocol to-Speech

(11)

USB Universal Serial Bus

v verze

VB Visual Basic

W3C World Wide Web Consortium

Wifi Wireless Fidelity

WPAN Wireless Personal Area

Universal Serial Bus

Visual Basic

World Wide Web Consortium Wireless Fidelity

Wireless Personal Area Networks

(12)

SEZNAM OBRÁZKŮ

Obr. 2.1: Schéma základních komponent dialogového systému Obr. 3.1: Bloková schéma „DUNDIS“ DSR platformy

Obr. 3.2: Bloková schéma DSR serveru s úloh...

Obr. 4.1: TTS systém...

Obr. 5.1: Základní koncepce Bluetooth Obr. 5.2: Radiová přenosová cesta

Obr. 6.1: Creative HS-1200 Digital Wireless Obr. 6.2: SuperTooth BUDDY

Obr. 6.3: ASUS HS-1000W Obr. 7.1: Bloková schémata Obr. 7.2: Interface aplikace pro Obr. 7.3: Slovník pro robota Obr. 7.4: Slovník pro počitač Obr. 7.5: Schéma testování

veškerého zařízení...

Obr. 7.6: Textový soubor „timing“ pro počitač Obr. 7.7: Textový soubor „timing“ pro robota Obr. 7.8: Diagram z hodnot získaných bez Obr. 7.9: Diagram z hodnot získaných Obr. 7.10: Diagram z hodnot získaných Obr. 7.11: Diagram z hodnot získaných

SEZNAM OBRÁZKŮ

Obr. 2.1: Schéma základních komponent dialogového systému ...

Bloková schéma „DUNDIS“ DSR platformy ...

Bloková schéma DSR serveru s možným paralelním procesem rozpoznání ...

...

Obr. 5.1: Základní koncepce Bluetooth...

Radiová přenosová cesta...

1200 Digital Wireless ...

SuperTooth BUDDY- Bluetooth HF...

1000W...

schémata aplikace pro rozpoznávání a reprodukci řeči ...

aplikace pro rozpoznávání a reprodukci řeči...

Slovník pro robota ...

Slovník pro počitač...

testování s použitím zařízení Wifi, Bluetooth, radiové spojení a ...

Obr. 7.6: Textový soubor „timing“ pro počitač ...

Obr. 7.7: Textový soubor „timing“ pro robota ...

hodnot získaných bez zařízení ...

hodnot získaných pomocí technologie Bluetooth ...

hodnot získaných pomocí rádiového spojení...

hodnot získaných pomocí technologie Wifi...

...20

...21

možným paralelním procesem rozpoznání ...23

...26

...29

...32

...33

...34

...35

...36

...37

...37

...38

použitím zařízení Wifi, Bluetooth, radiové spojení a bez ...39

...40

...40

...41

...42

...43

...44

(13)

SEZNAM TABULEK

Tab. 5.1: Třídy Bluetooth modulů dle komunikačního dosahu Tab. 5.2: Přenosové rychlosti podle

Tab. 7.1: Získané hodnoty testování bez

Tab. 7.2: Získané hodnoty pomocí technologie Bluetooth Tab. 7.3: Získané hodnoty testování

Tab. 7.4: Získané hodnoty testování

SEZNAM TABULEK

Tab. 5.1: Třídy Bluetooth modulů dle komunikačního dosahu ...

5.2: Přenosové rychlosti podle standardů ...

Tab. 7.1: Získané hodnoty testování bez zařízení...

pomocí technologie Bluetooth...

Tab. 7.3: Získané hodnoty testování pomocí rádiového spojení ...

Tab. 7.4: Získané hodnoty testování pomocí technologie Wifi ...

...29

...29

...41

...42

...43

...44

(14)

1. ÚVOD

Problém efektivního zadávání príkazů a dat do počítače je stejně starý, jako výpočetní technika sama. Způsob komunikace, který je přirozený pro č

není ve své podstatě vhodný pro počítač. Zatímco lidé se vě mluvené řeči nebo písma (přič

je možno vyjádřit mnoha způsoby), počítač pracuje s přesně

signály. Z tohoto důvodu je nutno vstupní informace nejprve pr zpracovatelné počítačem.

Do prvních počítačů zadávala údaje výhradně prostřednictvím přepínačů nebo dě

počítače stala klávesnice a obrazovka, pozdě Ovládání počítače se tak priblížilo

vybavením počítače grafický operač Tím, že úloha prevodu i

vzrostly nároky na jeho výpočetní výkon. Není př použití počítače se vetšina výpočetního výkonu spotř uživatele a vykreslení výsledků

V současnosti se ve sp

počítače pomocí hlasu. Jak bylo zmíněno na zač človeka nejpřirozenější. To ovš

zpracování hlasu proto není jednoduché mluvené reci do podoby

hlasových příkazů. Ovládání počítače pomocí zcela př počítač chápal význam jednotlivých slov, a proto z

Možnost hlasového ovládání je atraktivní mimo jiné i v oblasti mobilní robotiky.

Mobilní robot sice mužeme na dálku ovládat např schopnost zasahovat do jeho činnosti pomocí ně představuje určitý přínos [1]

Tato diplomová práce se zabývá otázkou možnosti využívání bezdrátových technologií v komunikaci s

lém efektivního zadávání príkazů a dat do počítače je stejně starý, jako technika sama. Způsob komunikace, který je přirozený pro človeka, bohužel podstatě vhodný pro počítač. Zatímco lidé se většinou dorozumívají pomocí nebo písma (přičemž význam je často závislý na kontextu a tentýž obsah mnoha způsoby), počítač pracuje s přesně definovanými elektrickými

vodu je nutno vstupní informace nejprve prevést

Do prvních počítačů zadávala údaje výhradně vyškolená obsluha prostřednictvím přepínačů nebo děrné pásky. S dalším rozvojem se nedílnou součástí

a obrazovka, později i myš nebo obdobné ukazovací

e se tak priblížilo lidem. V současné době, kdy je standardním vybavením počítače grafický operační systém, zvládne jeho obsluhu i laik.

Tím, že úloha prevodu informace do vhodné formy byla přenechána počítač jeho výpočetní výkon. Není přehnané tvrdit, že pri bežném domácím

ina výpočetního výkonu spotřebuje na zpracování vstupu od a vykreslení výsledků, pouze malá cást slouží k rešení samotné úlohy.

asnosti se ve specializovaných oblastech začíná uplatňovat ovládání pomocí hlasu. Jak bylo zmíněno na začátku, tato forma komunikace je pro

To ovšem zároveň znamená, že je poměrně vzdálená počítač hlasu proto není jednoduché. Uspokojivě je vyřešen problém př mluvené reci do podoby textu a ovládání počítače pomocí omezeného souboru

Ovládání počítače pomocí zcela přirozené mluvy vyž jednotlivých slov, a proto zatím nebylo plně realizováno.

Možnost hlasového ovládání je atraktivní mimo jiné i v oblasti mobilní robotiky.

eme na dálku ovládat např. pomocí notebooku a bezdrátové sítě schopnost zasahovat do jeho činnosti pomocí několika hlasových povelů přesto

[1].

Tato diplomová práce se zabývá otázkou možnosti využívání bezdrátových komunikaci s robotem. Důležitým předpokladem k řešení této práce bylo lém efektivního zadávání príkazů a dat do počítače je stejně starý, jako loveka, bohužel dorozumívají pomocí asto závislý na kontextu a tentýž obsah definovanými elektrickými evést do formy

kolená obsluha ím rozvojem se nedílnou součástí ovací zařízení.

kdy je standardním

nformace do vhodné formy byla přenechána počítači, ehnané tvrdit, že pri bežném domácím ebuje na zpracování vstupu od , pouze malá cást slouží k rešení samotné úlohy.

ovat ovládání , tato forma komunikace je pro e je poměrně vzdálená počítači a en problém přepisu í omezeného souboru irozené mluvy vyžaduje, aby

realizováno.

Možnost hlasového ovládání je atraktivní mimo jiné i v oblasti mobilní robotiky.

mocí notebooku a bezdrátové sítě, ch povelů přesto

Tato diplomová práce se zabývá otázkou možnosti využívání bezdrátových řešení této práce bylo

(15)

vytvoření dialogu na základě rozpoznávání a syntézy řeči. Výsledkem d bude získání údajů v podobě přechodových intervalů.

Pro získání nevelkého dialogu bude vytvořena aplikace, která bude rozpoznávat a reprodukovat řeč. Aby byla vytvořena tato aplikace, budou využívány dva programy, Epos a „DUNDIS“, které mi d

aplikace instalována u dvou počítačů, na jednom z zařízení s třemi typy bezdráto

budou mít mikrofon i reproduktor. Ře

postupně. Při spuštění aplikace na počítačích zpočátku jedna instalace reprodukuje jakýkoli text, potom druhá aplikace jej rozpozná a bude hledat příslušnou odpověď na tento text ve své slovní zásobě. Jakmi

tak dále. Tímto způsobem se vytvoří nevelký dialog, který se bude měřit přechodovými intervaly. Takže se provede otestování přímo, bez jakéhokoliv doprovodného zařízení, aby se mohly porovnat výsledky.

Diplomová práce je tématicky rozdělena na čtyři části, v práce systémů rozpoznávání a reprodukování řeči v

práce programů Epos a „DUNDIS“

V druhé části se nachází

charakteristiky. Zařízení, které budu využívat k popsána práce, kterou jsem prováděl k reprodukování řeči. V závěrečné části je provedena

vytvoření dialogu na základě rozpoznávání a syntézy řeči. Výsledkem diplomové práce podobě přechodových intervalů.

Pro získání nevelkého dialogu bude vytvořena aplikace, která bude rozpoznávat a reprodukovat řeč. Aby byla vytvořena tato aplikace, budou využívány dva programy,

, které mi dal k dispozici Ing. Miroslav Holada. Potom bude tato aplikace instalována u dvou počítačů, na jednom z nich bude zapojeno postupně

třemi typy bezdrátových systémů: radiové spojení, Wifi, Blueto

budou mít mikrofon i reproduktor. Řešil jsem, že zařízení budou instalována u robota, postupně. Při spuštění aplikace na počítačích zpočátku jedna instalace reprodukuje jakýkoli text, potom druhá aplikace jej rozpozná a bude hledat příslušnou odpověď na tento text ve své slovní zásobě. Jakmile najde odpověď, ihned bude reprodukována, a tak dále. Tímto způsobem se vytvoří nevelký dialog, který se bude měřit přechodovými intervaly. Takže se provede otestování přímo, bez jakéhokoliv doprovodného zařízení, aby se mohly porovnat výsledky.

á práce je tématicky rozdělena na čtyři části, v první části je popsána práce systémů rozpoznávání a reprodukování řeči v aplikacích pro roboty. Také sys práce programů Epos a „DUNDIS“, které budu využívat k vytvoření aplikace.

druhé části se nachází popsání bezdrátových systémů, jejich technické charakteristiky. Zařízení, které budu využívat k provedení testů. V třetí části bude popsána práce, kterou jsem prováděl k vytvoření aplikace rozpoznávání a

závěrečné části je provedena analýza získaných výsledků.

iplomové práce

Pro získání nevelkého dialogu bude vytvořena aplikace, která bude rozpoznávat a reprodukovat řeč. Aby byla vytvořena tato aplikace, budou využívány dva programy,

Miroslav Holada. Potom bude tato nich bude zapojeno postupně

luetooth. Zařízení šil jsem, že zařízení budou instalována u robota, postupně. Při spuštění aplikace na počítačích zpočátku jedna instalace reprodukuje jakýkoli text, potom druhá aplikace jej rozpozná a bude hledat příslušnou odpověď na le najde odpověď, ihned bude reprodukována, a tak dále. Tímto způsobem se vytvoří nevelký dialog, který se bude měřit přechodovými intervaly. Takže se provede otestování přímo, bez jakéhokoliv doprovodného zařízení,

první části je popsána aplikacích pro roboty. Také systém

vytvoření aplikace.

popsání bezdrátových systémů, jejich technické třetí části bude vytvoření aplikace rozpoznávání a

analýza získaných výsledků.

(16)

2. Hlasová syntéza a rozpoznávání řeči

2.1 Řeč robotů

Současně s nespornými přednostmi výroby robotů, které bezprostředně rozumí řeči a pracují v souladu s příkazy lidí, sotva se podle všeho v

s průmyslovou výrobou robotů, které jsou schopny reprodukovat řeč.

Reprodukování některýc

nevyžaduje zvláštní obtížnost. Nejvíce známou cestou je ukládání do paměti přesně stanoveného množství předem zadaných slov, které řekne kterýkoli člověk, která by mohla být měněna jak podle míry potřeby, tak po

Prakticky se tato forma řeči používá dost dlouho v

předem se nahrávají oznamování o přesném čase, které se automaticky tvoří z počtu jednotlivě zapsaných slov. V

dveří vlaku s výslovností třicátých let nutnost uvolnění dveří.

Tuto formu řeči lze velmi rychle využít v

několika let, jak je zřejmé, jedinou formou jazyka robotů. Nicméně je možné, že budou vytvářena také zařízení, která budou sestavovat lidskou řeč z

Toto se provádí už dost dlouho. Tak systém, ve kterém se člověku podobná řeč reprodukovala jako výsledek některých činností s

operátorem, představoval systém, ve kterém se ovládání reprodukované řeči uskutečňovalo pomocí signálů o nízké frekvenci, které byly produkovány na vstupním zařízení, které předávalo jazyk dále.

Elektrické signály, které usměrňují výstup ze zařízení, mohou být produková robotem, kterému bude takto zcela dostupná melodická forma řeči. Avšak budou takováto zařízení disponovat samostatně ovladatelným mechanismem vyžadovat ještě dlouhotrvající časové období studia.

V současné době se v reprodukce řeči. Ovšem

zabezpečení mobilnosti a přenositelnosti používáno zařízení pokud možno velmi malé po stránce rozměrů i váhových parametrů.

2. Hlasová syntéza a rozpoznávání řeči

nespornými přednostmi výroby robotů, které bezprostředně rozumí příkazy lidí, sotva se podle všeho v nejbližším období začne průmyslovou výrobou robotů, které jsou schopny reprodukovat řeč.

Reprodukování některých druhů člověku podobných řečových signálů nevyžaduje zvláštní obtížnost. Nejvíce známou cestou je ukládání do paměti přesně stanoveného množství předem zadaných slov, které řekne kterýkoli člověk, která by mohla být měněna jak podle míry potřeby, tak podle magnetofonových zařízení.

Prakticky se tato forma řeči používá dost dlouho v telefonních systémech, například předem se nahrávají oznamování o přesném čase, které se automaticky tvoří z

počtu jednotlivě zapsaných slov. V londýnském metru oznamuje hlas před zavřením výslovností třicátých let nutnost uvolnění dveří.

Tuto formu řeči lze velmi rychle využít v různých systémech , proto bude během několika let, jak je zřejmé, jedinou formou jazyka robotů. Nicméně je možné, že budou ytvářena také zařízení, která budou sestavovat lidskou řeč z jednotlivých elementů.

Toto se provádí už dost dlouho. Tak systém, ve kterém se člověku podobná řeč reprodukovala jako výsledek některých činností s využitím ovládání člověkem

dstavoval systém, ve kterém se ovládání reprodukované řeči uskutečňovalo pomocí signálů o nízké frekvenci, které byly produkovány na vstupním zařízení, které předávalo jazyk dále.

Elektrické signály, které usměrňují výstup ze zařízení, mohou být produková robotem, kterému bude takto zcela dostupná melodická forma řeči. Avšak budou takováto zařízení disponovat samostatně ovladatelným mechanismem vyžadovat ještě dlouhotrvající časové období studia.

současné době se v digitálních přístrojích prakticky využívají oba druhy reprodukce řeči. Ovšem – je velmi důležité, aby u mobilních robotů bylo pro zabezpečení mobilnosti a přenositelnosti používáno zařízení pokud možno velmi malé po stránce rozměrů i váhových parametrů.

nespornými přednostmi výroby robotů, které bezprostředně rozumí nejbližším období začne

h druhů člověku podobných řečových signálů nevyžaduje zvláštní obtížnost. Nejvíce známou cestou je ukládání do paměti přesně stanoveného množství předem zadaných slov, které řekne kterýkoli člověk, která by dle magnetofonových zařízení.

telefonních systémech, například předem se nahrávají oznamování o přesném čase, které se automaticky tvoří z určitého uje hlas před zavřením

různých systémech , proto bude během několika let, jak je zřejmé, jedinou formou jazyka robotů. Nicméně je možné, že budou jednotlivých elementů.

Toto se provádí už dost dlouho. Tak systém, ve kterém se člověku podobná řeč využitím ovládání člověkem – dstavoval systém, ve kterém se ovládání reprodukované řeči uskutečňovalo pomocí signálů o nízké frekvenci, které byly produkovány na vstupním

Elektrické signály, které usměrňují výstup ze zařízení, mohou být produkovány robotem, kterému bude takto zcela dostupná melodická forma řeči. Avšak – pokud budou takováto zařízení disponovat samostatně ovladatelným mechanismem - bude to

řístrojích prakticky využívají oba druhy mobilních robotů bylo pro zabezpečení mobilnosti a přenositelnosti používáno zařízení pokud možno velmi malé

(17)

Pro miniaturizaci jednotlivých druhů zvukového zařízení , jak je vidět, není příliš mnoho uděláno. V zařízeních s

pohyb, což je pro mobilní roboty nežádoucí. Na druhé straně je takovýto systém podstatně jednodušší, než sta

Je možné, že se v dalších propracováních budou využívat speciální integrované varianty dekodérů o malých rozměrech i o malé hmotnosti, aby byla dána možnost zříci se využívání kinematiky. Pro první roboty je nutné napr

slovník, ale, podle všeho, bude lepší jako základní variantu uplatňovat více melodické varianty dekodérů.Takové, ve kterých se využívají řečové prvky, a nikoliv celá slova, což bude umožňovat rozšiřování možností řečových z

2.2 Úvod do hlasové syntézy a

Hned při počátku vývoje počítače musel člověk vymyslet, jakým způsobem se s ním bude komunikovat. V ranných fázích vývoje se převážně používaly děrné štítky, později se pro zadávání dat

monitoru. S postupem času ke klávesnici ještě přibyla počítačová myš a grafické uživatelské rozhraní (GUI –

používat v praxi další způsob kom pomocí hlasu. Technologie, které umož

mohou být rozděleny do tří hlavních kategorií:

• Hlasová syntéza (Speech synthesis) je umělá reprodukce lidského hlasu. Ta technologie je potřebná k tomu, aby počítač mohl uživateli odpovědět lidským hlasem.

Systémy TTS (Text-to-Speech) převádějí běžný jazyk zaznamenaný v textové podobě do hlasového projevu. V dnešní době jsou tyto technologie využívány v praxi například na nádražích, kde příjezdy a odjezdy vlaků místo výpravčího hlásí počítač.

• Rozpoznávání řeči (Speech recognition) je technologie, která převádí lidskou řeč do textové podoby. Tato technologie je nezbytná pro možnost použití hlasového vstupu k ovládání počítače. V dnešní době mají technologie určené k rozpoznávaní řeči pro praktické využití značné rezervy. Prozatím se v praxi používají systémy s velmi omezenou slovní zásobou (hlasové ovládání GPS navigace, hlasové vytáčení, hlasové ovládání některých počítač

rizaci jednotlivých druhů zvukového zařízení , jak je vidět, není zařízeních s předběžnou nahrávkou se využívá mechanický pohyb, což je pro mobilní roboty nežádoucí. Na druhé straně je takovýto systém podstatně jednodušší, než statické zařízení přejímajícího typu.

dalších propracováních budou využívat speciální integrované varianty dekodérů o malých rozměrech i o malé hmotnosti, aby byla dána možnost zříci se využívání kinematiky. Pro první roboty je nutné naprosto nutně mít omezený řečový slovník, ale, podle všeho, bude lepší jako základní variantu uplatňovat více melodické varianty dekodérů.Takové, ve kterých se využívají řečové prvky, a nikoliv celá slova, což bude umožňovat rozšiřování možností řečových zařízení [2].

syntézy a rozpoznávání řeči

Hned při počátku vývoje počítače musel člověk vymyslet, jakým způsobem se s ním bude komunikovat. V ranných fázích vývoje se převážně používaly děrné štítky, později se pro zadávání dat začala používat klávesnice a výsledek se zobrazoval na postupem času ke klávesnici ještě přibyla počítačová myš a grafické – Graphical User Interface). Dnes se vyvíjí a postupně začíná používat v praxi další způsob komunikace člověka s počítačem – ovládání počítače pomocí hlasu. Technologie, které umožňují lidem komunikovat s počítači pomocí hlasu, mohou být rozděleny do tří hlavních kategorií:

• Hlasová syntéza (Speech synthesis) je umělá reprodukce lidského hlasu. Ta technologie je potřebná k tomu, aby počítač mohl uživateli odpovědět lidským hlasem.

Speech) převádějí běžný jazyk zaznamenaný v textové podobě do hlasového projevu. V dnešní době jsou tyto technologie využívány v praxi například

nádražích, kde příjezdy a odjezdy vlaků místo výpravčího hlásí počítač.

• Rozpoznávání řeči (Speech recognition) je technologie, která převádí lidskou řeč do textové podoby. Tato technologie je nezbytná pro možnost použití hlasového tače. V dnešní době mají technologie určené k rozpoznávaní řeči pro praktické využití značné rezervy. Prozatím se v praxi používají systémy s velmi omezenou slovní zásobou (hlasové ovládání GPS navigace, hlasové vytáčení, hlasové ovládání některých počítačových aplikací atd.) nebo systémy, které úspěšně rizaci jednotlivých druhů zvukového zařízení , jak je vidět, není předběžnou nahrávkou se využívá mechanický pohyb, což je pro mobilní roboty nežádoucí. Na druhé straně je takovýto systém

dalších propracováních budou využívat speciální integrované varianty dekodérů o malých rozměrech i o malé hmotnosti, aby byla dána možnost zříci osto nutně mít omezený řečový slovník, ale, podle všeho, bude lepší jako základní variantu uplatňovat více melodické varianty dekodérů.Takové, ve kterých se využívají řečové prvky, a nikoliv celá slova,

Hned při počátku vývoje počítače musel člověk vymyslet, jakým způsobem se s ním bude komunikovat. V ranných fázích vývoje se převážně používaly děrné štítky, začala používat klávesnice a výsledek se zobrazoval na postupem času ke klávesnici ještě přibyla počítačová myš a grafické Graphical User Interface). Dnes se vyvíjí a postupně začíná ovládání počítače ují lidem komunikovat s počítači pomocí hlasu,

• Hlasová syntéza (Speech synthesis) je umělá reprodukce lidského hlasu. Tato technologie je potřebná k tomu, aby počítač mohl uživateli odpovědět lidským hlasem.

Speech) převádějí běžný jazyk zaznamenaný v textové podobě do hlasového projevu. V dnešní době jsou tyto technologie využívány v praxi například

nádražích, kde příjezdy a odjezdy vlaků místo výpravčího hlásí počítač.

• Rozpoznávání řeči (Speech recognition) je technologie, která převádí lidskou řeč do textové podoby. Tato technologie je nezbytná pro možnost použití hlasového tače. V dnešní době mají technologie určené k rozpoznávaní řeči pro praktické využití značné rezervy. Prozatím se v praxi používají systémy s velmi omezenou slovní zásobou (hlasové ovládání GPS navigace, hlasové vytáčení, hlasové ových aplikací atd.) nebo systémy, které úspěšně

(18)

rozpoznávají řeč za určitých podmínek (například tichá kancelář nebo laboratorní prostory) pouze u konkrétní osoby, na kterou byly kalibrovány. Mezi tyto aplikace patří zejména různé diktovací systémy, kde u

používá svůj hlas.

• Technologie pro tvorbu dialogových aplikací. Dialogová aplikace

od běžných aplikací - nemá grafické uživatelské rozhraní, ale komunikuje s uživatelem prost řednictvím dialogu –

aplikace pomocí gramatik rozezná a provede zadaný příkaz a uživateli sdělí výsledek.

Pro tvorbu dialogových aplikací se převážně používají standardy W3C Voice Browser [3].

2.3 Dialogové systémy 2.3.1 Definice dialogu

Dialog je definován jako rozmluva mezi dvěma subjekty (účastníky dialogu).

Jednotlivá sdělení těchto subjektů se nazývají promluvy. Tato práce uvažuje pouze dialog typu člověk - počítač. Jednotlivé promluvy na sebe plynule navazu

dialog primárně soustředí k nalezení společného cíle, kvůli kterému je veden, je označován jako kooperativní dialog.

2.3.2 Typy dialogu

Podle toho, kdo vede dialog (klade otázky) a kdo odpovídá, rozlišujeme tři základní typy dialogu.

 Dialogy s iniciativou

tak, že systém pokládá otázky a uživatel na ně pouze odpovídá. Systém zárove definuje povolený vstup. U tohoto typu dialogu je vysoká úspěšnost porozumění ovšem za cenu nepříliš vy

rozpoznávají řeč za určitých podmínek (například tichá kancelář nebo laboratorní prostory) pouze u konkrétní osoby, na kterou byly kalibrovány. Mezi tyto aplikace patří zejména různé diktovací systémy, kde uživatel k psaní dokumentu místo klávesnice

• Technologie pro tvorbu dialogových aplikací. Dialogová aplikace

nemá grafické uživatelské rozhraní, ale komunikuje s uživatelem uživatel pomocí dialogu aplikaci přikáže, co si přeje provést, aplikace pomocí gramatik rozezná a provede zadaný příkaz a uživateli sdělí výsledek.

Pro tvorbu dialogových aplikací se převážně používají standardy W3C Voice Browser

Dialog je definován jako rozmluva mezi dvěma subjekty (účastníky dialogu).

Jednotlivá sdělení těchto subjektů se nazývají promluvy. Tato práce uvažuje pouze počítač. Jednotlivé promluvy na sebe plynule navazu

dialog primárně soustředí k nalezení společného cíle, kvůli kterému je veden, je označován jako kooperativní dialog.

Podle toho, kdo vede dialog (klade otázky) a kdo odpovídá, rozlišujeme tři

y s iniciativou systému - celý dialog je řízen systémem. V praxi to vypadá tak, že systém pokládá otázky a uživatel na ně pouze odpovídá. Systém zárove definuje povolený vstup. U tohoto typu dialogu je vysoká úspěšnost porozumění ovšem za cenu nepříliš vysokého uživatelského komfortu.

rozpoznávají řeč za určitých podmínek (například tichá kancelář nebo laboratorní prostory) pouze u konkrétní osoby, na kterou byly kalibrovány. Mezi tyto aplikace patří živatel k psaní dokumentu místo klávesnice

• Technologie pro tvorbu dialogových aplikací. Dialogová aplikace - na rozdíl nemá grafické uživatelské rozhraní, ale komunikuje s uživatelem uživatel pomocí dialogu aplikaci přikáže, co si přeje provést, aplikace pomocí gramatik rozezná a provede zadaný příkaz a uživateli sdělí výsledek.

Pro tvorbu dialogových aplikací se převážně používají standardy W3C Voice Browser

Dialog je definován jako rozmluva mezi dvěma subjekty (účastníky dialogu).

Jednotlivá sdělení těchto subjektů se nazývají promluvy. Tato práce uvažuje pouze počítač. Jednotlivé promluvy na sebe plynule navazují. Pokud se dialog primárně soustředí k nalezení společného cíle, kvůli kterému je veden, je

Podle toho, kdo vede dialog (klade otázky) a kdo odpovídá, rozlišujeme tři

celý dialog je řízen systémem. V praxi to vypadá tak, že systém pokládá otázky a uživatel na ně pouze odpovídá. Systém zároveň definuje povolený vstup. U tohoto typu dialogu je vysoká úspěšnost porozumění

(19)

 Dialogy s iniciativou uživatele

kontrolu. Uživatel pokládá dotazy, systém na ně postupně odpovídá. Systém nezobrazuje výzvy a nepřesouvá se v rámci dialogu do jiného stavu bez interakce uživatele. Tento typ dialogu je nejnáročnější na vývoj, nebot’ uživatel má volnost dotazu a systém musí být připraven zareagovat na nejrůznější vstupy. Často může stát, že systém uživateli nerozumí, pokud dotazy nejsou formulovány správně a uživ

 Dialogy se smíšenou iniciativou

systém střídají v řízení dialogu. Je to nejčastěji užívaný typ dialogu a nejvíce připomíná reálnou komunikaci. Probíhá tak, že se systém i uži

zadávání otázek a dodávání odpovědí. Předpokládá se uživatelská znalost systému, ale jsou přítomny opravné sekvence. Tento přístup je nejpraktičtější, nabízí jednoduchost uživateli, který systém nezná, a zárověn svobodu zkušenému uživateli

proces. Kromě typu dialogu jsou důležité specifikace fungování systému jako celku. Určují způsob jakým bude naloženo se získanými informacemi a jak systém zareaguje na výjimečné situace, které nej

2.3.3 Dialogový systém

Dialogovým systémem se označuje komplexní systém disponující prostředky hlasové komunikace, který umož

prostřednictvím dialogu. Architektury dialogových systémů se byměly všechny obsahovat tyto části:

 Porozumění přirozenému jazyku.

 Rozpoznávání/dekódování vstupu.

 Generátor výstupu.

 Renderer výstupu.

Dialogy s iniciativou uživatele - dialog je řízen uživatelem, který má jeho plnou kontrolu. Uživatel pokládá dotazy, systém na ně postupně odpovídá. Systém nezobrazuje výzvy a nepřesouvá se v rámci dialogu do jiného stavu bez interakce uživatele. Tento typ dialogu je nejnáročnější na vývoj, nebot’ uživatel má volnost dotazu a systém musí být připraven zareagovat na nejrůznější vstupy. Často může stát, že systém uživateli nerozumí, pokud dotazy nejsou formulovány správně a uživatel není se systémem obeznámen.

Dialogy se smíšenou iniciativou - při tomto typu dialogu se uživatel i dialogový systém střídají v řízení dialogu. Je to nejčastěji užívaný typ dialogu a nejvíce připomíná reálnou komunikaci. Probíhá tak, že se systém i uživatel střídají v zadávání otázek a dodávání odpovědí. Předpokládá se uživatelská znalost systému, ale jsou přítomny opravné sekvence. Tento přístup je nejpraktičtější, nabízí jednoduchost uživateli, který systém nezná, a zárověn svobodu zkušenému uživateli, který má možnost klást vlastní dotazy a tím urychlit celý proces. Kromě typu dialogu jsou důležité specifikace fungování systému jako celku. Určují způsob jakým bude naloženo se získanými informacemi a jak systém zareaguje na výjimečné situace, které nejsou cílem dialogu.

Dialogovým systémem se označuje komplexní systém disponující prostředky hlasové komunikace, který umožňuje komunikovat s počítačem přirozenou řečí prostřednictvím dialogu. Architektury dialogových systémů se různí, ale v principu byměly všechny obsahovat tyto části:

Porozumění přirozenému jazyku.

Rozpoznávání/dekódování vstupu.

dialog je řízen uživatelem, který má jeho plnou kontrolu. Uživatel pokládá dotazy, systém na ně postupně odpovídá. Systém nezobrazuje výzvy a nepřesouvá se v rámci dialogu do jiného stavu bez interakce uživatele. Tento typ dialogu je nejnáročnější na vývoj, nebot’ uživatel má volnost dotazu a systém musí být připraven zareagovat na nejrůznější vstupy. Často může stát, že systém uživateli nerozumí, pokud dotazy nejsou

při tomto typu dialogu se uživatel i dialogový systém střídají v řízení dialogu. Je to nejčastěji užívaný typ dialogu a nejvíce vatel střídají v zadávání otázek a dodávání odpovědí. Předpokládá se uživatelská znalost systému, ale jsou přítomny opravné sekvence. Tento přístup je nejpraktičtější, nabízí jednoduchost uživateli, který systém nezná, a zárověn svobodu , který má možnost klást vlastní dotazy a tím urychlit celý proces. Kromě typu dialogu jsou důležité specifikace fungování systému jako celku. Určují způsob jakým bude naloženo se získanými informacemi a jak

Dialogovým systémem se označuje komplexní systém disponující prostředky uje komunikovat s počítačem přirozenou řečí různí, ale v principu

(20)

Obr. 2.1: Schéma základních komponent dialogového systému

Kromě těchto elementů obsahuje každý dialogový systém manažer dialogu, který vykonává patřičnou dialogovou strategii podle konkrétní aplikace a uchovává aktuální stav. Celému systému jsou dále přístupné interní datové proměnné, které mohou být využity pro generování výstupu. Klíčovou částí systému, se kterou jedinou přichází uživatel do kontaktu, je hlasové dialogové rozhraní. Představuje rozhraní mezi počítačem a uživatelem podobně jako je tomu v případě např. textového či grafického uživatelského rozhraní. Toto rozhraní je zodpovědné za zpracování vstupu a generování výstupu [4].

Obr. 2.1: Schéma základních komponent dialogového systému.

Kromě těchto elementů obsahuje každý dialogový systém manažer dialogu, který vykonává patřičnou dialogovou strategii podle konkrétní aplikace a uchovává aktuální stav. Celému systému jsou dále přístupné interní datové proměnné, které generování výstupu. Klíčovou částí systému, se kterou jedinou přichází uživatel do kontaktu, je hlasové dialogové rozhraní. Představuje rozhraní mezi počítačem a uživatelem podobně jako je tomu v případě např. textového či grafického . Toto rozhraní je zodpovědné za zpracování vstupu a generování Kromě těchto elementů obsahuje každý dialogový systém manažer dialogu, který vykonává patřičnou dialogovou strategii podle konkrétní aplikace a uchovává aktuální stav. Celému systému jsou dále přístupné interní datové proměnné, které generování výstupu. Klíčovou částí systému, se kterou jedinou přichází uživatel do kontaktu, je hlasové dialogové rozhraní. Představuje rozhraní mezi počítačem a uživatelem podobně jako je tomu v případě např. textového či grafického . Toto rozhraní je zodpovědné za zpracování vstupu a generování

(21)

3. DUNDIS

3.1 Koncepce DSR klient

Systém DSR klient

hlavně pro dálkové ovládání a testování systému hlasových dialogů. Jeho schema, které je ukázáno na obr.3.1 i jeho design plnění těchto postulátů a praktických potřeb:

Obr. 3.1: Bloková schéma „

Koncepce DSR klient – server

Systém DSR klient – server („DUNDIS“) byl vypracován v roce 2002, tehdy hlavně pro dálkové ovládání a testování systému hlasových dialogů. Jeho schema, které je ukázáno na obr.3.1 i jeho design plnění těchto postulátů a praktických potřeb:

„DUNDIS“ DSR platformy.

roce 2002, tehdy hlavně pro dálkové ovládání a testování systému hlasových dialogů. Jeho schema, které je ukázáno na obr.3.1 i jeho design plnění těchto postulátů a praktických potřeb:

(22)

Klient – server využívá odkaz stabilního kanálu předání, což garantuje komunikační protokol (například TCP/IP), tak, že se získává jedině správný tok údajů.

Tímto způsobem se nemusíme zajímat o chybné soubory.

Formát předávaných údajů je jednoduchý a lze

programování (například C, Java, VB). I když může být využíván také pro obměnu textových údajů, hlavní většina klient

povelů ke startu dvojkové formy.

„DUNDIS“ se skládá z

snadno kumulovat s jazykem modulů zpracování

návrhu vět. Kromě toho toto modulární schema zjednodušuje vyřešení a změnu velkých systémů. Tato platforma má ješt

studentům) účastnit se na výzkumu řeči bez hlubokých znalostí složitých témat, jako jsou dekódované úpravy v reálném čase a podobně.

3.2 Architektura serveru

Schema toku údajů v

mnoho možností (paralelní počítač) pozastavit odpověď po krátkou dobu, dokonce i když je napojeno hodně klientů. V

jednotlivými klienty, formuje pořadí a rozdělování se dostává

Rozpoznávání se uskutečňuje na straně serveru, podporuje se pouze diskrétní přípojka řeči (oddělená slova nebo fráze) v

s velkou slovní zásobou (10000 bodů u více). Jeho akustický model inve vyhotoven pro český jazyk.

server využívá odkaz stabilního kanálu předání, což garantuje komunikační protokol (například TCP/IP), tak, že se získává jedině správný tok údajů.

Tímto způsobem se nemusíme zajímat o chybné soubory.

Formát předávaných údajů je jednoduchý a lze jej lehce číst ve většině jazyků programování (například C, Java, VB). I když může být využíván také pro obměnu textových údajů, hlavní většina klient – serveru je sdružování i protokol předávání povelů ke startu dvojkové formy.

se skládá z několika funkčních oddělených bloků. Ty je možné jazykem modulů zpracování – úpravy pro vytvoření konkrétního návrhu vět. Kromě toho toto modulární schema zjednodušuje vyřešení a změnu velkých systémů. Tato platforma má ještě jednu přednost, že dovoluje jiným lidem (zpravidla studentům) účastnit se na výzkumu řeči bez hlubokých znalostí složitých témat, jako

reálném čase a podobně.

Schema toku údajů v serveru je ukázán na obr.2.3. Tento systém ponechává mnoho možností (paralelní počítač) pozastavit odpověď po krátkou dobu, dokonce i když je napojeno hodně klientů. V takovém případě jsou úkoly, které jsou předávány jednotlivými klienty, formuje pořadí a rozdělování se dostává k volným procesorům.

se uskutečňuje na straně serveru, podporuje se pouze diskrétní přípojka řeči (oddělená slova nebo fráze) v konkrétním momentě, ale server může pracovat

velkou slovní zásobou (10000 bodů u více). Jeho akustický model inve vyhotoven pro český jazyk.

server využívá odkaz stabilního kanálu předání, což garantuje komunikační protokol (například TCP/IP), tak, že se získává jedině správný tok údajů.

jej lehce číst ve většině jazyků programování (například C, Java, VB). I když může být využíván také pro obměnu serveru je sdružování i protokol předávání

několika funkčních oddělených bloků. Ty je možné úpravy pro vytvoření konkrétního návrhu vět. Kromě toho toto modulární schema zjednodušuje vyřešení a změnu velkých ě jednu přednost, že dovoluje jiným lidem (zpravidla studentům) účastnit se na výzkumu řeči bez hlubokých znalostí složitých témat, jako

Tento systém ponechává mnoho možností (paralelní počítač) pozastavit odpověď po krátkou dobu, dokonce i takovém případě jsou úkoly, které jsou předávány volným procesorům.

se uskutečňuje na straně serveru, podporuje se pouze diskrétní přípojka konkrétním momentě, ale server může pracovat velkou slovní zásobou (10000 bodů u více). Jeho akustický model inventarizace byl

(23)

Computer

Computer Computer

...

DSR clients Internet

Obr. 3.2: Bloková schéma DSR serveru s rozpoznání úloh.

3.3 DSR klient

Aplikace na straně klienta je budována na několika modulech tohoto procesu údajů v několika různých úrovních:

 Server – klient v nízké úrovni základu sdružování TCP/IP.

 „DUNDIS“ vlastní protokol

zabezpečuje obměny údajů mezi klientem a serverem. Toto dov

předávat dvojkové údaje, ať funkcí vektorů nebo jejich kvantové podoby, a dovoluje ovládání údajů, jako je začátek a konec podávání, určení běžné slovní zásoby atd.

Internet

IP address, port (input point)

Processor

Processor Processor Queue of recognition tasks

DSR Server

Bloková schéma DSR serveru s možným paralelním procesem

Aplikace na straně klienta je budována na několika modulech tohoto procesu několika různých úrovních:

nízké úrovni – poslední verze „DUNDIS“ se ponechává na základu sdružování TCP/IP.

vlastní protokol – zde se využívá jednoduchý formát, který zabezpečuje obměny údajů mezi klientem a serverem. Toto dovoluje klientovi předávat dvojkové údaje, ať funkcí vektorů nebo jejich kvantové podoby, a dovoluje ovládání údajů, jako je začátek a konec podávání, určení běžné slovní

Processor #1

Processor #N

Processor #2

možným paralelním procesem

Aplikace na straně klienta je budována na několika modulech tohoto procesu

se ponechává na

zde se využívá jednoduchý formát, který oluje klientovi předávat dvojkové údaje, ať funkcí vektorů nebo jejich kvantové podoby, a dovoluje ovládání údajů, jako je začátek a konec podávání, určení běžné slovní

(24)

 Rozhraní aplikace řeči

s tím, aby zpracovatelé rychlé aplikace DSR mohli pracovat bez detailního poznání prostředků rozeznávání řeči a při nízké úrovni komunikace.

 Využitelné rozhraní

mohou být například okna s [5].

Rozhraní aplikace řeči – tento modul zahrnuje funkce dvou předchozích slov tím, aby zpracovatelé rychlé aplikace DSR mohli pracovat bez detailního poznání prostředků rozeznávání řeči a při nízké úrovni komunikace.

Využitelné rozhraní – to je jedinečná aplikace, jednoznačná na straně klienta. To mohou být například okna s bohatou textovou formou při předepisování úloh tento modul zahrnuje funkce dvou předchozích slov tím, aby zpracovatelé rychlé aplikace DSR mohli pracovat bez detailního poznání prostředků rozeznávání řeči a při nízké úrovni komunikace.

to je jedinečná aplikace, jednoznačná na straně klienta. To u textovou formou při předepisování úloh

(25)

4. Epos

4.1 Systém pro syntézu řeči

Systém pro syntézu řeči z psaného textu Epos (jinak také TTS systém z angl.

Text-To-Speech) je vyvíjen jako volně šířitelný software

Hlavním impulsem pro jeho vývoj byla skutečnost, že v dosavadních řečových syntezátorech bylo nutno veškeré jazykové vlastnosti jako např. fonetickou transkripci (převod psané formy na mluvenou) a prozodická pravidla (tj. popis intonace a rychlosti řeči) psát přímo do zdrojového kódu syntezátoru. Z toho vyplývá, že prozodická pravidla mohl modifikovat v podstatě pouze autor zdrojového kódu syntezátoru.

Na základě této situace byl v r. 1996 motivován vývoj otevřeného systému pro převod psaného textu na řeč,

mohou zapisovat pomocí speciálního makrojazyka do konfiguračních souborů bez nutnosti znalosti zdrojového kódu a následné kompilace. Tento systém, původně určený především pro potřeby výzkumu a výuky,

Jelikož zdrojový kód systému Epos je téměř nezávislý na syntetizovaných jazycích, je Epos vysoce konfigurovatelný. Epos umožňuje též paralelní zpracování více úloh v různých konfiguracích a v různých jazycích. K dispozici jsou

pro češtinu a slovenštinu, v experimentální fázi jsou pravidla pro angličtinu, němčinu a latinu.

TTS systém Epos je založen na klient

kombinovat s několika různými syntezátory řeči ve frekvenční a v

Epos byly vytvořeny jak mužské, tak ženské hlasy lišící se kvalitou i velikostí řečového inventáře. Dále je možné vybírat z několika strategií modelování prozodie:

prostřednictvím přímých pravidel, pomocí lineární predikce melodie či po neuronových sítí. Po instalaci do Windows se Epos spustí jako služba TTSCP (Text Speech Control Protocol).

4.1 Systém pro syntézu řeči

Systém pro syntézu řeči z psaného textu Epos (jinak také TTS systém z angl.

Speech) je vyvíjen jako volně šířitelný software

Hlavním impulsem pro jeho vývoj byla skutečnost, že v dosavadních řečových syntezátorech bylo nutno veškeré jazykové vlastnosti jako např. fonetickou transkripci (převod psané formy na mluvenou) a prozodická pravidla (tj. popis intonace a rychlosti sát přímo do zdrojového kódu syntezátoru. Z toho vyplývá, že prozodická pravidla mohl modifikovat v podstatě pouze autor zdrojového kódu syntezátoru.

Na základě této situace byl v r. 1996 motivován vývoj otevřeného systému pro převod psaného textu na řeč, ve kterém se jak transkripční, tak prozodická pravidla mohou zapisovat pomocí speciálního makrojazyka do konfiguračních souborů bez nutnosti znalosti zdrojového kódu a následné kompilace. Tento systém, původně určený především pro potřeby výzkumu a výuky, později dostal jméno Epos.

Jelikož zdrojový kód systému Epos je téměř nezávislý na syntetizovaných jazycích, je Epos vysoce konfigurovatelný. Epos umožňuje též paralelní zpracování více úloh v různých konfiguracích a v různých jazycích. K dispozici jsou nyní konfigurace pro češtinu a slovenštinu, v experimentální fázi jsou pravidla pro angličtinu, němčinu a

TTS systém Epos je založen na klient-server architektuře. Epos je možné kombinovat s několika různými syntezátory řeči ve frekvenční a v časové oblasti. Pro Epos byly vytvořeny jak mužské, tak ženské hlasy lišící se kvalitou i velikostí řečového inventáře. Dále je možné vybírat z několika strategií modelování prozodie:

prostřednictvím přímých pravidel, pomocí lineární predikce melodie či po neuronových sítí. Po instalaci do Windows se Epos spustí jako služba TTSCP (Text

Systém pro syntézu řeči z psaného textu Epos (jinak také TTS systém z angl.

Hlavním impulsem pro jeho vývoj byla skutečnost, že v dosavadních řečových syntezátorech bylo nutno veškeré jazykové vlastnosti jako např. fonetickou transkripci (převod psané formy na mluvenou) a prozodická pravidla (tj. popis intonace a rychlosti sát přímo do zdrojového kódu syntezátoru. Z toho vyplývá, že prozodická pravidla mohl modifikovat v podstatě pouze autor zdrojového kódu syntezátoru.

Na základě této situace byl v r. 1996 motivován vývoj otevřeného systému pro ve kterém se jak transkripční, tak prozodická pravidla mohou zapisovat pomocí speciálního makrojazyka do konfiguračních souborů bez nutnosti znalosti zdrojového kódu a následné kompilace. Tento systém, původně určený

Jelikož zdrojový kód systému Epos je téměř nezávislý na syntetizovaných jazycích, je Epos vysoce konfigurovatelný. Epos umožňuje též paralelní zpracování více nyní konfigurace pro češtinu a slovenštinu, v experimentální fázi jsou pravidla pro angličtinu, němčinu a

server architektuře. Epos je možné časové oblasti. Pro Epos byly vytvořeny jak mužské, tak ženské hlasy lišící se kvalitou i velikostí řečového inventáře. Dále je možné vybírat z několika strategií modelování prozodie:

prostřednictvím přímých pravidel, pomocí lineární predikce melodie či pomocí neuronových sítí. Po instalaci do Windows se Epos spustí jako služba TTSCP (Text-to-

(26)

4.2 Architektura

Aby se vyhnul kompromisu mezi efektivností a konfigurování, využívá Epos model práce klient – servis. Všechny potřebn

pojmenování Epos skutečně vytahuje k

Obr. 4.1: TTS systém

Když spouštíte Epos, probíhá proces přes fáze i interpretuje povelové body

přečetl několik konfiguračních souborů, velká část tohoto procesu se skládá z parametrů a analýzy pravidel transformace textu na řeč pro každý nas

Aby se vyhnul kompromisu mezi efektivností a konfigurování, využívá Epos servis. Všechny potřebné procesy probíhají na serveru, takže se pojmenování Epos skutečně vytahuje k procesům serveru, a ne ke klientům.

TTS systém.

Když spouštíte Epos, probíhá proces přes fáze inicializace, ve kterých Epos terpretuje povelové body serveru a přístup k textovému systémovému souboru, aby přečetl několik konfiguračních souborů, velká část tohoto procesu se skládá z

parametrů a analýzy pravidel transformace textu na řeč pro každý nastavený jazyk. Epos Aby se vyhnul kompromisu mezi efektivností a konfigurování, využívá Epos é procesy probíhají na serveru, takže se procesům serveru, a ne ke klientům.

nicializace, ve kterých Epos textovému systémovému souboru, aby přečetl několik konfiguračních souborů, velká část tohoto procesu se skládá z nastavení tavený jazyk. Epos

(27)

všeobecně, u všech, lze ukrýt některé vložené typy informací a ty jsou zadržovány do toho okamžiku, kdy se tato informace může využít přednostně. Téměř celá konfigurace se uskutečňuje pomocí textových s

forem.

Potom, jakmile je ukončena inicializace, stává se Epos službou operačního systému nebo démonem odposlouchávající port TCP pro nová odposlouchávání TTSCP. TTSCP představuje jediný protokol, který Ep

informací a údajů. Neexistuje omezení ohledně množství současně připojených klientů, ani vyřizovaných dotazů, a konfigurace konstrukcí pro všechny klienty je naprosto nezávislá.

Nejvíce závažným úkolem Eposu je přeměna text

akceptovat, jestli budou ve výsledku slova odesílána nazpět přes spojení pro předávání údajů nebo je musí server je předávat přímo

operačního systému výstupu. Zároveň se seřizováním a logováním z pravidla, že TTSCP je jediným výstupním kanálem pro Epos (a v vstupní kanál) [6].

všeobecně, u všech, lze ukrýt některé vložené typy informací a ty jsou zadržovány do toho okamžiku, kdy se tato informace může využít přednostně. Téměř celá konfigurace se uskutečňuje pomocí textových souborů, které se vybírají do efektivních vnitřních

Potom, jakmile je ukončena inicializace, stává se Epos službou operačního systému nebo démonem odposlouchávající port TCP pro nová odposlouchávání TTSCP. TTSCP představuje jediný protokol, který Epos využívá pro přenos a kontrolu informací a údajů. Neexistuje omezení ohledně množství současně připojených klientů, ani vyřizovaných dotazů, a konfigurace konstrukcí pro všechny klienty je naprosto

Nejvíce závažným úkolem Eposu je přeměna textu na řeč. Každý klient může akceptovat, jestli budou ve výsledku slova odesílána nazpět přes spojení pro předávání údajů nebo je musí server je předávat přímo – bezprostředně do audio souboru operačního systému výstupu. Zároveň se seřizováním a logováním je to jediná výjimka pravidla, že TTSCP je jediným výstupním kanálem pro Epos (a v podstatě také pouze všeobecně, u všech, lze ukrýt některé vložené typy informací a ty jsou zadržovány do toho okamžiku, kdy se tato informace může využít přednostně. Téměř celá konfigurace ouborů, které se vybírají do efektivních vnitřních

Potom, jakmile je ukončena inicializace, stává se Epos službou operačního systému nebo démonem odposlouchávající port TCP pro nová odposlouchávání

os využívá pro přenos a kontrolu informací a údajů. Neexistuje omezení ohledně množství současně připojených klientů, ani vyřizovaných dotazů, a konfigurace konstrukcí pro všechny klienty je naprosto

u na řeč. Každý klient může akceptovat, jestli budou ve výsledku slova odesílána nazpět přes spojení pro předávání bezprostředně do audio souboru je to jediná výjimka podstatě také pouze

(28)

5. Přehled bezdrátových sítí

5.1 Bluetooth

Bluetooth využívá k přenosu radiové vlny vysílané v

GHz, ale s menším dosahem 30 metrů ve verzi 2.1 (průmyslové moduly umožňují komunikaci až na vzdálenost několika stovek metrů). Původně byla tato technologie navrhnuta jako náhrada kabelového spojení dvou telefonů, odtud tedy vyplývají její hlavní použití. Moduly jsou vestavěny ve většině dnešních mobilních telefonů, notebooků a dalších periferiích (headset, klávesnice, myš aj.) Specifikace definuje 29 profilů, které slouží jako pod

například profily pro přenos obrázků, hlasu, zpřístupnění telefonního seznamu, synchronizaci, přístup do LAN

Fyzická vrstva (Radio layer) pro přenos radiových signálů využívá Frequency Hopping Spread Spectrum, které přeskakuje mezi 79 kanály podle pseudonáhodné frekvence, což minimalizuje rušení jinými sítěmi. Kvůli zabránění kolizím může slave stanice vysílat pouze, pokud je k tomu vyzvána master stanicí. Komunikace je duplexovaná pomocí Time Div

Baseband definující dva typy logických spojů: synchronní (Synchronous Connection Oriented) pro přenos hlasu a asynchronní (Asynchronnous Connection

pro přenos dat. Nad touto vrstvou se

stanicí, starající se o ustanovení spojení, autentizaci a konfiguraci spoje. Poslední vrstvou před profily a aplikační vrstvou je Logical Link Control and

(L2CAP), zajišťující kvalitu služeb

5.1.1 Technické řešení

Bluetooth systém je složen ze tří částí

 Bluetooth radio - je ve funkci vysílač, přijímač

 Bluetooth Link Manager Bluetooth modulem

. Přehled bezdrátových sítí

Bluetooth využívá k přenosu radiové vlny vysílané v bezlicenčním pásmu 2.4 GHz, ale s menším dosahem 30 metrů ve verzi 2.1 (průmyslové moduly umožňují komunikaci až na vzdálenost několika stovek metrů). Původně byla tato technologie kabelového spojení dvou telefonů, odtud tedy vyplývají její hlavní použití. Moduly jsou vestavěny ve většině dnešních mobilních telefonů, notebooků a dalších periferiích (headset, klávesnice, myš aj.) Specifikace definuje 29 profilů, které slouží jako podpůrné protokoly pro aplikace běžící na zařízeních, například profily pro přenos obrázků, hlasu, zpřístupnění telefonního seznamu,

přístup do LAN a další.

Fyzická vrstva (Radio layer) pro přenos radiových signálů využívá Frequency read Spectrum, které přeskakuje mezi 79 kanály podle pseudonáhodné frekvence, což minimalizuje rušení jinými sítěmi. Kvůli zabránění kolizím může slave stanice vysílat pouze, pokud je k tomu vyzvána master stanicí. Komunikace je duplexovaná pomocí Time Division Duplex. Nad fyzickou vrstvou je definována vrstva Baseband definující dva typy logických spojů: synchronní (Synchronous Connection Oriented) pro přenos hlasu a asynchronní (Asynchronnous Connection-Less) sloužící pro přenos dat. Nad touto vrstvou se nachází Link Manager Protocol, využívaný master stanicí, starající se o ustanovení spojení, autentizaci a konfiguraci spoje. Poslední vrstvou před profily a aplikační vrstvou je Logical Link Control and Adaption Protocol (L2CAP), zajišťující kvalitu služeb, multiplexing a adresování konkrétních aplikací

Bluetooth systém je složen ze tří částí – komponent:

je ve funkci vysílač, přijímač.

Bluetooth Link Manager - připravuje data a zaručuje komunikaci se zařízením s Bluetooth modulem.

bezlicenčním pásmu 2.4 GHz, ale s menším dosahem 30 metrů ve verzi 2.1 (průmyslové moduly umožňují komunikaci až na vzdálenost několika stovek metrů). Původně byla tato technologie kabelového spojení dvou telefonů, odtud tedy vyplývají její hlavní použití. Moduly jsou vestavěny ve většině dnešních mobilních telefonů, notebooků a dalších periferiích (headset, klávesnice, myš aj.) Specifikace definuje 29 půrné protokoly pro aplikace běžící na zařízeních, například profily pro přenos obrázků, hlasu, zpřístupnění telefonního seznamu,

Fyzická vrstva (Radio layer) pro přenos radiových signálů využívá Frequency read Spectrum, které přeskakuje mezi 79 kanály podle pseudonáhodné frekvence, což minimalizuje rušení jinými sítěmi. Kvůli zabránění kolizím může slave stanice vysílat pouze, pokud je k tomu vyzvána master stanicí. Komunikace je ision Duplex. Nad fyzickou vrstvou je definována vrstva Baseband definující dva typy logických spojů: synchronní (Synchronous Connection Less) sloužící nachází Link Manager Protocol, využívaný master stanicí, starající se o ustanovení spojení, autentizaci a konfiguraci spoje. Poslední Adaption Protocol adresování konkrétních aplikací.

připravuje data a zaručuje komunikaci se zařízením s

References

Related documents

Podle Křivohlavého (1988) patří do základního souboru mimoslovních projevů a tvoří přechod mezi mimoslovním a slovním způsobem sdělování.. Intenzita hlasového projevu

V občanské výchově se dá prakticky využít například při rozpoznávání hradů a zámků (obrázek č. 28) a jiného kulturních dědictví.. Pasivní animace mají pouze

Úkolem diplomové práce bylo vytvoření aplikace s možností rozpoznávání a syntézy řeči, a využít tuto aplikaci pro otestování tří typů bezdrátových

o didaktické hře se zabývám jejím významem z hlediska vyučovací metody, především chci poukázat na široké možnosti jejího využití jako prostředku rozvoje řeči

- ve cvičeních vybíráme nejdříve slabiky a slova, která začínají nosovkou - při nácviku vokálů začínáme vokálem „u“, který je pro měkký začátek

Bakalářská práce by měla rovněž stanovit základní strategii rozvoje projektu identifikační karty v městském prostředí a detailně charakterizovat, jakým

Nyní musíme, ještě před započetím cyklu, načíst první znak textu ZNAK. Dále pokračujeme cyklem, jehož řídicí

V rámci e-learningu by toto bylo odstraněno – uživatel si může pomocí interaktivních prvků sám vyzkoušet dané funkce systému, projít testem, který prověří