• No results found

Výstupní soubory jsou ve stejné složce jako vstupní textový soubor. Kódování těchto souborů je podle parametru “encoding“, defaultně UTF-8. Výsledky jsou rozděleny podle parametru “difference“

N/A
N/A
Protected

Academic year: 2022

Share "Výstupní soubory jsou ve stejné složce jako vstupní textový soubor. Kódování těchto souborů je podle parametru “encoding“, defaultně UTF-8. Výsledky jsou rozděleny podle parametru “difference“ "

Copied!
1
0
0

Loading.... (view fulltext now)

Full text

(1)

Language Recognizer

Povinné parametry

Parametr Popis

file Soubor s texty. Je možné zadat více souborů.

model Model, který se má použít při rozpoznávání jazyka. Je potřeba zadat minimálně 2 různé modely.

Modely musí být ve složce “Models“ v hlavní složce aplikace.

Volitelné parametry

Parametr Popis Možné

hodnoty

Defaultní hodnota models all Použije všechny modely ze složky “Models“ v hlavní

složce aplikace.

order

Stupeň n-gramů, který se použije pro rozpoznávání jazyka. Pokud se zvolí vyšší stupeň než mají modely, použije se nejvyšší stupeň modelů.

Celé kladné

číslo 5

difference

Určuje, o kolik musí mít rozpoznaný model vyšší log(p) proti modelu s druhým nejvyšším log(p) pro danou větu.

Pokud je rozdíl menší než tento parametr, věta se zařadí mezi nejisté výsledky, jinak se zařadí mezi jisté výsledky.

Celé kladné

číslo 0

write_incertain_results Určuje, zda se na výstup mají zapisovat nejisté výsledky. true/false true folder Jako vstupní textové soubory použije všechny soubory ze

zadaného adresáře a všech jeho podadresářů.

Textový řetězec encoding Kódování vstupního textového souboru. Stejné kódování

se použije pro výstupní soubory.

Textový

řetězec UTF-8 separators

Oddělovače vět v odstavci. Oddělování odstavců je automatické. Pokud se nezadají žádné oddělovače, bude text rozdělen jen podle odstavců.

Textový řetězec min_length Minimální délka vět včetně oddělovače. [znaky] Celé kladné

číslo 1

ignore_next_separator Pokud je délka věty kratší než parametr min_lenght, pak

ignoruje následující oddělovač, tak aby získal delší větu. true/false false split_text Určuje, zda se má výstup rozdělit podle zadaných

oddělovačů (každá věta na samostatný řádek). true/false false lower_case

Převede všechny znaky rozpoznávaného textu na malá písmena. Při použití tohoto parametru by i modely měly být natrénovány na textech s malými písmeny.

true/false false

remove_names

Určuje, zda se z rozpoznávaných vět mají odstranit

„jména“ (slova ve větě začínající velkým písmenem, kromě prvního slova). Tento parametr má vliv pouze na texty, podle kterých se rozpoznává jazyk, výstupní texty budou beze změny (se „jmény“).

true/false false

Výstup

Výstupní soubory jsou ve stejné složce jako vstupní textový soubor. Kódování těchto souborů je podle parametru “encoding“, defaultně UTF-8. Výsledky jsou rozděleny podle parametru “difference“

na jisté a nejisté. Značení názvů souborů je následující:

Jisté výsledky: *název souboru s texty]-*název modelu]

Nejisté výsledky: *název souboru s texty+-*název modelu+-uncertain

Příklad

LanguageRecognizer file data.txt folder C:\Texty encoding windows-1250 model Czech model Slovak

order 6 separators .?! ignore_next_separator true difference 30

References

Related documents

Podle Rabušice (1997) je rozdíl mezi „vidět se jako starý“ a „cítit se jako starý“. Vnímání „vidět se jako starý“ ovlivňuje věk člověka, a také tlak okolí.

Snímky byly po ř izovány po naleptání vylešt ě ných metalografických vzork ů

Dle předložených faktů, mám takový názor, že senioři této skupiny jsou velmi aktivní ve všech směrech, jak v oblasti využívání volného času - cestování, turistika,

Vzhledem ke skutečnosti, že v současné době pracuji jako vedoucí Oddělení tisku a prevence při Krajském ředitelství policie hlavního města Prahy, byl výběr vhodného

Graf P4-1 DSC křivky nanovlákenných vzorků PCL, PCL/K a srovnávacího vzorku -

** Ačkoli při počítání buněk v Bürkerových komůrkách nebyly v tomto intervalu zjištěny, tuto hodnotu je možné pokládat pouze za téměř nulovou, a to vzhledem k

Petra Hůlová Majerčíková se do ní opravdu pustila, jmenovitě do díla Jana od Kříže, ovšem podle mého soudu nedokázala plně využít spojení jeho vizí noci a temnoty

Třída 8. B, v jejíchž hodinách bylo využito aktivizačních metod. Názorně vše ukazuje také přiložený graf. Výsledky dotazníku jsou ve všech případech