Odhad ˇcekac´ı doby pomoc´ı zpracov´an´ı obrazu

(1)

Odhad ˇ cekac´ı doby pomoc´ı zpracov´ an´ı obrazu

Bakal´ aˇ rsk´ a pr´ ace

Studijn´ı program: B2646 – Informaˇcn´ı techologie Studijn´ı obor: 1802R007 – Informaˇcn´ı technologie Autor pr´ace: Matˇej Chumlen

Vedouc´ı pr´ace: Mgr. Jiˇr´ı Vran´y, Ph.D.

(2)

Queue Time Estimation by Image Processing

Bachelor thesis

Study programme: B2646 – Information technology Study branch: 1802R007 – Information technology

Author: Matˇej Chumlen

Supervisor: Mgr. Jiˇr´ı Vran´y, Ph.D.

(3)

Zadání bakalářské práce

Odhad čekací doby pomocí zpracování obrazu

Jméno a příjmení: Matěj Chumlen Osobní číslo: M16000190

Studijní program: B2646 Informační technologie Studijní obor: Informační technologie

Zadávající katedra: Ústav nových technologií a aplikované informatiky Akademický rok: 2018/2019

Zásady pro vypracování:

1. Seznamte se s aktuálním stavem vývoje algoritmů vhodných pro detekci objektů v obraze.

2. Vybrané algoritmy porovnejte z hlediska přesnosti, náročnosti implementace, výpočetní náročnosti a náročnosti na množství i kvalitu tréninkových dat. Na základě porovnání vyberte nejvhodnější algoritmus pro praktickou implementaci.

3. S využitím zvoleného algoritmu implementujte prototyp systému, který umožní odhadnout délku čekání osob ve frontě na základě rozpoznávání čekajících osob ve video záznamu.

(4)

Rozsah grafických prací: dle potřeby Rozsah pracovní zprávy: 30 – 40 stran Forma zpracování práce: tištěná/elektronická

Seznam odborné literatury:

[1] GOODFELLOW, Ian, Yoshua BENGIO a Aaron COURVILLE. Deep learning. Cambridge, Massachusetts: The MIT Press, [2016]. ISBN 02-620-3561-8.

[2] DAVIES, E. R. Computer vision: theory, algorithms, practicalities. 5th edition. Cambridge, CA: Elsevier, 2017.

ISBN 978-0128092842.

[3] ANGELOVA, Anelia, Alex KRIZHEVSKY, Vincent VANHOUCKE, Abhijit OGALE a David FERGUSON. Real-Time Pedestrian Detection With Deep Network Cascades. In: Proceedings of BMVC 2015 [online]. 2015, s. 12 [cit.

2018-10-04]. Dostupné z: https://ai.google/research/pubs/pub43850

[4] TOM?, D., et. al. Deep Convolutional Neural Networks for pedestrian detection. Signal Processing: Image Communication. 2016, (47), 482-489.

[5] SHAOQING R., KAIMING H., ROSS G., and JIAN S., Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Trans. Pattern Anal. Mach. Intell. 39, 6 (June 2017), 1137-1149.

arXiv:1506.01497 [cs.CV]

Vedoucí práce: Mgr. Jiří Vraný, Ph.D.

Ústav nových technologií a aplikované informatiky Datum zadání práce: 18. října 2018

Předpokládaný termín odevzdání: 30. dubna 2019

L. S.

prof. Ing. Zdeněk Plíva, Ph.D.

děkan

Ing. Josef Novák, Ph.D.

vedoucí ústavu

(5)

Prohl´ aˇ sen´ı

Byl jsem seznámen s t´ım, ˇze na mou bakaláˇrskou práci se plnˇe vztahuje zákon ˇc. 121/2000 Sb., o právu autorském, zejména § 60 – ˇskoln´ı d´ılo.

Beru na vˇedom´ı, ˇze Technická univerzita v Liberci (TUL) neza- sahuje do mých autorských práv uˇzit´ım mé bakaláˇrské práce pro vnitˇrn´ı potˇrebu TUL.

Uˇziji-li bakaláˇrskou práci nebo poskytnu-li licenci k jej´ımu vyuˇzit´ı, jsem si vˇedom povinnosti informovat o této skuteˇcnosti TUL;

v tomto pˇr´ıpadˇe má TUL právo ode mne poˇzadovat úhradu náklad˚u, které vynaloˇzila na vytvoˇren´ı d´ıla, aˇz do jejich skuteˇcné výˇse.

Bakaláˇrskou práci jsem vypracoval samostatnˇe s pouˇzit´ım uvedené literatury a na základˇe konzultac´ı s vedouc´ım mé bakaláˇrské práce a konzultantem.

Souˇcasnˇe ˇcestnˇe prohlaˇsuji, ˇze tiˇstˇen´a verze pr´ace se shoduje s elek- tronickou verz´ı, vloˇzenou do IS STAG.

Datum:

Podpis:

(6)

Abstrakt

Tato práce ˇreˇs´ı vˇseobecný problém ˇcekán´ı ve frontˇe. C´ılem práce je navrhnout systém, který na základˇe obrazové informace z videozáznamu fronty odhadne ˇcekac´ı dobu zákazn´ıka. Tento problém byl ˇreˇsen za pomoci objektového detektoru zaloˇzeného na konvoluˇcn´ıch neuronových s´ıt´ıch Faster R-CNN a trackován´ı pomoc´ı KCF trackeru. Ze zjiˇstˇených informac´ı o ˇcasech pr˚uchodu a poˇctu ˇcekaj´ıc´ıch je vypoˇcten odhad ˇcekac´ı doby. Vytvoˇrené ˇreˇsen´ı je vyuˇzitelné v optimáln´ıch podm´ınkách. Jeho funkˇcnost závis´ı na um´ıstˇen´ı kamery vzhledem ke scénˇe, velikosti scény a kvalitˇe obrazu. Navrˇzený systém by mohl pomoci ke zpˇr´ıjemnˇen´ı ˇcekán´ı ve frontˇe.

Kl´ıˇcová slova: rozpoznáván´ı obrazu, poˇc´ıtaˇcové vidˇen´ı, neuronové s´ıtˇe, fronta, detekce osob, ˇcas ˇcekán´ı, trackován´ı, objektový detektor, Faster R-CNN

Abstract

This work addresses common problem of queuing. The goal of the work is to propose a system that estimates queuing time from video. The proposed solution is based on convolutional neural network based object detector Faster R-CNN and KCF tracker. The queuing time is then estimated based on knowledge of serving time per person and number of waiting people. The proposed solution is usable in optimal conditions. Its functionality depends on the position of the camera relative to the scene, scene size and image quality. The proposed system could help to make waiting in the queue more enjoyable.

Keywords: image recognition, computer vision, neural networks, queue, pedestrian detection, waiting time, tracking, object detector, Faster R-CNN

(7)

Podˇ ekov´ an´ı

Rád bych podˇekoval vedouc´ımu mé práce Ing. Jiˇr´ımu Vranému Ph.D. za podporu, rychlé reakce na dotazy a vstˇr´ıcné konzultace. Dále bych rád podˇekoval Ing. Karlu Paleˇckovi Ph.D. za tipy a rady z oblasti strojového uˇcen´ı a Ing. Josefu Chudobovi Ph.D. za konzultaci ke statistické ˇcásti práce.

V neposledn´ı ˇradˇe patˇr´ı m˚uj d´ık mé rodinˇe, pˇrátel˚um a mé pˇr´ıtelkyni, která mˇela pochopen´ı pro to, ˇze jsem mˇes´ıce zavˇrený v jedné m´ıstnosti, nen´ı se mnou ˇreˇc a nevycház´ım.

(8)

Obsah

Seznam zkratek . . . 9

1 Uvod´ 11 2 Teorie hromadné obsluhy 12 3 Klasický pˇr´ıstup detekce osob 14 3.1 Hledán´ı kandidátn´ıch oblast´ı . . . 14

3.1.1 Posuvn´e ok´enko . . . 14

3.1.2 Edge Boxes . . . 15

3.1.3 Selective Search . . . 15

3.2 Extrakce pˇr´ıznak˚u. . . 15

3.2.1 Haarovy pˇr´ıznaky . . . 16

3.2.2 HOG . . . 16

3.3 Klasifikace pˇr´ıznak˚u metodou SVM . . . 16

4 Neuronové s´ıtˇe 18 4.1 Umˇelá neuronová s´ıt’ . . . 18

4.2 Konvoluˇcn´ı neuronov´e s´ıtˇe . . . 19

4.3 Neuronov´e s´ıtˇe pro objektovou detekci . . . 20

4.3.1 Faster R-CNN . . . 20

4.3.2 Mask R-CNN . . . 21

4.3.3 R-FCN . . . 21

4.3.4 YOLOv3 . . . 21

4.3.5 SSD . . . 22

4.4 Hodnocen´ı ´uspˇeˇsnosti detekˇcn´ıch algoritm˚u . . . 22

5 Datasety pro objektovou detekci 24 5.1 Pascal VOC . . . 24

5.2 ImageNet . . . 24

5.3 COCO . . . 25

6 Knihovny pro strojov´e uˇcen´ı 26 6.1 TensorFlow . . . 26

6.2 PyTorch . . . 26

6.3 Keras. . . 27

6.4 Caffe . . . 27

(9)

7 Reˇserˇse existuj´ıc´ıch ˇreˇsen´ı 28 8 Tvorba prototypu syst´emu pro odhad ˇcekac´ı doby ve frontˇe 30

8.1 Hardwarov´e a softwarov´e prostˇredky . . . 30

8.2 V´ybˇer prostˇredk˚u pro pouˇzit´ı v syst´emu . . . 31

8.2.1 Testovac´ı data . . . 31

8.2.2 Porovn´an´ı model˚u detekce . . . 32

8.2.3 Porovn´an´ı trackovac´ıch algoritm˚u . . . 34

8.2.4 Vliv um´ıstˇen´ı kamery . . . 36

8.3 Syst´em . . . 37

8.3.1 Izolace fronty ve sc´enˇe . . . 37

8.3.2 Detekce osob ve frontˇe . . . 39

8.3.3 Trackov´an´ı osob ve frontˇe . . . 40

8.3.4 Oblast obsluhy . . . 40

8.3.5 Odhad ˇcekac´ı doby . . . 40

8.3.6 Bˇeh syst´emu pro odhad ˇcekac´ı doby . . . 42

8.4 Budouc´ı pr´ace . . . 43

8.4.1 Dotrénován´ı modelu z reálných záznam˚u . . . 43

8.4.2 Vstup dat z externıho zdroje . . . 43

8.4.3 Tracker vyuˇz´ıvaj´ıc´ı GPU . . . 44

8.4.4 Uprava kotev pro volbu kandid´´ atn´ıch oblast´ı . . . 44

9 Z´avˇer 45

Literatura 47

(10)

Seznam zkratek

FPS sn´ımky za sekundu

HOG histogram orientovan´ych gradient˚u MLP v´ıcevrstv´y perceptron

SVM metoda podp˚urn´ych vektor˚u RPN s´ıt’ pro n´avrh region˚u

IoU Jaccard˚uv koeficient TP skuteˇcnˇe pozitivn´ı FP faleˇsnˇe pozitivn´ı FN faleˇsnˇe negativn´ı

P pˇresnost

R ´uplnost

AP pr˚umˇerná pˇresnost AR pr˚umˇerná úplnost

mAP stˇredn´ı pr˚umˇerná pˇresnost mAR stˇredn´ı pr˚umˇerná úplnost

ILSVRC ImageNet Large Scale Visual Recognition Competition ECCV European Conference on Computer Vision

SIFT Scale-invarient feature transform

(11)

Seznam obr´ azk˚ u

3.1 Roura detekce osob v obraze . . . 14

3.2 Lokalizace objekt˚u pomoc´ı metody Selective Search [7] . . . 15

3.3 Haarovy pˇr´ıznaky . . . 16

4.1 Sch´ema umˇel´eho neuronu . . . 19

4.2 Porovn´an´ı metod objektov´e detekce [11] . . . 20

4.3 Architektura R-FCN [12] . . . 21

6.1 Poˇcet zm´ınˇen´ı knihoven na arXiv k 21. 8. 2018 podle [16] . . . 26

8.1 Segmentace v softwaru Labelme . . . 32

8.2 Uk´azka sn´ımk˚u z testovac´ıch dat. . . 32

8.3 Uspˇ´ eˇsnost detekce na kameˇre um´ıstˇen´e shora . . . 37

8.4 Sch´ema syst´emu pro odhad ˇcekac´ı doby . . . 38

8.5 Vymaskov´an´ı fronty pomoc´ı bin´arn´ı masky . . . 39

8.6 Screenshot bˇeˇz´ıc´ıho syst´emu pro odhad ˇcekac´ı doby . . . 43

(12)

1 Uvod ´

Uloha detekce osob zaznamen´´ avá v souvislosti s rozvojem v oblasti samoˇriditelných automobil˚u, robotiky a sledován´ı osob bouˇrlivý vývoj. Zat´ımco klasické detekˇcn´ı metody jako HOG dosahovaly na svou dobu dobrých výsledk˚u, za pˇrelom v oblasti detekce lze povaˇzovat aˇz rozvoj konvoluˇcn´ıch neuronových s´ıt´ı.

Aˇckoliv jedno z prvn´ıch vyuˇzit´ı konvoluˇcn´ıch neuronových s´ıt´ı pro klasifikaci se datuje do roku 1989, kdy Yann LeCun aplikoval výcevrstvou neuronovou s´ıt’ na problém rozpoznáván´ı ruˇcnˇe psaných ˇc´ıslovek [2], výraznˇeji se zaˇcaly vyuˇz´ıvat po roce 2012, kdy s´ıt’ AlexNet [3] dosáhla v soutˇeˇzi ILSVRC o v´ıce neˇz 10 procent niˇzˇs´ı top-5 chyby neˇz ostatn´ı soutˇeˇzn´ı vstupy. To bylo umoˇznˇeno vyuˇzit´ım grafických procesor˚u.

Tato práce se zabývá návrhem prototypu systému, který by s vyuˇzit´ım detekˇcn´ıch algoritm˚u umoˇznil odhadnout ˇcekac´ı dobu ve frontˇe. Takový systém m˚uˇze významnˇe pomoci s optimalizac´ı vyuˇz´ıván´ı zdroj˚u v provozech jako jsou letiˇstˇe, supermarkety, menˇs´ı obchody a dalˇs´ı sluˇzby a t´ım zpˇr´ıjemnit zákaznický proˇzitek pˇri udrˇzen´ı co nejniˇzˇs´ıch náklad˚u. Jeho nasazen´ı poˇc´ıtá s vyuˇzit´ım stávaj´ıc´ıch kamerových systém˚u.

Aˇckoliv podobné systémy jiˇz existuj´ı (viz kapitola7), jedná se o komerˇcn´ı produkty.

Dokumentace tˇechto produkt˚u nenab´ız´ı informace o technologii pouˇzit´e pˇri implementaci, ani informace o ´uspˇeˇsnosti.

V rámci této práce jsou prozkoumány existuj´ıc´ı algoritmy, které jsou pro ˇreˇsen´ı problému odhadu ˇcekac´ı doby z videozáznamu potˇrebné (8.2). Implementace tˇechto algoritm˚u jsou následnˇe otestovány a porovnány z hlediska pˇresnosti a výpoˇcetn´ı nároˇcnosti. Za jejich vyuˇzit´ı je implementován prototyp systému pro odhad ˇcekac´ı doby(8.3).

Potenciál navrhovaného systému spoˇc´ıvá v ˇsiroké ˇskále provoz˚u, kde m˚uˇze být uplatnˇen, vzhledem k relativnˇe malým náklad˚um, které jsou s t´ım spojeny.

Kapitola 2 se zabývá formáln´ım vymezen´ım fronty. V kapitole 3 jsou popsány klasické pˇr´ıstupy ˇreˇsen´ı úlohy detekce osob a v kapitole4 jsou struˇcnˇe pˇredstaveny neuronové s´ıtˇe a souˇcasné detekˇcn´ı algoritmy. Kapitola 5 popisuje pouˇz´ıvané datasety pro objektovou detekci. Knihovnami pro strojové uˇcen´ı se zaob´ırá kapitola 6.

(13)

2 Teorie hromadn´ e obsluhy

Za frontu m˚uˇzeme obecnˇe oznaˇcit takový systém, ve kterém zákazn´ıci (osoby, poˇzadavky, automobily atp.) ˇcekaj´ı na obslouˇzen´ı omezeným mnoˇzstv´ım obsluˇzných uzl˚u (bezpeˇcnostn´ı pás, pokladna, hraniˇcn´ı kontrola, ˇcerpac´ı stanice). Formáln´ım ukotven´ım fronty se zabývá odvˇetv´ı aplikované matematiky oznaˇcované Teorie hromadné obsluhy.

Jeho c´ılem je navrhnout takový systém, který optimalizuje mnoˇzstv´ı prostˇredk˚u nutné pro obslouˇzen´ı zákazn´ık˚u. Ve svých závˇerech vycház´ı ze statistiky a teorie pravdˇepodobnosti.

Zákazn´ıci mohou být obsluhováni podle nˇekolika r˚uzných kl´ıˇc˚u - frontových reˇzim˚u. Nejbˇeˇznˇejˇs´ı systém obsluhy je zaloˇzen na principu FIFO - pˇr´ıchoz´ı, který ˇceká ve frontˇe nejdelˇs´ı dobu je obslouˇzen nejdˇr´ıve. Fronta m˚uˇze být obsluhována jako zásobn´ık LIFO (skladovac´ı systémy). Posledn´ı pˇr´ıchoz´ı je obslouˇzen jako prvn´ı.

Dalˇs´ım rozˇs´ıˇren´ım tˇechto pˇr´ıstup˚u m˚uˇze být zaveden´ı priorit. Zákazn´ık s vyˇsˇs´ı priori- tou je obslouˇzen pˇrednostnˇe (model pouˇz´ıvaný na letiˇst´ıch pˇri bezpeˇcnostn´ı kontrole i boardingu). Poˇrad´ı obslouˇzen´ı m˚uˇze také záviset na dobˇe jeho trván´ı. Zákazn´ık, jehoˇz obslouˇzen´ı bude trvat nejkratˇs´ı dobu, dostane pˇrednost (expresn´ı fronty v obchodech).

Frontu lze dále rozliˇsovat podle jej´ıho uspoˇrádán´ı vzhledem k obsluˇzným uzl˚um.

Lze uvaˇzovat frontu s jedn´ım uzlem obsluhy, kde má obsluha jednu fázi (napˇr. droge- rie), nebo v´ıce fáz´ı (napˇr. automyˇcka). Dalˇs´ı typ fronty je fronta s v´ıce uzly obsluhy, kdy zákazn´ık vyuˇzije jakýkoliv uzel, který je právˇe nevyt´ıˇzený (napˇr. ˇcekán´ı na pisoáry).

”Teorie front se snaˇz´ı popsat výkonnost systému obsluhy popsaného následuj´ıc´ımi náhodnými veliˇcinami: poˇcet zákazn´ık˚u v systému, poˇcet ˇcekaj´ıc´ıch zákazn´ık˚u, ˇcas trván´ı obsluhy zákazn´ıka, ˇcas, po který uzel obsluhy nen´ı vyt´ıˇzený a ˇcas po který uzel obsluhy vyt´ıˇzený je.“ [4]

Pro popis a klasifikaci front se v teorii hromadné obsluhy vyuˇz´ıvá Kendallova notace, která popisuje systém fronty pomoc´ı ˇsesti znak˚u:

A/B/m/K/n/D (2.1)

• A - distribuˇcn´ı funkce ˇcas˚u mezi pˇr´ıchody

• B - distribuˇcn´ı funkce ˇcasu obsluhy jednoho z´akazn´ıka

• m - poˇcet bod˚u obsluhy

• K - kapacita syst´emu

(14)

• n - velikost populace

• D - reˇzim fronty

Prvn´ı tˇri znaky jsou zadané standardnˇe. Pokud nejsou zadané zbylé tˇri, pˇredpokládá se, ˇze K a n jsou nekoneˇcné. Výchoz´ı reˇzim fronty D je FIFO.

Pˇredpokladem funkce model˚u systém˚u hromadné obsluhy je, ˇze vstupn´ı i výstupn´ı tok poˇzadavk˚u je stacionárn´ı proces s konzistentn´ı intenzitou, kde jsou intervaly mezi pˇr´ıchody spojitá náhodná veliˇcina se stejným rozdˇelen´ım pravdˇepodobnosti.

Vyuˇz´ıv´a se n´asleduj´ıc´ı notace:

• λ - intenzita vstupn´ıho toku - stˇredn´ı hodnota poˇctu vstupuj´ıc´ıch z´akazn´ık˚u za ˇcasovou jednotku

• µ - intenzita obsluhy - stˇredn´ı poˇcet z´akazn´ık˚u obslouˇzen´ych jednou linkou

• ρ = λ/µ - intenzita provozu

(15)

3 Klasick´ y pˇ r´ıstup detekce osob

Detekce osob v obraze je podmnoˇzinou úlohy detekce objekt˚u v obraze. Tato kapitola se vˇenuje krok˚um, které vedou k detekci. Tyto kroky jsou s obmˇenami spoleˇcné vˇsem metodám detekce. V prvn´ım kroku jsou v obraze nalezeny kandidátn´ı oblasti, které by potenciálnˇe mohly obsahovat objekt. V dalˇs´ım kroku jsou z´ıskány pˇr´ıznaky objekt˚u navrˇzených prvn´ım krokem a na základˇe tˇechto pˇr´ıznak˚u je urˇcena pˇr´ısluˇsnost ke tˇr´ıdˇe. V pˇr´ıpadˇe klasifikace do dvou tˇr´ıd tedy je objekt, a nebo nen´ı objekt.

Obr´azek 3.1: Roura detekce osob v obraze

3.1 Hled´ an´ı kandid´ atn´ıch oblast´ı

Kvalitn´ı metoda hledán´ı kandidátn´ıch oblast´ı mus´ı splˇnovat následuj´ıc´ı podm´ınky.

Mus´ı být výpoˇcetnˇe rychlá. D˚uvod jej´ıho pouˇzit´ı je sn´ıˇzen´ı poˇctu klasifikovaných oblast´ı, protoˇze klasifikace je standardnˇe výpoˇcetnˇe nároˇcná a je úzkým hrdlem detekˇcn´ı roury. Zároveˇn mus´ı vést k co nejlepˇs´ı úplnosti, tj. nevynechávat skuteˇcnˇe pozitivn´ı oblasti.

3.1.1 Posuvn´ e ok´ enko

Naivn´ı pˇr´ıstup by znamenal pixel po pixelu posouvat vˇsechny moˇzné rozmˇery okénka ohraniˇcuj´ıc´ıho kandidátn´ı oblast. Takový pˇr´ıstup by vˇsak znamenal velkou výpoˇcetn´ı zátˇeˇz a byl by pˇr´ıliˇs pomalý. Tento pˇr´ıstup lze vylepˇsit na základˇe znalosti vlastnost´ı hledaných objekt˚u. Je moˇzné pˇredpokládat urˇcitou minimáln´ı a maximáln´ı velikost objektu v obraze a nˇejakou koneˇcnou mnoˇzinu pomˇer˚u stran, které m˚uˇze hledaný objekt m´ıt (napˇr´ıklad obdéln´ık s pomˇerem stran 1:3 bude reprezentovat osobu nebo automobil sp´ıˇse, neˇz obdéln´ık s pomˇerem stran 1:20). Této metodˇe se ˇr´ıká posuvné

(16)

okénko a i pˇres popsané úpravy generuje pˇr´ıliˇs velké mnoˇzstv´ı kandidátn´ıch oblast´ı. Zároveˇn se nesprávnˇe zvoleným pomˇerem stran a velikostmi hledaných oblast´ı zvyˇsuje ˇsance na ztrátu úplnosti nalezených objekt˚u.

3.1.2 Edge Boxes

Jednou z metod vyuˇz´ıvaj´ıc´ıch informace z obrazu je metoda Edge Boxes [5]. Algorit- mus vyuˇz´ıvá rychlosti hledán´ı hran v obraze metodou Structured Edge. Pomoc´ı po- suvného okénka jsou následnˇe ohodnoceny oblasti podle toho, jak uzavˇrenou hranu obsahuj´ı – jaká je ˇsance, ˇze obsahuj´ı celý objekt. Tyto oblasti jsou následnˇe pro- filtrovány. V úloze detekce osob v obraze dosahuje podobnˇe jako Selective Search dobrých výsledk˚u [6].

3.1.3 Selective Search

Dalˇs´ı moˇznou metodou je Selective Search [7]. Algoritmus vyb´ırá pouze oblasti, v nichˇz je pravdˇepodobné, ˇze obsahuj´ı objekt. K tomu vyuˇz´ıvá segmentaci obrazu. Ob- raz je segmentován podle hodnot v r˚uzných barevných prostorech, jak je popsáno v [8]. Jednotlivé segmenty jsou oznaˇceny ohraniˇcuj´ıc´ım obdéln´ıkem jako kandidátn´ı oblasti. Následnˇe jsou urˇceny podobnosti mezi sousedn´ımi regiony a dva sousedn´ı regiony, které jsou si nejpodobnˇejˇs´ı jsou sjednoceny. Tento hladový algoritmus se opakuje, dokud nen´ı celý obraz jedn´ım regionem. Výsledkem je nˇekolikanásobnˇe menˇs´ı mnoˇzstv´ı kandidátn´ıch region˚u, coˇz znamená menˇs´ı výpoˇcetn´ı nároˇcnost klasifikace. Zároveˇn tento algoritmus nestanovuje pevnˇe daná mˇeˇr´ıtka objekt˚u a pomˇery stran, coˇz znamená, ˇze dosahuje lepˇs´ı úplnosti.

Obr´azek 3.2: Lokalizace objekt˚u pomoc´ı metody Selective Search [7]

3.2 Extrakce pˇ r´ıznak˚ u

Poté, co jsou nalezeny kandidátn´ı oblasti je tˇreba z nich z´ıskat informace, které jsou následnˇe vyuˇzity pro klasifikaci. Tedy urˇcen´ı pˇr´ısluˇsnosti ke tˇr´ıdˇe.

(17)

3.2.1 Haarovy pˇ r´ıznaky

Haarovy pˇr´ıznaky jsou pˇr´ıznaky, které vyuˇz´ıvaj´ı charakteristických jasových rozd´ıl˚u mezi oblastmi objektu. Pomoc´ı masek r˚uzných velikost´ı (3.3 klasifikátor z´ıskává informace o pˇr´ıtomnosti hran (a, b), nebo linek (c, d) v obraze. Nejznámˇejˇs´ı aplikaci Haarových pˇr´ıznak˚u je detektor Viola-Jones [9], který je primárnˇe urˇcen k roz- poznáván´ı obliˇcej˚u. Úspˇeˇsnost klasifikace zaloˇzené na Haarových pˇr´ıznac´ıch závis´ı na úhlu zábˇeru a klasifikátor je málo robustn´ı v˚uˇci jasovým rozd´ıl˚um a natoˇcen´ı objektu.

Obr´azek 3.3: Haarovy pˇr´ıznaky

3.2.2 HOG

Vˇetˇs´ı úspˇeˇsnosti pˇri detekci osob dosahuje metoda HOG (histogram orientovaných gradient˚u). Metoda vyuˇz´ıvá informace o velikosti a smˇeru zmˇeny intenzity jasu v obraze. Na obraz je aplikován postupnˇe Sobel˚uv hranový detektor s jádrem velikosti 1 pro vodorovné a svislé hrany. Následnˇe je pro kaˇzdý bod v obraze spoˇc´ıtána velikost a smˇer gradientu podle vztahu:

g =^qg²_x+ g²_y (3.1)

θ = arctan g_y

g_x (3.2)

Obraz je poté rozdˇelen na ˇctvercové oblasti n × n. Jejich velikost je zvolena podle velikosti objektu. V tˇechto ˇctverc´ıch je vypoˇcten histogram gradient˚u, ˇc´ımˇz se informace obsaˇzená v obraze významnˇe zredukuje. Histogramy jsou následnˇe norma- lizovány v bloku k × k sousedn´ıch histogram˚u. Tyto bloky se vzájemnˇe pˇrekrývaj´ı.

T´ım je doc´ıleno vˇetˇs´ı robustnosti v˚uˇci nerovnomˇernému osvˇetlen´ı scény. Norma- lizované histogramy jsou spojeny do fináln´ıho vektoru, který pˇredstavuje vektor pˇr´ıznak˚u pro klasifikaci. Tato metoda je robustnˇejˇs´ı v˚uˇci jasovým nerovnostem, ale pˇredpokládá vzpˇr´ımenou polohu osob a jejich dostateˇcnou viditelnost [10].

3.3 Klasifikace pˇ r´ıznak˚ u metodou SVM

Metoda podp˚urných vektor˚u SVM je metodou strojového uˇcen´ı s uˇcitelem. Pouˇz´ıvá se ke klasifikaci. Podstata klasifikace spoˇc´ıvá v rozdˇelen´ı prostoru pˇr´ıznak˚u na dva

(18)

poloprostory, které obsahuj´ı data odliˇsných klasifikovaných tˇr´ıd takovým zp˚usobem, který maximalizuje minimáln´ı vzdálenost bod˚u od dˇel´ıc´ı nadroviny, kterou lze popsat rovnic´ı

~

w · ~x + b = 0, (3.3)

kde ~w je normála dˇel´ıc´ı nadroviny, ~x vektor pˇr´ıznak˚u a b posun dˇel´ıc´ı nadroviny od poˇcátku soustavy souˇradnic. Maximalizace vzdálenosti prob´ıhá uˇcen´ım klasifikátoru na trénovac´ıch datech, u kterých je známa pˇr´ısluˇsnost ke tˇr´ıdˇe. Výsledkem uˇcen´ı je vektor ~w a bias b. Pomoc´ı jádrových funkc´ı lze pouˇz´ıt SVM k nelineárn´ı klasifikaci a existuj´ı modifikace metody pro klasifikaci do v´ıce tˇr´ıd. SVM je d´ıky rozvolˇnuj´ıc´ım promˇenným robustn´ı v˚uˇci ˇsumu a dosahuje dobrých výsledk˚u na malých datech.

(19)

4 Neuronov´ e s´ıtˇ e

4.1 Umˇ el´ a neuronov´ a s´ıt’

Umˇelá neuronová s´ıt’ je výpoˇcetn´ı model, který je inspirován biologickou neuronovou s´ıt´ı lid´ı a zv´ıˇrat. Je to systém, který se podobnˇe jako mozek uˇc´ı vykonávat danou funkci podle pˇr´ıklad˚u, aniˇz by bylo tˇreba ho k tomu pˇredprogramovávat. Umˇelá neuronová s´ıt’ nacház´ı uplatnˇen´ı v situac´ıch, kde nestaˇc´ı pouˇz´ıt rozhodovac´ı stromy zaloˇzené na jasnˇe definovaných podm´ınkách.

Základn´ım stavebn´ım prvkem umˇelé neuronové s´ıtˇe je podobnˇe jako u biologické neuronové s´ıtˇe neuron. Kaˇzdý neuron dokáˇze zpracovat vstupn´ı signál z jiných neuron˚u a vyslat výstupn´ı signál dál. Schéma umˇelého neuronu popisuje obrázek4.1.

Kaˇzdý neuron pˇrijme vektor vstup˚u ~x, který vynásob´ı vektorem vah ~w, k sumˇe výsledku je pˇriˇcten práh (bias). Výstup u je pˇredán aktivaˇcn´ı funkci. Aktivaˇcn´ı funkce pˇredstavuje nelinearitu neuronové s´ıtˇe. M˚uˇze být reprezentována napˇr´ıklad jednotkovým skokem, sigmoidou nebo funkc´ı ReLU. Výstup aktivaˇcn´ı funkce y je pˇredán dále do s´ıtˇe. Funkci neuronu lze popsat následuj´ıc´ı rovnic´ı:

y = S(

N

X

i=1

(w_ix_i) + b) (4.1)

Neurony jsou v neuronové s´ıti typicky uspoˇrádány do vrstev. Mezi vstupn´ı a výstupn´ı vrstvou se nacház´ı skryté vrstvy. S´ıt’ s alespoˇn jednou skrytou vrstvou se nazývá v´ıcevrstvý perceptron (MLP). Pokud obsahuje model s´ıtˇe dvˇe a v´ıce skrytých vrstev, jedná se o hlubokou neuronovou s´ıt’.

Procesem uˇcen´ı neuronové s´ıtˇe se rozum´ı hledán´ı optimáln´ı sady parametr˚u modelu, kterými jsou váhové vektory a biasy jednotlivých neuron˚u. Optimáln´ı parametry jsou takové, které pro vstup x (nezávislá promˇenná) vrac´ı správný výstup y (závislá promˇenná, predikce). Uˇcen´ı prob´ıhá za pomoci trénovac´ıch dat, coˇz je soubor vstupn´ıch dat a oˇcekávaných výstupn´ıch dat. Úspˇeˇsnost neuronové s´ıtˇe je vyjádˇrena pomoc´ı cost funkce. C´ılem uˇcen´ı je minimalizovat jej´ı hodnotu.

Jelikoˇz nelze analyticky urˇcit parametry, pro které dosahuje cost funkce minima, prob´ıhá hledán´ı minima iterativnˇe pomoc´ı metody gradient descent.

(20)

Obrázek 4.1: Schéma umˇelého neuronu

4.2 Konvoluˇ cn´ı neuronov´ e s´ıtˇ e

Konvoluˇcn´ı neuronová s´ıt’ pˇredstavuje zvláˇstn´ı typ neuronové s´ıtˇe. Podobnˇe jako s´ıt’

typu MLP má vstupn´ı vrstvu, skryté vrstvy a výstupn´ı vrstvu s vahami a biasy. Na rozd´ıl od MLP, kde docház´ı na vstupn´ı vrstvˇe k pˇreveden´ı obrazu na 1D vektor, je konvoluˇcn´ı s´ıt’ schopna zachycovat prostorové vlastnosti obrazu (hrany, linie, rohy atp.). Základem tohoto principu je vyuˇzit´ı konvoluˇcn´ıch filtr˚u, které pˇredstavuj´ı parametry konvoluˇcn´ı vrstvy. Jde o analogický pˇr´ıstup jako u Haarových pˇr´ıznak˚u.

Oproti tradiˇcn´ımu pˇr´ıstupu k detekci vˇsak nejsou jednotlivé filtry vytvoˇreny ruˇcnˇe na základˇe pˇredchoz´ı znalosti vlastnost´ı hledaného objektu. Jejich podoba vzniká v pr˚ubˇehu uˇcen´ı s´ıtˇe. D´ıky tˇemto vlastnostem jsou konvoluˇcn´ı neuronové s´ıtˇe vhodným druhem umˇelých neuronových s´ıt´ı pro klasifikaci obrazu.

Konvoluˇcn´ı neuronové s´ıtˇe bˇeˇznˇe sestávaj´ı z nˇekolika druh˚u vrstev. Konvoluˇcn´ı vrstva pˇrevád´ı vstup, coˇz m˚uˇze být vstupn´ı obraz nebo výstup z vyˇsˇs´ı vrstvy, na pˇr´ıznakovou mapu za pomoc´ı filtr˚u popsaných výˇse. Zat´ımco prvn´ı konvoluˇcn´ı vrstva detekuje vysoce abstraktn´ı pˇr´ıznaky, jako jsou hrany, kaˇzdá dalˇs´ı konvoluˇcn´ı vrstva na základˇe informace z vyˇsˇs´ıch vrstev detekuje ménˇe abstraktn´ı pˇr´ıznaky: kruˇznice, kola, automobil, bicykl. Výstup z konvoluˇcn´ı vrstvy procház´ı aktivaˇcn´ı funkc´ı.

Za úˇcelem redukce velikosti vstupn´ıch pˇr´ıznak˚u obsahuje konvoluˇcn´ı neuronová s´ıt’ sdruˇzovac´ı vrstvy. Sdruˇzovac´ı vrstvy negeneruj´ı ˇzádné vlastn´ı pˇr´ıznaky. M´ısto toho procház´ı vstupn´ı pole pomoc´ı kernelu 2×2 s krokem 2, a bud’ zachovaj´ı nejvˇetˇs´ı hodnotu (max pooling), nebo pr˚umˇernou hodnotu (average pooling) z hodnot. Touto operac´ı dojde k redukci vstupn´ıch dat o 75%. Vedle výrazného zmenˇsen´ı velikosti parametr˚u se zmenˇsuje riziko pˇreuˇcen´ı s´ıtˇe.

Konvoluˇcn´ı neuronová s´ıt’ pln´ı úlohu extraktoru pˇr´ıznak˚u. Bˇeˇznˇe je za n´ı zaˇrazeno nˇekolik plnˇe propojených vrstev neuron˚u, které pˇr´ıznaky dále zredukuj´ı pro klasifikaci. Klasifikace je následnˇe provedena pomoc´ı klasifikátoru jako softmax, nebo SVM.

(21)

4.3 Neuronov´ e s´ıtˇ e pro objektovou detekci

V následuj´ıc´ı ˇcásti je pˇredstaveno nˇekolik objektových detektor˚u. Jsou vybrané detektory, které jsou populárn´ı, hojnˇe popsané a snadno dostupné jako open-source.

Popsané detektory lze rozdˇelit na dvˇe skupiny. Jednoduˇsˇs´ı, tzv. one-stage metody (SSD, YOLOv3 ), které celou detekci provád´ı bˇehem jednoho pˇr´ımého pr˚uchodu s´ıt´ı.

Tyto metody jsou zpravidla rychlejˇs´ı a výpoˇcetnˇe ménˇe nároˇcné. Druhou skupinou jsou tzv. two-stage metody (Faster R-CNN, Mask R-CNN, R-FCN ).

Obrázek 4.2: Porovnán´ı metod objektové detekce [11]

4.3.1 Faster R-CNN

Faster R-CNN (Region-based convolutional neural network) je zdokonalen´ım starˇs´ıch metod R-CNN a Fast R-CNN. Oproti svým pˇredch˚udc˚um nevyuˇz´ıvá výpoˇcetnˇe nároˇcnou metodu hledán´ı kandidátn´ıch oblast´ı Selective Search (3.1.3), která pˇredstavovala výpoˇcetn´ı úzké hrdlo. M´ısto toho zapojuje konvoluˇcn´ı s´ıt’ s nˇekolika málo vstvami (RPN) pro binárn´ı klasifikaci (objekt × neobjekt). Vstupn´ı obraz procház´ı nˇekolika konvoluˇcn´ımi vrstvami (extraktor pˇr´ıznak˚u). Výstupem tˇechto vrstev je pˇr´ıznaková mapa s optimáln´ı m´ırou abstrakce pro RPN. Ve vstupn´ım obraze RPN je pomoc´ı po- suvného okna vybráno pro kaˇzdý obrazový bod k oblast´ı o r˚uzných pomˇerech stran a velikostech. Pro kaˇzdou oblast je predikováno s jakou pravdˇepodobnost´ı a jak pˇresnˇe reprezentuje oblast s objektem. Oblasti s dostateˇcnou jistotou predikce jsou pˇredány metodˇe Non–max Suppression (NMS) za úˇcelem vyfiltrován´ı pˇrekrývaj´ıc´ıch se predikc´ı. Výstupn´ı predikce jsou pˇredány ke klasifikaci.

(22)

4.3.2 Mask R-CNN

Mask R-CNN je rozˇs´ıˇren´ım detektoru Faster R-CNN. Zat´ımco v prvn´ı fázi docház´ı shodnˇe k hledán´ı kandidátn´ıch oblast´ı pomoc´ı RPN, v druhé fázi jsou kandidátn´ı oblasti kromˇe klasifikace podrobeny segmentaci. Výstupem segmentace je binárn´ı maska objektu.

4.3.3 R-FCN

R-FCN (Region-based fully convolutional network) adresuje problém výpoˇcetn´ı nároˇcnosti klasifikace u detektor˚u typu R-CNN. Ty pro klasifikaci kaˇzdé kandidátn´ı oblasti vyˇzaduj´ı samostatný pr˚uchod klasifikaˇcn´ı s´ıt´ı. Tato výpoˇcetnˇe nároˇcná vlastnost je v R-FCN odstranˇena sd´ılen´ım konvoluˇcn´ıch vrstev i pro klasifikaci. Výsledkem tohoto pˇr´ıstupu je výrazné zrychlen´ı oproti Faster R-CNN [12]. Podobnˇe jako u Fas- ter R-CNN je na pˇr´ıznakové mapˇe na výstupu extraktoru pˇr´ıznak˚u pomoc´ı RPN vybrán soubor kandidátn´ıch region˚u. Na následuj´ıc´ı vrstvˇe je vytvoˇrena sada map o poˇctu k²× (C + 1). Pro kaˇzdou z C tˇr´ıd a pozad´ı (+1) je vytvoˇreno k² map skóre.

Kaˇzdá mapa reprezentuje skóre jedné z podoblast´ı objektu v mˇr´ıˇzce k ×k. Pr˚umˇerná hodnota vˇsech podoblast´ı v mˇr´ıˇzce pˇredstavuje skóre pro jednotlivé tˇr´ıdy. Tato skóre jsou vstupem klasifikace pomoc´ı funkce softmax.

Obr´azek 4.3: Architektura R-FCN [12]

4.3.4 YOLOv3

YOLOv3 (You Only Look Once) vyuˇz´ıvá podobného pˇr´ıstupu jako RPN s´ıt’ u pˇredchoz´ıch detektor˚u. Na kandidátn´ıch oblastech vˇsak nam´ısto binárn´ı klasifikace objekt × neobjekt provád´ı nav´ıc i klasifikaci do tˇr´ıd. Detekce je provádˇena na tˇrech r˚uzných mˇeˇr´ıtkách, aby bylo dosaˇzeno dobré úspˇeˇsnosti na r˚uznˇe velkých instanc´ıch objekt˚u. Na kaˇzdém z mˇeˇr´ıtek je obraz rozdˇelen na mˇr´ıˇzku. Kaˇzdý prvek mˇr´ıˇzky generuje 3 r˚uzné kandidátn´ı oblasti popsané pomoc´ı souˇradnic pravého horn´ıho

(23)

rohu, ˇs´ıˇrky a výˇsky. Pro kaˇzdou kandidátn´ı oblast je urˇceno s jakou jistotou se jedná o objekt a skóre vˇsech klasifikovaných tˇr´ıd. Následnˇe je provedeno prahován´ı kandidátn´ıch oblast´ı. Výstupem jsou ohraniˇcuj´ıc´ı obdéln´ıky nalezených objekt˚u a nejpravdˇepodobnˇejˇs´ı tˇr´ıda.

4.3.5 SSD

SSD (Single Shot MultiBox Detector) podobnˇe jako YOLOv3 generuje kandidátn´ı oblasti s r˚uznými pomˇery stran na mˇr´ıˇzce a pro kaˇzdou oblast urˇcuje skóre jednot- livých tˇr´ıd. Aby bylo dosaˇzeno lepˇs´ı úplnosti napˇr´ıˇc mˇeˇr´ıtky objekt˚u, jsou kandidátn´ı oblasti vyb´ırány z r˚uzných vrstev konvoluˇcn´ı s´ıtˇe. Klasifikace prob´ıhá funkc´ı softmax.

4.4 Hodnocen´ı ´ uspˇ eˇ snosti detekˇ cn´ıch algoritm˚ u

Uloha detekce se sest´´ avá ze dvou d´ılˇc´ıch úloh. Úlohy lokalizace objektu v obraze a úlohy stanoven´ı pˇr´ısluˇsné tˇr´ıdy objektu. Aby bylo moˇzné urˇcit m´ıru úspˇeˇsnosti detekˇcn´ıch algoritm˚u, je tˇreba urˇcit hodnot´ıc´ı kritérium tˇechto úloh.

Nejˇcastˇeji vyuˇz´ıvaným [13][14] hodnocen´ım úspˇeˇsnosti lokalizace je Jaccard˚uv koeficient podobnosti, bˇeˇznˇe oznaˇcovaný jako IoU (Intersection over Union). Koefi- cient je definovaný jako

IoU = (B_p∩ B_gt)

(B_p∪ B_gt), (4.2)

kde B_p je predikovaný ohraniˇcuj´ıc´ı obdéln´ık objektu a B_gt oˇcekávaný (správný) ohraniˇcuj´ıc´ı obdéln´ık. Pokud je hodnota IoU vˇetˇs´ı, neˇz stanovený práh (typicky jsou pouˇz´ıvány meze 0,5; 0,75; 0,95 ), je lokalizace povaˇzována za úspˇeˇsnou.

Jistota pˇr´ısluˇsnosti objektu ke tˇr´ıdˇe je vyjádˇrena pravdˇepodobnost´ı. Úspˇeˇsnost detekce na testovac´ıch datech je urˇcována vzhledem k m´ıˇre jistoty, pˇri které je pˇrijata klasifikace objektu jako správná.

Aby bylo moˇzné urˇcit úspˇeˇsnost detekce napˇr´ıˇc testovac´ımi daty, je tˇreba hod- notit dvˇe kritéria. Pˇresnost a úplnost. Pˇresnost je definována jako:

P = T P

T P + F P (4.3)

Uplnost jako:´

R = T P

T P + F N (4.4)

Kde T P pˇredstavuje poˇcet objekt˚u, které byly úspˇeˇsnˇe detekovány (True Posi- tive). F P Je poˇcet objekt˚u, které byly detekovány chybnˇe. Tedy se v obraze ne- nacház´ı (False Positive). F N Je poˇcet objekt˚u, které se v obraze nacház´ı, ale nebyly detekovány.

(24)

Uplnost a pˇresnost jsou na sobˇ´ e nepˇr´ımo závislé. Pro klesaj´ıc´ı pˇresnost docház´ı k nár˚ustu úplnosti a opaˇcnˇe. Tento fenomén postihuje m´ıra AP (Average Precision), kterou lze obecnˇe vypoˇc´ıtat jako:

AP =

Z 1 0

p(r)dr (4.5)

Kde p(r) je funkce vyjadˇruj´ıc´ı závislost pˇresnosti na úplnosti. Tento vztah je v praxi nahrazen interpolac´ı a funkce závislosti je pˇred výpoˇctem vyhlazena.

K výpoˇctu AP docház´ı v rámci jedné tˇr´ıdy. V pˇr´ıpadˇe detekce v´ıce tˇr´ıd docház´ı k dalˇs´ı úpravˇe. M´ıra úspˇeˇsnosti je pak popsána pomoc´ı mAP (mean Average Preci- sion), která je vypoˇctena jako pr˚umˇer pˇres AP vˇsech tˇr´ıd. Term´ıny AP a mAP jsou ˇcasto zamˇeˇnovány.

AR je pr˚umˇerná úplnost na trénovac´ıch datech pˇres vˇsechny sn´ımky trénovac´ıch dat a mAR pr˚umˇerná AR pˇres vˇsechny klasifikované tˇr´ıdy [15].

(25)

5 Datasety pro objektovou detekci

Uspˇ´ eˇsnost detekˇcn´ıho systému závis´ı na vhodnˇe navrˇzeném modelu a nalezen´ı vhodných parametr˚u modelu ve fázi jeho trénován´ı. Úloha detekce je nároˇcná na trénovac´ı data z d˚uvodu rozmanitosti reálných scén [3]. Známé datasety jako MNIST nebo CIFAR- 10 jsou urˇceny pouze pro klasifikaci a obsahuj´ı malé mnoˇzstv´ı tˇr´ıd. Shromáˇzdˇen´ı datasetu pro klasifikaci a lokalizaci, který by byl robustn´ı co se týˇce rozmanitosti scén z pohledu orientace objekt˚u a osvˇetlen´ı, pˇredstavuje velkou ˇcasovou zátˇeˇz. Stejnˇe tak následná anotace instanc´ı objekt˚u. Je tedy nevhodné, aby kaˇzdá práce v oblasti stro- jového vidˇen´ı zaˇc´ınala touto ˇcinnost´ı. Tyto d˚uvody podn´ıtily vznik dataset˚u, které jsou nezávislé a zároveˇn umoˇzˇnuje standardizované testován´ı detekˇcn´ıch systém˚u a stanoven´ı nejlepˇs´ıho z nich. Vybrané z nich popisuje následuj´ıc´ı sekce.

5.1 Pascal VOC

Jedn´ım z prvn´ıch a dodnes hojnˇe vyuˇz´ıvaných dataset˚u je Pascal VOC (M. Eve- ringham et al.) [13], který vznikl v roce 2005. Výsledky detekce na Pascal VOC byly porovnávány kaˇzdoroˇcnˇe vrámci soutˇeˇze VOC Challenge mezi lety 2005 a 2012. Ve- dle detekce byly soutˇeˇzeny úlohy segmentace a klasifikace akc´ı. Detekˇcn´ı dataset obsahuje v posledn´ı verzi 20 tˇr´ıd, které jsou zastoupeny 27450 instancemi na 11540 sn´ımc´ıch. Sn´ımky v datasetu jsou náhledy shromáˇzdˇených fotografi´ı z webu Flickr, který poskytuje komunitn´ı sd´ılen´ı fotografi´ı svým uˇzivatel˚um.

5.2 ImageNet

V souˇcasné dobˇe nejrozsáhlejˇs´ı databáz´ı fotografi´ı pro výzkum v oblasti strojového vidˇen´ı je ImageNet. Tato databáze byla poprvé pˇredstavena v roce 2009. Na jej´ım vývoji se pod´ıl´ı pˇredevˇs´ım Stanfordova univerzita a Princetonská univerzita. Da- tabáze obsahuje pˇres 14 milion˚u náhled˚u fotografi´ı, které pocház´ı z webu Flickr.

Fotografie jsou uspoˇrádány podle s´ıtˇe WordNet, která seskupuje slova do tzv. syn- set˚u. Pro detekˇcn´ı úlohu jsou z WordNet vybrána podstatná jména. Tˇech je v´ıce neˇz 80000. ImageNet obsahuje anotované fotografie pro 21841 z nich (mj. 120 ras ps˚u).

Pro úlohu detekce objekt˚u je anotováno 1034908 fotografi´ı. Podobnˇe jako Pascal VOC je i ImageNet pˇredmˇetem soutˇeˇze - ILSVRC. Pro soutˇeˇzn´ı úlohu lokalizace je omezen poˇcet tˇr´ıd na 1000. Úloha detekce je omezena na 200 tˇr´ıd.

(26)

5.3 COCO

Nejmladˇs´ım datasetem ze zm´ınˇených je COCO. Dataset COCO byl publikován v roce 2014 v ˇclánku

”Microsoft COCO: Common Objects in Context“. Od pˇredchoz´ıch se odliˇsuje t´ım, ˇze anotace jsou doplnˇeny o segmentace objekt˚u na úrovni pixel˚u - kaˇzdá instance objektu má svou masku. Dále obsahuje sn´ımky, které byly vybrány podle specifického kl´ıˇce. Na rozd´ıl od ImageNet a Pascal VOC, které obsahuj´ı ka- nonické zobrazen´ı objekt˚u (lidé en face atp.), COCO obsahuje scény z reálného prostˇred´ı, kde jsou objekty zachyceny z r˚uzných úhl˚u, jsou vzájemnˇe okludovány a vytváˇr´ı chaotické scény. Této vlastnosti tv˚urci dosáhli tak, ˇze nam´ısto jednoho kl´ıˇcového slova pro vyhledáván´ı na Flickr vyuˇz´ıvaj´ı kombinace slov r˚uzných tˇr´ıd.

Dataset se zamˇeˇruje na detekci 80 tˇr´ıd. V tˇechto tˇr´ıdách je obsaˇzeno vˇsech 20 tˇr´ıd z datasetu Pascal VOC, ˇc´ımˇz je dosaˇzeno zpˇetné kompatibility. Obsahuje 330 tis´ıc obrázk˚u, z nichˇz je v´ıce neˇz 200 tis´ıc anotováno pro objektovou detekci. Oproti výˇse zm´ınˇeným obsahuje COCO v´ıce instanc´ı objekt˚u na jeden obrázek. Zároveˇn pouze 10 procent scén obsahuje pouze jednu kategorii, oproti Pascal VOC a ImageNet, u kterých je to v´ıce neˇz 60 procent. Vedle detekce objekt˚u se COCO zamˇeˇruje i na detekci pozice osob, generován´ı popisk˚u scén a dalˇs´ı. Tyto úlohy jsou soutˇeˇzeny v rámci konference ECCV.

(27)

6 Knihovny pro strojov´ e uˇ cen´ı

Obr´azek 6.1: Poˇcet zm´ınˇen´ı knihoven na arXiv k 21. 8. 2018 podle [16]

6.1 TensorFlow

TensorFlow je open–source knihovna, která je vyv´ıjena spoleˇcnost´ı Google. Je napsána v jazyc´ıch C++ a Python. Jej´ı výhodou je, ˇze poskytuje API pro jazyky Python, Ja- vaScript, Java, Go a Swift. TensorFlow zakládá na statických výpoˇcetn´ıch grafech.

To znamená, ˇze pˇred spuˇstˇen´ım výpoˇctu je nutné zadefinovat veˇskeré výpoˇcetn´ı operace a sestavit výpoˇcetn´ı graf. D´ıky tomu docház´ı pˇri opakovaném spouˇstˇen´ı výpoˇctu k úspoˇre výpoˇcetn´ıho ˇcasu. V d˚usledku toho vˇsak nejde v kódu pouˇz´ıvat print funkce, podm´ınky a cykly klasickým pythonovským zp˚usobem a je potˇreba pouˇz´ıvat speciáln´ı funkce z TensorFlow API. Tyto limitace souvis´ı s dalˇs´ı slabou stránkou, kterou je tˇeˇzˇs´ı debugován´ı navrˇzeného modelu.

6.2 PyTorch

PyTorch je podobnˇe jako TensorFlow open–source knihovna, která je zamˇeˇrená na strojové uˇcen´ı. Vývoj PyTorch zaˇstit’uje výzkumný tým spoleˇcnosti Facebook. Na- rozd´ıl od TensorFlow vyuˇz´ıvá dynamické výpoˇcetn´ı grafy, které se sestavuj´ı za bˇehu

(28)

programu. To znamená, ˇze lze pouˇz´ıvat podm´ınky, cykly a debugován´ı klasickým zp˚usobem. PyTorch verze 1.0.0 byl vydán 7. 12. 2018. Je tedy nejmladˇs´ım ze jme- novaných knihoven. D´ıky záˇstitˇe Facebooku docház´ı ale k rychlému rozˇsiˇrován´ı dokumentace, coˇz byla nevýhoda oproti dobˇre dokumentovanému TensorFlow. Podle dat z [16] je popularita PyTorch stabilnˇe rostouc´ı.

6.3 Keras

Keras je vysokoúrovˇnové API v Pythonu, které slouˇz´ı jako front-end jiných knihoven pro strojové uˇcen´ı (TensorFlow, Theano, CNTK, MXNet, PlaidML). Keras c´ıl´ı na uˇzivatelskou pˇr´ıvˇetivost. Nedosahuje takového výkonu jako ostatn´ı zm´ınˇené knihovny a jeho zámˇer je rychlé prototypován´ı a prvn´ı seznámen´ı s principy stro- jového a hlubokého uˇcen´ı.

6.4 Caffe

Caffe je knihovna vyv´ıjená výzkumn´ıky z univerzity v Berkeley. Je napsána pro Py- thon v jazyce C++. Modely druhé verze Caffe2 se daj´ı vyuˇz´ıt v PyTorch. Vzhledem k tomu, ˇze spoleˇcnost Facebook pouˇz´ıvá jak Caffe2, tak PyTorch doˇslo v dubnu 2018 ke slouˇcen´ı tˇechto dvou knihoven. Popularita Caffe klesá ve prospˇech TensorFlow a PyTorch.

(29)

7 Reˇ serˇ se existuj´ıc´ıch ˇ reˇ sen´ı

Nalezen´ı optimáln´ıho zp˚usobu obsluhy zákazn´ık˚u s sebou nese mnoho výhod. Podnik m˚uˇze na základˇe této znalosti lépe plánovat smˇeny zamˇestnanc˚u, to znamená, ˇze zamˇestnanci tráv´ı ˇcas v zamˇestnán´ı efektivnˇe a nemaj´ı prostoje. Dále pak docház´ı k rychlejˇs´ımu obslouˇzen´ı zákazn´ık˚u, coˇz v d˚usledku znamená ménˇe zákazn´ık˚u, kteˇr´ı opust´ı frontu pˇred obslouˇzen´ım a v´ıce zákazn´ık˚u, kteˇr´ı se po pˇr´ıjemné zkuˇsenosti vrát´ı a vyuˇzij´ı sluˇzby znovu. Dále je v procesu optimalizace ˇsance nalézt úzká hrdla celého systému. Pomalé zamˇestnance nebo ˇspatnˇe navrˇzené uspoˇrádán´ı podniku.

Vˇsechny tyto nabyté znalosti vedou ke zvýˇsen´ı prodejnosti a sn´ıˇzen´ı náklad˚u na provoz.

Problém hledán´ı optima lze ˇreˇsit nˇekolika zp˚usoby. Analyticky pomoc´ı metod z teorie hromadné obsluhy, pomoc´ı simulace na základˇe nasb´ıraných dat, nebo v reálném ˇcase.

Analytické ˇreˇsen´ı naráˇz´ı na promˇenlivost systému. Navrˇzené analytické metody vyˇzaduj´ı pro své metody velmi specifické pˇredpoklady, a proto je lze pouˇz´ıt jen ve specifických pˇr´ıpadech. Nevýhodou simulaˇcn´ıch metod je nutnost velkého mnoˇzstv´ı vstupn´ıch dat [17]. Dále také cena simulaˇcn´ıch nástroj˚u. Napˇr´ıklad licence softwaru SIMUL8 Professional stoj´ı témˇeˇr 5000 dolar˚u.

Reˇsen´ı, kter´ˇ a vyuˇz´ıvaj´ı rozpoznáván´ı obrazu maj´ı výhodu v n´ızkých nákladech na montáˇz a hardware. Vyuˇz´ıvaj´ı stávaj´ıc´ı systém bezpeˇcnostn´ıch kamer. Umoˇzˇnuj´ı automatický sbˇer aktuáln´ıch dat pro reporting a vyuˇzit´ı ve výˇse zm´ınˇených simu- lac´ıch pˇri urˇcován´ı parametr˚u vstupn´ıch náhodných veliˇcin. Dokáˇz´ı management a personál podniku v reálném ˇcase informovat o nahromadˇen´ı zákazn´ık˚u a nutnosti otevˇr´ıt dalˇs´ı body obsluhy.

Komerˇcnˇe dostupných ˇreˇsen´ı je na trhu velmi mnoho. Jsou limituj´ıc´ı z r˚uzných d˚uvod˚u. Napˇr´ıklad software TrueView Queue od spoleˇcnosti Cognimatics, který je na ˇceském trhu k dostán´ı je moˇzné pouˇz´ıvat pouze na IP kamerách Axis, coˇz znamená zvýˇsen´ı poˇcáteˇcn´ıch náklad˚u. Spoleˇcnost Axis sama nab´ız´ı software Axis Queue Mo- nitor, opˇet pouze pro své vlastn´ı IP kamery. Software také pˇredpokládá spolupráci s dalˇs´ımi systémy z ekosystému této firmy. Na trhu jsou dostupná i ˇreˇsen´ı vyuˇz´ıvaj´ıc´ı stávaj´ıc´ı systém CCTV, jako napˇr´ıklad systém firmy Retail Sensing.

Bylo prozkoumáno velké mnoˇzstv´ı existuj´ıc´ıch ˇreˇsen´ı s následuj´ıc´ımi závˇery. Velké mnoˇzstv´ı nab´ızených systém˚u potenciáln´ıho uˇzivatele limituje t´ım, ˇze ho nut´ı vyuˇz´ıvat i dalˇs´ı software nebo dokonce hardware stejného výrobce, ˇc´ımˇz st´ırá výhody nast´ınˇené výˇse. ˇZádné z prozkoumaných ˇreˇsen´ı neposkytuje na webových stránkách veˇrejnˇe in- formaci o cenˇe. K ˇzádnému z ˇreˇsen´ı vyuˇz´ıvaj´ıc´ıch bezpeˇcnostn´ı kamery nen´ı dostupná informace o principu jeho fungován´ı, o pouˇzitých algoritmech nebo technologi´ıch. Ve-

(30)

dle deklarativn´ıch prohláˇsen´ı o úspˇeˇsnosti nab´ızené technologie chyb´ı data, která by funkˇcnost prokazovala. Nˇekteré ze systém˚u nab´ızej´ı API pro komunikaci se systémy tˇret´ıch stran, ale opˇet nen´ı veˇrejnˇe k dispozici uspokojivá dokumentace.

Open-source ˇreˇsen´ı této problematiky se nepodaˇrilo nalézt. Problém obsahuj´ıc´ı stejné d´ılˇc´ı kroky ˇreˇs´ı IBM v repozitáˇri na GitHubu [1], ovˇsem detekˇcn´ı úlohu ˇreˇs´ı pomoc´ı své platformy IBM PowerAI Vision, která pracuje s velkou m´ırou abstrakce v cloudu a nastaven´ı detektoru i pouˇzitý detekˇcn´ı algoritmus nen´ı z uˇzivatelského GUI, kterým se platforma ovládá, moˇzné ovlivnit.

Problém propojen´ı kvalitn´ı detekce a trackován´ı, coˇz je podstatná ˇcást problému, kterým se zabývá tato práce, ˇreˇs´ı v repozitáˇri pod licenc´ı MIT spoleˇcnost Neuro- mation [18].

Projekt, který se nezabývá stejným tématem, ale obsahuje jeho d´ılˇc´ı ˇc´ısti je také KERBEROS.IO [19], tento projekt je oproti pˇredchoz´ım zm´ınˇeným ucelenˇejˇs´ı.

Pracuje jako webová aplikace s nástˇenkou, na které je moˇzné sledovat reporting.

Primárn´ı úˇcel projektu je vˇsak vytvoˇren´ı dostupného zabezpeˇcovac´ıho zaˇr´ızen´ı pomoc´ı Raspberry Pi s kamerou.

(31)

8 Tvorba prototypu syst´ emu pro odhad ˇ cekac´ı doby ve frontˇ e

Navrhovaný prototyp systému sestává z nˇekolika ˇcást´ı, které jsou na sobˇe jen ome- zenˇe závislé. Systém, který odhaduje ˇcekac´ı dobu ve frontˇe mus´ı ˇreˇsit následuj´ıc´ı d´ılˇc´ı problémy:

1. separace oblasti fronty v obraze

2. stanoven´ı poˇctu ˇcekaj´ıc´ıch osob ve frontˇe

3. stanoven´ı rychlosti, jakou prob´ıh´a obsluha osob ve frontˇe

Sekce 8.2 se zabývá hledán´ım optimáln´ıch prostˇredk˚u ˇreˇsen´ı tˇechto problém˚u. V následuj´ıc´ı sekci 8.3 je popsána navrˇzená implementace systému pro odhad ˇcekac´ı doby.

8.1 Hardwarov´ e a softwarov´ e prostˇ redky

Vˇsechny údaje namˇeˇrené v této práci pocház´ı z následuj´ıc´ı hardwarové a softwarové sestavy. Pro chod a správu virtuáln´ıch prostˇred´ı Python byla pouˇzita distribuce Anaconda Python a jej´ı bal´ıˇckovac´ı systém Conda.

Hardware:

• RAM: 2 × 8GB SO-DIMM DDR4 2400MHz

• CPU: Intel Core i5-8300H

• GPU: Nvidia GP107M (GeForce GTX 1050 Mobile)

• SSD: Samsung MZVLW256HEHP Software:

• Ubuntu 18.04.2 LTS

• CUDA 10.0.130

• cuDNN 7.4.2

(32)

• Python 3.6.8

• OpenCV 3.4.4

• PyTorch 0.4.1

Knihovna pro manipulaci s obrazem OpenCV dostupná v bal´ıˇckovac´ım systému Conda nepodporuje vykonáván´ı funkc´ı na GPU, coˇz je nutná vlastnost pro chod zvolených detekˇcn´ıch systém˚u. Zároveˇn neobsahuje oficiáln´ı distribuce moduly pro práci na GPU. Tyto moduly se nacház´ı v repozitáˇri OpenCV Contrib, a tak bylo nutné ji zvláˇst’ zkompilovat spolu se zm´ınˇeným repozitáˇrem.

8.2 V´ ybˇ er prostˇ redk˚ u pro pouˇ zit´ı v syst´ emu

8.2.1 Testovac´ı data

Hledán´ı vhodných prostˇredk˚u pro pouˇzit´ı ve výsledném systému vyˇzaduje testovac´ı data. Jedn´ım z pˇr´ıstup˚u k jejich shromáˇzdˇen´ı bylo vyuˇzit´ı veˇrejnˇe dostupných sn´ımk˚u front z internetu. Byly prozkoumány moˇznosti web scrapingu. Jako nejsch˚udnˇejˇs´ı se ukázala moˇznost pouˇzit´ı sluˇzby Google Images, která indexuje sn´ımky na internetu a poskytuje API pro jejich vyhledáván´ı a filtrován´ı. Podstatným parametrem filtru jsou práva pro dalˇs´ı pouˇzit´ı a rozliˇsen´ı.

Pro dávkové stahován´ı sn´ımk˚u byl pouˇzit volnˇe dostupný program google-images- download [20], který vyuˇz´ıvá API Google Images a pˇridává vrstvu abstrakce pro pohodlné pouˇz´ıván´ı z pˇr´ıkazové ˇrádky.

Bohuˇzel bylo zjiˇstˇeno, ˇze obrázk˚u front které splˇnuj´ı výˇse zm´ınˇené parametry je relativnˇe málo (des´ıtky). Zároveˇn by bylo nutné dohledávat zdroj obrázk˚u pro upˇresnˇen´ı licence pro opˇetovné pouˇzit´ı, coˇz je v mnoha pˇr´ıpadech obt´ıˇzné. Velká ˇcást obrázk˚u obsahovala ikonický zábˇer fronty, který neodpov´ıdal realitˇe. Dále bylo pro testován´ı tracker˚u nezbytné disponovat nejen sn´ımky, ale i videozáznamy front.

Tento postup byl tedy zam´ıtnut ve prospˇech vytvoˇren´ı vlastn´ıch videoz´aznam˚u front.

Pro úˇcely práce byla tedy dále vytvoˇrena testovac´ı data v podobˇe nˇekolika vi- deozáznam˚u fronty (viz 8.2). Videozáznamy zachycovaly frontu z r˚uzných úhl˚u ve dvou variantách. Prvn´ı variantou byla optimáln´ı fronta s dobrou separac´ı jednot- livých osob bez okluze. Fronta se pohybovala pˇr´ımo. Druhá varianta zachycovala frontu bliˇzˇs´ı realitˇe: osoby v zákrytu, pˇredb´ıhaj´ıc´ı osoby, osoby vyboˇcuj´ıc´ı pohybem ze smˇeru fronty.

Z druhé varianty fronty byl navzorkován soubor sn´ımk˚u. Byl doplnˇen volnˇe do- stupnými sn´ımky front z internetu a byla vybrána sada 20 sn´ımk˚u, které obsahovaly pro detekci a klasifikaci neoptimáln´ı scény. Osoby stoj´ıc´ı ve frontˇe na tˇechto sn´ımc´ıch se znaˇcnou mˇerou zakrývaj´ı (napˇr. sn´ımky 2, 3, 5), nebo jsou viditelné z úhlu, který nen´ı v bˇeˇznˇe pouˇz´ıvaných datasetech zamˇeˇrených na detekci osob (COCO, Caltech Pedestrian Dataset, INRIA) bˇeˇzný (sn´ımky 2 a 6). Na tˇechto sn´ımc´ıch bylo pomoc´ı softwaru Labelme [21] oznaˇceno 220 instanc´ı osob pomoc´ı polygon˚u (viz 8.1).

V dalˇs´ım kroku byl vytvoˇren testovac´ı dataset. Vzhledem k obl´ıbenosti mezi

(33)

Obr´azek 8.1: Segmentace v softwaru Labelme

´

uspˇeˇsnosti detekˇcn´ıch model˚u zvolen formát COCO výzkumného týmu firmy Micro- soft. Software Labelme nenab´ız´ı moˇznost exportu vˇsech anotovaných sn´ımk˚u a pˇr´ısluˇsných anotac´ı do formátu, který by se dal vyuˇz´ıt na trénován´ı nebo testován´ı detekˇcn´ıho modelu. Tento krok bylo nutné zprogramovat. V rámci práce byl vytvoˇren skript, který na vstupu pˇrij´ımá výstupn´ı soubory s anotacemi ze softwaru Labelme ve formátu *.json a na výstupu vrac´ı soubor anotac´ı (*.json), který odpov´ıdá speci- fikaci testovac´ıho datasetu COCO pro detekci, tak jak je popsána v [22]. Tento dataset byl pouˇzit v dalˇs´ı ˇcásti práce na testován´ı úspˇeˇsnosti detekce vybraných model˚u.

Obr´azek 8.2: Uk´azka sn´ımk˚u z testovac´ıch dat

8.2.2 Porovn´ an´ı model˚ u detekce

Pˇri reˇserˇsi bylo zjiˇstˇeno, ˇze tradiˇcn´ı klasifikaˇcn´ı metody zaloˇzené na ruˇcnˇe vytváˇrených pˇr´ıznac´ıch (HOG, SIFT) nedosahuj´ı ani zdaleka takových výsledk˚u, jako metody zaloˇzené na konvoluˇcn´ıch neuronových s´ıt´ıch [24][2][23], do výbˇeru tedy nebyly za- hrnuty.

(34)

Pˇri volbˇe detekˇcn´ıch algoritm˚u bylo pˇrihlédnuto k tomu, ˇze ve frontˇe se z pod- staty lidé pohybuj´ı pomalu (viz 8.3.5). Navrhovaný systém by mˇel nalézt uplatnˇen´ı v instituc´ıch jako jsou letiˇstn´ı odbaven´ı, letiˇstn´ı bezpeˇcnostn´ı kontrola nebo hyper- market. Dá se tedy pˇredpokládat, ˇze v mezn´ım pˇr´ıpadˇe, kdy je fronta vyprázdnˇená a pˇrijde do n´ı nová osoba, bude se ve sledované oblasti nacházet minimálnˇe 10 sekund (ˇcas pr˚uchodu scénou + ˇcas obsluhy).

Vzhledem k tomu nen´ı potˇreba detekce v reálném ˇcase. Tato podm´ınka umoˇzˇnuje volbu detektoru, který dosahuje lepˇs´ı pˇresnost pˇri klasifikaci na úkor ˇcasu. Na základˇe práce

”Speed/accuracy trade-offs for modern convolutional object detectors“ [11], která provnávala metody Faster R-CNN R-FCN a SSD byla pro testován´ı vybrána metoda Faster R-CNN, která vykazuje nejlepˇs´ı pˇresnost klasifikace za cenu pomalejˇs´ı detekce.

Dalˇs´ı zvolenou metodou byl detektor YOLOv3 [25], kter´y oproti Faster R-CNN vykazuje vˇetˇs´ı rychlost detekce, ale o nˇeco niˇzˇs´ı pˇresnost.

Krit´eria pro volbu detektoru byla zvolena n´asledovnˇe:

• Detektor dosahuje dobré úspˇeˇsnosti pˇri detekci malých instanc´ı objekt˚u. Tento poˇzadavek pramen´ı z povahy videozáznam˚u z bezpeˇcnostn´ıch kamer, které zab´ıraj´ı relativnˇe velkou scénu, v které jedna osoba standardnˇe zab´ırá oblast o velikosti des´ıtek pixel˚u.

• Detektor dosahuje co nejvyˇsˇs´ı hodnoty mAR. Pro správné stanoven´ı ˇcekac´ı doby je podstatné urˇcit kolik osob se ve frontˇe nacház´ı. S rostouc´ım poˇctem neúspˇeˇsnˇe detekovaných osob rychle roste chyba odhadu.

• Úspˇeˇsnost detekce pˇri IoU 0,75 je dobrá. Pro zjiˇst’ován´ı oblasti obsahuj´ıc´ı osobu nen´ı tak zásadn´ı, aby byla oblast urˇcena zcela pˇresnˇe. Pro následné uˇzit´ı v trackeru je mAP pˇri IoU 0,75 dostateˇcná a vˇetˇs´ı prioritu hraje mAR.

• Pr˚umˇerný ˇcas detekce na jednom sn´ımku z testovac´ıho datasetu by nemˇel zabrat déle neˇz 10 sekund. Tento poˇzadavek vycház´ı z faktu, ˇze pokud po detekci selˇze tracker ve sledován´ı, m˚uˇze být sledovaná osoba bˇehem nastalých 10 sekund obslouˇzena a nezapoˇc´ıtána, coˇz znamená nár˚ust chyby pr˚umˇerné ˇ

cekac´ı doby jednoho ˇclovˇeka, kter´a roste line´arnˇe s poˇctem lid´ı ve frontˇe.

Vzhledem k dostupnosti kvalitn´ıch open-source implementac´ı výˇse zm´ınˇených detektor˚u a k nim odpov´ıdaj´ıc´ım pˇredtrénovaným vahám nebyl v rámci této práce vytvoˇren detektor. Pro porovnán´ı byly vyuˇzity existuj´ıc´ı implementace:

• Detectron.pytorch [26] – PyTorch implementace systému Detectron vyv´ıjeného firmou Facebook. V této implementaci byly otestovány detektory zaloˇzené na Faster R-CNN a Mask RCNN. Pˇri testován´ı byly pouˇzity pˇredtrénované váhy na datasetu COCO. Extraktor pˇr´ıznak˚u byl pˇredtrénován na ImageNet, viz [29]

• Yolov3 [27] – PyTorch implementace YOLOv3. Pˇri testován´ı byly vyuˇzity pˇredtrénované váhy na databázi COCO. Extraktor pˇr´ıznak˚u byl pˇredtrénován

(35)

Z dostupných model˚u byl vybrán vzorek sedmi. Na tˇechto modelech byl spuˇstˇen test na testovac´ım datasetu popsaném v 8.2.1. Velikost testovac´ıch obrázk˚u na vstupu byla u vˇsech testovaných model˚u byly nastaveny tak, aby kratˇs´ı strana mˇela 800 pixel˚u. Vybrané výsledky z COCO metriky jsou k vidˇen´ı v tabulce (viz 8.1)

Model mAP[0,75] mAP (mal´e instance) mAR ˇcas Faster RCNN X-101-32x8d-FPN 77,6 41,9 71,7 18,5 Faster RCNN X-101-64x4d-FPN 74,9 12,4 70,5 19,4

Mask RCNN R-50-C4 75,5 25,9 72,2 20,2

Mask RCNN X-101-32x8d-FPN 78,7 20,0 74,0 20,7

Mask RCNN X-101-64x4d-FPN 77,7 21,0 74,3 22,0

Mask RCNN X-152-32x8d-FPN-IN5k7 86,3 11,9 81,6 850,9

YOLOv3 Darknet-53 64,5 15,1 58,1 8,0

Tabulka 8.1: V´ysledky testov´an´ı detektor˚u

Z testován´ı vyplynulo, ˇze detektory maj´ı vˇseobecnˇe problém s detekován´ım malých instanc´ı osob.

Dále test ukázal, ˇze YOLOv3 je nejrychlejˇs´ı, ale dosahuje ˇspatné úspˇeˇsnosti na malých instanc´ıch. Tato vlastnost zˇrejmˇe souvis´ı se zp˚usobem, jakým YOLO navr- huje kandidátn´ı oblasti pro klasifikaci. Jeho autoˇri tento problém pˇr´ımo adresuj´ı v [25] s poznámkou, ˇze se týkal prvn´ıch dvou verz´ı a ve tˇret´ı verzi se jej podaˇrilo odstranit. Tento test ukazuje opak. YOLO také dosáhlo nejniˇzˇs´ı úspˇeˇsnosti v mAP[0,75] a mAR.

Nejvˇetˇs´ı úspˇeˇsnosti dosáhl model s hlubˇs´ı architekturou ResNeXt-152-32x8d- FPN. ˇCasová nároˇcnost detekce s t´ımto modelem vˇsak výraznˇe pˇresahovala mez stanovenou pro pouˇzit´ı.

Zbývaj´ıc´ıch 5 model˚u dosáhlo na testovac´ım datasetu podobných výsledk˚u mAP[0,75], mAR a ˇcasu. Jediným výrazným rozd´ılem ve výsledc´ıch byla úspˇeˇsnost klasifikace malých instanc´ı objekt˚u. Tato vlastnost je vzhledem k povaze navrhovaného systému podstatná (lze pˇredpokládat, ˇze kamera bude zab´ırat scénu z vˇetˇs´ı vzdálenosti), a proto byl pro dalˇs´ı pouˇzit´ı v prototypu zvolen model Faster RCNN X-101-32x8d- FPN.

8.2.3 Porovn´ an´ı trackovac´ıch algoritm˚ u

Pro sledován´ı rychlosti fronty je nezbytná znalost ˇcasu, za jaký dojde k obsluze jedné ˇcekaj´ıc´ı osoby. Objektový detektor ale nezachová identitu nalezených osob, coˇz je nezbytná podm´ınka pro zjiˇstˇen´ı, zda osoba proˇsla oblast´ı obsluhy - byla obslouˇzena.

Pro tento úˇcel navrhovaný systém vyuˇz´ıvá trackovac´ı algoritmus. Knihovna OpenCV obsahuje implementace osmi r˚uzných trackovac´ıch algoritm˚u: MOSSE, KCF, CSRT, TLD, MIL, GOTURN, MedianFlow a Boosting. Ty byly v rámci této práce otes- továny. Pˇri pouˇzit´ı Boosting trackeru program selˇze. Tato chyba se podle fór vy- skytuje, ovˇsem v dobˇe psan´ı této práce se nepodaˇrilo nalézt v oficiáln´ı dokumentaci informace o jej´ı opravˇe (OpenCV verze 3.4). Metoda testován´ı ostatn´ıch algoritm˚u byla následuj´ıc´ı:

(36)

1. Na vstup bylo pˇrivedeno video fronty z testovac´ıch dat (8.2.1).

2. Prvn´ı frame videa byl detekován pomoc´ı objektového detektoru a oblasti obsahuj´ıc´ı osoby byly pˇredány trackeru.

3. Tracker n´asleduj´ıc´ıch 100 fram˚u sledoval pˇredan´y objekt. Pokud objekt proˇsel oblast´ı obsluhy (8.3.4, inkrementovalo se poˇc´ıtadlo osob a tracker byl od- stranˇen.

4. Po 100 framech byla provedena dalˇs´ı detekce osob pomoc´ı detektoru a výsledné oblasti byly porovnány s oblastmi, které sledoval tracker. Pokud oblast dete- kovaná a oblast trackovaná dosáhly skóre IoU >0,3, trackeru byla pˇredána de- tekovaná oblast jako nová oblast sledován´ı a byla zachována identita objektu.

Pokud trackovaná oblast nemˇela odpov´ıdaj´ıc´ı dvojici (ˇzádná z detekovaných oblast´ı neodpov´ıdala trackované oblasti se skóre IoU >0,3) byl detektor oblasti odebrán.

5. Kroky 3 a 4 se opakovaly do konce testovac´ıho videa.

Výstupem z testován´ı byly tˇri hodnoty. Poˇcet osob, které proˇsly oblast´ı obsluhy, poˇcet unikátn´ıch ID, které byly pˇridˇeleny trackovaným oblastem v pr˚ubˇehu celého videa a pr˚umˇerný poˇcet FPS. Ke kaˇzdému videu pouˇzitému pˇri testován´ı byly hodnoty poˇctu osob, které proˇsly a poˇctu unikátn´ıch osob, které se ve videu objevily také spoˇc´ıtány ruˇcnˇe pro referenci. Výsledky tohoto testu zachycuje tabulka 8.2.

Test ukázal, ˇze i pˇri relativnˇe pˇrehledné scénˇe testované trackery ˇcasto ztrác´ı sledovaný objekt, ale pokud je oblast obsluhy pˇrehledná a sledované osoby do n´ı vstupuj´ı jednotlivˇe, lze na základˇe informac´ı z trackeru poˇc´ıtat procházej´ıc´ı osoby s velkou m´ırou konfidence.

Jednou z poˇzadovaných vlastnost´ı trackeru je malá výpoˇcetn´ı nároˇcnost. Mˇelo by být moˇzné provádˇet trackován´ı i v situac´ıch, kdy se ve scénˇe nacház´ı des´ıtky osob. Nˇekteré z testovaných tracker˚u v nepˇrehledných scénách s v´ıce osobami, kdy docházelo k ˇcastému selhán´ı sledován´ı, vzniku nových sledovaných oblast´ı a zvýˇsen´ı výpoˇcetn´ı nároˇcnosti, zaˇcaly výraznˇe zpomalovat, coˇz je ˇcin´ı nepouˇzitelnými.

Zaj´ımavé bylo chován´ı trackeru GOTURN, který je ze vˇsech testovaných tracker˚u jako jediný zaloˇzený na konvoluˇcn´ıch neuronových s´ıt´ıch. V rámci implementace v OpenCV je ke staˇzen´ı pˇredtrénovaný model. Tento tracker podle tv˚urc˚u [30] dosahuje na VOT 2014 datasetu ˇspiˇckových výsledk˚u, ale pˇri pouˇzit´ı na testovac´ıch vide´ıch této práce okamˇzitˇe po pˇredán´ı ztrácel sledovaný objekt a vytváˇrel velké mnoˇzstv´ı faleˇsnˇe pozitivn´ıch oblast´ı sledován´ı.

Ze vˇsech otestovaných tracker˚u dosahoval dobré pˇresnosti za podm´ınky zachován´ı velké rychlosti zpracován´ı jednotlivých sn´ımk˚u tracker KCF, a proto byl zvolen jako optimáln´ı pro dalˇs´ı pouˇzit´ı v navrhovaném prototypu systému.

(37)

Tracker Video ID Poˇcet FPS Oˇcek´avan´y

1 11 6

2 13 9

3 11 6

CSRT

1 21 6 6,21

2 34 9 3,69

3 23 5 1,79

GOTURN

1 94 16 15,12

2 101 15 27,64

3 50 6 33,5

KCF

1 16 6 10,87

2 32 9 6,43

3 20 4 2,5

MedianFlow

1 30 6 37,38

2 53 12 24,64

3 35 4 8,97

MIL

1 18 7 4,44

2 34 11 2,74

3 22 5 2,05

MOSSE

1 36 6 54,26

2 66 8 40,17

3 25 6 17,42

TLD

1 31 6 6,33

2 51 9 4,13

3 32 1 1.53

Tabulka 8.2: V´ysledky testov´an´ı tracker˚u

8.2.4 Vliv um´ıstˇ en´ı kamery

Jak jiˇz bylo zm´ınˇeno, velká ˇcást problém˚u navrˇzeného systému vycház´ı z faktu, ˇze do- stupné detekˇcn´ı a pˇredevˇs´ım trackovac´ı algoritmy ˇspatnˇe zvládaj´ı okluzi sledovaných objekt˚u. Tato nevýhoda je v pˇr´ıpadˇe fronty lid´ı inherentn´ı. Jej´ı odstranˇen´ı by bylo teoreticky moˇzné do znaˇcné m´ıry, pokud by kamera zab´ıraj´ıc´ı frontu byla um´ıstˇena kolmo k rovinˇe tvoˇrené podlahou. Toto ˇreˇsen´ı naráˇz´ı v realitˇe na dva problémy.

Prvn´ı problém je ekonomický. Nasazen´ı navrhovaného systému poˇc´ıtá s vyuˇzit´ım jiˇz instalovaných kamer, které jsou bezpeˇcnostn´ı a pˇrirozenˇe tedy um´ıstˇené tak, aby bylo moˇzné identifikovat osoby na zábˇerech, tzn. pˇribliˇznˇe v úhlu 45^◦. Instalace jednoúˇcelových kamer pˇredstavuje velkou investici.

Druhý problém pˇredstavuje robustnost detekˇcn´ıho systému. K jej´ımu otestován´ı byly z testovac´ıho datasetu vybrány sn´ımky stejné scény ve stejném ˇcase zachycené ze dvou úhl˚u: kolmo a rovnobˇeˇznˇe k podlaze. Obˇe scény zachycovaly frontu bez okluze. ˇCást sn´ımk˚u byla pro testovac´ı úˇcely umˇele zaˇsumˇena a rozˇs´ıˇrena zrcadlovým pˇrevrácen´ım. Ve sn´ımc´ıch byly detekovány osoby na tˇrech praz´ıch jistoty (0,5; 0,75;

0.95). U rovnobˇeˇzné scény dosáhl detektor 100% pˇresnosti i úplnosti. Výsledky testu

(38)

na kolmé scénˇe jsou vidˇet v grafu 8.3. Detektor nebyl úspˇeˇsný ani u osob, které byly dobˇre separované od pozad´ı. Z toho lze vyvodit, ˇze trénovac´ı data neobsahuj´ı instance osob zachycených shora v dostateˇcném mnoˇzstv´ı. I pˇres to, ˇze tˇr´ıda osoby je v COCO datasetu zastoupena témˇeˇr milionem instanc´ı a je tedy nejpoˇcetnˇejˇs´ı ze vˇsech 81 tˇr´ıd [14].

Tento problém by bylo moˇzné odstranit dotrénován´ım detekˇcn´ıho modelu datasetem obsahuj´ıc´ım sn´ımky poˇr´ızené z vhodného úhlu v dostateˇcném mnoˇzstv´ı. V dobˇe vytváˇren´ı práce se nepodaˇrilo odpov´ıdaj´ıc´ı dataset nalézt.

Obrázek 8.3: Úspˇeˇsnost detekce na kameˇre um´ıstˇené shora

8.3 Syst´ em

Následuj´ıc´ı sekce se zabývá implementac´ı systému pro odhad ˇcekac´ı doby. Zp˚usob fungován´ı systému popisuje schéma8.4. Systém je navrˇzen modulárnˇe tak, aby jeho kl´ıˇcové ˇcásti – detekce a trackován´ı – byly s minimem komplikac´ı vymˇenitelné. Tato vlastnost reflektuje fakt, ˇze algoritmy detekce i trackován´ı velice rychle zastarávaj´ı.

8.3.1 Izolace fronty ve sc´ enˇ e

Jak je vidˇet na obrázku origináln´ı scény 8.5, v reálném prostˇred´ı je tˇreba poˇc´ıtat s t´ım, ˇze ve vˇetˇsinˇe pˇr´ıpad˚u kamera nezab´ırá pouze oblast fronty. V d˚usledku nelze provádˇet detekci na celém zábˇeru, nebot’ by zjiˇstˇený poˇcet osob zahrnoval i osoby procházej´ıc´ı a rostla by chyba odhadu. Tuto situaci lze vyˇreˇsit vymaskován´ım oblasti, která nen´ı validn´ı, pomoc´ı binárn´ı masky, tak jak je to znázornˇeno na obrázku8.5.

(39)

Obrázek 8.4: Schéma systému pro odhad ˇcekac´ı doby

Tento pˇr´ıstup s sebou nese dalˇs´ı výhodu, a tou je aplikace detekce a trackován´ı pouze na validn´ı ˇcást zábˇeru. D´ıky tomuto pˇr´ıstupu lze sn´ıˇzit výpoˇcetn´ı nároˇcnost práce se záznamem, nebot’ se veˇskeré výpoˇcty dˇej´ı s menˇs´ım objemem dat.

Navrhovaný systém umoˇzˇnuje ˇreˇsit vytvoˇren´ı binárn´ı masky dvˇema zp˚usoby.

Prvn´ım zp˚usobem je naˇcten´ı souboru *.json, který obsahuje slovn´ık s polem bod˚u definuj´ıc´ıch v obraze polygon fronty. Z tohoto souboru bod˚u je pomoc´ı knihovny PIL vytvoˇreno pole typu numpy, které obsahuje nulové hodnoty na vˇsech souˇradnic´ıch, které se nacház´ı vnˇe validn´ı oblasti. Vstupn´ı obraz je pak za bˇehu programu vymas- kován pomoc´ı logického indexován´ı, coˇz je výpoˇcetnˇe nenároˇcné.

Druhý zp˚usob se liˇs´ı zp˚usobem, jakým je naˇcteno pole bod˚u polygonu. Jeho vznik byl motivován skuteˇcnost´ı, ˇze oblast, ve které se fronta nacház´ı, se m˚uˇze s ˇcasem mˇenit (obsluha provozu vyuˇz´ıvá pˇrenosných vymezovac´ıch sloupk˚u podle aktuáln´ı situace a vyt´ıˇzen´ı), a vytváˇren´ı *.json souboru je v tu chv´ıli ˇcasovˇe nevýhodné.

Moˇzným ˇreˇsen´ım této situace je vyuˇzit´ı programu tˇret´ı strany, jako je napˇr´ıklad La- belme (viz8.2.1) a jeho úprava. Tato moˇznost byla zam´ıtnuta z d˚uvodu zbyteˇcného bobtnán´ı kódu programu a závislosti na programu tˇret´ı strany. Vhodným ˇreˇsen´ım s optimáln´ı m´ırou abstrakce je pouˇzit´ı OpenCV, které umoˇzˇnuje vytvoˇren´ı callback funkce, která zachytává souˇradnice kliknut´ı na zobrazený sn´ımek. Byla vytvoˇrena funkcionalita, která po naˇcten´ı videa zobraz´ı uˇzivateli prvn´ı sn´ımek a umoˇzn´ı mu ohraniˇcit oblast fronty. Po dokonˇcen´ı pˇredá naˇctené souˇradnice funkci, která vytváˇr´ı binárn´ı masku.