Praktisk undersökning av funktionen ”Label Detection”

E.3 Teori

E.4.2 Praktisk undersökning av funktionen ”Label Detection”

Denna sektion beskriver metoden för undersökningen av ”Label Detection”. Sex videoklipp analyserades och information om de olika klippen hittas i tabell E.2. .

Tabell E.2: Klippen som analyserades

Video nr. Videons längd Typ av klipp/Huvudhandling

1 25 sekunder Nyhetsklipp 2 2,0 minuter Sportklipp (hockey) 3 2,0 minuter Konstmässa 4 1,0 minuter Astronaut i rymden 5 6,8 minuter Träningsguide 6 2,2 minuter Julfirande

E.4. Metod

Körning av Amazon Rekognition och sparande av information

Denna sektion beskriver hur själva analysen med Amazon Rekognition genomfördes samt hur informationen sparades. Stillbilder valdes att extraheras med konstant mellanrum från videoklippen. Samplingsfrekvensen valdes från resultaten från förstudien, där målet var att välja en samplingfrekvens som skulle göra ARI billigare än ARV. För varje videoklipp som analyserades genomfördes följande process:

Förberedelser

Videoklippet som skulle analyseras laddades upp i en S3-bucket. Med hjälp av tjänsten Me- dia Converter samplades sedan videoklippet med samplingsfrekvensen given av förstudien. Stillbilderna från videoklippet sparades sedan i samma S3-bucket fast i en separat mapp.

Analys av videoklippet med ARV

Amazon Rekognition Video kördes på videoklippet. För att begränsa antalet etiketter som genererades sattes minsta tillförlitlighetsnivån till 50%, vilket innebar att ARV bara genererade etiketter som den var 50% eller mer säker på faktiskt fanns i videoklippet vid den givna tidpunkten. All data från etiketterna d.v.s. vad de hette, deras tillförlitlighet samt vid vilken tidpunkt de upptäcktes sparades i en JSON fil.

Analys av stillbilderna med ARI

För att få tidsstämplar även för etiketterna genererade av ARI användes ekvationen E.1. tidpunkt=bildnummer ˚ tidsintervall (E.1)

Där tidpunkt är den nya tidsstämpeln, bildnummer är numret för den bild som etiketten hittades i, där nummer 0 är den första bilden i stillbildsamlingen, nummer 1 är den andra bilden i stillbildsamlingen, etc. Variabeln tidsintervall är tiden mellan bilderna i millisekunder, t.ex. om samplingsfrekvensen är 1 bild/sek så blir tidsintervall = 1000, och om samlingsfrekvensen är 2 bilder/sek så blir tidsintervall = 500.

Liksom för videoanalysen så sattes minsta tillförlitlighetsnivån till 50% i analysen med ARI. Efter att alla stillbilder analyserats sparades alla genererade etiketter samt de uträk- nade tidsstämplar undan i en JSON-fil. För varje etikett som Amazon Rekognition Image genererade, sparades alltså deras namn, deras tillförlitlighet samt deras tidsstämpel.

Analys av data

Denna sektion beskriver hur data analyserades efter att den sparats undan och hur resultatet sedan valdes att visualiseras. För att så enkelt som möjligt kunna jämföra etiketterna från ARV och ARI så delades de upp i två grupper. De etiketter som hittades både i ARV och ARI samt de etiketter som bara hittades i ARV eller ARI.

De etiketter som hittades både i ARV och ARI

Det som var relevant att jämföra var hur etiketternas tidsstämplar och deras tillförlitlighet skilde sig. Därför jämfördes tidsstämplarna för sig, och tillförlitligheten för sig.

För varje etikett beräknades följande för tidsstämplarna:

• Antal - Antalet tillfällen etiketten upptäcktes i ARI och ARV.

• Procent av totala mängden tidsstämplar - Hur stor procent av alla tidsstämplar som tidsstämplarna för denna etikett utgjorde. Denna beräkning ska besvara frågan: Hur stor del av videoklippet innehöll denna etikett?

E.4. Metod

• Procent av ARI-tidsstämplar nära ARV-tidsstämplar - Denna beräkning ska besvara frågan: hur många av etiketterna som genererades av ARI hittades även i ARV?

• Procent av ARV-tidsstämplar nära ARI-tidsstämplar - Denna beräkning ska besvara frågan: hur många av etiketterna som genererades av ARV hittades även i ARI?

Beräkningen av Procent av den totala förekomsten av tidsstämplar gjordes genom att di- videra antalet tidsstämplar som etiketten hade, med antalet tidsstämplar som fanns totalt under videoklippet/stillbildsamlingen. T.ex. skulle en stillbildsamling som genererats med samlingsfrekvens 1 bild/sek, och där längden på klippet var 25 sekunder ha 25 tidsstämplar totalt (om det skapades åtminstående en etikett per bild), och en etikett med fem tidsstämplar skulle då få 20 % som procenten av totala förekomsten av tidsstämplar.

Beräkningen av Procent av ARI-tidsstämplar nära ARV-tidsstämplar gjordes genom att ta tidsstämplarna från etiketten i ARI, och för varje tidsstämpel kolla om den var tillräck- ligt nära någon tidsstämpel ifrån motsvarande etikett från ARV. För att avgöra om de var tillräckligt nära användes följande algoritm:

1 for (int videoTimeStamp : videotimeStamps){

2 if (Math.abs(imageTimeStamp - videoTimeStamp) <= maxTimeDiff){

3 return true;

4 }

5 } return false;

maxTimeDiff var satt till 1000 ms, och var den tidsskillnad som räknades som tillräckligt liten för att de två tidsstämplarna approximativt skulle kunna uppfattas som samma. videoTi- meStamps var tidsstämplarna i etiketten ifrån ARV, och varje tidstämpel från etiketten i ARI skickades in som imageTimeStamp.

Beräkningen av Procent av ARI-tidsstämplar nära ARV-tidsstämplar fortsatte sedan med att en räknare räknades upp för varje imageTimeStamp som detta var sant för. Räknarens värde hamnade således i slutändan mellan noll och totala antalet tidsstämplar i etiketten ifrån ARI. För att få resultatet i procent delades sedan räknarens värde med totala antalet tidsstämplar i etiketten ifrån ARI. Beräkningen av Procent av ARV-tidsstämplar nära ARI-tidsstämplar utfördes på samma sätt fast med ombytta roller mellan ARI-etiketten och ARV-etiketten. För varje etikett beräknades följande för tillförlitligheten:

• Medelvärde - Differensen mellan medelvärdet av tillförlitlighetsvärden.

• Minvärde - Differensen mellan de minsta tillförlitlighetsvärdena för etiketten från ARI och från ARV.

• Maxvärde - Differensen mellan de största tillförlitlighetsvärdena för etiketten från ARI och från ARV.

• Medelv. i samma tidsstämpel - Differensen av medelvärdet av tillförlitlighetsvärdena vid exakt samma tidsstämpel. Om etiketten inte finns i exakt samma tidsstämpel står symbolen ”-”.

Vid beräkning av differenserna användes formeln E.2.

E.5. Resultat

De etiketter som var unika för ARI eller ARV

För varje etikett som bara upptäcktes i ARI eller ARV beräknades följande:

• Antal tidsstämplar - Antalet tillfällen etiketten upptäcktes.

• Medelvärdet av tillförlitlighetsvärdena - Medelvärdet av tillförlitligheten.

E.5 Resultat

Följande kapitel presenterar resultatet på förstudien, d.v.s. kostnaderna för ARI och ARV, samt undersökningen av funktionen ”Label Detection”.

In document Automatisk taggning av video (Page 90-93)