DEGREE PROJECT, INDEGREE PROJECT IN COMPUTER SCIENCE, DD143X , FIRST LEVEL
STOCKHOLM, SWEDEN 2015
Measuring Student Attention with Face Detection:
VIOLA-JONES VERSUS MULTI-BLOCK LOCAL BINARY PATTERN USING OPENCV
ANNA LINDELÖF & JOSEFINE ERIKSSON
(ANNALI9@KTH.SE & JOSERIKS@KTH.SE)
Supervisor: Richard Glassey
Examiner: Örjan Ekeberg
Abstract
The purpose of this study is to discuss and attempt to approach an answer to the question of how face detection could be used to measure attention in a lecture hall.The conclusion might help further studies in using face detection to provide teachers with tools which can be used to improve learning during lectures.
Face detection in real time applications became possible in 2001 when Viola and Jones presented a new method several times faster than any previous attempt. In 2007 Liao et al. presented a method using multi-block local binary patterns (MB-LBP) for the purpose of overcoming the simplicity and limitations of the Viola-Jones method.
Computer vision libraries such as OpenCV make it easy to implement such algorithms. It currently supports both the Viola-Jones algorithm and the MB-LBP algorithm.
This study compared these two face detection methods to see how they perform in terms of sensitivity and precision and attempted to identied limitations of both methods when used to detect attention in a simulated lecture environment. The study was conducted using boosted algorithms and functionality provided by OpenCV. The input data consisted of a recorded simulated lecture with 6 subjects perform- ing dierent poses, labeled either attention or no attention, during cer- tain periods of time, each pose recognized from a previously recorded actual lecture as a commonly occurring pose.
The most signicant dierence of performance identied in the study was that the MB-LBP method performed face detection in an image three times faster than for Viola-Jones which conrmed previous reported results. Both methods generated high sensitivity values for all poses, but low precision values for two of the poses.The ability of both methods to detect downward tilted faces contributed to a high number of false positives returned when subjects performed the two poses of subjects taking notes or subjects performing activities labeled as no attention. Due to the low precision values caused by this, both methods were not considered to measure attention eectively. It is therefore suggested to instead train a MB-LBP-based method for the specic task of measuring attention in a lecture hall by training it to reject downward-tilted faces and to accept only instances conforming to the chosen denition of attention.
Sammanfattning
Syftet med denna studie är att diskutera och försöka att närma sig ett svar på frågan om hur ansiktsigenkänning kan användas för att mäta uppmärksamhet i en föreläsningssal. Slutsatsen i denna studie kan kanske hjälpa framtida studier att använda ansiktsigenkänning för att förse föreläsare med verktyg som kan användas till att förbättra lärande under föreläsningar.
Ansiktsigenkänning i realtidsapplikationer blev möjligt 2001 när Viola och Jones presenterade en ny metod era gånger snabbare än tidigare försök. Under 2007 presenterade Liao et al. en metod som använde sig av multi-block local binary patterns (MB-LBP) med än- damålet att överkomma enkelheten och begränsingarna i Viola-Jones metoden. Dataorseende bibliotek som OpenCV gör det lättare att im- plementera sådana algoritmer. För närvarande stödjer OpenCV både Viola-Jones algoritmen och MB-LBP algoritmen.
Denna studie jämförde dessa två ansiktsigenkännings metoder för att se hur de presterar i form av sensitivitet och precision och försök- te identiera begränsingar för båda metoderna när de användas för att upptäcka uppmärksamhet i en simulerad föreläsning. Denna stu- die utfördes genom användning av boosted algoritmer funktionalitet som tillhandahålls av OpenCV. Ingångsdatan bestod av en inspelad simulerad föreläsning med 6 testpersoner som utför olika poser, dene- rad antingen som uppmärksamhet eller ingen uppmärksamhet, under vissa tidsperioder. Varje pose var identierad från en verklig tidigare inspelad föreläsning som en vanligt förekommande pose.
Den viktigaste skillnaden i prestation identierades i denna stu- die var att MB-LBP metoden utförde ansiktsigenkänning i en bild tre gånger snabbare än för Viola-Jones vilket bekräftar tidigare rapporte- rade resultat. Båda metoder genererade ett högt sensitivtetsvärde för alla poser, men lågt precisionsvärde för två av poserna. Båda meto- dernas förmåga att upptäcka nedåtlutande ansikten bidrog till att ett högt number av falska positiva instanser returnerades när testperso- nerna utförde dessa två poser som innebar att testpersoner tog anteck- ningar eller testpersoner utförde poser som var denerade som ingen uppmärksanhet. På grund av låga precisionsvärden som orsakade av detta så ansågs ingen av metoderna eektivt mäta uppmärksamhet.
Det är därför föreslaget att istället träna en MB-LBP-baserad metod för de särskilda ändamålet att mäta uppmärksamhet i en föreläsnings- sal. Detta genom att träna metoden att förkasta nedåtlutande ansikten och att bara acceptera instanser som överensstämmer med den valda denitionen av uppmärksamhet.