Att sjunga en fråga. En jämförelse av tre Query-by-Humming-system och deras användare.

(1)

KANDIDATUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP

VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2012:42

Att sjunga en fråga

En jämförelse av tre Query-by-Humming-system och deras olika användare

Madeleine Eriksson

© Madeleine Eriksson

Mångfaldigande och spridande av innehållet i denna uppsats – helt eller delvis – är förbjudet utan medgivande.

(2)

Svensk titel: Att sjunga en fråga. En jämförelse av tre Query-by-Humming-system och deras användare.

Engelsk titel: To sing a question. A comparison of three Query-by-Humming systems and their different users.

Författare: Madeleine Eriksson

Färdigställt: 2012

Handledare: Katriina Byström, Jan Larsson

Abstract: The aim of this study was to compare the Query-by-Humming systems Midomi, Musicline and Tunebot regarding their retrieval effectiveness.

The aim was to see if there were differences between the systems but also between the user groups common users, musicians and singers.

Query-by-Humming system means that the user sings a tune that the system then use to find the right melody.

To compare the systems and their users, queries where collected from the different user groups and replayed for the systems. Mean Reciprocal Rank and Friedman test was used to do the comparison.

The results showed that the system did not achieve equivalent and that there were no difference between the user groups. The Mean Reciprocal Rank showed that the systems had very different retrieval effectiveness, where Midomi was the system with best result and Musicline with the lowest result.

Nyckelord: Query-by-Humming, Music Information Retrieval,

Informationsåtervinning, Innehållsbaserad informationsåtervinning, Återvinnginseffektivitet

(3)

Innehållsförteckning

1. INLEDNING... 1

1.1 PROBLEMFORMULERING... 1

1.2 BAKGRUND... 2

1.2.1 MIDOMI... 2

1.2.2. MUSICLINE... 2

1.2.3 TUNEBOT...3

1.3 SYFTE………... 4

1.4 FRÅGESTÄLLNINGAR………... 4

1.5 AVGRÄNSNINGAR………... 4

1.6 DEFINITIONER………...…….. 4

2. TIDIGARE FORSKNING... 6

3.1 MUSIC INFORMATION RETRIEVAL... 6

3.2 QUERY-BY-HUMMING-SYSTEM………... 8

3. METOD………...…. 11

3.1 ANVÄNDARGRUPPER... 11

3.2 SÖKSÅNGER... 12

3.3 URVAL OCH ETISKA ASPEKTER... 12

3.4 GENOMFÖRANDE... 13

4. ANALYTISK METOD... 15

4.1 MEAN RECIPROCAL RANK... 15

4.2 FRIEDMANS TEST... 16

5. RESULTAT... 17

5.1 RESULTAT REDOVISAT EFTER ANVÄNDARGRUPP... 17

5.2 RESULTAT REDOVISAT EFTER SÖKSYSTEM... 20

6. TOLKNING AV RESULTATET... 23

7. DISKUSSION/SLUTSATSER... 25

7.1 VIDARE FORSKNING... 27

8. SAMMANFATTNING... 28

9. KÄLLFÖRTECKNING... 29

BILAGA – ENKÄT TILL DELTAGARE... 32

Figur- och tabellförteckning 2.1 Figur över QbH-systems uppbyggnad... 8

5.1 Tabell över rankningspositioner för Vanliga användare... 17

5.2 Tabell över rankningspositioner för Musiker... 18

5.3 Tabell över rankningspositioner för Sångare... 19

5.4 Tabell över rankningspositioner i Midomi... 20

5.5 Tabell över rankningspositioner i Musicline... 20

5.6 Tabell över rankningspositioner i Tunebot... 21

6.1 Tabell över MRR-värden... 23

(4)

1. Inledning

De flesta musiksöktjänster som finns idag är baserade på att användaren vet melodins namn, artist eller annan textbaserad information. Men alla har nog någon gång råkat ut för att de hör en melodi som de tycker om eller en sång som fastnat, utan att veta mer om den än just hur den går. Hur ska man då gå tillväga för att få reda på vad melodin heter eller vem artisten är? Svaret på detta heter Query-by-Humming-system. Ett Query-by-Humming-system (hädanefter förkortat till QbH-system) ger användaren möjlighet att söka genom att sjunga in en bit av sången som systemet sedan använder för att hitta rätt melodi med information om exempelvis artist och sångtitel.

Forskning kring QbH-system är en liten del av Music Information Retrieval som i sin tur är ett delområde inom Information Retrieval. I Music Information Retrievals (MIR) barndom på 1990-talet ansågs Query-by-Humming vara något av ett ultimat sökverktyg inom MIR. Uppmärksamheten kring forskning inom Music Information Retrieval har genom åren varit liten men genom exempelvis den årliga konferens (ISMIR) som enbart behandlar MIR, går det att se ett ökat intresset genom att antalet deltagare stadigt växer för varje år (Orio 2006, s. 78). I takt med att allt fler har tillgång till internet och allt mer musik finns tillgänglig via internet ökar också kraven på välfungerande söksystem för musik. Query-by-Humming är ett sökverktyg som på senare tid har blivit populärt för allmänheten, då främst att använda som applikation till mobiltelefoner. Intresset för dessa applikationer verkar vara av växande art och sökverktyget finns också i mindre utsträckning på internet. Man har i drygt 15 år forskat kring dessa system men det är inte förrän de senaste åren de har blivit tillgängliga för allmänheten. På grund av att dessa sorters söksystem inte har funnits särskilt länge finns det en risk för att de inte är tillförlitliga. QbH-system som finns på internet är Midomi, Musicline och Tunebot.

Dessa tre söksystem är alla tillgängliga för allmänhetens användning.

1.1 Problemformulering

Inom Information Retrieval används termen återvinningseffektivitet flitigt och syftar på att systemen i så stor mån som möjligt återvinner dokument som är relevant för användaren. Ett återvinningseffektivt system innebär alltså att det i resultatlistan finns så få irrelevanta svar som möjligt. Att få bra återvinningseffektivitet är också målet med QbH-system. Dock bedrivs den mesta forskningen om QbH-system i experimentell miljö som endast forskare har tillgång till. Det finns få studier som tittar närmare på de system som finns tillgängliga för allmänheten och ytterst få jämförelser mellan deras återvinningseffektivitet. Det borde därför för forskningsfältet vara av intresse att se hur bra återvinningseffektiviteten är i dessa. Jag ställer mig frågan hur tillförlitliga de tre offentliga QbH-system Midomi, Musicline och Tunebot egentligen är.

För att söka i ett QbH-system behövs en mikrofon och en användares sånginsats. Alla

sjunger vi olika bra eller dåligt och detta skulle därför kunna påverka resultatet i sådana

system. Jag anser att utvecklingen av ens sångröst kan vara förknippat till det

förhållningssätt man har till musik och att sjunga. Därför frågar jag mig även om det

finns skillnader mellan olika sorters användare som har olika relationer till musik och

sång.

(5)

1.2 Bakgrund

I denna studie undersöks QbH-systemen Midomi, Musicline och Tunebot, därför följer här en presentation av systemens tillvägagångsätt vid sökning och en närmare beskrivning av dem.

1.2.1 Midomi

Midomi är ett kommersiellt söksystem skapat av Soundhound Inc (tidigare Melodis Corporation) och har en databas bestående av mer än 2 miljoner musikstycken.

Företaget har det enda QbH-systemet som finns för både internet och som applikation till mobiltelefoner. Det finns på Midomis hemsida förutom inspelningsmodulen möjlighet att göra textbaserad sökning på exempelvis sångtitel eller artist. Det går i inspelningsmodulen spela in maximalt 30 sekunder. Vid inspelning ser användaren ljudnivån på mikrofonen och en visuell visning av inspelningen och hur lång tid av de 30 sekunderna som har gått. Direkt efter slutförd inspelning slussas användaren till resultatlistan där sångerna presenteras med titel, artist och omslag. För varje sång finns information om vilka användarinspelningar som varit till hjälp vid jämförelsen och dessa går också att lyssna på. Det finns även möjlighet att i efterhand lyssna på den söksång som gjorts.(Midomi)

SoundHound kallar sitt system för Sound2Sound. Systemet använder sig av melodi, rytm och text men ska fungera oavsett användarens tonart, tempo eller användning av text. Inspelningarna som görs konverteras till ett format som matchar det som finns i databasen. Midomis databas består av musikfiler, användarinspelningar och sångtexter.

Konverteringen av inspelningen sker löpande medan den pågår och enligt dem själva kan systemet identifiera en melodi med endast 2,5 sekunds inspelning. Användare kan utöka databasen genom att lägga till inspelningar som blir sökbara. Inspelningarnas text kan vara på vilket språk som helst vilket gör att en söksång kan få en resultatlista bestående av rätt melodi på flera olika språk. (SoundHound)

1.2.2 Musicline

Musicline är en tysk söktjänst som använder sig av teknologi utformad vid Fraunhofer IDMT. Deras databas består av över 15. 000 melodier och från startsidan går det via en lista att se vilka som ingår i den (Musicline Melodiesuche, avsnitt 2.1). Melodierna är dessutom sökbara via genreindelning. Inspelningen kan maximalt vara 30 sekunder och Musicline kräver minst tio sekunder eller fyra toner för att göra en sökning. I inspelningsmodulen går det att se hur hög ljudupptagningen blir av mikrofonen samt hur lång tid som har spelats in. Sökning efter rätt melodi börjar direkt efter att inspelning är gjord och för att komma till resultatlistan måste användaren välja att klicka sig vidare dit. I resultatlistan presenteras sångerna med artist, låttitel, album och omslagsbild om sådan finns tillgänglig, samt visas i procent hur stor träffsäkerheten är.

Vid vissa sånger finns även tillgång att lyssna på melodin i mp3-format. Det ges också

möjlighet för användaren att göra en snabb utvärdering av sökresultatet genom att svara

på frågor om var i resultatlistan det rätta svaret fanns. Inspelningar som användare gör

går att spara för att göra systemet bättre. Användaren gör då inspelning och får fylla i

formulär över melodi, artist, och vilken del av sången det är. (Musicline Melodiesuche)

(6)

Fraunhofer IDMT använder sig av en MRFFT-algoritm för att transkribera digital sång till noter. Jämförelsemodulen (se Figur 3.1 under avsnitt Tidigare forskning) är baserad på så kallad string matching som ger möjlighet för systemet att hitta rätt melodi även om inspelningen inte är helt melodisk eller rytmiskt överensstämmande med den eftersökta melodin. Enligt Fraunhofer är det i deras system ingen fördel att sjunga med text, eftersom personer som sjunger utan text tenderar att fokusera mer på att träffa rätt toner. Databasen använder sig av MPEG-7 Melody Descriptor, vilket underlättar vid genomsökning av databasen. (Fraunhofer IDMT)

1.2.3 Tunebot

Tunebot grundades 2007 och är ett forskningsprojekt vid Northwestern University, Electrical Engineering and Computer Science Department i USA. Det är en forskningsgrupp som startat forskningsprojektet Interactive Audio Lab och syftet med projektet är att utveckla interaktiva system där användaren på något sätt vill söka eller använda musik. Tunebot är ett av många delprojekt där ett av huvudsyftena är att utveckla datainlärning i kombination med musik. Tunebot innehåller ungefär 7460 (maj 2012) sökbara melodier som enbart är sökbara genom Query by Humming, det finns i detta system ingen annan möjlighet att söka på melodierna. Vid inspelning i inspelningsmodulen ser användaren hur hög ljudupptagningen blir av mikrofonen och hur länge inspelningen har pågått. Tunebot kan maximalt spela in 30 sekunder och är det enda systemet som ger möjlighet att lyssna på inspelningen innan sökningen startar.

I resultatlistan visas sångernas titel, artist och träffsäkerhet i procent. Vid tryck på en sång i resultatlistan får användaren ett ljudprov av sången och frågan om det är rätt.(Tunebot)

Vid sökning används inspelningen för att hitta liknande melodier som presenteras i en rankningslista. Användaren har sedan möjlighet att lyssna på alla sångerna och välja den som är rätt. Genom att användaren talar om för systemet vilken melodi som är den rätta utvecklas systemets träffsäkerhet. Ju fler inspelningar som användare talar om för systemet vilken melodi det är, desto bättre presterar det. Detta sätt att låta användaren tala om för systemet och korrigera det kallas för relevansfeedback. Tunebot använder relevansfeedback för att förbättra hanteringen av notsegment och tonintervall-likhet.

Systemets användning av relevansfeedback sker helt automatiskt och enligt dem som

ligger bakom Tunebot går det att se förbättringar av systemet efter bara några få tillagda

användarinspelningar.(Little, Raffensperger, Pardo 2007, s. 1)

(7)

1.3 Syfte

Syftet med undersökningen är att se om det finns någon skillnad på QbH-systemen Musicline, Midomi och Tunebot med avseende på deras återvinningseffektivitet och om det blir någon skillnad beroende på användarnas musikaliska bakgrund.

1.4 Frågeställningar

 Hur stor är återvinningseffekten i QbH-system med utgångspunkt från Mean Reciprocal Rank?

 Vilka likheter och skillnader blir det i resultatet mellan olika QbH-system även om det är samma användare som söker i alla system?

 Vilka likheter och skillnader blir det i resultatet av personer med olika musikaliska bakgrunder?

I studien används Mean Reciprocal Rank för att besvara den första frågeställningen och Friedmans test för att besvara frågeställning två och tre.

1.5 Avgränsningar

Jag kommer i studien inte att titta på skillnader mellan söksånger som är sjungna med text och de som enbart är nynnande. Jag har istället valt att användarna ska få uttrycka sin sång på det sätt som är mest bekvämt för dem. Min utgångspunkt är att inspelningarna så nära som möjligt ska reflektera hur söksånger kan låta i verkligheten för systemen.

Jag kommer inte att titta på skillnader mellan olika söksånger. Egentligen skulle deltagarna kunna sjunga tre valfria melodier, men för att underlätta är de förvalda. Jag kommer inte heller att titta på om det är någon skillnad mellan olika kön.

1.6 Definitioner

Information Retrieval

Information Retrieval (IR) handlar om att göra information lättillgänglig och lätthanterbar. IR-forskning behandlar både representation, organisation och tillgänglighet av information. Informationen kan bestå av dokument, webbsidor och multimedia. Målet med IR är att göra system som återvinner dokument som är relevanta för användaren och återvinner så få irrelevanta dokument som möjligt.

Återvinningseffektivitet

Ett söksystem som ger bra återvinningseffektivitet innebär att det i resultatlistan för

sökfrågan i hög grad återger dokument som motsvarar användarens informationsbehov.

(8)

Algoritm

En algoritm är en systematisk procedur inom databehandling som anger hur problem ska lösas genom att redogöra för de enskilda steg som ska tas för att lösa dem. Att använda algoritmer innebär att problem blir lättare att datorbehandlas.

(Nationalencyklopedin: algoritm)

Metadata

Metadata är data om data. Den beskriver innehållet i texter så som författare och språk (Nationalencyklopedin: metadata). I fallet med melodier består metadata istället av exempelvis artistnamn, sångtitel och genre.

Musikalisk bakgrund/utbildning

Inom begreppet musikalisk bakgrund lägger jag användarnas utbildning och kontakt med musik. Begreppet innefattar inte i denna studie användares personliga preferenser på musik så som musiksmak utan används synonymt med begreppet musikalisk utbildning.

I min indelning av populationen lägger jag vikt vid personernas musikaliska utbildning.

Min definition av den sorts utbildning innebär att personen ifråga ska ha utbildning efter grundskola. Det kan handla antingen om ett musicerande på musikskola, gymnasium eller högre utbildning. Gränsen vid grundskola gör jag eftersom det på den nivån inte brukar ingå någon större gehör- och musiklära vilket är viktigt vid utveckling av gehör och förståelse för musikuppbyggnad. I Sverige börjar många att spela instrument vid musikskolor under grundskolan och det kan vara så att personer som jag väljer att klassa som vanliga användare har spelat instrument under grundskola men sedan slutat.

Söksång

Med söksång menar jag det som i textbaserade söksystem kallas för sökfråga. Det vill

säga personens informationsbehov som konkretiseras genom söktermer i en sökfråga. I

QbH-system tar de sig uttryck genom sånger och jag kallar dem därför för söksånger.

(9)

2. Tidigare forskning

2.1 Music Information Retrieval

Music Information Retrieval (MIR) handlar till stor del om att göra musikkolllektioner mer tillgängliga och hanterbara genom att utveckla sökmöjligheterna av dessa gentemot de förväntningar som finns på sådana system. Forskning kring systemen sker i akademiska och kommersiella laboratorium och i arkiv och biblioteksmiljö. MIR brukar delas in i två olika delar, innehållsbaserad och textbaserad informationsåtervinning.

Textbaserade system kan delas in i två olika delar, browsning och ordsökning.

Browsning innebär att användaren vid sökning får förslag på liknande träffar som kan vara relevanta. Att söka på de ord som är mest förknippade med det eftersökta, ordsökning, är idag det vanligaste bland musiksöktjänster. Anledningen till att man började med innehållsbaserad informationsåtervinning var att man med hjälp av metadata inte tillräckligt väl kunde beskriva en melodi. Med hjälp av innehållsbaserad MIR ville forskare utveckla en så exakt beskrivning av materialet som möjligt (Khan &

Mushtag 2011, s. 147). Ett innehållsbaserat system kan hjälpa användare att hitta information även om användaren inte vet specifikt vad den letar efter (Casey et al. 2008, s. 669). MIR går att dela in i många olika delområden och användningsområden. Ett innehållsbaserat MIR-system kan bland annat användas för automatisk genreindelning, kompositörigenkänning, dela in musik efter de känslor de väcker (emotionell genreindelning) och för att hitta relaterade melodier (ibid., s. 672). En nära släkting till QbH är de system som letar efter en exakt matchning. Metoden benämns ofta som fingerprinting och inom innehållsbaserad informationsåtervinning en metod som används mycket inom kommersiella IR-system. Fingerprinting innebär att systemet får ett ljudexempel från originalsången som systemet sedan använder för att hitta den samma i databasen och leverera information om. Enligt Baeza-Yates och Ribiero-Neto är detta ofta en komplex process eftersom systemet ofta i ljudexemplet kan ha svårt att urskilja rätt ljud att analysera eftersom det ofta rör sig om ljudinspelningar från mobiler där det ofta är mycket brus från omgivning (Baeza-Yates & Ribiero-Neto 2011, s. 598).

Ett söksystem som används för att hitta en exakt matchning kallas för Query-by- Example. Ett exempel på ett sådant system är Shazam som finns som applikation till mobiltelefoner(www.shazam.com).

I den litteratur jag har tagit del av framgår det att det finns vissa vanligt förekommande sätt att använda sig av för att beskriva och bearbeta musik inom innehållsbaserad MIR- forskning.

 Tonhöjd är den frekvens en ton har. Det vanligaste sättet vi idag ser representation av dessa är genom noter i notsystem och notnamn, men förekommer också som exempelvis musikpedagogiska stavelser (do, re, mi, fa…). Skillnaden mellan två tonhöjder kallas för tonintervall.

 Klangfärg. Skilda instrument och röster låter olika även om de spelar eller sjunger samma ton. Detta kallas för att de har olika klangfärg.

 Samklang När två toner eller fler låter samtidigt uppstår något som kallas för samklang, eller som inom musik ofta benämns som ackord.

 Rytm

 Tonlängd

(10)

En av pionjärerna inom MIR-forskning är professor S.J. Downie vid University of Illinois. I en artikel från 2003 beskriver han de problem och framtida lösningar inom MIR som han ser. Downie delar in behandlingen av musik i sju olika delar; Tonhöjd, harmoni, rytm, klangfärg, utgivning, text och bibliografisk information (Downie 2003, s. 297). En svårighet inom MIR är därför att kombinera dessa i samma söksystem. Ett mål med MIR är att vid representation kunna visa inte enbart låttitel, utan även annan information, så som noter (ibid., s. 302). Ett annat problem inom MIR är att göra systemen användbara för stora kollektioner innehållande miljontals melodier. Den mesta av forskningen har bedrivits inom experimentell miljö och få studier är gjorda kring hur användare faktiskt utnyttjar ett sådant system. De utmaningar som ses inom MIR tror dock många forskare (bland annat Downie och Casey) kommer att lösas i takt med att ny teknologi utvecklas och fler forskningsfälts ökande samarbeten. MIR är ett forskningsfält som är av intresse för och innefattar forskare från både bland annat datavetenskap och musikvetenskap (Casey et al. 2008, s.693). De menar också på att slutanvändarnas integrering med ny teknik kommer styra utvecklingen av MIR. Ett exempel idag är användningen av mobiltelefoner som gjort att applikationer som Shazam och SoundHound, som bygger på MIR har utvecklats. Med hjälp av ny teknologi har också nya användare för musikåtervinningssystem hittats.

Sedan år 2000 finns den årliga konferensen International Symposium on Music Information Retrieval (ISMIR), där forskare från hela världen träffas för att diskutera MIR-frågor. 2005 startades vid det internationella MIR-utvärderingslaboratoriet (IMIRSEL) vid University of Illinois projektet Music Information Retrieval Evaluation eXchange (MIREX). Målet med MIREX var att skapa en gemensam plattform för att utvärdera algoritmer och tekniker inom MIR världen över. Utvecklingen av MIREX och den internationella plattformen är inspirerat av det textbaserade utvärderingsprojektet TREC och har därför många likheter med det. MIREX innehåller större testkollektioner, specifika uppdrag och uppgifter och bestämda evalueringsmetoder. Att forskare från hela världen har tillgång till samma testkollektioner och använder samma utvärderingsmetoder gör att resultat från olika tester lättare går att jämföra med varandra. Inom MIREX har man genom åren arbetat med ljudigenkänningsprogram, exakt matchning och symbolisk likhet varav QbH har varit ett delprojekt sedan 2006 (Downie 2008, ss. 247-248). De databaser som finns tillgängliga via MIREX är relativt små, men 2010 startade ett projekt för att utveckla en betydligt större databas bestående av över 23 000 tusen timmar musik. Arbetet med den är pågående just nu, men när den är färdig ger det möjlighet för forskare att pröva uppdragen i MIREX på en betydligt större databas än tidigare och upptäcka nya svar och frågor (IMIRSEL 2010, avsnitt 1.1).

Som tidigare nämnts är hanteringen av stora databaser ett av de stora problemen inom

MIR. Med dagens lättillgänglighet till olika medier och den stora produktionen av

musik är det ett växande problem. Till skillnad från textdokument tar musikfiler mycket

större plats vilket gör att databaser med musik tar längre tid för systemet att arbeta med,

och att vänta på ett system som arbetar är inget som användare vill göra (Downie 2003,

s. 296). Därför komprimeras filerna med material som systemet använder men som för

människor blir oläsbara. En standard inom multimedia för kompression är MPEG. Det

finns olika MPEG standarder: MPEG-1, MPEG-2, MPEG-4, MPEG-7 och MPEG-

21.(Baeza-Yates & Ribiero 2011, s. 633). I de tre första tre versionerna av MPEG ligger

fokus på komprimering av media. I MPEG-7 är det inte kompression som är i fokus

utan beskrivning av media. Formatet beskriver metadata om innehållet istället för enbart

(11)

innehållet. MPEG-7 har ett särskilt beskrivningsspråk för att beskriva innehållet. Denna version av MPEG är den första som i större utsträckning går att tillämpa inom MIR och QbH-system (ibid., s. 635).

För att kunna skapa bra system som är användarvänliga krävs också att man vet vad användaren vill ha. I en undersökning från 2004 frågade författarna vad användare ville ha ut av ett MIR-system. Enligt undersökningen sökte användarna mest för underhållnings skull, vilket innebär att utvecklingen av söksystem bör fokusera på att göra dem lättanvändbara. Det folk främst ville se i resultatlistan var främst metadata om melodierna och noter. Utifrån det sätt användarna har svarat går det att se att användare i första hand söker information för att förbättra sin kunskap om sångerna. (Lee &

Downie 2004, s. 442)

2.2 Query-by-humming system

Begreppet Query-by-humming introducerades 1995 i ett paper vid ACM Conference on Multimedia. I artikeln presenterar de ett system som hanterar en insjungen, nynnad melodi och jämför den med en befintlig databas. Vid transkriberingen av en söksång kunde en ton klassificeras på tre olika sätt; samma som föregående ton, högre än föregående ton eller lägre än föregående ton. På så sätt bestod det transkriberade materialet av endast tre olika noter. Dessa jämfördes sedan med musikdatabasen som bestod av MIDI-filer som på samma sätt analyserats. Vid jämförelsen mellan söksången och databasen användes också vissa algoritmer för att ta hänsyn till att söksången kan skilja sig från originalet (Ghias et al.1995, avsnitt 4.1). Tanken med QbH-system är lätt att förstå men de bakomliggande algoritmerna är mycket avancerade. Jag kommer här inte att fokusera på hur specifika algoritmer fungerar utan den allmänna utvecklingen av dem. Systemen är dock uppbyggda på liknande sätt med vissa specifika moduler.

Xiaohong med flera beskriver QbH-system på följande sätt och delar in processen i tre olika steg.

1. Det första steget består av att inspelningen, söksången, transkriberas till notsekvenser eller melodikonturer som systemet använder sig av (Transkriberingsmodul)

2. Melodirepresentationen av det inspelade materialet förs till en modul som är sammankopplad med musikdatabasen. (Jämförelsemodul)

3. Melodirepresentationen jämförs med de melodier som finns i databasen och de melodier som systemet anser vara mest lika söksången presenteras för användaren i en rankningslista.

Notsekvens Rankningslista

Figur 2.1 Modell över QbH-systems uppbyggnad

QbH-system brukar tekniskt sett delas in i två olika delar; front-end och back-end.

Front-end modulen består av steg 1 där behandlingen av inspelningen bearbetas och back-end modulen steg 2 och 3 med jämförelse och rankning. (Xiaohong 2010, s. 2)

Transkriberings modul

Jämförelsemodul

Musikdatabas

Inspelning

(12)

Enligt Thaine är det de senaste 20 årens utveckling av datorer och utbreddningen av internet som gjort det möjligt för utvecklingen av QbH-system. På tidigt 90-tal, innan internet började användas i större utsträckning på privatdatorer fanns det möjlighet med CD-ROM och lokalt lagrad musik att göra sökningar. Det skulle dock kräva mycket av användaren att ha tillgång till hemifrån och skulle varit en lång och krånglig väg att gå.

Inte heller hade persondatorn tillräcklig kapacitet för att hantera ett sådant system (Thaine 2007, s. 4). Utvecklingen av QbH-system har därför varit ganska starkt kopplat till utvecklingen av teknologin för multimedia i webbläsare. Enligt Thaine finns det vissa grundläggande problem med QbH-system som härrör från 70-talet men som tidigare på grund av teknologin inte kunnat lösas. Dessa är att göra en stor välorganiserad databas, att göra exakta transkriberingar av söksånger och att kunna hitta den rätta melodin även om söksången innehåller fel (ibid., ss. 1-2).

Svårigheterna består i att det inte går att jämföra sången som den är när den spelas in.

Söksången måste först omvandlas till ett jämförbart format. Ett annat problem är att söksånger innehåller fel, användaren sjunger till exempel oftast inte i samma tonart som originallåten, vilket blir ett perspektiv som systemen måste ta hänsyn till (Meek 2004, ss. 2-3). Ett problem med QbH är att söksången inte helt matchar den eftersökta melodin. I andra system där originallåten spelas upp för systemet (query-by-example) gäller det att hitta den exakt likadana sången. Då det i QbH handlar om personliga insjungningar av sången kan systemet inte leta efter en exakt matchning, utan melodier som liknar söksången (Birmingham et al 2007, s. 688). Vissa algoritmer arbetar långsammare än andra, vilket också gör dem svåra att använda på stora databaser (ibid., s. 698). MUSART är ett projekt som gör det möjligt att testa olika algoritmer för QbH- system mot varandra. I MUSART använde man sig av riktiga inspelningar för att jämföra algoritmer. Deltagarna fick sjunga in hur de vill och deras resultat visar att systemen är mycket beroende av inspelningen av melodin. Inspelningar som i tonhöjd låg långt ifrån originalsången gav betydligt sämre resultat än de som låg nära (ibid., s.

700). I en studie där vissa algoritmer skulle testas definierar Meek och Birmingham problemen med QbH som följande: Söksången kan vara i en annan tonart än originalet eller vara snabbare eller långsammare än originalet. Användaren kan också ändra tonart, tempo, rytm eller sjunga fel under pågående inspelning (Meek & Birmingham 2004, s.

61).

Enligt Orio är många av de karaktäristiska fel användare gör vid inspelning att de inte träffar tonerna direkt utan glider upp på dem, använder vibrato eller ändrar ljudnivå på samma ton (Orio 2006, s. 36). I en studie från 2003 jämfördes musiker mot icke- musikers söksånger. I deras resultat kom de fram till att det blir olika på grund av personernas bakgrund och att man kan förvänta sig stora avvikelser från icke-musiker.

Deras resultat visar också att det blir skillnad i resultatet beroende på melodins struktur,

en melodi med stora intervaller visade sig ge många fler avvikelser än en med få (Unal

et al 2003, s. 120). I en annan studie från 2008 där man utvärderade en ny algoritm

använde man söksånger från både icke-musiker och musiker. I deras slutsats kom de

fram till att söksystemets resultatprestation var beroende av användarnas bakgrund och

av databasens storlek (Chew et al. 2008, s. 369). I Khan och Mushtags översikt över

QbH-system har de sammanställt de problem som de stött på i sitt arbete med QbH-

system. Att sjunga på sitt modersmål har visat sig ge bättre resultat än om användaren

inte gör det. Ett annat problem de såg var att söksånger som sjöngs i höga tonarter hade

en tendens att få bättre resultat än de som sjöngs i låga tonarter. Författarna föreslår att

(13)

det i framtida QbH-system bör finnas möjlighet för användare att kunna ändra tempo och tonart på söksången (pitcha melodin). Vilken användargrupp som gör söksången samt hur stökigt det är i bakgrunden spelar också enligt dem in på resultatet (Khan &

Mushtag 2011, ss. 151-152).

2004 gjordes en undersökning över användares val av uttryck i söksystem där sång används som sökinstrument De delade in de olika metoderna att sjunga in på i fyra grupper; sjunga med text, sjunga stavelsebildande, nynna och vissla. Deltagarna fick spela in delvis sånger de hört tidigare och sånger de var obekanta med (Lesaffre, Moelants, Leman, 2004, s. 131). Ungefär 60 % av alla röstinspelningar bestod av mer än en metod. De två vanligaste metoderna att använda var med text och stavelsebildande. Att nynna eller vissla var betydligt ovanligare och att en deltagare använde sig av samma metod i alla inspelningar var inte heller vanligt (ibid., s. 137).

Enligt författarna bör ingen av metoderna uteslutas från söksystemen eftersom det skulle försvinna intressanta sökfrågor. Som exempel tar de vissling, som inte användes av många, men de som gjorde detta gav tydliga inspelningar som gav en annan dimension av melodierna (ibid., ss. 143-144).

År 2010 gjorde Nowag en jämförelse mellan Musicline och Midomi för att se om det blev någon skillnad mellan kön. Deltagarna sjöng in 11 söksånger var och i jämförelsen visade det sig att det mellan Midomi och Muscline var skillnad mellan antalet relevanta svar men ingen skillnad mellan kön. I Musicline låg de relevanta svaren mellan 37-40 % medan det i Midomi låg mellan 57-68%. Nowag tar som exempel upp ett fall där en söksång i Musicline resulterade i några relevanta svar men som i Midomi inte gav några relevanta träffar (Nowag 2010, s. 114).

Orio är tveksam till användningen av QbH-system. Han anser att användarbeteendet kring informationssökning av musik inte inbegriper innehållsbaserad information bland allmänheten. QbH-system kan vara användbara ett tag när det fortfarande är en nyhet men kommer sedan att överges av användarna för att söka som de gjorde innan. Han tror inte att användare kommer gå över till att använda sådana system i någon större skala (Orio 2006, s. 72). Trots det framgår det av en användarundersökning av Lee &

Downie att ungefär 35 % av deltagarna skulle använda QbH, även fast det vid tidpunkten för undersökingen inte fanns något publikt fungerande QbH-system (Lee &

Downie 2004, s. 444).

Forskning kring QbH-system har gått från att i början hitta algoritmer för transkribering och jämförelse, till att försöka integrera innehållsbaserad och textbaserad sökning i samma sökmodul. Ett exempel är från 2010 av Khan med flera som försöker skapa ett system där det är möjligt att söka på sång, som i ett klassiskt QbH-system, men i samma sökning även går att lägga till textbaserad information. De menar att det ofta händer att användare kan melodin men också någon annan kompletterande information. Med de söksystem som finns i dag finns det ingen möjlighet att kombinera dem i samma sökning(Khan et al 2010, s. 1). Som tidigare nämnts har det i MIREX sedan 2006 utvärderats QbH. Forskare inom QbH har på senare år utgått från att QbH kan innehålla

”ground truth” filer. Det innebär att systemet utifrån ett original med hjälp av andra

fragment som stämmer in på originalet lär sig att känna igen specifika delar av

originalet när de dyker upp i söksångerna. För att detta ska fungera är det viktigt att

användare har möjlighet att lägga till sånger i databasen och tala om vilken melodi det

(14)

är för systemet. Midomi anses vara ett bevis på att ett sådant system fungerar (Rang 2009, avsnitt 5.2).

3. Metod

I frågeställningarna frågar jag mig om det finns någon skillnad mellan personer med olika musikaliska bakgrunder vid sökning i QbH-system. Detta eftersom informationskompetens får en annan innebörd i dessa sorters system jämfört med de som är textbaserade. I QbH-system är det snarare personers musikaliska kompetens som är den viktiga. Personerna som söker i systemet är därför indelade i tre olika grupper baserade på deras förhållande till musik; vanliga användare, musiker och sångare.

3.1 Användargrupper

Deltagarna är indelade i grupperna vanliga användare, musiker och sångare. Vanliga användare kan ha en naturlig fallenhet för musik, och utan träning ha bra gehör och tonträffsäkerhet, precis som det inte finns något som säger att musiker ska vara bra på att sjunga. Poängen med indelningen i dessa grupper är att dela in dem efter hur mycket de aktivt har arbetat med att utveckla sin tonträffsäkerhet.

Vanliga användare

Den första gruppen består av personer som har en relation till musik som enbart lyssnare. De utövar inte musik själva utan använder musik enbart till att lyssna på.

Personer i denna grupp kan ha musicerat under exempelvis grundskolan men inte fortsatt på någon högre nivå.

Musiker

Den andra gruppen består av personer som har musikalisk utbildning och därmed har en förståelse för hur musik är uppbyggd. De kan vid lyssnande höra om en ton är falsk eller inte men behöver inte nödvändigtvis själva vara sångare. Gruppen kan innehålla både amatörmusiker och professionella musiker. Det personerna i gruppen har gemensamt är att de har utvecklat sitt gehör och tonsinne.

Sångare

Den tredje gruppen har ungefär samma bakgrund och förhållningssätt till musik som musiker, men dessa personer har rösten som sitt instrument och har tagit sånglektioner eller på annat sätt arbetat och utvecklat sin kunskap och erfarenhet av den egna rösten.

Dessa personer förväntas således ha hög kontroll på rösten och vara mycket tonsäkra.

De deltagare som är med har inte nödvändigt sång som sitt huvudinstrument utan kan ha

det som biinstrument men har regelbundet individuella sånglektioner.

(15)

3.2 Söksånger

Från början var inte Dancing Queen en av söksångerna, utan Alicia Keys sång Falli’n.

Vid inspelning med de första personerna visade det sig att sången var för svår, deltagarna hade inte hört den förut och melodin var för svår för att komma ihåg efter bara en lyssning. Därför togs beslutet att byta till Dancing Queen, som var ett tänkbart alternativ sedan innan, medan jag fortfarande hade möjlighet att be samma deltagare göra ytterligare en inspelning med Dancing Queen istället.

Dancing Queen – ABBA

Dancing Queen skrevs 1975 av Benny Andersson, Björn Ulvaeus och Stikkan Anderson och spelades in av ABBA 1976 och finns på albumet ”Arrival”. Sången blev en internationell framgång och de flesta kan idag åtminstone en liten strof av den. Denna sång får deltagarna inte lyssna på innan, utan tanken är att de utifrån sitt eget minne ska sjunga in den. Detta gör att resultatet från Dancing Queen kan skilja sig från de andra men är ändå en viktig aspekt. Vid en ordinarie situation inför ett QbH-system har användaren inte tillgång till någon tidigare inspelning och måste gå från det egna minnet. Om deltagaren mot förmodan inte skulle ha hört sången innan eller känner sig mycket osäker på melodin finns det möjlighet för deltagaren att lyssna på den innan.

Vad jag har kunnat se i söksystemen finns den i söksystemens databaser delvis i Abbas version men också som A-teens cover från 1999.

Barbie Girl – Aqua

Sången skrevs av Søren Nystrøm Rasted och Claes Norreen och spelades in 1997 av den dansk-norska gruppen Aqua och finns på albumet” Aquarium”. Sången var under det året en stor radiohit. Melodin har ett högt tempo och är hoppig i melodin med många stora tonintervall. Denna får deltagarna lyssna på innan den spelas in. Sången finns i systemen enbart i Aquas version.

Can't Help Falling in Love – Elvis Presley

Sången skrevs av Hugo Peretti, Luigi Creatore och George David Weiss 1961 och var en singel av Elvis Presley som finns med på albumet ”Blue Hawaii”. Sången är betydligt långsammare än de andra två och refrängen erbjuder ett ganska svårt tonintervall i den första strofen. Denna melodi får deltagarna lyssna på innan inspelning.

Det har gjorts många olika covers varav UB40:s version är en av de mest kända.

Presleys och UB40:s version finns båda i alla tre söksystemen. I Midomi finns ytterligare fler versioner av sången.

3.3 Urval och etiska aspekter

För att hitta deltagare tillhörande gruppen musiker och sångare besöktes en

gymnasieskola där estetiska programmet med inriktning musik fanns. Deltagarna i de

två grupperna består således av elever och lärare på skolan samt några musiklärare från

en närliggande musikskola. De som klassas som sångare har alla minst 20 minuter

individuell sånglektion i veckan. Gruppen vanliga användare består av tillfrågade

studenter vid en högskola.

(16)

Att sjunga är för många något som kanske enbart gör när man är ensam, och att då göra det inför någon annan kan kännas mycket obekvämt. Det kan för många kännas som att man gör intrång i deras privatliv. Detta har också märkts genom att många tillfrågade har valt att inte ställa upp. Eftersom det för många kan vara ett intrång i privatlivet är det viktigt att behandla materialet anonymt och konfidentiellt så långt som möjligt (Bryman 2002, s. 448). På grund av att jag personligen träffar alla deltagare går det inte att behandla dem anonymt, det har därför varit viktigt att informera deltagarna att materialet behandlas konfidentiellt. Att delta har varit helt frivilligt och deltagarna har vid mötet blivit informerade om vad inspelningen ska användas till, och att jag som författare är den enda som kommer ha tillgång till inspelningarna och använda det endast som sökmaterial i systemen.

3.4 Genomförande

Totalt har 21 personer deltagit med inspelningar på de tre söksångerna. Deltagarna är jämt fördelade mellan grupperna och det finns därför 7 personer i varje grupp. Totalt ger detta 21 söksånger per användargrupp och 63 stycken totalt. Vid mötet med deltagarna fick de inte sjunga in direkt i systemen utan det gjordes en ljudupptagning som i efterhand spelades upp för systemen. På så sätt blir det samma inspelning av söksångerna som jämförs av QbH-systemen. På detta sätt anser jag att resultaten från en deltagares söksång blir mer jämförbar mellan systemen. I ett textbaserat system hade problemet lätt löst med att skriva in samma sökfrågor i alla systemen. Detta blir därför min lösning för röstbaserade system. Jag har innan testat och sett att det inte blir någon skillnad mellan liveinspelning och förinspelat material. Ytterligare ett skäl att göra på detta sätt är att systemen är internetbaserade och det finns risk att det vid möte med deltagare inte går att få kontakt med systemens server. För att inte ödsla deltagarnas tid på tekniska fel anser jag det vara bättre att göra en ljudupptagning och sedan hantera systemen i efterhand.

På grund av tekniken som används vid inspelningen har deltagarna inte möjlighet att lyssna på sången samtidigt som de sjunger in den. De fick alltså först lyssna på sången och sedan spela in den. Målet med inspelningarna var att de skulle vara så verklighetstrogna som möjligt och reflektera hur användare i normala fall skulle agera inför ett sådant system. Deltagarna fick därför direktiv om att sjunga precis som de ville, de fick själva välja om de ville sjunga med eller utan text, humma eller sjunga på vokaler (exempelvis la, la, la). När de lyssnade på sångerna fick de lyssna så länge som de vill på den. I genomsnitt lyssnade deltagarna ungefär en minut på vardera sång. De fick inga direktiv om vilka delar av melodin som skulle spelas in, utan de fick själva välja det parti i sången som de mest förknippade med den och kom ihåg. I de flesta fall sjöngs dock refrängen men i några fall var det versen som sjöngs in.

Innan inspelning har deltagarna blivit tillfrågade om de utövar musik eller sång för att få

en bild av i vilken grupp de tillhör. Efter inspelningarna fick deltagarna sedan en enkät

att fylla i för att få deras bakgrund och åsikter om användning och nytta av ett

fungerande QbH-system (se bilaga). Enkäten fungerar därför som ett komplement för

att lättare klassa deltagarna i de olika användargrupperna. Övriga frågor om deras egen

kännedom och användning av QbH-system har ingen relevans för studiens

forskningssyfte men kan berätta något om spridningen av QbH-system bland

allmänheten.

(17)

Vid uppspelning för systemen har externa högtalare och mikrofon till datorn används

för att få så bra ljudkvalitet som möjligt. Systemen levererar olika många resultat. I

Tunebot är det alltid 50 resultat i listan, medan Musicline som mest presterat 10 resultat

och Midomi 6 stycken. Alla söksånger är uppspelade för systemen minst två gånger där

den bästa placeringen är den som redovisas bland resultaten. Relevanta resultat efter

position 20 räknas här som irrelevanta och har därför värdet 0. Uppspelningarna för

systemen är gjorda under april månad 2012.

(18)

4. Analytisk metod

Mean Reciprocal Rank och Friedmans test är i deras egentliga mening metoder men betraktas här som både teori och metod. Vid evaluering av textbaserade söksystem används ofta metoder för att se hur många av resultaten i resultatlistan som är relevanta.

Min utgångspunkt för QbH-system är att det är det första rätta svaret som är relevant. I ett sådant system är användaren oftast inte ute efter att få så många rätta svar som möjligt utan det första rätta svaret. De evalueringsmetoder som brukar användas i textbaserade system går därför inte att tillämpa på QbH-system. I MIREX har man använt MRR, top10 hit rate och Friedmans test vid evaluering av QbH-system. Genom tidigare forskning har jag sett att de ofta använder sig av MRR för uträkning av resultat i QbH-system. Att även jag använder mig av MRR innebär att mina resultat lättare går att jämföra med tidigare forskning och framtida studier om QbH-system. Ett alternativ till Friedmans test är att göra det parametriska testet ANOVA. Vid användning av ANOVA används inte samma mätvärde som i Friedmans test (chi-kvadrat) vilket gör att resultatet inte på samma sätt går att jämföra med andras. Jag har också valt att använda Friedmans test eftersom det bygger på median och därför tar hänsyn till extremvärden som kan förekomma i resultatet. Genom att använda MRR och Friedmans test får jag därför jämförelsetal som bygger på både medelvärde och median.

4.1 Mean Reciprocal Rank (MRR)

Detta värde används när man är intresserad av när det första relevanta svaret dyker upp i resultatlistan. Vid användning är det enbart det första relevanta svaret som räknas. Det kan exempelvis handla om sökningar efter hemsidor där användaren är ute efter det första rätta svaret. Eller som i detta fall den första rätta melodin.

Med MRR räknas det genomsnittliga medelvärdet på inbördes rankning av resultat från flera sökfrågor. För att göra detta måste vi först räkna ut det inbördes rankningsvärdet för varje sökfråga. Detta gör vi genom att dela rankningspositionen med 1. Värdet för en rankningsposition blir alltid mellan 0 och 1. Det ska också finnas en bortre gräns för rankningspositionen. Om rätt rankningsposition är bortom den gränsen blir värdet för rankningen 0. Som nämnts under avsnitt 3.3, är gränsen för denna studie satt vid position 20.

Beräkningen för MRR ser ut på följande vis:

( ) ∑

( )

Låt (R

i

) stå för rankninglista relaterad till sökfråga och Scorrect(R

i

) stå för positionen av det första korrekta svaret i rankninglistan. (Baeza-Yates & Ribeiro-Neto 2011, s. 142- 143)

I ett resultat där det första relevanta svaret återfinns på plats 3 blir sökfrågans inbördes

rankning 1/3. I ett resultat där det första relevanta resultatet dyker upp på plats 4 blir den

inbördes rankningen 1/4. Om vi nu vill räkna ut MRR från dessa resultat räknar vi (1/3

+ 1/4)/2=0,29.

(19)

4.2 Friedmans test

Friedmans test är ett icke-parametriskt test och används när man vill jämföra 3 eller fler resultatgrupper från samma population, där ordinal/ rankningspositioner används som data, för att se om det finns någon signifikant skillnad mellan grupperna i populationen.

Testet är hypotesprövande och vi skapar därför en nollhypotes och en alternativ hypotes. I denna studie ser hypoteserna ut som följande:

H0= Det finns ingen signifikant skillnad mellan olika system eller användargruppers resultat.

H1= Det finns en signifikant skillnad mellan olika system eller användargruppers resultat.

Som signifikansnivå anser jag för testets ändamål vara lämpligt att vara satt till α=0,05.

Om det från resultatet av Friedmans test går att se att det finns en signifikant skillnad mellan grupperna visar detta att det finns skillnader mellan minst två av gruppernas men säger inget om mellan vilka. (Sheskin 2007, s. 1075)

Vid användning av Friedmans test placeras data i en tvåvägs-tabell där vi har N antalet prover och k antalet kolumner.

Beräkningen av Friedmans test ser ut på följande vis:

[

( ) ∑

] ( )

Låt N stå för antalet prover/söksånger och k för antalet kolumner.

Låt R

_j

stå för summan av varje kolumn.

∑

Ger direktiv om att summera alla kolumners summa i kvadrat. (Siegel &

Castellan 1988, s. 176)

Det resultat som uträkningen ger är chi-kvadrat-värden (X

²

) och vi tillämpar en frihetsgrad som i denna studie blir df = k – 1 = 3 - 1 = 2 då antalet grupper är 3 i testerna. Det kritiska chi-kvadrat-värdet för α = 0,05 vid df = 2 är 5,99. Detta innebär att om det värdet vi får vid uträkningen är större än 5,99 ska nollhypotesen förkastas.

(Sheskin 2007, s. 1078, 1661)

Om nollhypotesen enligt Friedmans test ska förkastas, går det att göra ett extra test för

att se mellan vilka grupper som skillnaderna är. Detta kallas för att göra ett post hoc-

test. För att göra ett post hoc-test använder vi oss av Wilcoxon-test, även kallat för

rangsummetest. Testet används för att se om det finns statistiskt säkerhetsställd skillnad

mellan två observationstillfällen. För att använda detta test som post hoc-test gör vi alla

tänkbara jämförelser mellan variablerna. I ett test bestående av 3 grupper görs alltså

testet mellan grupp 1-2, 1-3 och 2-3. På detta sätt får vi reda på mellan vilka grupper

som det är en signifikant skillnad respektive likhet mellan. Post hoc-test används enbart

när nollhypotesen förkastas. (Siegel & Castellan 1988, s. 180)

(20)

5. Resultat

Eftersom jag inte ska titta på skillnader mellan kön, har jag inte fokuserat på att få en jämlik könsfördelning. På grund av sviktande mod hos män att ställa upp är könsfördelningen därför något vriden, av de 21 deltagarna var endast 5 män.

Deltagarnas ålder sträcker sig från 17 år upp till 46 med en medelålder på 25 år och median på 19 år. 57 % hade aldrig hört talas om ett QbH-system tidigare och endast 3 av deltagarna ansåg att de inte skulle ha användning av ett sådant system över huvudtaget i sitt arbetsliv.

Eftersom antalet söksånger är så pass få går det med denna undersökning inte att dra några generella slutsatser över skillnader inom en användargrupp eller söksystem.

Resultaten kan endast visa vilka tendenser som finns inom dem. Däremot kan jämförelserna med alla resultat mellan användargrupperna och mellan söksystemen anses ge generaliserbara resultat eftersom antalet mätvärden är så pass många.

Resultatet redovisas dels efter användargrupp och dels efter söksystem. Det är visserligen samma MRR-värden som presenteras i de två utfallen, men på grund av det som ska undersökas anser jag det vara viktigt att visa resultaten ur båda perspektiven.

Tabellerna visar söksångernas placering i resultatlistorna. Värdet noll betyder bortfall och kan bero antingen på att den eftersökta melodin inte återvinns alls eller att melodin har placering bortom placering 20.

I resultatet är X

²

= chi-kvadrat-värdet, P = signifikansnivån på resultatet, Z = Z-värdet.

Vid α = 0,05 är det kritiska Z-värdet = ± 1,96 och som tidigare nämnts X

²

= 5,99. Vid användning av Friedmans test där alla N används i jämförelsen ändras signifikansnivån till α = 0,01 eftersom antalet prover är så pass många (k = 3 och N = 63). Vid α = 0,01 är den kritiska gränsen för X

²

= 9,21 och Z = ± 2,58. (Siegel & Castellan 1988, s. 320, 323)

5.1 Resultat redovisat efter användargrupp Vanliga användare

Söksång Midomi Musicline Tunebot

Dancing Queen 0 0 0

1 0 1

0 0 0

1 0 2

1 3 0

1 0 0

Barbie Girl 1 0 1

1 0 2

1 0 0

1 0 10

1 0 0

(21)

1 0 1

Can't Help… 2 0 0

1 0 12

1 0 0

0 0 0

1 0 6

1 0 1

1 0 3

Tabell 5.1 Tabell över rankningspositioner från Vanliga användare

MRR från systemens resultat för vanliga användare visar för Midomi 0,83, Musicline 0,02 och Tunebot 0,27. Det sammanlagda MRR-värdet för gruppen vanliga användare visar 0,37.

Friedmans test visar att systemen inte presterar likvärdigt (X

²

= 16,361, P = 0,000).

Post hoc-testet visar att det inte finns någon signifikant likhet mellan Musicline-Midomi (Z = -3,234, P = 0,001) och Musicline-Tunebot (Z= -2,281, P = 0,023). Det finns dock likheter mellan Tunebot och Midomi (Z = -0,453, P = 0,65).

Musiker

Söksång Midomi Musicline Tunebot

Dancing Queen 1 0 0

1 0 1

1 0 2

0 0 4

1 7 1

Barbie Girl 1 0 0

2 0 1

1 0 2

2 0 1

1 0 2

1 0 9

1 0 5

Can't Help… 0 0 0

2 3 0

1 0 1

1 0 0

1 8 18

1 0 1

1 0 0

Tabell 5.2 Tabell över rankningspositioner från Musiker

MRR från systemens resultat för gruppen musiker visar för Midomi 0,83, Musicline

0,03 och Tunebot 0,48. Det sammanlagda MRR-värdet för gruppen musiker ger 0,45.

(22)

Friedmans test visar att det inte råder någon signifikant likhet mellan systemens resultat (X

²

= 13,594, P = 0,001). Post hoc-testet visar att det inte finns någon likhet mellan Musicline-Midomi (Z= -2,137, P = 0,033) eller mellan Musicline-Tunebot (Z = -2,246, P = 0,025). Det finns likheter mellan Tunebot-Midomi (Z = -0,809, P = 0,418).

Sångare

Söksång Midomi Musicline Tunebot

Dancing Queen 1 0 5

1 0 1

1 7 1

1 2 2

1 0 2

1 0 1

1 2 3

Barbie Girl 1 0 2

1 0 1

1 0 3

1 0 0

1 0 2

1 0 1

0 0 0

Can't Help… 1 0 3

1 0 1

2 5 1

0 0 0

1 0 3

1 0 1

0 0 0

Tabell 5.3 Tabell över rankningspositioner från Sångare

MRR från systemens resultat för gruppen sångare visar för Midomi 0,83, Musicline 0,06 och Tunebot 0,55. Det sammanlagda MRR-värdet för gruppen musiker ger 0,48.

Friedmans test visar att det inte finns någon signifikant likhet mellan systemen (X

²

= 13,556, P = 0,001). Post hoc-testet visar att det finns likhet mellan Musicline-Midomi (Z = -1,593, P = 0,111) men inte mellan Tunebot-Midomi (Z = -2,365, P = 0,018) eller Tunebot-Musicline (Z = -1,986, P = 0,047).

I användningen av ett Friedmans test där söksystemen är gruppvärden (k = 3) med alla

användargruppers resultat som prover (N = 63) samt signifikansnivå α = 0,01, visar

testet att det inte finns något signifikant likhet mellan systemen (X

²

= 40,332, P =

0,000). Ett post hoc-test visar att det inte finns någon likhet mellan Musicline-Tunebot

(Z = -3,953, P = 0,000) eller mellan Musicline-Midomi (Z = -3,714, P = 0,000). Testet

visar att det finns likheter mellan Tunebot-Midomi (Z = -2,106, P = 0,035).

(23)

5.2 Resultat redovisat efter söksystem

Midomi

Söksång Vanliga

anv.

Musiker Sångare

Dancing Queen 0 1 1

1 1 1

0 1 1

1 1 1

1 0 1

Barbie Girl 1 1 1

1 2 1

1 1 1

1 2 1

1 1 1

1 1 0

Can't Help… 2 0 1

1 2 1

1 1 2

0 1 0

1 1 1

1 1 0

Tabell 5.4 Tabell över rankningspositioner i Midomi

MRR-värdena för användargrupperna i Midomi visar för alla 0,83. Det totala MRR- värdet för Midomi blir därför också 0,83.

Friedmans test visar att det finns en signifikant likhet mellan användargruppernas resultat i Midomi (X

²

= 1,176, P = 0, 337).

Musicline

Söksång Vanliga

anv.

Musiker Sångare

Dancing Queen 0 0 0

0 0 0

0 0 7

0 0 2

3 3 0

0 0 0

(24)

0 0 2

Barbie Girl 0 0 0

0 0 0

Can't Help… 0 0 0

0 0 0

0 0 5

0 0 0

Tabell 5.5 Tabell över rankningspositioner i Musicline

MRR-värdena för användargrupperna efter resultaten i Musicline visar för användargruppen vanliga användare 0,02, musiker 0,03 och sångare 0,06. Sammanlagt blir MRR-värdet för användargrupperna i Musicline 0,04.

Friedmans test visar att det finns en signifikant likhet mellan användargruppernas resultat i Musicline (X

²

= 3,6, P = 0,165).

Tunebot

Söksång Vanliga

anv.

Musiker Sångare

Dancing Queen 0 0 5

1 1 1

0 1 1

2 1 2

0 1 2

0 2 1

0 4 3

Barbie Girl 1 0 2

2 1 1

0 2 3

0 1 0

10 2 2

0 9 1

1 5 0

Can't Help… 0 0 3

12 0 1

0 1 1

0 0 0

(25)

6 18 3

1 1 1

3 0 0

Tabell 5.6 Tabell över rankningspositioner i Tunebot

MRR-värdena för användargrupperna i Tunebot visar för vanliga användare 0,27, musiker 0,5 och sångare 0,55. Det totala MRR-värdet för användargrupperna i Tunebot är 0,43.

Friedmans test visar att det finns en signifikant likhet mellan användargruppernas resultat (X

²

= 1,556, P = 0,459).

Friedmans test där alla värden för användargrupperna är med oavsett söksystem med

signifikansnivån α = 0,01visar att det finns likheter mellan användargrupperna (X

²

=

3,018, P = 0,221).

(26)

6. Tolkning av resultatet

Jag har valt att visa tolkningen av resultaten efter de frågeställningar som hör till studien.

 Hur stor är återvinningseffekten i QbH-system med utgångspunkt från Mean Reciprocal Rank?

Midomi Musicline Tunebot Totalt Vanliga anv. 0,83 0,02 0,27 0,37

Musiker 0,83 0,03 0,5 0,45

Sångare 0,83 0,06 0,55 0,48

Totalt 0,83 0,04 0,43

Tabell 6.1 Tabell över MRR-värden

Enligt Mean Reciprocal Rank är Midomi överlägset bättre än både Musicline och Tunebot. Midomi har mycket stor återvinningseffektivitet med hela 0,83 i resultat. Det är ett värde som är nästan dubbelt så mycket som Tunebots 0,43. Det skrala resultatet i Musicline ger ett totalt MRR-värde av enbart 0,04. Det går därmed enligt MRR konstatera att det är mycket stor skillnad mellan systemens återvinningseffektivitet.

 Vilka likheter och skillnader blir det i resultatet mellan olika QbH-system även om det är samma användare som söker i alla system?

Friedmans test över alla resultat visar tydligt att det är stor skillnad mellan systemen prestationer. Det finns enligt Friedman ingen signifikant likhet mellan alla systemens resultat. Post hoc testet visar dock att det finns en signifikant likhet mellan Tunebot och Midomi. Denna likhet är dock inte speciellt stor då värdet för Friedman visar P = 0,035.

Som det går att se i tabell 6.5 var det mycket dåliga resultat i Musicline och det enda tillfälle där Musicline visar en signifikant likhet med något av de andra systemen är mellan Musicline och Midomi inom resultatet för gruppen sångare. Inom gruppen sångare kastas systemens värde i Friedmans test om helt jämfört med de andra grupperna och resultatet som helhet. Inom denna grupp visar det sig att det finns en signifikant likhet mellan Musicline-Midomi med värdet P = 0,111. Värdet är alltså inte ens i närheten av signifikansnivån och likheten kan därför anses vara ganska stor.

Intressant med gruppen sångare är också att det är större skillnad mellan Tunebot-

Midomi (P = 0,018) än mellan Tunebot-Musicline (P = 0,047) där likheten nästan är

signifikant. Detta speciellt med tanke på att det i de andra två grupperna visar mycket

stor likhet mellan Tunebot och Midomi (vanliga användare: P = 0,65 och musiker: P =

0,418) men mycket liten mellan Tunebot-Musicline (vanliga användare: P = 0,023 och

musiker: P = 0,0,025).

(27)

 Vilka likheter och skillnader blir det i resultatet av personer med olika musikaliska bakgrunder?

Enligt Friedmans test finns det ingen signifikant skillnad mellan användargrupperna.

Denna likhet mellan grupperna anser jag vara mycket stark då värdet för Friedmans test över alla resultat visar P = 0,221. Friedmans test för de enskilda systemen visar även de att det inte finns någon signifikant skillnad mellan användargrupperna i något av systemen. Värdena för Friedman säger också att likheten mellan grupperna även är starka inom systemen (Midomi: P = 0,337, Musicline: P = 0,165, Tunebot: P = 0,459) Det går även med hjälp av MRR konstatera att likheterna mellan användargrupperna är mycket stor då de visar 0,37, 0,45 och 0,48 för de olika grupperna. (se tabell 7.1)

I Midomi blev MRR-värdena detsamma för alla användargrupper, detta värde är

dessutom mycket högt (0,83). Genom Friedmans test vet vi att det inte är någon

signifikant skillnad mellan användargrupperna men med hjälp av MRR går det att se att

det finns små skillnader mellan grupperna i Musicline och Tunebot. En tendens som går

att se i båda systemen samt i den totala MRR-beräkningen är att ju mer utbildning

användaren har, desto bättre blir resultaten. I Tunebot är det ett större mellanrum mellan

vanliga användare och musiker (vanliga användare: 0,27 och musiker: 0,5) och i

Musicline mellan musiker och sångare (musiker: 0,03 och sångare: 0,06).