Sammanställning: Maskininlärning för lokalisering av icke-tekniska förluster

Mätpunkter med ITF (antal)

4 Sammanställning: Maskininlärning för lokalisering av icke-tekniska förluster

4.1 VAD ÄR MASKININLÄRNING?

Maskininlärning (ML) är ett delområde inom datavetenskap som har utvecklats från studier inom mönsterigenkänning och artificiell intelligens. Rent förenklat kan man säga att ML uppstår i gränslandet mellan programmering/algoritmer och matematik/statistik. Statistik handlar om att lära människor om världen, men ML handlar det om att lära datorer om världen genom avancerade datadrivna algoritmer. ML kan leverera insikter och kunskap om data som kan användas till två olika saker: (i) prediktion, eller (ii) slutledning. Prediktion handlar om att göra förutsägelser om ett fenomen genom att träna en modell som har identifierat grundläggande mönster i data, som kan användas för att prediktera fenomenet med hänsyn till ny data. I prediktionstillämpningar är det givetvis centralt att identifiera modeller som har bra prediktionsförmåga på data, dvs. har låga fel. Slutledning handlar om att förstå hur variabler är kopplade och få insikter om den underliggande strukturen i datamängden. ML:s populäritet har vuxit kraftigt de senaste åren och det beror bl.a. på:

• Allmän digitalisering av samhälle och industri

• Ökad utrullning av sensorer och annan mätutrustning som genererar stora mängder data. Internet of Things (IoT) där enskilda komponenter är

uppkopplade mot näten kommer accelerera den här utvecklingen ytterligare. En trend är också att data släpps öppet och gratis; exempelvis från svenska myndigheter.

• Mer data ger bättre algoritmer, eftersom dessa tränas med hjälp av data. • Datalagring har större kapacitet och gått ner i pris vilket ger möjligheter att

spara undan stora mängder data.

• Beräkningskraft har blivit billigare, bättre och mer tillgängligt. Det finns en uppsjö av molntjänster som erbjuder beräkningstjänster och datalagring. • Kommunikationsnäten expanderas och får bättre presenta, ex. genom

utbyggnad av fiber-och mobilnät.

• Människors har ett större behov av skräddarsydda produkter och tjänster, för specifika behov och intressen. Den traditionella industriella modellen att massproducera en vara till en större kundbas är inte längre lika relevant. Netflix och Spotify är tjänster som skräddarsyr utbud och rekommendationer till användarna baserat på deras unika preferenser.

Dessa utvecklingar gör det mycket intressant att använda ML i en rad olika tillämpningsområden, såsom bilindustrin, hälsoområdet, energi, etc. Insikter om data gör det möjligt att utveckla nya tjänster som antingen kan effektivisera etablerade processer (sänka kostnader) eller identifiera helt nya

marknadsområden. Som exempel kan man nämna att smarta mätare har rullats ut till alla svenska hushåll. Elförbrukningen kan mätas per timme, dessa mätvärden skickas och lagras digitalt hos nätägaren. Denna databank kan användas i ML- tillämpningar för att svara på frågor som kan ha varit blinda för nätägare tidigare,

såsom: sker energistöld i mitt nät, vad för typ av förbrukningsmönster har enskilda kunder och kan jag göra något för att ändra detta, etc.

4.2 HUR FUNKAR DET TEKNISKT?

Det första tekniska steget inom prediktion att är att definiera en hypotes om hur sambandet mellan en beroende variabel (fenomenet man vill prediktera) och N stycken beroende variabler (mätbara storheter som man antar påverkar

fenonmenet) kan se ut. Det enklaste fallet är att sambandet är linjärt och med endast en variabel (linjär regression), som följande:

𝑦𝑦 = 𝑐𝑐0+ 𝑐𝑐1𝑥𝑥 + 𝜀𝜀

Där y är den beroende variabeln, x är den oberoende variabeln, och ε är feltermen. Givet detta grundläggande samband så vill man skatta parametrarna c0 och c1

m.h.t. till en uppsättning data som gör anpassningen till det beroende variabeln så bra som möjligt. De optimala parametervärdena identifieras genom att minimera en fördefinierad kostnadsfunktion J(c). En vetertagen kostnadsfunktionen least

squares, där man vill minimera summan av den kvadratiska skillnaden mellan det

predikterade och uppmätta värdet:

𝐽𝐽(𝑐𝑐) =_{2𝑚𝑚 �(ℎ}1 𝑐𝑐(𝑥𝑥𝑖𝑖) − 𝑦𝑦𝑖𝑖)2 𝑚𝑚

𝑖𝑖=1

Där m är antalet träningsexempel, hc(xi) är det estimerade funktionsvärdet för

träningsexemplet xi, och yi är det observerade värdet. Parametrarna skattas

iterativt med exempelvis Newton’s metod, som söker det lägsta värdet för J. Hypotesen (modellen) och de skattade parametervärden har sedan

förhoppningsvis den bästa möjliga prediktionsförmågan på ny data.

Vilka modellparametrar man inkluderar beror på: (i) vilka data man har tillgång till (variabler), och (ii) antagandet om funktionens grundläggande form, ex. linjär kontra icke-linjär. Poängen är att väja (i) och (ii) så att felet blir så lågt som möjligt med träningsdata. Här kommer dock en av huvudutmaningarna med ML; ju mer data du har (antalet variabler) och ju mer flexibla modeller du använder (icke- linjära), desto lägre blir prediktionsfelet. Detta beror på att modellen blir så flexibel att den anpassar sig till all variation som finns i data. Problemet är att denna variation kan bero på slumpmässighet (brus) och inte enbart på fundamentala samband (signal). Vad detta innebär i slutändan är att prediktionsfelet på ny uppsättning testdata kan bli högt. Felet kan t.o.m. bli högre än vad en enkel linjär modell kan uppnå. Detta betecknas som problematiken med överanpassning, och är en av de primära utmaningarna med ML; att identifiera en modell med en balans mellan flexibilitet och underliggande samband som ger det lägsta möjliga testfelet. Denna balans kan man uppnå på flera olika sätt, såsom att (i) använda den mest lämpliga modellformen för problemet, (ii) använda de viktigaste oberoende variablerna givet den expertkunskap som finns, och (iii) använda bestraffningsåtgärder på parameterskattningen i modellen (minska vikterna för variablernas påverkan). För (iii) finns olika alternativ för att hitta den bästa

modellen; såsom Aikakie Information Critiera (AIC), Bayesian Information Criteria (BIC), the lasso eller ridge regression.

4.3 VILKA METODER INGÅR I ML:S VERKTYGSLÅDA?

I den här sektionen ska en kortare översikt om vilka typer av metoder som ingår i maskininlärningens verktygslåda. Den första nivån i indelning är övervakade resp. oövervakade metoder. Övervakade metoder innebär att man har en uppsättning oberoende variabler som ska användas för att prediktera en beroende variabel. Här ska man alltså korrelera ett antal prediktorer mot en svarsvariabel, och på så vis få ut mått på hur bra modellen är på att göra förutsägelser. I en oövervakad metod har man bara oberoende variabler, där man vill förstå hur grupper av dessa variabler är sammankopplade.

De respektive typerna har underfamiljer av metoder i nästa nivå. Övervakade metoder är uppdelade på regression och klassificering vilket skiljer sig på om det beroende variabeln är kontinuerlig eller kategorisk. Ett regressionsexempel är om man vill prediktera bostadspriser (kontinuerlig variabel) t.ex. givet bostadens storlek, månadsavgift och geografiska läge. Att t.ex. prediktera om en patient har cancer givet olika riskfaktorer är exempel på ett klassificeringsproblem då svaret är om personen har cancer eller inte, dvs. en nivå-variabel. Båda familjerna har specifika metoder som är listade i diagrammet nedan. Det som skiljer sig mellan de specifika metoderna är:

1. Komplexitetsnivå. Linjär vs. icke-linjära modeller.

2. Representerbarhet. Gråbox vs blackbox; alltså vilken typ av förståelse man kan extrahera från modellerna. Ett neuralt nätverk är exempel på en blackbox- metod då en människa inte kan ge en intuitiv förklaring till varför modellen ser ut som den gör. I en gråbox-modell kan man särskilja explicita kopplingar mellan variabler.

Vidare så består oövervakade metoder i huvudsak av klustring och dimensionsreduktion. Klustring handlar om att gruppera närliggande

observationer genom att mäta avstånd mellan dessa datapunkter. Klustring är kraftfullt då man kan identifiera nyckelmönster om hur de oberoende variablerna hör ihop och förstå hur man kan dela upp data i relevanta delmängder för fortsatt dataanalysarbete. Dimensionsreduktion går ut på reducera antalet variabler i datamängden genom att hitta riktningar där data samvarierar som mest, och sedan använda dessa riktningar som approximationer till ursprunglig data. Beroende på egenskaper hos datamängden så kan den första riktningskoefficienten stå för en majoritet av den totala variationen.

Figur 18: En översikt av de metoder som finns tillgängliga i maskininlärningens verktygslåda.

4.4 HUR KAN MAN ANVÄNDA AI FÖR ATT IDENTIFIERA OCH LOKALISERA

In document Dataanalys och avancerade algoritmer : Möjligheter med utökad mätinfrastruktur (Page 38-41)