• No results found

Detection of high-risk shops in e- commerce

N/A
N/A
Protected

Academic year: 2021

Share "Detection of high-risk shops in e- commerce"

Copied!
68
0
0

Loading.... (view fulltext now)

Full text

(1)

Master Thesis in Statistics and Data Mining

Detection of high-risk shops in

e-commerce

Statistics for the 21th century

Rebin Hosini

Division of Statistics and Machine Learning

Department of Computer and Information Science

Linköping University

(2)

ii

Supervisor

Per Sidén

Examiner

Jose M. Peña

(3)

Upphovsrä

De a dokument hålls llgängligt på Internet – eller dess fram da ersä are – under 25 år från pub-liceringsdatum under förutsä ning a inga extraordinära omständigheter uppstår. Tillgång ll doku-mentet innebär llstånd för var och en a läsa, ladda ner, skriva ut enstaka kopior för enskilt bruk och a använda det oförändrat för ickekommersiell forskning och för undervisning. Överföring av upphovsrä en vid en senare dpunkt kan inte upphäva de a llstånd. All annan användning av doku-mentet kräver upphovsmannens medgivande. För a garantera äktheten, säkerheten och llgäng-ligheten finns lösningar av teknisk och administra v art. Upphovsmannens ideella rä innefa ar rä a bli nämnd som upphovsman i den omfa ning som god sed kräver vid användning av dokumentet på ovan beskrivna sä samt skydd mot a dokumentet ändras eller presenteras i sådan form eller i så-dant sammanhang som är kränkande för upphovsmannens li erära eller konstnärliga anseende eller egenart. För y erligare informa on om Linköping University Electronic Press se förlagets hemsida h p://www.ep.liu.se/.

Copyright

The publishers will keep this document online on the Internet – or its possible replacement – for a period of 25 years star ng from the date of publica on barring excep onal circumstances. The online availability of the document implies permanent permission for anyone to read, to download, or to print out single copies for his/hers own use and to use it unchanged for non-commercial research and educa onal purpose. Subsequent transfers of copyright cannot revoke this permission. All other uses of the document are condi onal upon the consent of the copyright owner. The publisher has taken technical and administra ve measures to assure authen city, security and accessibility. According to intellectual property law the author has the right to be men oned when his/her work is accessed as described above and to be protected against infringement. For addi onal informa on about the Linköping University Electronic Press and its procedures for publica on and for assurance of document integrity, please refer to its www home page: h p://www.ep.liu.se/.

(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
(17)

countries− 1

(18)
(19)
(20)

DFmiss

DFimputed

DFmiss

(21)

K= 1

C1= 2 − 1 = 1

C2= 3 − 5 = −2

(22)
(23)

Euclidean(x, x′) = √ (x1− x′1) 2+ (x 2− x′2) 2+ . . . + (x n− x′n) 2 x′ x ˆ Y(x) = 1 kxi∈Nk(x)yi Nk(x) yi ˆ Y(x) PKN N PKN N= + PKN N≥ 0.5 PKN N≥ p p 0≤ p ≤ 1 p

(24)

= P(Y = 1∣Xi) 1− P(Y = 1∣Xi) P(Y = 1∣Xi) Y = 1 ln( p(Y = 1∣Xi) 1− p(Y = 1∣Xi)) = XiTθ Xi θ θ0, θ1, θ2...θk k Xi

xi,0, xi,1, xi,2, ..., xi,k xi,0= 1 P(Y = 1∣Xi)

ln( p(Y = 1∣Xi) 1− p(Y = 1∣Xi)) = XiTθ ⇒ p(Y = 1∣Xi) = eXiTθ 1+ eXT iθ p(Y = 1∣Xi) = eXT iθ 1+ eXT iθ ⇒ p(Y = 1∣X i) = 1 1+ e−XiTθ θ p(Y = 1∣Xi)

(25)

ˆ θl= argmin θ { 1 2 N ∑ i=1(y i− θ0− p ∑ j=1 xijθj)2+ λ p ∑ j=1∣θ j∣} λ ˆ θl= argmaxθ0,θ{ N ∑ i=1[y i(θ0+ θTxi) − log(1 + eθ0+θ Tx i)] − λ p ∑ j=1∣θ j∣} ˆ θr= argmin θ { N ∑ i=1(y i− θ0− p ∑ j=1 xijθj)2+ λ p ∑ j=1 θ2j} ˆ θr= argmaxθ0,θ{ N ∑ i=1[y i(θ0+ θTxi) − log(1 + eθ0+θ Tx i)] − λ p ∑ j=1 θj2}

(26)

wTX+ b = 1 wTX+ b = −1 w wTX+ b = 0 min ξn 1 2 w Tw+ CN n=1 ξn wTxiyn≥ 1 − ξn ξn≥ 0 ξn yn ξn= max(1 − wTxnyn) ξn= max(1 − wTxnyn, 0)2

(27)

→ → ξ ξ p(y = 1∣S(x)) = 1 1+ eAS(x)+B p(y = 1∣S(x)) S(x) t= 1 t= −1 yi= t+ 1 2

(28)

argmin A,B { − N ∑ i=1(y ilog(pi) + (1 − yi)log(1 − pi)} pi ˆ pmk= 1 Nmxi∑∈Rm I(yi= k)

(29)

Nm k(m) = argmaxkpˆmk classP robs.append(p2 mk) GIN Im 1− ∑classProbs S(x) = f(yi, f(S(x))) = m = argmin f n ∑ i=1 (yi− f(S(x)i))2 yi f(S(x)i) f f fi m S(x) S(x)

(30)
(31)

P recision= tp

tp+ fp Recall=

tp tp+ fn

F 1= 2precision⋅ recall

precision+ recall Accuracy=

tp+ tn tp+ tn + fp + fn

(32)

C T P F N

recall= C⋅ TP C⋅ TP + C ⋅ FN

(33)
(34)

Nk

Nk

Nk

(35)

Nk

(36)
(37)
(38)
(39)
(40)
(41)
(42)
(43)

=

(44)
(45)
(46)
(47)
(48)
(49)
(50)
(51)
(52)
(53)
(54)
(55)
(56)
(57)

r time→ ∞ r→ 0

(58)
(59)
(60)
(61)
(62)
(63)
(64)
(65)

S(x)iyi S(x)i

yi

S(x)i

Gi,i mi,i yi

∃ Gk,i−1 Gi,l mk,i−1≥ mi,l

Gk,i1 Gi,l Gk,l mk,l (∑ l i=kyi) (l−k+1) mk,l Gk,l

(66)
(67)
(68)

References

Related documents

One quarter of the additional arable land was allocated to ley crop production, which was used as a green manure in the sugar-beet crop... Arable land used for production of

Detta gäller så länge som in-spridning av strålning inte beaktas, dvs så länge som den strålning som sprids från partiklar/volymselement inte anses kunna reflekteras och bidra

This survey will also assist the CIGRE C4.47 PSR WG in directing the focus of Task Teams 2 and 3 towards practical issues in order to maximise the impact

Uppsatsen syftar till att förklara om det finns ett samband mellan grundarnas humankapital i form av tidigare entreprenöriella erfarenheter, tidigare erfarenheter av startupföretag,

In particular robotic systems with symbolic components need to solve the anchoring problem in order to connect the information present in symbolic form with the sensor data that

The ideas presented here builds generally on a long history of work with mobile services [6] but more specifically on a diary study of Internet use from cell phones [9] and

Några av slutsatserna från dessa studier är att jordbrukstraktorns transmission drabbas av mer än hälften av haverierna och att kostnaderna för transmissionshaverier uppgår

It can be observed from Table 4.3 that among the cases of pulse data, when all features are used, the system retrieves cases of same subject 92.5% times within 5 nearest neighbor