Master Thesis in Statistics and Data Mining
Detection of high-risk shops in
e-commerce
Statistics for the 21th century
Rebin Hosini
Division of Statistics and Machine Learning
Department of Computer and Information Science
Linköping University
ii
Supervisor
Per Sidén
Examiner
Jose M. Peña
Upphovsrä
De a dokument hålls llgängligt på Internet – eller dess fram da ersä are – under 25 år från pub-liceringsdatum under förutsä ning a inga extraordinära omständigheter uppstår. Tillgång ll doku-mentet innebär llstånd för var och en a läsa, ladda ner, skriva ut enstaka kopior för enskilt bruk och a använda det oförändrat för ickekommersiell forskning och för undervisning. Överföring av upphovsrä en vid en senare dpunkt kan inte upphäva de a llstånd. All annan användning av doku-mentet kräver upphovsmannens medgivande. För a garantera äktheten, säkerheten och llgäng-ligheten finns lösningar av teknisk och administra v art. Upphovsmannens ideella rä innefa ar rä a bli nämnd som upphovsman i den omfa ning som god sed kräver vid användning av dokumentet på ovan beskrivna sä samt skydd mot a dokumentet ändras eller presenteras i sådan form eller i så-dant sammanhang som är kränkande för upphovsmannens li erära eller konstnärliga anseende eller egenart. För y erligare informa on om Linköping University Electronic Press se förlagets hemsida h p://www.ep.liu.se/.
Copyright
The publishers will keep this document online on the Internet – or its possible replacement – for a period of 25 years star ng from the date of publica on barring excep onal circumstances. The online availability of the document implies permanent permission for anyone to read, to download, or to print out single copies for his/hers own use and to use it unchanged for non-commercial research and educa onal purpose. Subsequent transfers of copyright cannot revoke this permission. All other uses of the document are condi onal upon the consent of the copyright owner. The publisher has taken technical and administra ve measures to assure authen city, security and accessibility. According to intellectual property law the author has the right to be men oned when his/her work is accessed as described above and to be protected against infringement. For addi onal informa on about the Linköping University Electronic Press and its procedures for publica on and for assurance of document integrity, please refer to its www home page: h p://www.ep.liu.se/.
countries− 1
DFmiss
DFimputed
DFmiss
K= 1
C1= 2 − 1 = 1
C2= 3 − 5 = −2
Euclidean(x, x′) = √ (x1− x′1) 2+ (x 2− x′2) 2+ . . . + (x n− x′n) 2 x′ x ˆ Y(x) = 1 kxi∈N∑k(x)yi Nk(x) yi ˆ Y(x) PKN N PKN N= + PKN N≥ 0.5 PKN N≥ p p 0≤ p ≤ 1 p
= P(Y = 1∣Xi) 1− P(Y = 1∣Xi) P(Y = 1∣Xi) Y = 1 ln( p(Y = 1∣Xi) 1− p(Y = 1∣Xi)) = XiTθ Xi θ θ0, θ1, θ2...θk k Xi
xi,0, xi,1, xi,2, ..., xi,k xi,0= 1 P(Y = 1∣Xi)
ln( p(Y = 1∣Xi) 1− p(Y = 1∣Xi)) = XiTθ ⇒ p(Y = 1∣Xi) = eXiTθ 1+ eXT iθ p(Y = 1∣Xi) = eXT iθ 1+ eXT iθ ⇒ p(Y = 1∣X i) = 1 1+ e−XiTθ θ p(Y = 1∣Xi)
ˆ θl= argmin θ { 1 2 N ∑ i=1(y i− θ0− p ∑ j=1 xijθj)2+ λ p ∑ j=1∣θ j∣} λ ˆ θl= argmaxθ0,θ{ N ∑ i=1[y i(θ0+ θTxi) − log(1 + eθ0+θ Tx i)] − λ p ∑ j=1∣θ j∣} ˆ θr= argmin θ { N ∑ i=1(y i− θ0− p ∑ j=1 xijθj)2+ λ p ∑ j=1 θ2j} ˆ θr= argmaxθ0,θ{ N ∑ i=1[y i(θ0+ θTxi) − log(1 + eθ0+θ Tx i)] − λ p ∑ j=1 θj2}
wTX+ b = 1 wTX+ b = −1 w wTX+ b = 0 min ξn 1 2 w Tw+ C∑N n=1 ξn wTxiyn≥ 1 − ξn ξn≥ 0 ξn yn ξn= max(1 − wTxnyn) ξn= max(1 − wTxnyn, 0)2
→ → ξ ξ p(y = 1∣S(x)) = 1 1+ eAS(x)+B p(y = 1∣S(x)) S(x) t= 1 t= −1 yi= t+ 1 2
argmin A,B { − N ∑ i=1(y ilog(pi) + (1 − yi)log(1 − pi)} pi ˆ pmk= 1 Nmxi∑∈Rm I(yi= k)
Nm k(m) = argmaxkpˆmk classP robs.append(p2 mk) GIN Im 1− ∑classProbs S(x) = f(yi, f(S(x))) = m = argmin f n ∑ i=1 (yi− f(S(x)i))2 yi f(S(x)i) f f fi m S(x) S(x)
P recision= tp
tp+ fp Recall=
tp tp+ fn
F 1= 2precision⋅ recall
precision+ recall Accuracy=
tp+ tn tp+ tn + fp + fn
C T P F N
recall= C⋅ TP C⋅ TP + C ⋅ FN
Nk
Nk
Nk
Nk
=
r time→ ∞ r→ 0
S(x)iyi S(x)i
yi
S(x)i
Gi,i mi,i yi
∃ Gk,i−1 Gi,l mk,i−1≥ mi,l
Gk,i1 Gi,l Gk,l mk,l (∑ l i=kyi) (l−k+1) mk,l Gk,l