Generaliserad Tikhonovregularisering - EXAMENSARBETEN I MATEMATIK MATEMATISKA INSTITUTIONEN, ST

E^1/3δ^2/3. 2.3 Generaliserad Tikhonovregularisering

En m¨ojlig generalisering av Tikhonovfunktionalen J_α ¨ar funktionalen

Gα(x) = Gα(x; y) := ¹

2^{(kKx − yk}

2+ αhLx, xi), (24)

där x ∈ X, y ∈ Y är fixt och L är en linjär operator p˚a X. Vi förutsätter här att L är symmetrisk och strängt positiv. L˚at oss definiera det sistnämnda begreppet tillsammans med n˚agra ytterligare:

Definition 2.3.1. L˚at A vara en linj¨ar operator p˚a X. S¨att

λ_min(A) := inf

kxk=1hAx, xi

Vi säger att A är positivt semidefinit om λ_min(A) ≥ 0 och strängt positiv om sträng olikhet r˚ader.

Vi säger ocks˚a att en linjär operator A är positivt definit om

hAx, xi > 0,

för alla x 6= 0, x ∈ X. I det ändligt-dimensionella fallet är detta dock ekvivalent med att A är strängt positiv. Vidare är först˚as

inf

kxk=1hAx, xi = min

kxk=1hAx, xi.

Sats 2.3.1. L˚at B vara en linj¨ar operator p˚a X. Uttrycket

kKx − yk²+ αkBxk² (25)

kan d˚a skrivas om p˚a formen (24), för n˚agon positivt semidefinit symmetrisk operator L. Omvänt, givet den positivt semidefinita symmetriska operatorn L existerar det en linjär operator B p˚a X s˚adan att (24) kan skrivas om p˚a formen (25).

Anmärkning. Villkoret att B är en linjär operator kan försvagas lite. Det g˚ar ocks˚a bra med en linjär avbildning B : X −→ Z, där Z är ett euklidiskt rum, för vilken vi liksom i beviset sätter L = B^∗B.

Bevis. För den första implikationen sätt L = B^∗B. Vi har d˚a att

kBxk² = hBx, Bxi = hB^∗Bx, xi = hLx, xi.

För den andra implikationen, l˚at λ1, . . . , λn vara (den ordnade) följden av egenvärden till L räknade med multiplicitet. Eftersom L är symmetrisk ¨

ar matrisen [L] diagonaliserbar (i godtycklig ON-bas f¨or X) , med

[L] = T^tDT

för n˚agon n × n-matris T , där D = diag(λ1, . . . , λn). Eftersom L är positivt semidefinit är alla egenvären till L icke-negativa. Allts˚a kan vi bilda en linjär operator B med

[B] =^√DT (i den givna ON-basen f¨or X). Vi f˚ar att

[B^∗B] = [B]^t[B] = T^t( √

D)²T = [L].

Allts˚a ¨ar L = B^∗B.

Nu l˚ater vi f¨or ett godtyckligt y ∈ Y

Rα(y) := argmin_x∈XGα(x)

(där argmin definieras s˚asom i föreg˚aende avsnitt). V˚ar m˚alsättning är att visa att denna definition ger en väldefinierad avbildning fr˚an Y till X och att familjen {Rα}_α>0 utgör en linjär regulariseringsstrategi för K. För detta utnyttjar vi en del elementär konvexitetsteori.

Definition 2.3.2. L˚at f : X −→ R. Vi s¨ager att f ¨ar konvex om f (θx1+ (1 − θ)x2) ≤ θf (x1) + (1 − θ)f (x2),

för alla x₁, x₂ ∈ X och θ ∈ [0, 1]. Funktionen f säges vara strängt konvex om olikheten är sträng närhelst x1 6= x₂ och θ ∈ (0, 1).

Sats 2.3.2. Om f : X −→ R är konvex, s˚a är varje lokal minimipunkt till f global. Om f är strängt konvex och har ett minimivärde, s˚a är minimi-punkten entydigt bestämd.

Bevis. L˚at x0 vara en lokal minimipunkt till f . Vi har d˚a att f (z) ≥ f (x0) för alla z ∈ U , där U är n˚agon omgivning till x₀. För ett godtyckligt x ∈ X gäller att punkten z = θx0 + (1 − θ)x ligger i U , för n˚agot 0 < θ < 1 tillräckligt nära 1. Allts˚a är

θf (x0) + (1 − θ)f (x) ≥ f (θx0+ (1 − θ)x) = f (z) ≥ f (x0),

Antag nu att f är strängt konvex och att x₀och x₁är minimipunkter. Vi ska visa att x0 = x1. Antag det motsatta, att x0 och x1 är distinkta punkter i X. L˚at 0 < θ < 1. D˚a är

f (θx0+ (1 − θ)x1) < θf (x0) + (1 − θ)f (x1) = f (x0),

en mots¨agelse.

Den naturliga normen || · || p˚a ett linjärt rum med skalärprodukt är konvex och dess kvadrat, allts˚a funktionen || · ||², är strängt konvex. Det-ta är enkla konsekvenser av definitionen av normen och räknelagarna för skalärprodukten. L˚at K : X −→ Y vara en injektiv linjär avbildning och l˚at y ∈ Y vara fixt. D˚a är funktionen kKx − yk² strängt konvex. L˚at nämligen x1 och x2 vara distinkta pukter i X och l˚at 0 < θ < 1. Vi har att

kK(θx₁+ (1 − θ)x2) − yk² = kθ(Kx1− y) + (1 − θ)(Kx₂− y)k² < θkKx₁− yk²+ (1 − θ)kKx₂− yk²,

eftersom Kx1− y 6= Kx₂− y.

Sats 2.3.3. L˚at Gα vara skriven p˚a formen (25). D˚a ¨ar Gα str¨angt konvex om N (K) ∩ N (B) = {0}.

Bevis. Vi p˚aminner oss om att funktionen || · ||² ¨ar str¨angt konvex. L˚at nu x₁ 6= x₂ vara punkter i X och l˚at 0 < θ < 1. Vi f˚ar d˚a att

Gα(θx1+ (1 − θ)x2) = ||K(θx1+ (1 − θ)x2) − y||²+ α||B(θx1+ (1 − θ)x2)||² = ||θ(Kx₁− y) + (1 − θ)(Kx₂− y)||2 + αkθBx1+ (1 − θ)Bx2k² ≤ (θkKx₁− yk²+ (1 − θ)kKx₂− yk²) + α(θkBx₁k²+ (1 − θ)kBx₂k²) = θGα(x1) + (1 − θ)Gα(x2),

med sträng olikhet om Kx1 − y 6= Kx₂ − y eller Bx₁ 6= Bx₂. Detta är ekvivalent med att K(x1 − x₂) 6= 0 eller B(x1 − x₂) 6= 0, vilket är fallet eftersom x₁ och x₂ är distinkta och vi antar att N (K) ∩ N (B) = {0}.

Om K är injektiv är först˚as villkoret i satsen uppfyllt. Vi är nu redo att visa att

Sats 2.3.4. R_α ¨ar en v¨aldefinierad avbildning fr˚an Y till X.

Bevis. Vi behöver ett litet hjälpresultat för detta bevis: det existerar c0> 0 s˚adant att

för alla x ∈ X. Enligt antagande är L strängt positiv. Sätt c₀ = λ_min(L) och l˚at x ∈ X vara godtyckligt. Vi kan skriva x p˚a formen x = ax0, för n˚agot a ∈ R och x0 ∈ X med kx₀k = 1. Vi har d˚a att

hLx, xi = hL(ax₀), ax0i = a²hLx₀, x0i

≥ a2c₀= a²c₀kx₀k2 = c₀kax₀k2 = c₀kxk2. Allts˚a g¨aller (26).

Av sats 2.3.3 följer att G_α är en strängt konvex funktional fr˚an X till R för varje fixt y ∈ Y . Av sats 2.3.2följer att en eventuell minimipunkt är entydigt bestämd. Nu gäller det allts˚a bara att visa att minimum faktiskt existerar, för att vi ska kunna dra slutsatsen att R_α är väldefinierad. (Ob-servera att sträng konvexitet inte implicerar att ett minimum existerar.) Av olikheten (26) följer att G_α(x) → +∞ d˚a kxk → ∞. Allts˚a kan vi välja ett slutet klot B kring 0 s˚adant att G_α(x) ≥ C för alla x utanför B, där C ∈ R. Om ett minimum existerar ligger det allts˚a i B. Existensen av ett minimum följer här av att B är en kompakt mängd i X och att G_αär kontinuerlig.

Sats 2.3.5. Avbildningarna Rα konvergerar punktvis mot identitetsopera-torn p˚a X, d v s,

R_αKx → x, d˚a α → 0, f¨or alla x ∈ X.

Bevis. L˚at x₀∈ X vara godtyckligt men fixt. Vi har att G_α(x; Kx₀) = kKx − Kx₀k²+ αhLx, xi

Den andra termen g˚ar mot noll, d˚a α g˚ar mot noll, och den f¨orsta termen ¨

ar oberoende av α. Eftersom kKx₀− Kx₀k2= 0 g¨aller allts˚a att lim

α→0R_αKx = lim

α→0argmin_x∈XG_α(x; Kx₀) = x₀.

Det ˚aterst˚ar för oss att visa att R_α är kontinuerlig. Vi p˚aminner oss till att börja med om sambandet mellan riktningsderivata och gradient (för bevis hänvisas läsaren till n˚agon lärobok i flervariabel analys).

Sats 2.3.6. Om f : Rⁿ −→ R ¨ar differentierbar i punkten x ∈ Rn och v ¨

ar en vektor i Rⁿ, s˚a existerar riktningsderivatan δ_vf (x) av f i punkten x i riktningen v. Dessutom ¨ar δ_vf (x) = ^d dτ^{f (x + τ v)} τ =0= h∇f (x), vi.

Sats 2.3.7. L˚at x0 ∈ Rn vara en lokal minimipunkt till funktionen f : Rⁿ −→ R och l˚at U vara en konvex minimiomgivning till x₀ för f . Antag vidare att f är differentierbar i x0. D˚a är

h∇f (x₀), x − x₀i ≥ 0, (27) f¨or alla x ∈ U .

Bevis. L˚at x ∈ U vara godtyckligt. D˚a U är konvex ligger även punkten x0+ τ (x − x0) = τ x + (1 − τ )x0 i U , för 0 ≤ τ ≤ 1. Eftersom x0 är ett lokalt minimum är

lim

τ →0+

f (x₀+ τ (x − x₀)) − f (x₀)

τ ^{≥ 0,}

där vi i högerledet har riktningsderivatan av f i punkten x₀ i riktningen (x − x0). Olikheten (27) följer av sats2.3.6.

Dessa satser kan genom isomorfi översättas till motsvarande satser för allmänna euklidiska rum.

Sats 2.3.8. Avbildningen R_α ¨ar kontinuerlig.

Bevis. Till att börja med ska vi beräkna gradienten till G_αför ett fixt y ∈ Y . För varje v ∈ X och τ ∈ R gäller att

G_α(x + τ v) = ¹ 2^{kK(x + τ v) − yk} 2+¹ 2^{αhL(x + τ v), x + τ vi} = ¹ 2^{(kKx − yk} 2+ τ²kKvk2+ 2τ hKx − y, Kvi) +¹ 2^{α(hLx, xi + τ hLx, vi + τ hLv, xi + τ} 2hLv, vi) = (¹ 2^{kKx − yk} 2+¹ 2^{αhLx, xi)} + τ (hKx − y, Kvi) + αhLx, vi) + τ²(¹ 2^kKvk 2+¹ 2^{αhLv, vi).}

(Här har vi ˚aterinfört skalfaktorn ¹₂ i det ursprungliga uttrycket för den generaliserade tikhonovfunktionalen för att bli av med en del 2:or som annars skulle finnas med i uttrycket för gradienten.) Derivering med avseende p˚a τ ger att

δvGα(x) = hKx − y, Kvi + αhLx, vi = hK^∗(Kx − y) + αLx, vi.

Av sats2.3.6f¨oljer att

∇G_α(x) = (K^∗K + αL)x − K^∗y. (28)

L˚at nu y0 ∈ Y vara fixt och l˚at följden yn→ y₀, n = 1, 2, 3, . . .. Sätt x0 = R_α(y₀) och x_n = R_α(y_n), n = 1, 2, 3, . . .. För att förenkla beteckningarna sätter vi G₀(x) = G_α(x; y₀) och G_n(x) = G_α(x; y_n), n = 1, 2, 3, . . .. Fr˚an sats 2.3.7har vi att

h∇G_n(x_n), x₀− x_ni ≥ 0, varf¨or h∇G_n(x_n), x_n− x₀i ≤ 0, och att h∇G₀(x₀), x_n− x₀i ≥ 0.

Allts˚a ¨ar

0 ≥ h∇Gn(xn), xn− x₀i − h∇G₀(x0), xn− x₀i

= h(K^∗K + αL)(x_n− x₀), x_n− x₀i − hK^∗(y_n− y₀), x_n− x₀i ≥ αc₀kx_n− x₀k²− kK^∗(yn− y₀)kkxn− x₀k,

där den sista olikheten följer av (26) och av att hK^∗Kx, xi = hKx, Kxi. Följaktligen är

kx_n− x₀k ≤ ¹ αc0

kK^∗(yn− y₀)k,

s˚a vi ser att x_n→ x₀, d˚a y_n→ y₀.

Sats 2.3.9. Avbildningen R_α ¨ar linj¨ar och kan skrivas p˚a den explicita for-men

Rα(y) = x, med

R_α= (K^∗K + αL)⁻¹K^∗. (29) Bevis. Minimipunkten till G_α(x) f¨or ett fixt y ∈ Y ges av ekvationen

∇G_α(x) = 0, vilket enligt (28) ¨ar ekvivalent med

(K^∗K + αL)x − K^∗y = 0. Detta ger l¨osningen

x^α= Rα(y) = (K^∗K + αL)⁻¹K^∗y.

L˚at oss försäkra oss om att operatorn K^∗K + αL är injektiv. Antag att αLx + K^∗Kx = 0. Skalärmultiplikation med x ger att

hαLx + K^∗Kx, xi = αhLx, xi + hKx, Kxi = 0, varav f¨oljer att x = 0.

Att R_α är linjär framg˚ar av att vi i högerledet av (29) har en sam-mansättning av idel linjära avbildningar.

In document EXAMENSARBETEN I MATEMATIK MATEMATISKA INSTITUTIONEN, STOCKHOLMS UNIVERSITET (Page 31-36)