• No results found

Technická univerzita Liberec Fakulta mechatroniky, informatiky a mezioborových studií

N/A
N/A
Protected

Academic year: 2022

Share "Technická univerzita Liberec Fakulta mechatroniky, informatiky a mezioborových studií"

Copied!
49
0
0

Loading.... (view fulltext now)

Full text

(1)

Technická univerzita Liberec

Fakulta mechatroniky, informatiky a mezioborových studií

Studijní program: N2612  Elektrotechnika a informatika Studijní obor: 1802T007  Informa£ní technologie

Zhodnocení Wikipedie jako zdroje informací

Valuation of Wikipedia as information source

DIPLOMOVÁ PRÁCE

Vypracovala: Hana Teubelová

Vedoucí práce: Mgr. Milan Ker²láger

(2)

Prohlá²ení

Byla jsem seznámena s tím, ºe na mou diplomovou práci se pln¥ vztahuje zákon

£. 121/2000 Sb. o právu autorském, zejména Ÿ 60  ²kolní dílo.

Beru na v¥domí, ºe Technická univerzita v Liberci (TUL) nezasahuje do mých autorských práv uºitím mé diplomové práce pro vnit°ní pot°ebu TUL.

Uºiji-li diplomovou práci nebo poskytnu-li licenci k jejímu vyuºití, jsem si v¥doma povinnosti informovat o této skute£nosti TUL; v tomto p°ípad¥ má TUL právo ode mne poºadovat úhradu náklad·, které vynaloºila na vytvo°ení díla, aº do jejich skute£né vý²e.

Diplomovou práci jsem vypracovala samostatn¥ s pouºitím uvedené literatury a na základ¥ konzultací s vedoucím diplomové práce s konzultantem.

V Liberci dne ... ...

(3)

Pod¥kování

D¥kuji Mgr. Milanu Ker²lágerovi za vedení mé diplomové práce a za podn¥tné návrhy, které ji obohatily.

(4)

Název práce:

Zhodnocení Wikipedie jako zdroje informací

Autor: Hana Teubelová

Obor: N2612  Elektrotechnika a informatika Druh práce: Diplomová práce

Vedoucí práce: Mgr. Milan Ker²láger

Konzultant: 

Abstrakt: Wikipedie je v sou£asnosti velmi známou a oblíbenou internetovou encyklopedií. Mnoho lidí se na ní kaºdodenn¥ obrací, ale jen málokdo dokáºe objektivn¥ zhodnotit, zda-li se dá brát jako v¥rohodný zdroj informací. ƒtená°i se seznámí s Wikipedií jako encyklopedií pro vyhledávání informací, ale také se dov¥dí o moºnostech jejího roz²í°ení £i opravování a jak se £lánky naloºit, aby po editování spí²e projektu neu²kodili neº-li ho vylep²ili. Práce se také zabývá problémem vandalství a navrhuje moºná vylep²ení jak celého projektu, tak i p°ístupu jednotlivc·. Praktická £ást je v¥nována robot·m ve Wikipedii. Pro mou práci mají za úkol porovnat anglickou a n¥meckou Wikipedii s £eskou podle po£tu £lánk·, vnit°ních odkaz· a pahýl·. Dal²í robot je zam¥°en na opravu chyb ve Wikipedii.

ƒtená° zde nalezne postup k vytvo°ení a nasazení takového bota na Wikipedii.

Klí£ová slova: Wiki, Wikipedie, encyklopedie, robot

(5)

Title:

Valuation of Wikipedia as information source

Author: Hana Teubelová

Abstract: Wikipedia is very known internet encyklopedia in the present. Lots of people are searching here for information every day, but only few of them are able to say if it is a credible information source. Readers learn more about Wikipedia as encyklopedia and also about its extension and correction possibilities, or how to work with the articles. Work deals also with the vandalism problem and suggests some improvements of the whole Wikipedia project. Practical part follow the robots in Wikipedia. For my work they have to compare english, german and czech version of Wikipedia according to the number of articles, inner references and stubs. The next robot is correcting mistakes in Wikipedia. In this work readers can nd out how to create and run such a robot on Wikipedia.

Key words: Wiki, Wikipedia, encyclopedia, robot

(6)

Obsah

Úvod 9

1 Co je Wikipedie 10

1.1 Historie anglické verze Wikipedie . . . 10

1.2 Historie £eské verze Wikipedie . . . 11

1.3 Software UseModWiki . . . 12

1.4 Software MediaWiki . . . 13

1.5 Jak psát do Wikipedie . . . 13

2 ƒlánky na Wikipedii 18 2.1 Druhy £lánk· . . . 18

2.2 Hodnocení £lánk· . . . 20

2.3 Uºivatelé Wikipedie . . . 21

2.4 Vandalismus na Wikipedii . . . 23

2.4.1 Druhy vandalství . . . 24

2.4.2 Boj proti vandal·m . . . 24

2.5 Projekty pro korekci Wikipedie . . . 25

3 Pouºité technologie 27 3.1 C# . . . 27

(7)

3.2 DotNetWikiBot Framework . . . 28

3.3 Microsoft Visual Studio 2005 . . . 28

3.4 Kongurace . . . 29

4 Porovnání úrovn¥ poskytovaných informací na Wikipedii 30 4.1 Porovnání Wikipedie s ostatními encyklopediemi . . . 30

4.1.1 Kniºní vydání . . . 30

4.1.2 Elektronické encyklopedie . . . 31

4.2 Automatické porovnání anglické a n¥mecké Wikipedie s £eskou . . . . 33

4.2.1 Zji²t¥né hodnoty . . . 34

4.2.2 Vyhodnocení zji²t¥ných dat . . . 34

5 Roz²í°ení a korekce £lánk· 36 5.1 Vytvo°ení robota na Wikipedii . . . 36

5.1.1 Instalace MediaWiki 1.6.12 . . . 36

5.1.2 Popis funkce robota . . . 40

5.2 Návrh postupu roz²í°ení Wikipedie . . . 42

5.2.1 P°ístup k uºivatel·m . . . 42

5.2.2 Podpora projekt· na Wikipedii . . . 44

5.2.3 Vyhledávání . . . 44

5.2.4 Dopln¥ní pahýl· . . . 45

Záv¥r 46

Seznam pouºitých zdroj· 48

Obsah CD 50

(8)

Úvod

Kaºdý z nás hledá informace jiným zp·sobem. Ti, kte°í mají p°ístup k internetu, je £asto vyhledávají prost°ednictvím r·zných virtuálních encyklopedií. Jednou z nej- roz²í°en¥j²ích se postupem £asu stala Wikipedie, mnohojazy£ná webová encyklopedie, jeº je neustále roz²i°ována dobrovolnými p°isp¥vovateli z celého sv¥ta.

Mnozí z nás mají v²ak s touto encyklopedií i neblahé zku²enosti v podob¥ neúplných, zcela mylných £lánk·, nebo v ní nelze n¥které informace dohledat.

I já se k této encyklopedii £asto obracím jako ke zdroji informací, které vyuºívám nejen pro studium. V¥t²inou je je²t¥ pot°eba £lánek porovnat s jeho cizojazy£nou verzí, pro d·v¥ryhodnost informací. Proto bych vás cht¥la v této diplomové práci nejen s Wikipedií seznámit, ale také objektivn¥ £lánky ve Wikipedii zhodnotit, doplnit a opravit.

(9)

Kapitola 1

Co je Wikipedie

Wikipedie je multijazy£ná encyklopedie, do které mohou uºivatelé libovoln¥ p°ispí- vat. Název Wikipedie vznikl sloºením slov wiki a encyklopedie. Wiki se pouºívá pro ozna£ení web·, ve kterých m·ºe kdokoliv p°idávat, £i upravovat jejich obsah.

Wiki dokumenty se vytvá°í pomocí jednoduchého zna£kovacího jazyka za pouºití webového prohlíºe£e.

1.1 Historie anglické verze Wikipedie

První wiki stránky se datují do roku 1995. Naprogramoval je Ward Cunningan a byly nazvány WikiWikiWeb. Tento web mohl být kýmkoliv upravován. Cunningenova my²lenka nazvat své stránky WikiWikiWeb vznikla po nav²tívení Havaje, kde slova wiki wiki vyjad°ují autobusovou kyvadlovou dopravu na leti²ti v Honolulu.[6]

P°edch·dcem Wikipedie se v²ak stala jiná encyklopedie, Nupedia, zaloºena Jimmym Walesem. Rodák z Albamy, narozen roku 1966, se poprvé s po£íta£em dostal do styku na st°ední ²kole, poté také na Auburn University a University of Albama. Postupem

£asu pracoval jako manaºer v Chicagu. Jeho úsp¥ch mu umoºnil v¥novat se jeho zájm·m v po£íta£ích a p°edev²ím v internetu. Po spu²t¥ní portálu Bomis, který byl zam¥°ený na pop kulturu, za£al v roce 2000 realizovat my²lenku otev°ené interne- tové encyklopedie, Nupedie. Ta byla spu²t¥na v roce 2000 a ukon£ena v roce 2003.

Tato encyklopedie v²ak nemohla být ve°ejn¥ upravována, kv·li srovnatelné kvalit¥

(10)

s ostatnímy encyklopediemi. Do Nupedie psali pouze experti z daných odv¥tví a nejlépe s titulem Phd.. Jako editor Nupedie byl zam¥stnán Larry Sanger, který o rok pozd¥ji navrhl, aby se vyuºilo nástroj· wiki. [8]

V roce 2001 byla, sou£asn¥ s Nupedií, poprvé spu²t¥na anglická verze Wikipedie, encyklopedie do níº má p°ístup kdokoliv, kdo má zájem p°idávat nová hesla. Kaºdá stránka m·ºe být kýmkoliv upravována, a to z d·vodu co nejv¥rn¥j²ího obsahu. N¥k- te°í uºivatelé v²ak mají snahu o jejich znehodnocení a upravují £lánky do nesmyslné podoby, vytvá°ejí stránky s ktivními informacemi a provád¥jí operace, které Wiki- pedii nep°idávájí na dobrém jménu.

Wikipedie nejprve byla zaloºena na systému UseModWiki, wiki softwaru napsaným Cliordem Adamsem v programovacím jazyce Perl. Pozd¥ji v²ak p°e²la na vlastní software s otev°eným kódem, na po£átku wiki engine, napsaný v PHP s databází MySQL vytvo°ený Magnusem Manskem, který nyní pouºívá i mnoho dal²ích wiki.

Nyní je to kód MediaWiki napsaný Lee Danielem Crockerem.

V roce 2005 fungovala celá Wikipedia na 39 serverech umíst¥ných na Florid¥. Nyní je to 300 server· na Florid¥, 26 v Amsterdamu a 23 v Koreji.

Anglická verze Wikipedie je nejv¥t²í sv¥tovou encyklopedií se svými více jak 11 milióny stránek. N¥mecká verze je na míst¥ druhém. Proto v¥t²inu informací naleznete v anglické £i n¥mecké verzi Wikipedie.

Jimmy Wales zaloºil v roce 2003 nadaci Wikimedia, jeº neprovozuje jen Wikipedii, ale i dal²í projekty jako Wikislovník a tezaurus, úloºi²t¥ volných dokument· Wiki- Source, sdílenou sbírku multimediálních soubor· Wikimedia Commons, otev°ené zprávy Wikizprávy, Wikicitáty a Wikiknihy.[1]

1.2 Historie £eské verze Wikipedie

ƒeská verze Wikipedie byla zaloºena 3. kv¥tna 2002 Miroslavem Malovcem, který se stal aº do prosince roku 2003 správcem Wikipedie. V této dob¥ v²ak pouºívala soft- ware UseMod. P°i p°echodu na MediaWiki se nezachovaly ºádné £lánky zve°ejn¥né pod softwarem UseMod.

(11)

Dal²ím správcem se stal Vít Zvánovec, který stanovil dal²ích 11 správc·. V roce 2005 byl tento správce nedobrovoln¥ odvolán.[3]

Správcem musí být zku²ený uºivatel Wikipedie, který dokáºe ostatním uºivatel·m poradit v jakékoliv situaci a navíc je mu umoºn¥no provád¥t údrºbá°ské £innosti.

Musí mít zve°ejn¥ných alespo¬ 250 £lánk· a alespo¬ t°i m¥síce musí být aktivní v projektu. Pokud správce vytrvá ve své funkci alespo¬ 6 m¥síc·, m·ºe poºádat o práva byrokrata. Ten m·ºe m¥nit uºivatel·m úrove¬ uºivatelských práv.

10. dubna 2004 se konalo první wiki-setkání. V této dob¥ se £eská Wikipedie za£ala hojn¥ rozr·stat, jak po£tem £lánk·, tak i po£tem p°isp¥vovatel·.

Wikipedisté se scházejí na míst¥ zvaném Pod Lípou, kde vedou diskuse o obecn¥j²ích v¥cech týkajících se Wikipedie. Sem se m·ºete obracet se svými problémy, ºádostmi a oznámeními.

V roce 2004 £eská Wikipedie dosáhla hranice 3 tisíce £lánk· a v²echna softwarová hlá²ení byla p°eloºena do ƒe²tiny. 18. ledna 2009 Wikipedie obsahuje p°es 100 tisíc

£lánk·, 58 533 registrovaných uºivatel· a 1 933 je aktivních uºivatel·, kte°í p°isp¥li do Wikipedie v posledních 30 dnech.

ƒeská verze Wikipedie je na 20. míst¥ v po£tu £lánk· z více neº 250. jazykových verzí. Je 24x men²í neº anglická verze a 8x men²í neº n¥mecká. V roce 2006 p°ipadlo na 1 tisíc ƒech· 2,5 £lánku, v roce 2009 je to 11,8 £lánk·.[2]

1.3 Software UseModWiki

Tento software pro wiki byl vytvo°ený Cliordem Adamsem v letech 1999  2000 v jazyce Perl. Do roku 2002 byl pouºíván ve v²ech verzích Wikipedie. Jednotlivé stránky v tomto systému byly uloºeny v jednoduchých textových souborech. Produkt je licencovaný jako svobodný software pod GNU General Public License.

(12)

1.4 Software MediaWiki

MediaWiki je wiki systém, na kterém nyní b¥ºí Wikipedia a dal²í projekty nadace Wikimedia. Je to svobodný software pod licencí GNU General Public License. Autor Magnus Manske napsal software v PHP za pouºití databáze MySQL, nebo Post- greSQL. P°i uloºení stránky MediaWiki ji zapí²e do databáze, ale p°itom zachovává p°edchozí verze, £ímº je lze vrátit do p·vodního stavu v p°ípad¥ vandalismu, nebo spamování. MediaWiki je pro uºivatele velmi vst°ícná, lze v ní napsat jakýkoliv text a pomocí LATEXu i sloºité vzorce.[4]

1.5 Jak psát do Wikipedie

Psaní a editování £lánk· ve Wikipedii má svá daná pravidla. Autor £lánku by m¥l mít dostate£n¥ objektivní p°ístup a pot°ebné ov¥°ené informace k tématu, o kterém pí²ete. Protoºe je Wikipedie otev°ená encyklopedie, m·ºe být p°i p°í- padných pravopisných chybách, £i nep°esnostech £lánek opraven dal²ími uºivateli.

Kaºdý £lánek se stává po zapsání do Wikipedie její stránkou. ƒlánek by m¥l mít podobu encyklopedického hesla.

Základním funk£ním prvkem wikistránky je tla£ítko editovat, které vám otev°e edi- ta£ní okno se zdrojovým textem stránky. Ten po jeho upravení m·ºete uloºit, £ímº se jeho úpravy ihned zve°ejní. V edita£ním oknu se neupravuje p°ímo HTML kód, ale zdrojová podoba wikitextu, jehoº základní syntax je vypsán na dal²í stránce.

(13)

Obrázek 1.1: Editovaná stránka ve Wikipedii

P°i kaºdém psaní nového £lánku by autor nem¥l zapomenout na infobox, nebo obrázek k danému £lánku, pokud ho má k dispozici, krátký úvod, vlastní text £lánku rozd¥lený do sekcí a podsekcí, a literaturu, odkud p°i psaní £erpal. Na záv¥r doplní seznam kategorií a mezijazykové odkazy.[5]

Pokud autor napí²e velmi krátký £lánek, nebo takový, který dostate£n¥ nepopisuje název £lánku, je nazván pahýlem a m¥l by být dopln¥n. Jako pahýly by nem¥ly být ozna£eny £lánky, které dokáºe upravit pouze odborník. Subpahýly jsou neúplné informace o daném tématu, zpravidla n¥kolika slovné. Bývají mnohem krat²í neº pahýly a v této form¥ by nem¥ly setrvat del²í dobu. Pokud autor nechce, aby byl subpahýl smazán, m¥l by ho co nejd°íve doplnit alespo¬ na pahýl, nebo korektní

£lánek.

Syntaxe v systému MediaWiki

Wikipedie pouºívá systém MediaWiki, jenº je navrºen pro velké mnoºství uºivatel· a stránek bez omezení funk£nosti a rychlosti. P°i psaní do Wikipedie je proto pot°eba pouºívat danou syntaxi.

(14)

Syntax v systému MediaWiki Výstup

slovo slovo

'slovo' slovo

'slovo' slovo

 vrátí jméno uºivatele

 vrátí jméno uºivatele a datum/£as

 vrátí datum/£as

== hlavi£ka sekcí == d¥lí text do sekcí

=== podsekce === zna£í podsekce

==== men²í podsekce ==== zna£í malé podsekce

*slovo

slovo

**slovo

slovo

***slovo

slovo

*: pokra£ování p°ede²lé odráºky

* ukon£ení jednoduché odráºky, dal²í * zna£í za-

£átek dal²í jednoduché odráºky

#slovo

1. slovo

##slovo

1. slovo

: odsazení

:: dvojnásobné odsazení  p°idáním dal²ích

p°idáme dal²í odsazení

[[odkaz]] zna£í hypertextový odkaz

Normální text<small>malý text</small> Normální textmalý text

Normální text<big>velký text</big> Normální text

velký text

x<sub>1</sub> x1

x<sup>1</sup> x1

Tabulka 1.1: Syntax v systému MediaWiki

(15)

Obrázek 1.2: Editace stránky

(16)

Obrázek 1.3: Náhled editované stránky

(17)

Kapitola 2

ƒlánky na Wikipedii

2.1 Druhy £lánk·

Ve Wikipedii je £lánek denován jako stránka obsahující encyklopedickou £i al- manachovitou informaci. Ne v²echny stránky na Wikipedii lze za°adit mezi £lánky.

ƒlánkem nelze nazvat hlavní stranu, rozcestníkové stránky nebo stránky, které p°es- m¥rovávají na jiné stránky. Ostatní £lánky lze rozd¥lit:

• £lánek  subpahýl  není povaºován za encklopedicky p°ínosný, je velmi krátký a nejedná se o vandalismus

• £lánek  pahýl  chybí mu ur£itá informace, aby mohl být brán za kompletní encyklopedické heslo

• £lánek  základní úrove¬ encyklopedického hesla a obsahuje v²echny informace vystihující heslo

• dobrý £lánek  spl¬uje kritéria vydaná WikiProjektem: Kvalita

• nejlep²í £lánek  nepatrné mnoºství £lánk·, které spl¬ují aktuální poºadavky komunity nebo kritéria skupiny wikipedist·, jeº se t¥mito £lánky zabývají, na vzhled nejlep²ích £lánk·

(18)

Obrázek 2.1: Vývoj po£tu £lánk· [11]

Obrázek 2.2: Vývoj po£tu £lánk· p°idaných za jeden den [11]

Vytvo°it £lánek na Wikipedii lze n¥kolika zp·soby:

• Kliknutím na £ervený odkaz, který m·ºete najít kdekoliv na Wikipedii.

• Pokud vyhledáva£ ve Wikipedii nenajde vámi zadaný název £lánku, zobrazí se text "Vytvo°te stránku".

• Vytvo°ením vnit°ního odkazu na stránce tak, aby se za£lenil do textu. Poté se otev°e editace £lánku p°i kliknutí na tento £erven¥ ozna£ený odkaz.

• Vloºením do adresního °ádku prohlíºe£e http://cs.wikipedia.org/wiki/Téma, kde Téma je jméno £lánku, který chcete zaloºit. Objeví se prázdná stránka dosud neexistujícího £lánku.

(19)

2.2 Hodnocení £lánk·

V dubnu roku 2006 zkoumal £lánky a tématické oblasti ve Wikipedii wikipedista Cinik. T°etina £lánk· byla vyhodnocena jako dobrá, dal²í t°etina jako pahýly a zbytek byly subpahýly, nebo £lánky vyºadující zásadní úpravy. 20 % v²ech témat byly matematické, zem¥d¥lské a p°írodov¥dné stránky, 13 % astronomie a geograe, 4 % historické a 17 % ºivotopisné £lánky, 10 % sport, náboºenství a um¥ní, 9 % stavby a technika, 11 % ostatní témata, 4 % rozcestníky a 11 % p°ehledové £lánky s letopo£ty a daty. Kvalitativn¥ se nejvý²e za°adily £lánky z oblasti p°írodních v¥d a techniky, naopak nejníºe se umístili £lánky z oblasti humanitních v¥d vyjma náboºenství, tedy z psychologie, sociologie, politiky, losoe a práva.

Po necelých £ty°ech letech jsem podobný pr·zkum provedla znovu. Zam¥°ení £lánk·

jsem zji²´ovala dle tematických portál· do kterých £lánek pat°í. Kaºdý £lánek m·ºe pat°it pod více portál·, ale také nemusí být pod portálem ºádným. Vycházela jsem z kategorií, které jsou uvedeny vºdy na konci stránky. Kaºdá z kategorií m·ºe pat°it do jiných kategorií, £i portál·. Nejvy²²ím stupn¥m jsou základní kategorie.

Obrázek 2.3: Hierarchie kategorií

Protoºe kaºdý £lánek m·ºe pat°it pod více portál·, je zde uvedeno v procentech, kolik £lánk· z celkového po£tu je uvedeno pod daným portálem. 53 % £lánk· je za°azeno pod portálem Historie, 43 % £lánk· pod portálem Ekonomie, 47 % pod Astronomii, 46 % pod Fyziku, 40 % Právo, 36 % Válku, 28 % Um¥ní a stejn¥ má i Biologie, 23 % Kulturu, 22 % Filosoi, 16 % Jazyk, 15 % Itálii, 14 % Literaturu,

(20)

Hodnocením kvality 100 nejsledovan¥j²ích £lánk· £eské Wikipedie zkoumá i projekt

£eské Wikiverzity Hodnocení kvality (top 100). Výzkum je provád¥n £leny WikiPro- jektu:Kvalita, jenº by rád na základ¥ této studie vylep²il a zkvalitnil nejhor²í £lánky ze 100 nejsledovan¥j²ích na Wikipedii. ƒlánky jsou hodnoceny dle:

• NPOV  nezaujatý úhel pohledu

• Literatura

• Reference

• Úplnost

• Struktura

• Výklad

• Jazyk

• Formát

• ƒervené odkazy

• Úvod

• Obrázky

2.3 Uºivatelé Wikipedie

Základem funk£nosti Wikipedie jsou její uºivatelé. D¥lí se do n¥kolika skupin podle rozsahu svých oprávn¥ní. Práv¥ oni d¥lají z Wikipedie velmi rozsáhlou encyklopedii s milióny £lánk· ze v²emoºných odv¥tví, zabývají se °e²ením vandalism·, ale také radí, jak s Wikipedií zacházet.

Rozd¥lení uºivatel·:

• Registrovaní uºivatelé

(21)

• Roboti  automatické programy p·sobící na Wikipedii p°es její webové rozhraní

• Správci  uºivatelé mající povolen p°ístup k n¥kterým omezeným funkcím, nebo´ jsou povaºováni za d·v¥ryhodné

• Byrokraté  zárove¬ správci, ale navíc jsou jim prop·j£ena technická práva:

 pový²it jiné uºivatele na úrove¬ správce nabo byrokrata

 p°ejmenovat uºivatelské ú£ty

 ud¥lit £i odebrat uºivateli status bota

• Revizo°i  mohou ov¥°ovat z jaké IP adresy edituje p°ihlá²ený uºivatel a vypsat v²echny uºivatele pouºívající IP adresu. Tyto informace jsou ur£itou dobu uloºeny v databázi pro zabrán¥ní vandalismu. Minimáln¥ 2 revizo°i obsluhují

£eskou Wikipedii, aby kaºdý z nich mohl být kontrolován jiným revizorem.

• Stevardi  mohou libovoln¥ m¥nit uºivatelská práva libovolného uºivatele na libovolném projektu nadace Wikimedia. Modikují uºivatelské p°ístupy nebo mají p°ehled o uºivatelích, kte°í zneuºili p°ístup do Wikipedie. Stevardi se volí jednou ro£n¥.

• Importé°i  importují stránky z jiných wiki

• Schválení uºivatelé  od jejich registrace uplynuly 4 dny a sou£asn¥ p°isp¥l alespo¬ 10 p°ísp¥vky. Tento uºivatel získává práva

 Editace polozam£ených stránek

 Nahrávání existujících soubor·

 P°esun stránek

 Vykonávání akcí spojených s CAPTCHA (Turing·v test pouºívaný na webu pro automatické rozpoznání skute£ného uºivatele od robota) bez nutnosti jejího °e²ení

(22)

Obrázek 2.4: Vývoj po£tu uºivatel· [11]

Obrázek 2.5: Vývoj po£tu uºivatel· p°idaných za jeden den [11]

2.4 Vandalismus na Wikipedii

Stránky, které m·ºe kdokoliv upravovat bývají velmi £asto napadány vandaly. Do této skupiny se °adí v²ak i oby£ejní uºivatelé, kte°í ud¥lali p°i editování nepovolenou chybu, nebo si jen na zkou²ku zaloºili stránku se smy²leným obsahem. Více ²kody v²ak nad¥lají ti, jenº promy²leným zp·sobem znehodnocují stránky Wikipedie. Proti zakázaným editacím bojují správci mající práva na smazání vandalských £lánk·, ale i blokování uºivatel·.

(23)

2.4.1 Druhy vandalství

• Spam  vkládání odkaz·, které nesouvisí s daným £lánkem

• VandalBot  automatizované vkládání spamu nebo úmyslné ni£ení £lánk·

pomocí skriptu

• D¥tinský vandalismus  mazání obsahu stránek, p°idávání textu nesouvisejícího s £lánkem

• Hloupé vtípky  vkládání textu, jenº vypadá velmi v¥rohodn¥, nebo hoax·

• Lstivý vandalismus  seriózn¥ vypadající editace, které jsou p°esto nepravdivé a navíc podpo°eny jinými seriózními editacemi vandala

• Vandalismus formou p°esouvání stránek  vandal p°esouvá existující stránky na nová místa pod nesmyslnými £i uráºlivými jmény

• Napadání uºivatelských stránek  uráºky, jeº jsou vkládány na stránky ur£itého uºivatele (druh pomsty)

R·zné pokusy nová£k· nemusí vºdy být výsledn¥ vyhodnoceny jako vandalství.

Kaºdý uºivatel je na své vandalství upozorn¥n a má moºnost své po£ínání vysv¥tlit.

Pokud uºivatel na své vytvo°ené stránce najde ozna£ení NPOV, poru²ení nezaujatého úhlu pohledu, má op¥t moºnost se k tomuto na°£ení vyjád°it. [12]

Nejv¥t²ím problémem °e²ení konikt· mezi správci a na°£enými uºivateli bývá fakt, ºe v¥t²inou dialog mezi t¥mito osobami kon£í vysv¥tlením uºivatele, ale správce dále ml£í. Nastává otázka, jak se zbavit na°£ení a p°edpoklad·, ºe je uºivatel vandalem.

Tento fakt jsem si osobn¥ vyzkou²ela na stránce Hewlett-Packard. Text je tak°ka celý p°eloºen z anglické stránky, kde s ním nemají sebemen²í problém. Na £eské stránce byl v²ak text ozna£en za NPOV. Správce v²ak na vysv¥tlení obsahu £lánku nereagoval.

2.4.2 Boj proti vandal·m

Kaºdý uºivatel má moºnost v £lánku vrátit editaci. To je jedna z v¥cí, kterou m·ºe

(24)

bojují správci. Mnoho problém· se °e²í vloºením ²ablon do £lánku[12]:

• {{subst:Experimenty}}  první upozorn¥ní na vandalismus

• {{subst:Experimenty2}}  opakovaný vandalismus i p°es upozorn¥ní, p°idávání nesmysl·

• {{subst:Experimenty2o}}  opakovaný vandalismus i p°es upozorn¥ní, odstra¬ování obsahu

• {{subst:Experimenty3}}  opakovaný vandalismus i p°es mnohá upozorn¥ní, p°idávání nesmysl·. Poslední varování

• {{subst:Spam}}  vkládání nesouvisejících odkaz· (v n¥kolika jazycích)

• {{subst:Multispam}}  vkládání nesouvisejících odkaz· (v n¥kolika jazycích)

• {{subst:Komentá°POV}}  vkládání komentá°· poru²ujících NPOV

• {{subst:Komentá°POV2}}  opakované vkládání komentá°· poru²ujících NPOV, d·razn¥j²í upozorn¥ní

2.5 Projekty pro korekci Wikipedie

Na Wikipedii existuje n¥kolik projekt· pro vylep²ení £lánk· na Wikipedii a zvý²ení její p°ehlednosti, p°edev²ím pak pro stanovení ur£itých pravidel p°i vytvá°ení stránek.

Obecn¥ se nazývají Wikiprojekty. Seznam v²ech projekt· naleznete na Wikipedii pod názvem Kategorie:WikiProjekty.

V¥t²ina projekt· se zam¥°uje na stránky z jednoho oboru, které se snaºí upravit do specické podoby. Dal²í WikiProjekty v²ak °e²í otázky celé Wikipedie:

• WikiProjekt Check Wikipedia  vyhledává chyby v £láncích, které je pot°eba upravit.

• WikiProjekt Kvalita  ú£astníci projektu se snaºí co nejvíce zkvalitnit £lánky na £eské Wikipedii. Navíc projekt hodnotí kvalitu jiº existujících £lánk· tím,

(25)

• WikiProjekt Autorské právo  má za úkol °e²it problémy s autorskými právy na Wikipedii a vydává ur£itá pravidla a doporu£ení, jak toto právo neporu²it.

• WikiProjekt Zdrojování  dopl¬uje zdroje na stránky Wikipedie. ƒlánek, ve kterém nejsou uvedeny zdroje, bývá zpochybn¥n. Neozdrojovat £lánek a vyuºívat zdroj m·ºe být také protiprávní.

• WikiProjekt Wikipedie v médiích/Wikipedie na Facebooku  se snaºí spopu- larizovat Wikipedii na této sociální síti. Fanou²ky se snaºí pravideln¥ zásobovat informacemi o d¥ní na £eské Wikipedii.

(26)

Kapitola 3

Pouºité technologie

P°i rozhodování jaký programovací jazyk bude pouºit pro tvorbu program· pracu- jících s Wikipedií, jsem zvolila C#. P°edev²ím proto, ºe je to vysokoúrov¬ový ob- jektov¥ orientovyný jazyk a pro jeho kompatibilitu s DotNetWikiBot frameworkem, který je téº napsán v C#, kde si ho lze podle subjektivních poºadavk· zm¥nit.

3.1 C#

Vysokoúrov¬ový objektov¥ orientovaný jazyk C# vyvinula spole£nost Microsoft. Vy- chází z jazyk· C++ a Java, a syntaxi £erpá z jazyka C. Nej£ast¥ji se vyuºívá k tvorb¥

webových aplikací, databázových program·, nebo softwaru pro mobilní za°ízení jako jsou mobilní telefony £i PDA.

Byl schválený standardiza£ními komisemi ECMA (ECMA-334).[13] Tato mezinárodní norma stanoví pravidla a zavádí výklad program· vytvo°ených v jazyce C++, kde up°es¬uje syntaxi a omezení, sémantická pravidla £i p°enositelnost zdrojového kódu programu full-feature.[ecma]

Vlastnosti C#:

• neexistuje vícenásobná d¥di£nost ani globální a prom¥nné metody

• pouºívají se metody get(accesor) a set(mutator)

(27)

integer·, nebo konverze z odvozeného typu na rodi£ovský

• rozli²uje velká a malá písmena  Case sensitive

• podporuje paralelní spou²t¥ní kódu pomocí tzv. multithreadingu

3.2 DotNetWikiBot Framework

DotNetWikiBot Framework byl vytvo°en pro zjednodu²ení práce s jinak sloºitými úkoly ve wiki webech. Tento framework je napsán v jazyce C# a zaloºen na platform¥

Microsoft .NET Framework 2.0. Lze stáhnout v .zip souboru a nevyºaduje instalaci.

Umoº¬uje vytvá°ení webových robot· a dal²ích program·, které zpracovávají in- formace o wiki stránkách zaloºených na softwaru MediaWiki. DotNetWikiBot se pouºívá pro programování v C# a .NET. Je objektov¥ orientovaný, proto je p°ístup k objekt·m a jejich metodám velmi jednoduchý.

V DotNetWikiBot Frameworku existuje 5 typ· objekt· :

• Site  Denuje wiki stránky. V programech je pouºit pro na£tení stránek dle URL.

• Bot  Denuje instance bota, n¥která kongura£ní nastavení a pomocné funkce.

• Page  Denuje jednotlivé wiki £lánky. V programech se pouºívají metody pro na£tení obsahu £lánku, jeho editování a ukládání.

• Pagelist  Denuje soubor wiki £lánk·. Je pouºit pro na£tení v²ech £lánk·

Wikipedie.

• WikiBotException  Vytvá°í vlastní aplikace výjimek.

3.3 Microsoft Visual Studio 2005

Pro tvorbu v²ech program· bylo pouºito vývojové prost°edí Microsoft Visual Studio 2005. Je to kompletní sada vývojá°ských nástroj· pro vytvá°ení ASP.NET, XML

(28)

Web Services, desktopových a mobilních aplikací. Z d·vodu pouºití stejného inte- grovaného vývojového prost°edí, sdílejí Visual Basic, Visual C ++, Visual C# a Visual J # nástroje p°i vytvá°ení smí²ených jazykových °e²ení.

Jako v²echna vývojová prost°edí obsahuje Visual Studio 2005 editor kódu pod- porující zvýrazn¥ní syntaxe a automatické dokon£ování, debugger pracující jak na úrovni kódu, tak na úrovni stroje a dal²í nástroje jako designer formulá°· pro tvorbu aplikací grackého uºivatelského rozhraní, designer webu, t°íd a databázových sché- mat.

3.4 Kongurace

V²echny programy byly spou²t¥ny na notebooku s opera£ním systémem Windows XP Professional. Po£íta£ je zaloºen na procesoru AMD X86 s celkovou fyzickou pam¥tí 1536MB.

(29)

Kapitola 4

Porovnání úrovn¥ poskytovaných informací na Wikipedii

4.1 Porovnání Wikipedie s ostatními encyklopediemi

P°i vyhledávání informací se £asto musíme obracet na encyklopedie s danou tematikou.

Velkou výhodu mají encyklopedie v elektronické podob¥, v nichº se snadn¥ji vyhledává neº v t¥ch, které mají podobu kniºní.

4.1.1 Kniºní vydání

Kniºní vydání encyklopedií je £asto provázeno zna£nou hmotností a nep°ehledností svazku. Pokud £lov¥k vyhledává v knihách nemalých rozm¥r· informace, jejichº názvy v rejst°íku nenachází, m·ºe to být velkým problémem. Zato tyto knihy jsou ve v¥t²in¥ p°ípad· sestaveny úsp¥²nými odborníky, kte°í se danou tématikou zabývají tak°ka celý sv·j ºivot. Potom se na tyto informace, pokud porozumíte autorov¥ vy- jad°ování, m·ºete spolehnout. Abychom se ale v·bec ke kniºní encyklopedii dostali, musíme se smí°it s její vysokou cenou obsahující honorá°e pro tyto odborníky.

(30)

4.1.2 Elektronické encyklopedie

Lep²í varianta encyklopedií je proto elektronická. Jednou z velmi známých je Ott·v slovník nau£ný, nejv¥t²í £eská encyklopedie, p·vodn¥ ti²t¥ná mezi 19. a 20. století.

Naleznete v ní p°es 250 tisíc hesel ze v²ech moºných odv¥tví, sta£í jen zadat do vyhledávání. Dále si m·ºete prost°ednictvím k°íºových odkaz· vyhledávat r·zné souvislosti. Je op¥t napsána odborníky, takºe informacím lze v¥°it. Tuto encyklopedii si v²ak musíte zakoupit za nemalé peníze a dodávání nových informací zde nefunguje.

Nejsh·dn¥j²í moºností hledání informací je proto elektronická podoba encyklopedií, bezplatná a je²t¥ k tomu s neustálým roz²i°ováním.

Knol

Knol je dílo Googlu a je vnímán coby snaha konkurovat projekt·m jako je práv¥

Wikipedie. Google v²ak prezentuje Knol jako dopln¥ní dal²ích encyklopedií. Jeho název je odvozen od slova knowledge  v¥domosti. Projekt byl p°edstaven v prosinci 2007 a do provozu byl postaven v £ervenci 2008. [7] Podle Googlu má garantovanou odbornou kvalitu £lánk·, ty jsou totiº psány jednotlivcem £i celým týmem, jenº má za práci nárok na odm¥nu v podob¥ p°íjmu z reklamy, kterou mohou zve°ejnit u svého £lánku. Jeho tv·rce v²ak nese odpov¥dnost za v n¥m uvedené informace.

Ale v reálu je Knol pro mnoho uºivatel· jen hosting jejich výtvor·.

U Knolu se v²ak pro vloºení £lánku musíme zaregistrovat, kdeºto ve Wikipedii se ná² p°ísp¥vek m·ºe zapsat pod IP adresou. Wikipedie je propracovan¥j²í ve vkládání nestandartních objekt·. V Knolu se pohodln¥ dají vloºit jen obrázky a text, ale problémem mohou být tabulky, které n¥kte°í auto°i vkládají jako obrázky a tím kazí celkový vzhled jejich stránky. Nový £lánek musí obsahovat nadpis, krátký abstrakt, alternativní nadpis a samotný text, který se d¥lí na kapitoly, stejn¥ jako ve Wikipedii.

Kaºdý autor si sám rozhodne, zda-li obsah £lánku bude tvo°it zcela sám, v²ichni uºivatelé zcela libovoln¥, nebo kdokoliv s jeho souhlasem.

Jednotlivá hesla se v Knolu mohou opakovat, tudíº k jednomu heslu naleznete dal²í duplicitních stránky. Ty v²ak m·ºete známkovat od 1 aº 5, jako ve ²kole, nebo je

(31)

ohodnocen, £i komentován. Ve Wikipedii nenaleznete známkování, ale ²patné £lánky jsou rovnou p°epracovány a upraveny, coº £asto pro vysv¥tlení hesla sta£í. Wikipedia se snaºí vyvarovat duplicit¥ stránek, coº je jejím dal²ím plusem.

Knol má zatím jen n¥kolik stovek £lánk·, z v¥t²iny na velmi dobré úrovni. Ale pokud pouºijete pro vysv¥tlení hesla vyhledáva£ Google, dozvíte se mnohem víc.

Britannica

Tato encyklopedie poprvé vy²la v kniºním vydání v letech 1768  1771 ve Skotsku.

Po roce 1901 koupili práva na vydávání ameri£tí podnikatelé Horace E. Hooper a Walter M. Jackson a v²ech 29 svazk· 11. vydání vy²lo v roce 1911. Z této verze £erpá anglická Wikipedie. Od roku 1929 vychází kaºdý rok aktuální verze. T°etí generace Britannicy vychází od roku 1974 a je to 15. vydání. Od 90. let vychází Britannica také na CD.

V roce 2007 bylo v anglické Wikipedii kolem 2 milion· záznam·, v Britannice kolem p·l milionu. Nejv¥t²í spor se v²ak vede o p°esnosti £lánk·. ƒasopis Nature publikoval výzkum, který udává, ºe ob¥ encyklopedie jsou p°ibliºn¥ stejn¥ p°esné. Britannica tento výzkum v²ak zpochybnila. Práv¥ velkou výhodou Wikipedie je, ºe se £lánky opravují velmi rychle, ale také to, ºe je bezplatná.

Citizendum

Wiki encyklopedie Citizendium zaloºena Larrym Sangerem se na Wikipedii snaºila navázat, p°etvo°it Wikipedii bez jejích nedostatk·. Nelze zde anonymn¥ p°ispí- vat, ani editovat pod p°ezdívkou. P°i vytvá°ení stránky musíte dodrºovat striktní pravidla. Edito°i musí uvést své odborné znalosti, podle kterých budou jejich úpravy posuzovány. Citizendium je zatím mnohem mén¥ známé neº Wikipedie a mnoºství

£lánk· je proti Wikipedii tak°ka zanedbatelné. Plusem je v²ak eliminování vandalismu.

(32)

4.2 Automatické porovnání anglické a n¥mecké Wikipedie s £eskou

Porovnávání je zji²´ováno od 5. °íjna 2009. Celá Wikipedie má kolem 7,5 milionu

£lánk·, z toho v anglické Wikipedii nalezneme p°es 3 miliony £lánk·, v £eské kolem 140 tisíc a v n¥mecké p°es 970 tisíc. Nejen po£tem £lánk· se v²ak verze li²í. Význa- mným rozdílem je obsah jednotlivých stránek.

Pomocí programu napsaného v jazyce C# a DotNetWikiBot Frameworku jsem porovnávala tyto verze Wikipedie. P°edev²ím jsem se zam¥°ila na po£et slov a vnit°ních odkaz· na stránkách. Porovnávány jsou jen ty stránky, které existují v £eském i anglickém, nebo n¥mecké jazyce. Tyto údaje jsem jednou m¥sí£n¥ aktuali- zovala, abych zjistila, jakým sm¥rem se Wikipedia vyvíjí.

Dal²ím úkolem programu je zji²t¥ní po£tu pahýl· na Wikipedii. Je to ozna£ení

£lánk·, kterému chybí ur£itá informace, aby mohl být brán za kompletní encyklo- pedické heslo. Posuzování pahýl· je v²ak velmi subjektivní a proto nebudu jejich po£et srovnávat s jinými verzemi Wikipedie. V n¥kterých verzích totiº ani pahýly neexistují, proto i velmi krátké £lánky jsou brány jako plnohodnotné.

(33)

4.2.1 Zji²t¥né hodnoty

Význam zkratek v tabulce:

• S ƒJ : AJ  Pom¥r stránek dle po£tu slov v ƒJ a AJ

• O ƒJ : AJ  Po£et stránek dle po£tu vnit°ních odkaz· v ƒJ a AJ

• S ƒJ : NJ  Pom¥r stránek dle po£tu slov v ƒJ a NJ

• O ƒJ : NJ  Po£et stránek dle po£tu vnit°ních odkaz· v ƒJ a NJ

• P AJ  Po£et stránek v ƒe²tin¥, které lze p°eloºit do Angli£tiny

• P NJ  Po£et stránek v ƒe²tin¥, které lze p°eloºit do N¥m£iny

Datum S ƒJ : AJ O ƒJ : AJ S ƒJ : NJ O ƒJ : NJ P AJ P NJ

5.10.2009 17.457 : 78.995 21.168 : 75.284 19.029 : 60.708 25.330 : 54.407 96.452 79.737 7.11.2009 18.076 : 80.496 21.873 : 76.699 19.413 : 61.795 25.827 : 55.381 98.572 81.208 21.11.2009 18.272 : 80.952 22.194 : 77.030 19.607 : 62.197 26.049 : 55.755 99.224 81804 19.4.2010 19.711 : 83.201 24.897 : 78.015 20.831 : 64.400 27.802 : 57.429 102.912 85.231

Tabulka 4.1: Porovnání Wikipedie v £eském, n¥meckém a anglickém jazyce

Datum Po£et pahýl·

7.11.2009 60.011 21.11.2009 60.329 19.4.2010 68.296

Tabulka 4.2: Po£et pahýl· na £eské Wikipedii

4.2.2 Vyhodnocení zji²t¥ných dat

Na po£átku m¥°ení z více neº 140 tisíc stran ²lo p°eloºit do anglického jazyka 96

(34)

neº-li na anglické. Do n¥m£iny ²lo p°eloºit 79 737 stran a z toho 19 029 jich m¥lo v ƒe²tin¥ více slov. Na tyto údaje má nemalý vliv po£et lidí, kte°í ve svém rodném jazyce hovo°í anglicky, nebo n¥mecky.

Ve druhém m¥°ení, o m¥síc pozd¥ji, se ukázalo, ºe lze p°eloºit z £eského do anglického jazyka p°es 2 tisíce a do jazyka n¥meckého 1,5 tisíce stránek více. Tato skute£nost m·ºe být zp·sobena novými stránkami v ƒe²tin¥ vycházejících z anglických stránek a naopak, ale i postupným dopl¬ováním odkaz· na stránky v jiných jazycích. V¥t²í po£et slov v £eském jazyce oproti anglickému má o 500 stran více, v anglickém jazyce je to v²ak o 1500 stránek.

V dubnu 2010 byl po£et stránek oproti listopadu o 20 tisíc vy²²í, ale jen po£et pahýl·

vzrostl o 8 tisíc. Nové £lánky bohuºel na d·v¥ryhodnosti Wikipedie nep°idávají a edito°i by se m¥li p°edev²ím zam¥°it na vhodné dopln¥ní pahýl·. Po£et p°eloºitel- ných stránek vrostl o 6 tisíc u anglické i n¥mecké Wikipedie, p°esto se v²ak po£et slov i vnit°ních odkaz· rychleji zvy²uje u cizojazy£ných Wikipedií.

(35)

Kapitola 5

Roz²í°ení a korekce £lánk·

5.1 Vytvo°ení robota na Wikipedii

Pro °e²ení nejen vandalism·, ale i opravování chyb vytvo°ených mén¥ zku²enými uºivateli je dobré vytvá°et roboty. Ti °e²í konkrétní chyby p°ímo editací stránky. Pro b¥ºného uºivatele nejsou p°íli² dostupné informace o vytvo°ení pouºitelého robota a to ani na samotné Wikipedii. V následujícím textu se dozvíte jak vytvo°it robota krok po kroku za pouºití DotNetWikipedia frameworku.

Jedna z mála informací, co vám Wikipedia o robotech sd¥lí, je pot°eba schválení funkcí robota správci na Wikipedii. Roboti musí být hlavn¥ co nejpe£liv¥ji odlad¥ní, pokud b¥ºí bez lidského dozoru. ƒinnost robota by se m¥la konzultovat nejlépe na stránce Pod Lipou. Pokud bude d¥lat v¥t²í mnoºství editací, m¥li byste na základ¥

souhlasu komunity poºádat o p°íznak robota, který editace skryje v seznamu posled- ních zm¥n. P°íznak bota mohou ud¥lovat byrokraté.

5.1.1 Instalace MediaWiki 1.6.12

Kaºdý robot by m¥l mít °ádn¥ otestované funkce, aby nenad¥lal více ²kody neº-li uºitku. Proto si pro zku²ební provoz va²eho bota nainstalujte program MediaWiki, kde svého robota d·kladn¥ otestujte.

(36)

verzi PHP. Nejnov¥j²í verze 1.15.1 nelze spustit na PHP 5.3.1 pouze na 5.3.0 nebo 5.3.2. Pokud bude verze PHP niº²í, stáhn¥te star²í verzi MediaWiki.

V tomto p°ípad¥ se MediaWiki instaluje na stránky serveru Webzdarma.cz s PHP 4, proto je pouºita verze MediaWiki 1.6.12.

• Staºený soubor je zazipovaný, rozbalte ho.

• V administra£ním systému si vytvo°te novou databázi.

• Nyní navá² Web nakopírujte celý soubor MediaWiki.

• Do prohlíºe£e zadejte adresu ko°enového adresá°e a potvr¤te. Tím spustíte titulní stranu a první krok instalace.

Obrázek 5.1: Instalace MediaWiki

• Stiskn¥te odkaz setup the wiki pro na£tení instala£ní stránky.

• K instalaci m·ºete p°istoupit aº poté, co zadáte poºadovnané údaje. Stránka, kde na n¥ budete dotázáni, se zobrazí p°i správn¥ nastaveném webu. To je potvrzeno hlá²kou You can install MediaWiki.

(37)

Obrázek 5.2: Instala£ní stránka MediaWiki

Obrázek 5.3: Instala£ní stránka MediaWiki

 Wiki name  zadejte jméno va²í wiki

 Contact email  vá² kontaktní email (email administrátora)

 Language  vyberte si jazyk

 Copyright/license  zvolte No license metadata

 Admin username, Password a Password conrm  jméno, heslo admini- strátorského ú£tu a potvrzení hesla

 Shared memory caching  zvolte No caching

(38)

 E-mail (general)  emailové funkce, zvolte Enabled

 User-to-user e-mail  povolení uºivatel·m komunikace p°es emaily

 E-mail notication  emailová notikace zm¥n na stránkách

 E-mail authentication  p°i Enabled povolíte odesílání autentika£ních email·

 Database type  typ pouºité databáze

 SQL server host  název databázivého serveru

 Database name  název va²í databáze

 DB username, DB password a DB password conrm  název uºivatele databáze, heslo a potvrzení hesla

 Database table prex  vypl¬te v p°ípad¥ pouºití databáze pro více sys- tém· najednou

 Database charset  kódování databáze

 Superuser account, Superuser password  ú£et superuºivatele, nemusíte vypl¬ovat

• Správnost vypln¥ných údaj· zkontrolujte a potvr¤te Install Mediawiki

• Pokud je instalace dokon£ena uvidíte Installation successfull!

• V adresá°i cong naleznete LocalSettings.php. Tento soubor p°esu¬te do ko°e- nového adresá°e.

Instalace by m¥la být dokon£ena. Va²e wiki stránky spustíte zadáním adresy webu a ko°enového adresá°e do prohlíºe£e.

P°i instalaci se v²ak m·ºe stát, ºe v jejím pr·b¥hu nastanou chyby. i¤te se infor- macemi, co se zobrazí v horní £ásti stránek.

V mém p°ípad¥ se p°i instalaci systému vyskytly problémy s vytvo°ením tabulek v databázi. Tento nedostatek jsem vy°e²ila zkopírováním MySQL p°íkaz· ze souboru tables.sql ve sloºce maintenance/mysql5

Nyní m·ºete za£ít s napln¥ním va²eho wiki webu £lánky, na kterých budete zkou²et

(39)

5.1.2 Popis funkce robota

Robot vyhledává chyby:

• V celé Wikipedii

• Na stránkách získaných z projektu Check Wikipedia

Oprava chyb v celé Wikipedii

Nedostatky, které nejsou zahrnuty do projektu Check Wikipedia je pot°eba vyhledá- vat na kaºdé stránce. Jednou z t¥chto chyb je vnit°ní odkaz shodný s jeho popisem.

Interwikilink, jak se tento odkaz také nazývá, je ozna£en z obou stran dvojitými hranatými závorkami. Popis odkazu se zobrazí na stránce jako text, jenº vás po kliknutí p°esm¥ruje na £lánek, nesoucí název odkazu, uloºený na Wikipedii. Odkaz a popis jsou od sebe odd¥leni svislou £árou.

[[automobil|automobil]]

Takový zápis vnit°ního odkazu je v²ak nekorektní a m¥l by být nahrazen samotným odkazem bez popisku.

[[automobil]]

Obdobný problém nastává i pokud je odkaz ko°enem popisku.

[[automobil|automobilové]]

V tomto p°ípad¥ se koncovka p°idává aº za ukon£ující hranaté závorky odkazu.

Koncovka a odkaz nesmí být odd¥lené mezerou.

[[automobil]]ové

(40)

WikiProjekt Check Wikipedia

Projekt Check Wikipedia se snaºí o sníºení po£tu chyb na Wikipedii. Program prochází v²echny stránky a vyhledává nedostatky zp·sobené uºivateli, které je pot°eba odstranit. Za celým tímto projektem stojí n¥mecký vystudovaný kartograf Ste- fan Kühn pracující jako lektor databází Oracle a ºijící v DrẤanech. Ten objevil n¥meckou Wikipedii v roce 2003, kdy m¥la pouhých 9000 £lánk·. Po £ty°ech m¥sících spolupráce s Wikipedií se stal správcem a poté, aº do roku 2008, byrokratem.[9]

Význam tohoto projektu spo£ívá ve vyhledání chyb robotem a jejich opravou uºi- vateli. Nalezené nedostatky se d¥lí dle priority:

• Vysoká priorita

• St°ední priorita

• Nízká priorita

Oprava chyb nalezených projektem Check Wikipedia

Mnoho problém· nelze jednodu²e opravit robotem, ale je pot°eba individuálního p°ístupu a vyhodnocení celé situace.

Mezi chyby s nejvy²²í prioritou pat°í i opakovaná reference. Pokud je stejná reference zapsána n¥kolikrát v £lánku, m¥la by se pojmenovat a dále zapisovat její zkrácenou verzi. Jméno reference musí n¥jakým zp·sobem popisovat referenci, coº by bylo nejvhodn¥j²í vytvá°et ru£n¥. Proto program se bude snaºit pojmenovat referenci prvním slovem za mezerou, které není £íslo, neobsahuje znaky jako lomítka, te£ky,

£árky a podobné, a dále nesmí obsahovat °et¥zce www. £i http://.

<ref>The 20th Century in Eretz Israel. s. 37</ref>

p°evedeme na

<ref name =20th>The 20th Century in Eretz Israel. s. 37</ref>

(41)

<ref name=20th/>.

Check Wikipedia takovou stránku vyhledá a vypí²e tvar konkrétní reference.

Obrázek 5.4: Opakovaná reference v projektu Check Wikipedia

Robot na£te stránku, na které se reference nachází, její jméno udá jako konkrétní referenci, z moºnosti d·vodu kolize s jinými referencemi, a opakující se reference nahradí daným tvarem se jménem. P°ed spu²t¥ním robota projekt Check Wikipedia na²el p°es 900 stránek s vícenásobnými referencemi.

Pokud je externí odkaz formátován jako interní, je uzav°en do dvojitých místo jednoduchých hranatých závorek, pak je to chyba se st°ední prioritou.

[[http://www.tour-eiel.fr/teiel/uk/ web]]

má být ve tvaru

[http://www.tour-eiel.fr/teiel/uk/ web]

Robot tento problém opravuje podobn¥ jako u p°ede²lé situace.

5.2 Návrh postupu roz²í°ení Wikipedie

5.2.1 P°ístup k uºivatel·m

Wikipedie je zaloºena na vytvá°ení a úpravách £lánk· uºivateli. ƒím více uºivatel·

p°ispívá, tím více £lánk· Wikipedie obsahuje. Proto jsou oby£ejní uºivatelé nejd·leºi-

(42)

Wikipedie je pátým nejpopulárn¥j²ím webem na sv¥t¥ a m¥sí£n¥ ji nav²tíví p°es 325 milion· lidí. Podle údaj· z deníku The Wall Street Journal v poslední dob¥

Wikipedie p°ichází o své p°isp¥vovatele a tím se sniºuje korektnost celé Wikipedie.

V roce 2009 opustilo °ady uºivatel· Wikipedie 49 tisíc lidí. O rok d°íve to bylo pouhých 4900 p°isp¥vovatel·. Nové £lánky zakládá £ím dál mén¥ lidí a taktéº i úpravy, které jsou velmi pot°ebné pro p°esnost a pravdivost £lánk· nejsou v dosta- te£né mí°e. Tím klesá d·v¥ryhodnost celé Wikipedie, která by m¥la být neustále zvy²ována.

Wikipedie se snaºí problém vy°e²it i sout¥ºí o nejlep²í p°ísp¥vky, které budou odm¥- n¥ny v¥cnými cenami. To se v²ak nejeví jako nejlep²í °e²ení.

Problém dle mého názoru tkví v p°ístupu jak k nová£k·m, tak i dlouhodob¥j²ím p°is- p¥vovatel·m. ƒeská Wikipedie má nep°ehledn¥ popsané postupy, jak docílit napsání plnohodnotného £lánku. Pokud neumí nová£ek napsat infobox, bez n¥hoº je £lánek pahýl, dá mu dost práce najít podrobnosti, jakým zp·sobem jej vytvo°it a jakými informacemi naplnit. Proto informace o vytvo°ení korektního £lánku spole£n¥ se syntaxem Wikipedie by m¥l být nová£k·m dostupný nejlépe na jedné stránce.

Poté, co správce ohodnotí vá² £lánek jako neúplný, NPOV (poru²ení nezaujatého úhlu pohledu) a dal²ími ozna£eními pro autora £lánku hanlivými, uº toto hodno- cení sám nesmaºe. Nastává otázka, zda-li tuto ²ablonu smíte po úpravách smazat sami. Proto v £eské Wikipedii naleznete p°inejmen²ím 60 tisíc pahýl·. Pokud se pokusíte diskutovat se správcem, který ozna£ení va²í dtránce ud¥lil, odpov¥di se nedo£káte. Tento p°ístup správc· by se m¥l jist¥ zm¥nit. Pokud opravdu kontrolují kaºdou editaci, jak správci tvrdí, pokud op¥tovn¥ ukládáte tutéº stránku s novými úpravami, místo pouºívání náhled·, m¥li by také ²ablony, které jsou jiº bez smyslu, odmazávat. Tím by docílili i vy²²í d·v¥ryhodnosti Wikipedie. Je t¥ºké pojmenovat jako d·v¥ryhodnou encyklopedii s 60 tisíci ²patných £lánk·.

Dal²ím problémem je vandalismus. Nejen nová£ci jsou takto velmi £asto neprávem pojmenováváni. Pokud si uºivatel v²imne nap°íklad n¥jakých dualit, ²patného ob- sahu a podobných nep°esností, tyto údaje smaºe, je ihned ozna£en za vandala. Proto správce by si m¥l dob°e rozmyslet, za co takové ozna£ení uºivateli ud¥luje a p°ede- v²ím se seznámit se situací.

(43)

Uºivatelé jsou lidé, co p°ispívají ze své dobré v·le a m¥li by být, jinak neº materiáln¥, ohodnoceni. Kaºdého poctivého autora p°estanou bavit v¥£ná fale²ná obvin¥ní a rad¥ji se své dobrovolné práce vzdá. Pokud nezm¥ní správci sv·j neomalené a nekom- promisní zp·soby, alespo¬ na £eské Wikipedii, uºivatel· bude neustále ubývat.

5.2.2 Podpora projekt· na Wikipedii

Na Wikipedii existuje n¥kolik projekt· pro její zkvalitn¥ní. B¥ºný uºivatel se v²ak t¥chto projekt· zú£astní minimáln¥ a to z d·vodu ²patné dostupnosti. Tyto pro- jekty se £asto schovávají za dlouhými názvy, málokde jsou publikovány a p°edev²ím vypadají jakoby se vytvá°eli pouze pro správce nebo velmi zku²ené uºivatele.

Jako b¥ºný uºivatel jsem se snaºila opravit chyby nalezené projektem Check Wiki- pedia. Chyby zde zve°ejn¥né by se m¥li na p°íslu²né stránce opravit a na na stránce projektu upozorn¥ní na opravené chyby smazat. K mému p°ekvapení jsem byla jednodu²e ozna£ena za vandala. Samoz°ejmostí bylo, ºe jsem s t¥mito opravami skon£ila.

Správci mají za úkol zkontrolovat kaºdou úpravu, proto °e²ením by mohl být seznam uºivatel· opravujících chyby nalezené r·znými projekty a názvy £lánk·, které by m¥ly být dle projektu opraveny. Poté by m¥l kaºdý správce povinnost vyhledat informace v tomto seznamu a porovnat je se skute£ností.

5.2.3 Vyhledávání

P°i hledání hesla jste velmi £asto odkázáni internetovým vyhledáva£em na £lánek ve Wikipedii s p°íslu²ým tématem. Pokud v²ak pouºíváte vyhledávání p°ímo na Wikipedii m·ºete se setkat s n¥kolika problémy.

• Pokud hledáte nap°. ²ablony, projekty apod., které nejsou encyklopedickými hesly, nenajdete je v jiném tvaru neº Wikipedie:’ablony a podobn¥.

• P°i vyhledávání jsou výrazy hledány doslovn¥, takºe slovo v jiném tvaru vyhle- dáva£ nenajde.

(44)

• Pokud hledáte maximáln¥ den staré informace, nemusí se vám je poda°it najít a to z výkonnostních d·vod·.

Pro uleh£ení práce s Wikipedií by ur£it¥ do budoucna jejímu vyhledáva£i prosp¥lo alespo¬ p°idání vyhledávání slov v jiném tvaru.

Dal²ím zlep²ením, p°edev²ím pro nová£ky, by byla moºnost jednodu²eji vytvo°it novou stránku.

5.2.4 Dopln¥ní pahýl·

D·v¥ryhodnost £eské Wikipedie závisí p°edev²ím na kvalit¥ £lánk·. Proto by bylo velmi pot°ebné soust°edit síly editor· na £lánky, které jsou ozna£ené jako pahýly.

P°es 68 tisíc nedosta£ujích informací v encyklopedii se 162 tisíci hesly nep·sobí na její uºivatele p°ízniv¥. Wikipedie z tohoto pohledu p·sobí jako encyklopedie, která uvádí obecné, neúplné, nebo nepravdivé informace o hledaném hesle. Proto se lze velmi £asto setkat s odep°ením Wikipedie jako zdroje informací pro ²kolní projekty a práce. V¥t²inou jsou poºadovány informace z d·v¥ryhodn¥j²ích zdroj· sestavených odborníkem v oboru.

(45)

Záv¥r

Prostudování celé Wikipedie a zhodnocení kaºdého £lánku z více jak 150 tisíc neustále se m¥nících £lánk· je pro jednotlivce v podstat¥ nemoºné. P°i posuzování tohoto projektu jsem £erpala p°edev²ím z vlastních zku²eností, ale nemalou pomocí mi byly i názory jiných uºivatel· a také správc·.

Pouºitelnost £lánk· z Wikipedie se li²í dle zám¥ru uºivatele. Pokud nepot°ebujete podrobné vysv¥tlení hesel, nebo nepouºíváte tyto poznatky jako ov¥°ený zdroj in- formací, nap°. k vytvo°ení odborné práce, £lánky vám téma dostate£n¥ vysv¥tlí.

Pokud se vám zdá popis hesla nepravdivý, nebo nemoºný, m·ºete se vºdy obrátit na uºivatele diskutující Pod Lípou a ve°ejn¥ se o sv·j názor pod¥lit. Tímto krokem podporujete kvalitu informací na Wikipedii.

U takto otev°ených projekt· je vºdy pot°eba po£ítat s moºností, ºe heslo je zám¥rn¥

vysv¥tleno ²patn¥, nebo není dostatek p°ispívajících odborník·, kte°í by byly schopni dostate£ného popisu. Rad¥ji si p°i psaní odborných text· informace z Wikipedie ov¥°te nejlépe v kniºních publikacích.

P°estoºe se £eská Wikipedie neustále roz²i°uje, vyvíjí a po£et nových £lánk· roste p°ibliºn¥ o 2 tisíce m¥sí£n¥, zdaleka svou kvalitou neodpovídá anglické verzi. Velmi vysoký a neklesající po£et pahýl· £eskou verzi znehodnocuje.

K vylep²ení tohoto projektu p°ispívá vytvá°ení pot°ebných robot·. Ti jsou nemalým p°ínosem z d·vodu opravování velkého po£tu stránek. Tímto zp·sobem dostává encyklopedie jednotný tvar £lánk·, £ímº se zjednodu²uje její £tení i editování.

Zápornou stránkou Wikipedie se pro mnohé, ne p°íli² zku²ené uºivatele, stali její správci. Mnoho wiki web· v základních podmínkách pro komunikaci s uºivatelem

(46)

nemá ozna£ovat za vandala, p°ed vysv¥tlením jeho zám¥ru. Pro wiki weby je kaºdý uºivatel p°ínosem. Ve Wikipedii tento názor zastává nejspí²e jen omezené mnoºství správc·. V¥t²ina z nich va²e problémy ne°e²í a málokdy odpoví na vysv¥tlení va²eho po£ínání. Co je v men²ích wiki samoz°ejmostí ve Wikipedii chybí.

Aby se Wikipedie zdárn¥ rozr·stala, je pot°eba váºit si uºivatel· a práce, kterou pro ni d¥lají. Bez oby£ejných lidí by Wikipedie nikdy nedosáhla takového obsahu a popularity.

(47)

Seznam pouºitých zdroj·

[1] Wikipedie[online]. 2003 [cit. 1.1.2010].

Dostupné na: <http://cs.wikipedia.org/wiki/Wikipedie>

[2] Wikipedia:Wikipedia articles per population[online]. 2005 [cit. 2.1.2010]

Dostupné na: <http://en.wikipedia.org/wiki/Wikipedia:Wikipedia _articles_per_population>

[3] Wikipedie:Historie £eské Wikipedie[online]. 2005 [cit. 1.1.2010]

Dostupné na: <http://cs.wikipedia.org/wiki/Wikipedie:Historie_Wikipedie

#Historie_spr.C3.A1vc.C5.AF_Wikipedie>

[4] MediaWiki [online]. 2004 [cit. 1.1.2010].

Dostupné na: <http://cs.wikipedia.org/wiki/MediaWiki>.

[5] Wikipedie:Jak vytvo°it £lánek [online]. 2002 [cit. 3.1.2010].

Dostupné na: <http://cs.wikipedia.org/wiki/Wikipedie:Jak_vytvo%C5%99it _%C4%8Dl%C3%A1nek>.

[6] Wiki [online]. 2004 [cit. 1.1.2010].

Dostupné na: <http://cs.wikipedia.org/wiki/Wiki>.

[7] Knol [online]. 2009 [cit. 3.1.2010].

Dostupné na: <http://knol.google.com/k>.

[8] Jan Kapoun Jimmy Wales: Zakladatel Wikepedie [online]. 2006 [cit. 3.1.2010].

Dostupné na: <http://scienceworld.cz/technologie/jimmy-wales-zakladatel -wikepedie-1401>.

[9] Benutzer:Stefan Kühn [online]. 2003 [cit. 4.1.2010].

(48)

[10] Wikipedie:WikiProjekt Kvalita/Kritéria [online]. 2007 [cit. 15.1.2010].

Dostupné na: <http://cs.wikipedia.org/wiki/Wikipedie:WikiProjekt _Kvalita/Krit%C3%A9ria>.

[11] Wikipedia Statistics Czech [online]. 2010 [cit. 20.3.2010].

Dostupné na: <http://stats.wikimedia.org/EN/TablesWikipediaCS.htm>.

[12] Wikipedie:Vandalismus [online]. 2005 [cit. 20.3.2010].

Dostupné na: <http://cs.wikipedia.org/wiki/Wikipedie:Vandalismus>.

[13] Standard ECMA-334 [online]. [cit. 18.4.2010].

Dostupné na: <http://www.ecma-international.org/publications/

standards/Ecma-334.htm>.

(49)

Obsah CD

P°iloºené CD obsahuje:

• Diplomova_prace.pdf  Text diplomové práce

• Zdrojové kódy  Adresá° se zdrojovými kódy k program·m pouºitých v práci

 RobotWikipedie  opravuje reference, ²patn¥ zadané externí odkazy a vnit°ní odkazy

 DPL1  vyhledává pom¥r slov a vnit°ních odkaz·, po£ítá po£et pahýl·

na anglické a £eské Wikipedii

 DPL-temata  vyhledává pod jaké portály pat°í dané stránky

 Informace_o_programech.txt  informace k prvnímu pouºití program·

• DotNetWikiBot_2.91  DotNetWikibot framework

References

Related documents

Alternativou, která však již nefunguje na bázi XML, a tím pádem vylučuje využití SOAP, může být i předání nestrukturovaných dat s primitivními datovými

Při návrhu je nutno dbát na omezující podmínku, že v daný okamžik lze provozovat pouze jednu úlohu (dle Na jedné stanici (server) bude možno v jeden okamžik

Mezi základní filtry patří například Servlet Config, který realizuje nastavení části kontextu akce na základě implementovaného rozhraní..

V období generální opravy vozidla (rok 2009) jsou JN údrţby včetně pořizovacích nákladů téměř na úrovni jako v předchozím roce (2008), v dalším roce je patrný

Záložka obsah kurzu obsahuje stručný přehled (formou tabulky) obsahu kurzu a možnost přejít na případ užití Administrace obsahu kurzu.. 6.2.3.2

Současně s tímto požadavkem je vyžadována i víceúčelovost a snadná změna výrobního procesu, hlavně z důvodu zvyšující se rozmanitosti výroby vedoucí

Z tabulky zakázka se vybere proměnná dodavatel pomocí agregačního uzlu, který vytvoří novou proměnnou N, která udává počet výskytů zakázek u dodavatele

Důvodem proč vzorky s leptaným povrchem (beads) a perličkovým povrchem (abreade) dosahují 8 až 34krát větších hodnot Ramanovské intenzity než vzorky s křemíkovou