Věc: Zpráva z pracovní cesty Pracovník: Pavlína Rouhová
Akce: Inforum 2015
Datum konání:
26.-27.5.2015 Místo konání: VŠE Praha
1. Více než slova: budoucnost dokumentů / L. Robinson
“dějiny” budoucnosti dokumentů – Cutter, H.G. Wells, V. Bush, A.C. Clark …
bibliografie – Woledge
dokumentace – H. La Fountaine, P. Otlet …
definice dokumentu - Otlet, Briet
informační komunikační řetěz, tj. posloupnost komunikačních aktivit
creation > dissemination > management > organization/retrieval > use (Robinson, 2009)
neo-dokumentace – Buckland, Rayward, Lund
teorie dokumentu – Lund, Skare
Buckland (2014) – informace jako věc, jako proces a jako znalost
post-neodokumentace
digitální dokumentace, digitální komunikace – galerie, knihovny, archivy, muzea a školy
imerzivní dokumenty
důsledky pro LIS (library and information science)
2. Můžeme mít všechno? A chceme mít všechno? Vývoj sbírek akademických knihoven / M.
Levine-Clark
knihovny (knihovníci) vyhledávají v preferovaných (navyklých) zdrojích, nikde jinde
vývoj knihovních sbírek:
starý model - dříve tištěné knihy a periodika – kupovalo se z rozpočtu - nevýhody
nový model – e-knihy, řízená poptávka (řízená akvizice), balíčky periodik, databáze, agregátory, předplatné, přístupová práva (někdy dočasná) - výhody
POD, ebook, DDA
knihovní sbírka se řídí poptávkou
ProQuest Avquires SIPX
3. Tvorba fondu na základě efektivní akvizice / P. H. Bakka
University of Bergen Library – studie
PDA
e-knihy
e-knihy vs. tištěné knihy
DDS (document delivery system)
4. Digitalizace kulturního obsahu v České republice - od intuice ke standardům / A. Michailidis
intuitivní digitalizace – není koordinovaná, je málo informací
digitalizace není jenom IT
inventarizace:
ČR neví, co má, či kolik toho má, zdigitalizováno
malé instituce živelně digitalizují
metodologie:
každá instituce si vybudovala vlastní
standardizace, definování rolí, aktualizace metodik (kompetenční centra – řídí a radí s digitalizací)
workflow digitalizace
spolupráce a školení
web digitalizace (emuzeum.cz? ndk.cz? nová: digikultura.cz?)
legislativa:
autorská práva …
národní agregátor:
Národní muzeum – konference 14. července
samotná digitalizace:
zastarávání technologií - 5 let z peněz EU
obsluha – s placením se do budoucna nepočítá
fyzický proces digitalizace :
největší problém – financování
digitalizační pracoviště
kompetenční centra
dlouhodobé uložení :
např. filmy – uchovávání na filmech – digitalizace je zbytečná
zpřístupnění:
autorská práva …
komunikace:
největší problém – nekomunikuje se!
eCulture:
“zajištění a využití digitalizace kulturního obsahu a veřejných kulturních služeb pro podporu posilování institucionální kapacity účinné veřejné správy v oblasti kultury, kreativity, inovací a znalostní ekonomiky”
odborná skupina:
inventarizace, metodologie, kompetenční centra, digitalizace, agregace dat, zpřístupnění, dlouhodobé uložení (úložiště), komunikační matice
eCulture projekty 2014:
identifikace projektů pro 2014+ v rámci resortu
příprava projektů, studie proveditelnosti a zadávání dokumentací
modely financování včetně vědy a výzkumu
aktualizace “Strategie digitalizace kulturního obsahu”
zohlednění problematiky v kulturní politice ČR
CES (Centrální evidence sbírek) MK:
tak se dostanou data od institucí k MK
Slovensko – program OPIS
5. Certifikace Národní digitální knihovny podle ISO normy 16363 / J. Mottl
ve smlouvě na dodávku NDK:
do ukončení projektu v roce 2014 musí LTP sub-systém být připraven k externí certifikaci důvěryhodného digitálního repozitáře (např. TRAC)
proběhl audit, který zkoumal, jak jsou plněny požadavky norem:
ISO 14721 (OAIS)
ISO 16363
vznikly dokumenty:
Repository mission statement (poslání úložiště - LTP archivu NDK)
Preservation strategic plan (strategický plán uchovávání LTP archivu NDK)
nová koncepce metadatových formátů
oddělení digitalizační linky od LTP systému
řešení autorských práv
krátkodobé strategie:
detekce a statistika souborových formátů v AIP typu WARC
monitoring infrastruktury LTP systému
transparentní finanční krytí projektu
ukládání elektronických publikací do LTP
kontrola kvality digitalizovaných entit
personální zajištění pracovních skupin
dlouhodobé strategie:
nová metadatová specifikace (nejen pro monografie a periodika)
ukládání všech digitalizovaných entit v rámci ČR do LTP NDK
opatření pro dlouhodobou ochranu AIP typu WARC
systém zpřístupnění
změna legislativy (e-knihy, WebArchiv)
Preservation policies (pravidla pro uchovávání v LTP archivu NDK)
Preservation mmplementation plan (plán pro zavedení uchov. v LTP archivu NDK)
Zpráva o neshodách a návrh nápravných opatření
problémy:
nezajištěné financování v dlouhodobém výhledu (MK)
nedostatečné personální zajištění provozu
neexistující řízená dokumentace repozitáře (SAFE LTP))
neexistující dlouhodobé vzdělávání personálu repozitáře
neexistující systém kontroly srozumitelnosti archivovaných informací
testovací scénáře čitelnosti informace pro určenou skupinu
uloženo AIP v NDK k 1.5.2015 - 280 624
uloženo AIP v NDK k 1.5.2015 - 280 624
v MZK ukládají TIFFY stranou (příliš velké soubory dat) a sdílejí JPEG 200
www.ndk.cz
http://www.ndk.cz/archivace/certifikace-dlouhodobeho-uloziste
6. ProArc – open source řešení pro produkci a archivaci digitálních dokumentů / M. Nezbedová
koordinátor KNAV
vyvíjeno AV ve spolupráci s INCAD (technická podpora)
součást projektu NDK
open source
financováno z programu NAKI
nástroj pro výrobu a úpravu popisných, administrativních, technických metadat a OCR
umožňuje vytváření nových objektů
podporuje přebírání dat z externích systémů (Aleph/RDCZ)
umožňuje rychlou a částečně automatizovanou produkci digitálních dokumentů
podporuje dávkové/hromadné úpravy
generuje UUID
podporuje standardy NK pro digitalizaci (plná podpora MODS, ADM a TECH metadat)
podporuje přidělování URN:NBN
export PSP balíčků
produkuje data kompatibilní se systémem Kramerius
používá Studijní a vědecká knihovna v Hradci Králové
technologie:
Fedora commons repository
Java
PostgreSQL
Kakadu
ABBYY recognition server
https://code.google.com/p/archivacni-system
7. Staré tisky digitalizované v rámci projektu Google Books zpřístupněné v Manuscriptoriu:
výsledky, zkušenosti, plány / T. Psohlavec
postup zpracování dokumentů v projektu Google Books:
výběr dokumentu (datace, dochování), restaurování, vytvoření popisu (není-li), převoz, digitalizace, vrácení, zpřístupnění
měsíčně prohlédnuto 1200–1500 svazků a polovina je opravována (drobné opravy)
zpracovávány jsou dobře dochované exempláře
v rámci jednoho transportu je převezeno 2500–8000 svazků
20+ zemí, 100+ poskytovatelů obsahu
přispívají nejvýznamnější správci digitálních dokumentů, jako jsou NK, UK …
Google Books je jen jedním z mnoha zdrojů (Manuscriptorium)
2 fáze integrace do Manuscriptoria:
fáze 2014 (realizováno):
stahování produkce z Google
konverzní mapování dle VISK6 (Manuscriptorium Compatible)
konverzní aplikace a provedení konverze
nahrávání digitálních dokumentů do CDÚ NK ČR
import do Manuscriptoria
fáze 2015 (plán):
rozšíření Manuscriptoria pro hledání nad OCR a jeho zobrazování
rozšíření aplikací Manuscriptoria
příprava infrastruktury v NK ČR (texty jsou objemné, cca 2x 250 GB dat fulltextů)
propojení s Alephem NK ČR
kvalita OCR u produkce Google Books:
dost chybové (asi málo prostoru pro optimalizaci)
usnadnění hledání, v lepších případech i další práce s textem
OCR vs. plné texty:
plné texty - nákladná ruční práce (znalostní, časové a finanční nároky)
vysoká kvalita samozřejmostí
často s poznámkovým aparátem, výkladem a překladem
jen několik stovek dokumentů
kvalita skenování:
obrazová kvalita je relativně nízká
neřeší se vyrovnání
neřeší se správný ořez
neřeší se barevná kalibrace
kvalita výstupů vs. konečný užitek:
pozitiva převažují
nárůst produkce popisů
hodně dokumentů restaurováno
digitální informace se dostávají k badatelům
obrazy jsou dobře čitelné
OCR minimálně pomůže vyhledatelnosti
možnost výběrové digitalizace speciálních exemplářů
zpřístupnění zdarma – ve smlouvě - podmínka pro obě strany a podmínka Googlu
8. Výlov novinek z rybníka zvaného Web Search / V. Sklenák
Mobilegeddon (Google) – 21.4. 2015
vyhledávání – upřednostňují se weby, jež jsou „mobile friendly“ (mobily)
využívání mobilního Internetu roste
hodnotí se: velikost písma, vzdálenost odkazů, šíře zobrazení atd.
Panda – znevýhodňují se weby nižší kvality – nová verze
Penguin – penalizují se weby s nekalými praktikami (SEO) - nová verze
Pigeon (holub) – posilují se pozice webů s lokálním cílením (USA)
nové vyhledávače vs. Google nemají šanci (Wikia Search, Quaero, Theseus …)
jen Bing (Microsoft) – v USA podíl 20 %, jinde méně
Apple – koupila Topsy, má vlastního robota, prý pro Siri a Spotlight
Deep web vs. Dark web:
Deep Web (hluboký/neviditelný web):
neindexovaný obsah, ale běžně pomocí webu dostupný
Dark Web:
úmyslně skrývaný obsah, běžně nedostupný, mnohdy ilegální (Tor)
Memex (memory extender):
1945 - Vannevar Bush - popis principů hypertextu
2015 - DARPA - nový vyhledávač pro Dark Web
Seznam.cz:
Seznam mění tvář - Jalapeño
boj se spamem, snižování stránek používajících SEO, dopad na čtvrtinu hledání, změnu pozic u 2 % dotazů
princip „kouknu a vidím“ - mnohdy nefunguje ani u člověka, indexování obsahu se nemůže vyhnout ani obrázkům
zadání dotazu – víte, co chcete a dokážete to vyjádřit - co když to ale nedokážete?
lze hledat podle obrazového vzoru (Google), např. https://www.imageidentify.com
Google vyvíjí anotační nástroj pro popis obrázků (strojové učení a superpočítače)
internet je každodenní záležitostí – pronikl již všude, vyhledávání se zjednodušuje, ale zároveň se zvyšuje lenost mozku
9. Vyhledávání a Big Data / P. Kocourek
Incad a Search Technologies Company
od ledna 2015 – Center of Search Excellence pro Evropu
Search Technologies:
IT společnost pro návrh, implementaci a správu podnikových a big data vyhledávacích řešení
600+ zákazníků
vyhledávání podnikové, data warehouse, e-commerce, search and match, pro média a nakladatele a goverment
vyhledávání – rychlé, škálovatelné, schema-free, velké objemy dat
Big data:
hromada dat, tunel dat, příliš na jeden server
není možné je zpracovat na jednom stroji
agregace dat a analýza:
nestačí transformovat data, je třeba je agregovat (vyvařit)
dávkové zpracování
dlouho trvající procesy (not real-time)
Apache Hadoop:
open-source project, vyvíjí software pro zpracování
Big Data architektura pro vyhledávání
Big Data content processing:
platforma pro zpracování, normalizaci, obohacení dat a jejich analýzy
udržuje bezpečnou kopii původního textu a metadat každého dokumentu
může být využit pro vytváření indexů
Big Data Search:
Hadoop, Cloud Cpmputing
moderní statistické analýzy, machine learning
Search & Match, analýza citací, sémantické analýzy, vyhodnocování (TF/IDF+), detekce duplicit, tagování, hodnocení, doporučování, doporučené dotazy …
Big data přístup může výrazně posunout vyhledávání
10. Europeana Cloud: Nové řešení pro efektivní předávání a využívání dat / P. Pejšová
3letý projekt koordinován The European Library probíhá do ledna 2016 (financován EU)
Europeana Cloud - začlenit jako součást vícestranné platformy
35 partnerů
mise:
dát agregátorům a poskytovatelům dat levnější a stabilnější infrastrukturu pro ukládání a správu metadat a digitálního obsahu
víc způsobů využívání metadat a digitálního obsahu
vybudovat platformu, na které mohou být postaveny další nástroje
cíle:
snadněji spravovat a sdílet data s Europeanou a dalšími agregátory
možnost přidávat data k našim metadatům (např. autority, převod formátů)
možnost přístupu a editace metadat (v omezeném režimu dle vlastníka dat)
sledování změn, podpora verzí a jedinečných identifikátorů
možnost experimentovat s ukládáním a šířením obsahu
metadata teď putují do Europeany jedním směrem – alternativa – Europeana Cloud (eCloud)
umožní:
nahrávat metadata
definovat, kdo je může využívat a jak (stahovat, přidávat poznámky, mazat)
třetím stranám přístup přes API
podpora Europeana Portal, Labs a dalších nástrojů a služeb
eCloud není Europeana Portal
cloudová infrastruktura:
není povinná
data mohou být nejen CC0
data nemusí být jen metadata
více možností, jak můžou uživatelé využít API eCloudu (např. číst/zapisovat)
povolení číst/zapisovat definovány poskytovatelem dat/agregátorem
ne všechna data z eCloudu musí být zobrazována Europeana portálem
řízení – 7 pracovních balíčků:
potřeby vědců a budování Europeany
definování eCloudu včetně autentifikace
prototypy služeb pro muzikology
vkládání metadat a obsahu
ekonomická a licenční problematika
propagace a administrativa
NTK – 4 pracovní balíčky:
legislativní, strategická a ekonomická východiska
dodávání metadat a obsahu, testovací vzorky, předávání informací (též do Krameria)
propagace a administrativa
http://www.techlib.cz/cs/2983-europeana-cloud
http://www.pro.europeana.eu/web/europeana.cloud
11. Rozpoznávání a indexování knižních obsahů / J. Pokorný
zpřístupňování fondu knihovny pomocí centrálního vyhledávače (např. discovery systémy)
vyhledávání: dle identifikačních údajů, dle věcných údajů
věcné údaje: klasifikační systémy, tezaury, předmětová hesla, volně tvořená klíčová slova
z údajů bibliografických záznamů se budují vyhledávací indexy
indexy slouží nejen pro vyhledávání, ale i pro generování filtrů pro zpracování vrácených výsledků (fasety a další filtry)
kdy standardní popis nestačí:
názvové údaje jsou často obecné nebo nevyjadřující obsah díla
manuální věcný popis je závislý na katalogizátorovi (subjektivita, nepochopení) a nepostihuje všechna témata obsahu díla
když není možný fulltext nebo fulltextové indexování
využití obsahu knihy k indexování:
metoda vytěžování klíčových slov z naskenovaných obsahů
lze určovat i váhu klíčového slova - na kolika stránkách se o tématu píše
postup:
naskenování obsahu knihy (i jako náhled)
OCR s rozpoznáním bloků textu (tvar a kontext)
rozlišení textových a číselných bloků
eliminace cizích bloků a stopslov
textová analýza (kontext)
získání klíčových slov a převod do základních tvarů
uložení do bibliografického záznamu či jiného kontejneru
problémy:
rozložení textu, typografie a design
rozpoznání závislostí (kapitoly, podkapitoly)
úložiště:
do bibliografického záznamu (pole 505 MARC nebo do vybraného prvku v XML)
do pomocného úložiště s prolinky v rámci lokálního systému
do externího systému, využití více knihovnami (jako s obálkami knih)
další využití:
detekce trendů (nejčastější témata)
nejčastější klíčová slova v daném období a v daných oborech
realizace:
projekt NTK programu VISK 2015
na podzim 2015 beta verze
propojení s AKS pro ukládání do záznamu
indexování v AKS nebo v discovery systému AKS
pomocný index při vyhledávání či požadavků katalogů a vyhledávačů
12. Digitální informační kurátorství a jeho využití v konstruktivisticky orientovaném vzdělávání / M. Černý
konstruktivismus – kurátorství – technologie = digitální kurátorství
kurátor – opatrovník, správce, stará se o konkrétní materiály
digitální kurátorství (digital curation) – soubor činností, které vedou k uchovávání digitálních materiálů a jejich zpřístupnění
informační kurátorství (information curation) – je kurátorská činnost spojená s informačními artefakty
digitální informační kurátorství – kombinace obojího
informační kurátorství vychází z informačního chování a je jím determinováno
má tři fáze:
získávání dat (návaznost na EIZ)
řízení a uchovávání (osobní wiki, Evernote, ZIM)
využití, prezentace, zpracování
kurátorství ve škole:
jaké ICT využívají učitelé pro svoji potřebu a přípravu na výuku, jaké služby a technologie využívají
jaké ICT využívají žáci, jaké jsou jejich informační návyky, jaký mají hardware, jaké služby využívají
jakým způsobem ICT využívá management školy k předávání informací
jak se ICT promítá do komunikace s rodiči
strategie 2020
„kvalitní vzdělávání předpokládá průběžnou modernizaci vzdělávacích zdrojů a vzdělávací infrastruktury, v níž stále významnější místo získávají informační a komunikační technologie. Možnosti jejich těsnější integrace do výuky vytváří vynikající příležitosti nejen pro podporu efektivních procesů učení postavených na principu individualizace v rámci školního vzdělávání, ale také základ pro celoživotní učení a život ve společnosti, která bude dalším rozvojem digitálních technologií zásadně ovlivňována“
2 směry komunikace:
směrem ke klientům, uživatelům, studentům
směrem k okolí
nástroje:
Bibblo, Scoop.it, Pinterest, Tumblr, Flipboard, Elmodo,
Digitální knihovna (Greenstone, SimpleDL …) – návaznost na repozitáře
kompetence (různé pohledy):
kompetence komunikační, presentační, technologické, oborově-orientační, manažerské, pro design objektů a služeb, systémové a analytické
volba formátu pro ukládání dat, vytváření sad objektů, práce s citacemi a zdroji, popis metadat, archivace, strategie nakládání s daty
komunikace, rodina a komunita, inkluze, rozmanitost a demokratické hodnoty, plánování a hodnocení, výchovně vzdělávací strategie, učební prostředí, profesní rozvoj
kompetence interpersonální, pedagogická, odborná a didaktická, organizační, pro spolupráci s kolegy, pro spolupráci s okolím, k reflexi a sebezdokonalování
13. Informační a publikační strategie mladých vědců / I. Adlerová
vědeckovýzkumný cyklus
propojení výzkumné práce + informačního prostředí + financí na výzkum + publikování
finanční podpora, investice – systém přidělování na základě hodnocení práce vědce nebo vědeckého pracoviště
měřítko úspěšnosti a produktivity vědecké práce - vědecké publikace, snaha o co největší počet publikovaných článků ve sledovaném období a o co nejvyšší hodnocení
univerzitní prostředí je specifické, propojuje vědeckovýzkumnou práci s prací pedagogickou
mladí vědečtí pracovníci - získávají znalosti a zkušenosti ve svém oboru, vytvářejí si v průběhu studia profesní návyky, přejímají oborové zvyklosti, jsou ovlivňování svými vzory …
renomovaní vědci vs. mladí vědci
důraz na ochranu intelektuálního vlastnictví university
role univerzitní knihovny:
poskytuje informační služby
poskytuje podporu ve všech krocích vědeckovýzkumného cyklu
vytváří inspirativní zázemí, tvůrčí prostředí
je součástí živé, komunikující a spolupracující univerzity
je nezastupitelná (oproti jiným knihovnám) při výchově a podpoře mladých vědců, zejména při formování jejich informačního a publikačního chování
Ústřední knihovna ČVUT – příklad
mladí vědci, začínající autoři - autorská etika
nejčastější prohřešky proti publikační etice:
citování sekundárních zdrojů
citování neplatných zdrojů
duplikování vlastních publikací
parafrázování již publikovaného textu
opětovné použití souboru experimentálních dat pro další publikaci
replikování publikací
nepravdivé uvádění spoluautorství
nekorektní uvedení spolupráce s jinými, zneužití cizích nápadů a publikací
kopírování částí textů bez uvedení zdroje
nejzávažnější případ plagiátorství – publikování cizí práce pod svým jménem
informační a publikační chování začínajících autorů - příklady
14. Zkušenosti s využitím EIZ pro hodnocení vědy / P. Mika
knihovna AV ČR:
interní analýzy v rámci AV ČR
příprava bibliometrie pro Hodnocení výzkumné a odborné činnosti AV ČR 2010-2014
IPN Metodika:
systém hodnocení a financování výzkumu, vývoje a inovací
KA1 Informační podpora
výběr dodavatele dat
bibliometrické reporty
bibliometrie a vědecká komunikace:
bibliometrie a scientometrie - kvantitativní metody analýzy vědy jako informačního procesu a matematické a statistické metody analýzy vědecké komunikace
bibliografické informace (popisná metadata o publikaci) - vyhledávání a získání vědecké literatury
bibliometrie využívá tyto informace k analýze publikačních vzorců
bibliometrická metadata ...
bibliometrické indikátory:
publikační aktivita (počet a druh publikací)
výzkumný profil (v jakém oboru))
vědecká spolupráce (autoři a adresy v publikaci)
vědecký vliv (citační analýza)
zdroje dat:
vědecké informační systémy (Current Research Information Systems (CRIS):
národní - IS VaVaI
institucionální - ASEP
citační databáze – multioborové:
Web of Science
Scoups
analytické nástroje:
InCites
SciVal
bibliometrie v rámci hodnocení vědy:
informace pro řízení vědecké instituce
informovat, ne nahradit peer-review hodnocení
ideální je kombinace obou metod
San Francisco DORA – doporučení: nepoužívat IF pro hodnocení vědců a vědeckých jednotek