Tvoříme datovou platformu pro humanitní vědy
Doporučení pro tvůrce platforem
Zpracováno v rámci projektu LINDAT/CLARIAH-CZ, Brno, březen 2022
Připravujete digitální sbírku, archiv, databázi nebo jinou platformu pro výzkum a
přemýšlíte o jednotlivých krocích, přístupech a problémech? Pak je tento materiál
coby základní uvedení do problematiky určen právě vám. Rádi se s vámi i setkáme a
budeme se hlouběji věnovat vašim potřebám – ozvěte se nám prosím na e-mail lindatclariah@phil.muni.cz
nebo si rezervujte osobní konzultaci.
Každý originální výzkum začíná přípravou datové základny. Někdy lze využít už existujících
informačních zdrojů, faktografických databází, datových sestav apod. Neexistují-li takové podklady
pro zamýšlený výzkum nebo nemají-li odpovídající pokrytí, vhodnou strukturu či patřičnou validitu,
dojde na tvorbu vlastní datové platformy. Tvůrce takového systému prochází komplexním procesem,
v němž činí řadu rozhodnutí povahy koncepční, odborné, manažerské, technické. Tento materiál
jsme připravili jako základní metodickou podporu tohoto procesu.
Následující doporučení jsou obecná, bez vazby na konkrétní technické řešení. První okruh
doporučení – SEDMERO PRVOTNÍCH ÚVAH – se věnuje základním koncepčním rozhodnutím, druhý –
PĚT KROKŮ K CÍLI – představuje doporučení jednotlivých postupů, metod a praktických řešení.
SEDMERO PRVOTNÍCH ÚVAH
Tato část obsahuje podněty pro úvodní rozvahu tvůrce datové platformy před tím, než se pustí do
vlastní přípravy. Při plánování celého procesu je třeba myslet nejen na obsah, rozsah a strukturu
zamýšlené databáze, ale i na dokumentaci jednotlivých kroků a výsledků, právní řešení přístupu
veřejnosti k obsahu databáze či interakci uživatelů s informačním zdrojem a začlenění nově vzniklé
platformy do datového univerza.
1) Stanovení účelu a žádoucích funkcí
Základní otázky můžeme shrnout jako: Proč by měla datová platforma existovat? Co má být jejím
obsahem? Kdo s ní bude pracovat a jakým způsobem?
Důvod existence platformy je pravděpodobně dán výzkumným projektem a absencí jiného
vyhovujícího zdroje. S platformou obvykle pracuje její správce (výzkumný tým) při přidávání a
úpravě obsahu. Tento výzkumný tým ji dále využívá i po naplnění obsahem. Pokud je platforma
veřejně přístupná, rozšiřuje se skupina potenciálních uživatelů a jejich potřeb. Potřeby uživatelů
a žádoucí funkce je možné popsat více způsoby, od prostého textového popisu po různé typy
modelů. Existuje také množství metod pro zjištění těchto potřeb (více bod 6). Pro funkčnost jsou
zásadní také rozhodnutí týkající se popisu obsahu (více bod 2).
Další požadavky se mohou týkat dat o využívání platformy. Například je vhodné určit, zda
chceme sledovat počty stažení souborů nebo zobrazení jednotlivých záznamů a zda tato data
chceme zobrazit veřejně přímo v systému.
2) Popis obsahu
Aby bylo možné se sbírkovými objekty (naskenovanými materiály, daty, fotografiemi, texty aj.)
dále pracovat, je potřeba je vhodně popsat. Komplexnost popisu se odvíjí od potřeb uživatelů, v
první řadě samotného výzkumného týmu, který sbírku tvoří. Určujícím faktorem je také množství
času, který je pro tvorbu k dispozici. Při formulování pravidel popisu je potřeba rozhodnout, jaké
údaje zahrnout, odkud je zjišťovat a jakým způsobem je zapisovat. Všechna rozhodnutí o
způsobu popisu by měla být zdokumentována a dostupná všem, kdo budou s obsahem pracovat.
Tato rozhodnutí budou ovlivněna mimo jiné oborovými zvyklostmi a měla by být učiněna s
ohledem na budoucí využitelnost a udržitelnost platformy a jejího obsahu. Lišit se bude také
způsob, jakým budou popisné informace uloženy, a to v závislosti na zvoleném technickém
řešení.
3) Dokumentace postupu i výsledku
Na tvorbu dokumentace často nezbývá čas, přesto je nezbytná pro plné využití potenciálu pracně
budované platformy. Technická dokumentace je zásadní pro případné strojové zpracování
obsažených dat nebo jejich přesun do jiného systému (například pokud stávající řešení zastará a
přestane správně fungovat). Pro inspiraci lze využít nabízenou Šablonu dokumentace (PDF) se
základními okruhy, kterým je vhodné se věnovat.
Pro lepší využitelnost platformy je důležitá také dokumentace rozhodnutí, která vedla k jejímu
vzniku a formovala její podobu. Základní informace o obsahu a cílech projektu by měly být
dostupné rovněž na stránkách platformy, má-li veřejnou adresu.
4) Zajištění autorských práv k vystavovanému obsahu
Pokud je součástí platformy digitalizovaný obsah, je nutné vědět, zda a jak s ním lze nakládat. Je
také nezbytné uvést vlastníky autorských práv. Speciální pozornost je pak potřeba věnovat
osobním a citlivým datům, jsou-li ve sbírce obsažena.
Pokud uběhlo více než 70 let od úmrtí autora digitalizovaného obsahu, pak lze s dílem
automaticky nakládat jako s volným dílem. Pokud však této ochranné lhůty nebylo dosaženo, pak
je třeba dodržet ustanovení podle § 27b odst. 3 autorského zákona. V případě, že vlastníka
autorských práv nedohledáme ve zmíněných zdrojích, pak postupujeme podle § 37a a zažádáme
o patřičnou licenci.
5) Volba licence pro poskytování dat a jejich citování
Nejen u volně dostupných sbírek se nabízí otázka dalšího využití zahrnutých dat. Pokud jste sami
tvůrci jejího obsahu nebo jeho části, je vhodné uvést na stránkách, pod jakou licencí je tento
obsah poskytován. Je možné využít například licence Creative Commons. Jako nejméně
restriktivní je doporučována varianta CC BY 4.0.
Licencovat lze také samotnou databázi jako celek. Ta může být chráněna autorským právem,
pokud jde o tzv. originální databázi, nebo právem pořizovatele databáze. Více informací a
názorný diagram lze najít na stránkách Otevřená data.
Pro další práci s obsahem je důležité jednoznačně určit, kdo je jeho tvůrcem a kdy byl obsah
vytvořen a publikován. Dále je zvykem uvést, jak by měla být platforma správně citována, ať už
jako celek, nebo jednotlivá obsažená data.
6) Péče o uživatele
Uživateli platforem pro výzkum jsou obvykle samotní tvůrci. Pokud má platforma potenciál
dalšího využití, je vhodné zapojit do jejího vzniku více osob a zjišťovat, jaké jsou jejich potřeby.
Důležitou součástí tvorby webového obsahu a služeb je také přístupnost pro uživatele s různými
druhy omezení.
Díky prototypům (průběžným, nehotovým verzím) je možné platformu otestovat a zjistit, zda je
pro uživatele srozumitelná. Pro uživatelské testování je vhodné si připravit zadání úkolů, které
mají testeři provést. Základní informace o realizaci uživatelského testování nabízí například web
100 metod, spolu s dalšími metodami pro zjišťování uživatelských potřeb.
Po spuštění lze zkoumat, jak uživatelé platformu používají. Pracovat lze s daty generovanými
samotným systémem (např. s pomocí nástrojů Google Analytics nebo HotJar), nebo metodami
jako pozorování či stínování uživatelů.
7) Sdílení informací a (meta)dat
Aby se o platformě dozvěděli potenciální uživatelé, vyplatí se zjistit, zda existuje rejstřík
platforem podobného zaměření, kam by bylo možné ji zaregistrovat. Platformy vzniklé na
Filozofické fakultě MU shromažďujeme v katalogu na stránkách infrastruktury Digitalia MUNI
ARTS. Dále existují společné vyhledávací služby, které sbírají metadata z více platforem. V
takovém případě je obvykle potřeba, aby metadata splňovala stanovené požadavky.
PĚT KROKŮ K CÍLI
Tato část má být pomocníkem na cestě od prvotní výzkumné myšlenky až ke kvalitní datové
platformě, jejímu zpřístupnění, prezentaci a využití. Je orientována na odborné otázky, každý krok
ovšem vyžaduje i manažerská a technická řešení – k těm rovněž uvádíme vybrané podněty.
Rozdělení do jednotlivých kroků je do jisté míry arbitrární, v praxi může probíhat plnění některých
kroků (zčásti) souběžně.
Konkrétní příklady jsme se pokusili přiblížit prostřednictvím fiktivního badatele Alberta, který svými
přístupy a pochybnostmi může podnítit další otázky.
Krok 1: CO CHCEME
Neboli: Základní pojetí, koncepce a účel připravované datové platformy.
Kde začít: Vyjasněním cílů chystaného výzkumu – co, jak, kde, kdy, jakým způsobem budeme
zkoumat. Kdo a jak bude do výzkumu zapojen. Jak budou vypadat výsledky výzkumu. Jaké typy dat
bude výzkum generovat, jak budou popsána (metadata), strukturována, formátována, provázána
s dalšími datovými zdroji. Kdo a jakým způsobem bude tato data využívat. Jak bude zajištěna
prezentace a propagace vzniklé datové platformy. Kdo, v jakých intervalech a jakými metodami bude
datovou platformu udržovat, doplňovat a aktualizovat.
Možné překážky a problémy: Rozsah nebo strukturu dat nelze vždy s konečnou platností, přesností a
úplností stanovit předem, protože se vyjevuje až v průběhu výzkumu. Výzkumem může být zjištěn
parametr, vlastnost, charakteristika dat, která na počátku nebyla známa či se o ní neuvažovalo jako o
podstatném hledisku analýzy.
Výstup tohoto kroku: Textový dokument shrnující všechna podstatná rozhodnutí uvedená výše, i
s případnými nejasnostmi, pochybnostmi apod.
Manažerské otázky: Mám pro svůj výzkum dostatečné finanční zabezpečení? Je v něm rezervována
položka na vznik datové platformy? Byl pro tuto proceduru vytvořen patřičný časový rámec?
Zahrnuje můj tým všechny potřebné profese? Připravil/a jsem pro něj efektivní komunikační
platformu?
Technické řešení: Programátoři jsou od počátku zapojeni do činnosti týmu a seznámeni s obsahem
projektu. Navrhují variantní řešení komplexních otázek (volba SW, zálohování dat, uživatelské
rozhraní atd.).
Tým LINDAT/CLARIAH-CZ pomůže mj.: formou konzultace, zaměřené zejména na to, zda nic
podstatného v tomto kroku nebylo opomenuto, zda je dostatečně zřejmý rozsah odborné a časové
investice do přípravy datové platformy.
Poznámky badatele Alberta: Zatím je to jasné. Problematice jazyka českých dětských komiksových časopisů se věnuji
dlouhodobě, přehled o primární i sekundární literatuře mám dokonalý. Budeme zkoumat jazyk výpovědí hrdinů časopisu
Čtyřlístek od jeho vzniku (1969) do roku 2020 a sledovat v něm intertextové a extratextové vazby. Můj tým zahrnuje lingvistu,
literární vědkyni, pedagoga, specialistu na komiksový žánr a soukromého badatele orientujícího se výhradně na časopis
Čtyřlístek. Potřebovat budeme ještě programátora. Výstupem bude strukturovaný korpus textů s vazbami na další informační
objekty. Primárně bude sloužit lingvistům a literárním vědcům, užitečný bude i pro další badatele, laická skupina zájemců o
Čtyřlístek je také velká. Přesná struktura dat a metadat ještě není určena, je to jeden z důležitých dalších kroků našeho týmu.
Přesnou představu o prezentaci a aktualizaci vzniklé databáze ještě nemáme. Určitě bych využil konzultaci s týmem
LINDAT/CLARIAH-CZ, abych věděl, že nic podstatného neuteklo.
Krok 2: KDE VEZMEME DATA
Neboli: Metody sběru a tvorby dat, jejich strukturace.
Kde začít: Identifikací všech dostupných pramenů dat nejrůznějších typů (klasických i elektronických),
které se mohou stát dílčími zdroji dat. Připravit metody excerpce těchto dat, stanovit strukturu jejich
uložení a zajistit kontrolu validity. Totéž určit pro data získaná terénním výzkumem. Provést procesní
analýzu zpracovávaných dat – tedy, co se s daty při zpracování děje (od jejich identifikace až po jejich
konečné uložení v databázi) ve smyslu jejich formalizace, unifikace, normalizace atp., a stanovit
odpovědnost zpracovatelů za jednotlivé procedury. Zajistit požadovanou retrospektivu, aktuálnost,
granularitu, úplnost, konzistenci dat.
Možné překážky a problémy: Data, jejich část nebo jejich určitý parametr se ve stanovém rozsahu
nebo kvalitě nepodaří získat pramenným ani terénním průzkumem, nebo je jejich získání spojeno
s neúměrnými náklady.
Výstup tohoto kroku: A) Strukturovaný textový dokument, který popisuje výše uvedené parametry –
prameny a jejich výtěžnost, metody terénního výzkumu, vlastnosti a parametry dat a s nimi
spojených procedur. B) Na základě stanovených kritérií strukturovaný soubor dat.
Manažerské otázky: Byla dostatečně vyřešena otázka autorských práv u dat, která pocházejí z jiných
zdrojů? Nepřekračují nároky stanovené na rozsah a kvalitu dat možnosti pracovního týmu?
Technické řešení: Příprava databáze, jejíž struktura reflektuje požadavky na formát a strukturu dat a
možnosti práce s nimi (editace, import/export, prohlížení, filtrování, vyhledávání, statistické
přehledy, vizualizace, analytické zpracování).
Tým LINDAT/CLARIAH-CZ pomůže mj.: zejména při definici vlastností a parametrů dat, metod jejich
prvotního získávání a následného zpracování.
Poznámky badatele Alberta: S některými pojmy se setkávám poprvé (třeba granularita dat). Jinak našim pramenem
jednoznačně jsou jednotlivá čísla Čtyřlístku. Teprve rozhodneme, jestli využijeme už digitalizovaných podkladů (vyžaduje
spolupráci s redakcí časopisu), nebo přistoupíme k vlastní digitalizaci. Zvažujeme možnost OCR textů, což je vzhledem ke
komiksovému formátu nevyzkoušená metoda, takže možná bude jednodušší použít „hlavoruční“ přepis. Data zatím máme
strukturována takto: výpověď (vždy jedna „bublina“), mluvčí, identifikace výpovědi (ročník, číslo, stránka, sekvence). Výpovědi
budou zapisovány přesně tak, jak jsou uvedeny v dokumentu, dořešit musíme co s překlepy, tiskovými chybami a dalšími zjevnými
formálními nedostatky, jak naložit s meta- a polyvýpověďmi apod.. Uvažujeme o třístupňovém modelu zpracovatelů: „plniči“
(prvotní zpracovatelé dat), editoři (kontrolují kvalitu a úplnost dat), administrátor (řeší systémové otázky). S týmem
LINDAT/CLARIAH-CZ bych chtěl probrat zejména systémové řešení nepravidelností a inkonzistence vstupních dat.
Krok 3: PŘIPRAVUJEME METADATA
Neboli: Definice a parametrizace metadat.
Kde začít: Stanovením rozsahu popisných, strukturálních a administrativních metadat. Určit obsah,
strukturu a formát jednotlivých typů metadat, pokud možno s ohledem na existující standardy.
Zvážit využití řízených slovníků pro stanovený okruh metadatových polí. Naplánovat využití nástrojů
a postupů zajišťujících úplnost a konzistenci metadat. Použít modelování (např. pomocí
orientovaných grafů) pro vyjádření vztahu dat a metadat a jejich implementaci ve vyhledávacím
rozhraní.
Možné překážky a problémy: Formálně, úzce nebo naopak široce koncipovaná popisná metadata,
která neumožňují s daty pracovat předpokládaným způsobem nebo dostatečně přesně. Přílišná
akcentace administrativních metadat, která může ubírat síly na vlastní obsahová (popisná a
strukturální) metadata.
Výstup tohoto kroku: A) Strukturovaný textový dokument, který popisuje výše uvedené parametry –
jednotlivé typy metadat (popisná, strukturální, administrativní), jejich formát a strukturu, metody
jejich zpracování. B) Na základě stanovených kritérií strukturovaný soubor metadat připojený k dříve
zpracovaným datům.
Manažerské otázky: Splňují metadata všechny nároky technické i právní standardizace?
Technické řešení: Připravit uložení a zobrazení metadat v databázi, jejich propojení s daty.
Tým LINDAT/CLARIAH-CZ pomůže mj.: s rozlišením jednotlivých typů metadat, stanovením jejich
konkrétní struktury a formátu, doporučeními vhodných standardů a efektivních metod tvorby
metadat.
Poznámky badatele Alberta: Naše popisná metadata se týkají vlastních textů (výpovědí), subjektu těchto výpovědí a
kontextu výpovědi. Každá vrstva metadat zahrnuje další kritéria a parametry, např. u textu složky lingvistické analýzy, u subjektu
pohlaví, emoční/fyzický stav, u kontextu denní doba, místo výpovědi (interiér/exteriér) aj. U vrstvy textu bychom pro segmentaci
textu rádi nasadili standardní korpusové nástroje, u dalších vrstev řízené slovníky, pokud možno standardizované a
parametrizovatelné. S týmem LINDAT/CLARIAH-CZ bych rád podrobně probral všechny aspekty zvolených metadat, abych si byl
jist, že jsme neopomněli nějaká hlediska a že nás nepostihla „profesní slepota“. Budeme také rádi za doporučení, jakou minimální
úroveň by měla mít administrativní metadata.
Krok 4: ZPŘÍSTUPŇUJEME VÝSLEDKY
Neboli: Uživatelské rozhraní a možnosti vyhledávání.
Kde začít: Určením dat a metadat, která budou používána nejčastěji a ovlivní tak i základní strukturu
uživatelského rozhraní. Zvolit strukturu hlavní stránky uživatelského rozhraní a parametry dílčích
stránek spojených se zobrazením, prohlížením, filtrací a vyhledáváním údajů. Promyšleně rozlišit
možnosti a rozsah plnotextového, nestrukturovaného a strukturovaného vyhledávání. Zapojit do
testování systému koncové uživatele.
Možné překážky a problémy: Strukturované vyhledávání dostatečně nezužitkovává všechny
parametry metadat a omezuje tak analytický přístup uživatele k obsahu databáze. Výsledky
vyhledávání jsou z hlediska koncového uživatele zobrazovány nepřehledně nebo nesrozumitelně.
Výstup tohoto kroku: A) Strukturovaný textový dokument, který popisuje výše uvedené parametry –
jednotlivá rozhraní, prohledávatelná pole a jejich obsah, formát zobrazení údajů. Stane se základem
uživatelské dokumentace – nápovědy. B) Konkrétní uživatelské rozhraní s funkčními a otestovanými
možnostmi vyhledávání. C) Kontextová nápověda vycházející z A a implementovaná do B.
Manažerské otázky: Bude se lišit přístup k datové platformě podle typu uživatele? Jaké licence
budou pro konkrétní obsah a uživatele nastaveny? Respektují tyto licence publikační politiku naší
instituce (open access)? Jakým způsobem lze výsledky projektu uplatnit při hodnocení výzkumné a
vědecké činnosti?
Technické řešení: Na základě stanovené struktury připravit prototyp uživatelského rozhraní se
zohledněním pravidel přístupnosti a dalších standardů. Po opakovaném testování zpřístupnit
výslednou podobu datové platformy.
Tým LINDAT/CLARIAH-CZ pomůže mj.: s nastavením vyhledávacích filtrů, definicí vyhledávacího
rozhraní, volbou vhodného zobrazení výsledků vyhledávání a testováním uživatelského rozhraní.
Poznámky badatele Alberta: Za hlavní filtry našich údajů považujeme předměty (objekty) výpovědí, subjekty výpovědí a
časové hledisko. Ty by měly být součástí hlavní stránky stejně jako možnost plnotextového vyhledávání ve výpovědích. Zároveň
bychom rádi umožnili badatelům maximálně zužitkovat obsah databáze kladením analytických, kombinovaných,
parametrizovatelných dotazů, byť i z našeho pohledu irelevantních nebo nesmyslných (třeba jak často subjekt typu muž
v emocionálním stavu rozčilen používá extratextové odkazy k objektům typu stavba). Od týmu LINDAT/CLARIAH-CZ očekávám
v tomto kroku zejména konzultaci k možnostem analytického vyhledávání a intenzivní testování uživatelského rozhraní s akcentem
na pokročilé vyhledávání.
Krok 5: ZŮSTÁVÁME TU NADLOUHO
Neboli: Správa a údržba datové platformy, dlouhodobá udržitelnost.
Kde začít: Stanovením koncepce dalšího rozvoje datové platformy. Určení okruhů dat a metadat,
která budou ve stanovených intervalech aktualizována a doplňována. Identifikace datových i
funkčních nedostatků, které vyvstaly z prvotní projektové fáze. Určení dlouhodobé potřeby rozšíření
datové základny, metadatového popisu a vylepšených nebo nových funkcí.
Možné překážky a problémy: Nedostatek motivace nebo zdrojů pro dlouhodobou správu datové
platformy. Nesoustavná aktualizace údajů ústící do zastaralosti nebo neúplnosti dat.
Výstup tohoto kroku: A) Strukturovaný textový dokument, který stanovuje pravidla a procedury
správy a aktualizace datové platformy. B) Průběžně aktualizovaný a doplňovaný obsah datové
platformy.
Manažerské otázky: Kdo bude pověřen dlouhodobou správou datové platformy? Bude nutné pro
údržbu databáze získávat i mimorozpočtové finanční zdroje?
Technické řešení: Implementace nástrojů umožňujících efektivní sledování obsahových i formálních
změn datové platformy.
Tým LINDAT/CLARIAH-CZ pomůže mj.: s definicí parametrů krátkodobého, střednědobého a
dlouhodobého rozvoje datové platformy, modelováním potenciálních uživatelů databáze, úpravou
struktury, obsahu a uživatelského rozhraní.
Poznámky badatele Alberta: Z této fáze mám největší obavy. Datovou platformu vytváříme v rámci projektu a po jeho
skončení hrozí, že vše poběží „na volnoběh“ nebo se databáze zakonzervuje ve stavu ke konci projektu, což bychom neradi,
protože podnětů k jejímu dalšímu rozvoji máme řadu. Rady týmu LINDAT/CLARIAH-CZ by proto pro nás mohly být přínosné
s ohledem na stanovení priorit rozvoje a zajištění jejich realizace včetně financování.
ZPĚTNÁ VAZBA
Budete-li to považovat za vhodné a užitečné, dejte nám prosím vědět při našem příštím setkání
(nebo na e-mail lindat-clariah@phil.muni.cz), nakolik byl pro vás tento dokument přínosný:
A – Podstatně mi ozřejmil záležitosti spojené s tvorbou datové platformy.
B – Vysvětlil mi některé nejasnosti, přinesl dílčí podněty, ale celkově můj vhled do problematiky
nezměnil.
C – Byl pro mě dost obecný, celkový přehled o problematice mám a potřebuji spíše řešit konkrétní
kroky.
D – Není mi jasné, o co tu jde, potřebuji asi problematiku vysvětlit jinou formou.
Poznámky: _____________________________
Děkujeme za váš názor. Zohledníme jej v naší další práci.
ENGLISH
Creating a data platform for the humanities
Recommendations for platform creator
Developed in LINDAT/CLARIAH-CZ project, Brno, March 2022
Are you preparing a digital collection, archive, database or other research platform
and thinking about the steps, approaches and challenges? This material is for you as
a basic introduction to the issues. We'd be happy to meet with you and go deeper
into your needs – please contact us at lindat-clariah@phil.muni.cz or book a personal
consultation.
All original research begins with the preparation of a data backup. Sometimes existing information
resources, factual databases, data sets, etc. can be used. If there is no such sources for the intended
research, or if it does not have eligible coverage, suitable structure or appropriate validity, it comes
down to creating your own data platform. The creator of such a system goes through a complex
process in which he makes a series of decisions of a conceptual, professional, managerial, technical
nature. We have prepared this material as a basic methodological support for this process.
The following recommendations are general, with no link to a specific technical solution. The first set
of recommendations – SEVEN PRIMARY CONSIDERATIONS – is devoted to basic conceptual
decisions, the second one – FIVE STEPS TO THE GOAL – presents recommendations for individual
procedures, methods and practical solutions.
SEVEN INITIAL CONSIDERATIONS
This section provides suggestions for the data platform developer's initial reflection before
embarking on the actual development. When planning the entire process, it is necessary to think not
only about the content, scope and structure of the intended database, but also about the
documentation of the steps and results, the legal solutions for public access to the database content
or the user interaction with the information resource, and the integration of the newly created
platform into the data universe.
1) Specification of the purpose and the intended function
The basic questions can be summarized as follows: Why should the platform exist? What should its
content be? Who will be working with the platform and how?
The reason for the existence of the platform is probably due to the research project and the lack of
an appropriate resource. The platform is usually used by its administrator (research team) when
adding and editing its content. This research team also works with the platform after the content is
provided. If the platform is publicly accessible, the group of potential users and their needs extends.
The needs of users and the required functions can be described in more ways, from simple text
descriptions to various types of models. There are also a number of methods for identifying these
needs (see section 6). The decisions concerning the description of the content are also important for
the functionality (see section 2).
Other requirements may pertain to the data about the use of the platform. For example, it is
appropriate to determine whether we want to record the numbers of file downloads or individual
record views and whether this data should be displayed publicly, directly in the system.
2) Content description
In order to be able to work with the collection objects (scanned materials, data, photos, texts, etc.),
they need to be described appropriately. The complexity of the description depends on the needs of
the users, primarily the research team building the collection. The amount of time available for
production is also a determining factor. In formulating the rules of description, it is necessary to
decide what data to include, where to collect it from, and how to record it. All decisions about how
to describe should be documented and accessible to all those who will work with the content. These
decisions will be influenced by, inter alia, by the practices established in the respective discipline and
should be made with a view to the future usability and sustainability of the platform and its content.
The way in which descriptive information is stored will also vary depending on the technical solution
chosen.
3) Documentation of the process and the result
Documentation is often a time-consuming task, yet it is essential to fully exploit the potential of a
laboriously built platform. The technical documentation is essential for the eventual machine
processing of the contained data or its transfer to another system (for example, if the current
solution becomes obsolete and no longer works properly). For inspiration, you can use the offered
Documentation Template (PDF) with the basic headings that should be addressed.
Documentation of the decisions that led to the creation of the platform and shaped its design is also
important to make it more usable. Basic information on the content and objectives of the project
should also be available on the platform's website if it has a public address.
4) Ensuring the copyright of the content provided
If the platform includes digitised content, it is important to know whether and how it can be
handled. It is also necessary to indicate the copyright owners. Special attention should then be paid
to personal and sensitive data if it is included in the collection.
According to Czech law, if more than 70 years have passed since the death of the author of the
digitised content, then the work can automatically be treated as a free work. Otherwise, stipulations
of Section 27b(3) of the Copyright Act should be observed. In the event that the copyright holder
cannot be found in those resources, a licence for certain uses of orphan works should be requested
pursuant to Section 37a.
5) Identification of licence for data access and citation
The question of further use of contained data does not pertain only to freely accessible collections. If
you are the creators of the content or its parts, it is appropriate to specify, which licence this content
is provided under. You can use the Creative Commons licence, for instance. The CC BY 4.0 variant is
recommended as the least restrictive option.
The database as a whole can also be licensed. It may be protected by copyright, if is the so-called
original database, or by the database right. For more information and a schematic, visit Otevřená
data (Open Data; Czech version only).
For further work with the content, it is important to clearly identify who the creator is and when the
content was created and published. It is also customary to indicate how the platform should be
properly cited, either as a whole or the individual data contained.
6) User care
The users of research platforms are usually the creators themselves. If the platform has potential for
further use, it is advisable to involve more people in its creation and to find out what their needs
are. Accessibility for users with various types of disabilities is also an important part of the creation
of web content and services.
Prototypes (interim, unfinished versions) can be used to test the platform and find out whether it is
easy to use. For user testing, it is recommended to assign tasks the testers will be asked to perform.
General information about user testing can be found, for example, on 100 metod (100 Methods;
Czech version only), along with other methods for identifying user needs.
Once launched, it can be monitored how users use the platform. You can work with data generated
by the system itself (e.g., using Google Analytics or HotJar tools) or methods such as user
observation or shadowing.
7) Sharing information and (meta)data
In order to make potential users aware of the platform, it is worth finding out if there is a register of
platforms with a similar focus where it could be listed. We collect platforms created at the Faculty of
Arts of MU in a catalogue on the Digitalia MUNI ARTS infrastructure website. There are also common
search services that collect metadata from multiple platforms. In this case, the metadata usually
needs to meet specified requirements.
FIVE STEPS TO THE GOAL
This section is intended to be a guide on the journey from the initial research idea to a quality data
platform, its access, presentation and use. It focuses on expert issues, but each step requires
managerial and technical solutions – for which we also provide selected suggestions. The division
into individual steps is to some extent arbitrary; in practice, the implementation of some steps may
(partly) run in parallel.
We have attempted to approach specific examples through the fictional researcher Albert, whose
approaches and doubts may prompt further questions.
Step 1: WHAT WE WANT
Or: The basic concept, design and purpose of the upcoming data platform.
Starting point: Clarifying the goals of the upcoming research – what, how, where, when, how we will
research. Who will be involved in the research and how. What the research results will look like.
What types of data the research will generate, how it will be described (metadata), structured,
formatted, linked to other data sources. Who will use the data and how. How the presentation and
promotion of the resulting data platform will be ensured. Who will maintain and update the data
platform, how frequently and by what methods.
Potential obstacles and challenges: The scope or structure of the data cannot always be definitively,
accurately and completely determined in advance, as it only emerges during the research. The
research may reveal a parameter, property, characteristic of the data that was not initially known or
considered as an essential aspect of the analysis.
Outcome of this step: A text document summarizing all the essential decisions listed above, including
any ambiguities, doubts, etc.
Management questions: Do I have sufficient financial budget for my research? Is there a provision
for the creation of a data platform? Has an appropriate timeframe been established for this
procedure? Does my team include all the necessary professions? Have I prepared an effective
communication platform for it?
Technical solution: The programmers are involved in the team from the beginning and are familiar
with the content of the project. They propose alternative solutions to complex issues (choice of
software, data backup, user interface, etc.).
The LINDAT/CLARIAH-CZ team will help by: consulting, focusing in particular on whether nothing
essential has been omitted in this step, whether the extent of the professional and time investment
in the preparation of the data platform is clear.
Researcher Albert's comments: So far it is clear. I have been working on the issue of the language of Czech children's
comic magazines for a long time, and my overview of the primary and secondary literature is perfect. We will examine the
language of the heroes' statements in Čtyřlístek [Quatrefoil] magazine from its foundation (1969) to 2020, tracing intertextual
and extratextual links. My team includes a linguist, a literary scholar, an educationalist, a comics genre specialist, and a private
researcher focused exclusively on the Čtyřlístek magazine. We'll also need a programmer. The output will be a structured corpus
of texts with links to other information objects. Primarily it will serve linguists and literary scholars, but it will also be useful for
other researchers, and the lay audience for the Čtyřlístek is also large. The exact structure of the data and metadata has not yet
been determined, but it is one of the important next steps for our team. We do not yet have a precise idea about the presentation
and updating of the resulting database. I would definitely use the consultation with the LINDAT/CLARIAH-CZ team to know that
nothing essential has been missed.
Step 2: WHERE WE WILL OBTAIN THE DATA
Or: Methods of data collecting, creating and structuring.
Starting point: Identifying all available data sources of various types (traditional and electronic) that
can become constituent data sources. Preparing methods for data extraction, and establish a
structure for data storing and ensuring validity checks. Determining the same for field research data.
Carrying out a data process analysis – i.e. what happens to the data during processing (from their
identification to their final storage in the database) in scope of their formalisation, unification,
standardisation, etc., and determining the responsibility for the individual procedures. Ensuring the
required data retrospectivity, timeliness, granularity, completeness, consistency.
Potential obstacles and challenges: Data, part of it or a certain parameter of it, cannot be obtained
to the extent or quality required by source or field research, or is associated with disproportionate
costs.
Output of this step: A) A structured text document describing the above parameters – sources and
their mining potential, field survey methods, data characteristics and parameters, and associated
procedures. B) A structured dataset based on the established criteria.
Management questions: Has the issue of copyright for external data been adequately addressed? Do
the requirements set for the scope and quality of the data exceed the capabilities of the working
team?
Technical solution: Preparation of a database whose structure reflects the requirements for the
format and structure of data and the possibilities of working with them (editing, import/export,
browsing, filtering, searching, statistical reports, visualization, analytical processing).
The LINDAT/CLARIAH-CZ team will help: in particular, in defining the properties and parameters of
the data, the methods of their initial acquisition and subsequent processing.
Researcher Albert's comments: Some concepts I am encountering for the first time (e.g. data granularity). Otherwise, our
source is clearly the individual issues of the Čtyřlístek magazine. We have yet to decide whether we will use the already digitized
material (requiring collaboration with the magazine's editorial staff) or proceed with our own digitization. We are considering the
possibility of OCR of the texts, which is an untried method due to the comic format, so it may be easier to use a "manual"
transcription. So far we have structured the data as follows: statement (always one "balloon"), speaker, statement identification
(year, number, page, sequence). The statements will be written exactly as they appear in the document; we need to work out what
to do about typos, typographical errors and other obvious formal deficiencies, how to deal with meta- and polystatements, etc. We
are considering a three-layer model of processors: "fillers" (primary data processors), editors (check the quality and
completeness of the data), and an administrator (deals with system issues). With the LINDAT/CLARIAH-CZ team, I would
particularly like to discuss the systemic handling of input data irregularities and inconsistencies.
Step 3: PREPARING METADATA
Or: Definition and parameterization of metadata.
Starting point: Defining the scope of descriptive, structural and administrative metadata. Determine
the content, structure and format of each type of metadata, preferably taking into account existing
standards. Considering the use of controlled vocabularies for the defined range of metadata fields.
Planning the use of tools and procedures to ensure metadata completeness and consistency. Use
modelling (e.g. oriented graphs) to represent the relationships between data and metadata and
implementing it in the search interface.
Potential obstacles and challenges: Formal, poor or exhaustive descriptive metadata that does not
allow the data to be handled in the expected way or with sufficient precision. Over-emphasis on
administrative metadata, which may detract from the actual content (descriptive and structural)
metadata.
Outcome of this step: A) A structured text document that describes the above parameters – the
different metadata types (descriptive, structural, administrative), their format and structure, and the
methods for processing them. B) A structured set of metadata joined to the previously processed
data based on the specified criteria.
Management questions: Does the metadata meet all the requirements of technical and legal
standardisation?
Technical solution: Prepare the storage and display of metadata in the database, linking it to the
data.
The LINDAT/CLARIAH-CZ team will help: to distinguish between different types of metadata, to
determine their specific structure and format, to recommend appropriate standards and efficient
methods of metadata creation.
Researcher Albert's notes: Our descriptive metadata refers to the actual texts (statements), the subject of those
statements, and the context of the statements. Each layer of metadata includes additional criteria and parameters, e.g., for the
text, components of linguistic analysis, for the subject, gender, emotional/physical state, for the context, time of day, location of
the statements (interior/exterior), etc. For the text layer we would like to deploy standard corpus tools for text segmentation, for
the other layers controlled vocabularies, preferably standardized and parameterizable. I would like to discuss all aspects of the
chosen metadata in detail with the LINDAT/CLARIAH-CZ team to make sure that we have not missed any aspects and that we have
not been affected by "professional blindness". We would also be grateful for recommendations on the minimum level of
administrative metadata.
Step 4: ACCESSING RESULTS
Or: User interface and search options.
Starting point: Determining the data and metadata that will be used most often and thus affect the
basic structure of the user interface. Choosing the structure of the main UI page and the parameters
of the sub-pages associated with displaying, viewing, filtering, and searching the data. Thoughtfully
differentiate the capabilities and scope of full-text, unstructured and structured searching. Involve
end-users in testing the system.
Potential obstacles and challenges: Structured search does not sufficiently exploit all metadata
parameters and thus limits the user's analytical access to the database content. The search results
are not clearly or comprehensibly displayed from the end-user's perspective.
Output of this step: A) A structured text document that describes the above parameters – individual
interfaces, searchable fields and their contents, data display format. It becomes the basis of user
documentation – help. B) A concrete user interface with functional and tested search options. C)
Contextual help based on A and implemented in B.
Management questions: Will access to the data platform vary by user type? What licenses will be set
for specific content and users? Do these licenses respect the publishing policy of our institution
(open access)? How can the results of the project be applied to the evaluation of research and
scholarly activities?
Technical solution: Based on the defined structure, prepare a prototype user interface taking into
account accessibility rules and other standards. After repeated testing, make the final version of the
data platform available.
The LINDAT/CLARIAH-CZ team will help: with setting up search filters, defining the search interface,
choosing the appropriate display of search results and testing the user interface.
Researcher Albert's notes: We consider the objects of the statements, the subjects of the statements and the temporal
aspect as the main filters of our data. These should be part of the main page as well as a full-text searching of the statements. At
the same time, we would like to allow researchers to make analytical, combined, parameterizable queries, even if irrelevant or
nonsensical from our point of view (e.g. how often a subject like man in an emotional state of annoyance uses extratextual
references to objects like building). What I expect from the LINDAT/CLARIAH-CZ team in this step is mainly consultation on the
possibilities of analytical search and intensive testing of the user interface with emphasis on advanced search.
Step 5: STAYING HERE FOR A LONG TIME
Or: Data platform management and maintenance, long term preservation.
Starting point: Defining a concept for further development of the data platform. Identifying the data
and metadata types that will be updated and added at specified intervals. Identification of data and
functional gaps that have emerged from the initial design phase. Determine the long-term need for
expansion of the database, metadata description and enhanced or new functionality.
Potential obstacles and challenges: Lack of motivation or resources for long-term management of
the data platform. Inconsistent updating of data resulting in outdated or incomplete data.
Outcome of this step: A) A structured text document that sets out the rules and procedures for
managing and updating the data platform. B) The continuously updated content of the data
platform.
Management questions: Who will be responsible for the long-term management of the data
platform? Will it be necessary to raise extra-budgetary financial resources for the maintenance of
the database?
Technical solution: Implementation of tools to effectively monitor content and formal changes to the
data platform.
The LINDAT/CLARIAH-CZ team will help: to define the parameters for the short, medium and longterm
development of the data platform, to model the potential users of the database, to modify the
structure, content and user interface.
Researcher Albert's comments: This is the phase I am most concerned about. We are creating the data platform as part
of the project and after the project is over there is a risk that everything will run "idle" or the database will be preserved in its
state at the end of the project, which we would not like to do, as we have many ideas for its further development. The advice of the
LINDAT/CLARIAH-CZ team could therefore be useful to us with regard to setting development priorities and ensuring their
implementation, including funding.
BACK BOND
Please let us know how useful this document has been to you:
A – It substantially clarified for me the issues involved in creating a data platform.
B – It explained some ambiguities, provided partial suggestions, but overall did not change my
insight.
C – He was quite general for me, I have a overview of the issue and I need rather to address specific
steps.
D – It is not clear to me what is going on, I probably need the issue explained in a different way.
Comments: _____________________________
Thank you for your opinion. We will take it into account in our future work.