Tvoříme datovou platformu pro humanitní vědy Doporučení pro tvůrce platforem Zpracováno v rámci projektu LINDAT/CLARIAH-CZ, Brno, březen 2022 Připravujete digitální sbírku, archiv, databázi nebo jinou platformu pro výzkum a přemýšlíte o jednotlivých krocích, přístupech a problémech? Pak je tento materiál coby základní uvedení do problematiky určen právě vám. Rádi se s vámi i setkáme a budeme se hlouběji věnovat vašim potřebám – ozvěte se nám prosím na e-mail lindatclariah@phil.muni.cz nebo si rezervujte osobní konzultaci. Každý originální výzkum začíná přípravou datové základny. Někdy lze využít už existujících informačních zdrojů, faktografických databází, datových sestav apod. Neexistují-li takové podklady pro zamýšlený výzkum nebo nemají-li odpovídající pokrytí, vhodnou strukturu či patřičnou validitu, dojde na tvorbu vlastní datové platformy. Tvůrce takového systému prochází komplexním procesem, v němž činí řadu rozhodnutí povahy koncepční, odborné, manažerské, technické. Tento materiál jsme připravili jako základní metodickou podporu tohoto procesu. Následující doporučení jsou obecná, bez vazby na konkrétní technické řešení. První okruh doporučení – SEDMERO PRVOTNÍCH ÚVAH – se věnuje základním koncepčním rozhodnutím, druhý – PĚT KROKŮ K CÍLI – představuje doporučení jednotlivých postupů, metod a praktických řešení. SEDMERO PRVOTNÍCH ÚVAH Tato část obsahuje podněty pro úvodní rozvahu tvůrce datové platformy před tím, než se pustí do vlastní přípravy. Při plánování celého procesu je třeba myslet nejen na obsah, rozsah a strukturu zamýšlené databáze, ale i na dokumentaci jednotlivých kroků a výsledků, právní řešení přístupu veřejnosti k obsahu databáze či interakci uživatelů s informačním zdrojem a začlenění nově vzniklé platformy do datového univerza. 1) Stanovení účelu a žádoucích funkcí Základní otázky můžeme shrnout jako: Proč by měla datová platforma existovat? Co má být jejím obsahem? Kdo s ní bude pracovat a jakým způsobem? Důvod existence platformy je pravděpodobně dán výzkumným projektem a absencí jiného vyhovujícího zdroje. S platformou obvykle pracuje její správce (výzkumný tým) při přidávání a úpravě obsahu. Tento výzkumný tým ji dále využívá i po naplnění obsahem. Pokud je platforma veřejně přístupná, rozšiřuje se skupina potenciálních uživatelů a jejich potřeb. Potřeby uživatelů a žádoucí funkce je možné popsat více způsoby, od prostého textového popisu po různé typy modelů. Existuje také množství metod pro zjištění těchto potřeb (více bod 6). Pro funkčnost jsou zásadní také rozhodnutí týkající se popisu obsahu (více bod 2). Další požadavky se mohou týkat dat o využívání platformy. Například je vhodné určit, zda chceme sledovat počty stažení souborů nebo zobrazení jednotlivých záznamů a zda tato data chceme zobrazit veřejně přímo v systému. 2) Popis obsahu Aby bylo možné se sbírkovými objekty (naskenovanými materiály, daty, fotografiemi, texty aj.) dále pracovat, je potřeba je vhodně popsat. Komplexnost popisu se odvíjí od potřeb uživatelů, v první řadě samotného výzkumného týmu, který sbírku tvoří. Určujícím faktorem je také množství času, který je pro tvorbu k dispozici. Při formulování pravidel popisu je potřeba rozhodnout, jaké údaje zahrnout, odkud je zjišťovat a jakým způsobem je zapisovat. Všechna rozhodnutí o způsobu popisu by měla být zdokumentována a dostupná všem, kdo budou s obsahem pracovat. Tato rozhodnutí budou ovlivněna mimo jiné oborovými zvyklostmi a měla by být učiněna s ohledem na budoucí využitelnost a udržitelnost platformy a jejího obsahu. Lišit se bude také způsob, jakým budou popisné informace uloženy, a to v závislosti na zvoleném technickém řešení. 3) Dokumentace postupu i výsledku Na tvorbu dokumentace často nezbývá čas, přesto je nezbytná pro plné využití potenciálu pracně budované platformy. Technická dokumentace je zásadní pro případné strojové zpracování obsažených dat nebo jejich přesun do jiného systému (například pokud stávající řešení zastará a přestane správně fungovat). Pro inspiraci lze využít nabízenou Šablonu dokumentace (PDF) se základními okruhy, kterým je vhodné se věnovat. Pro lepší využitelnost platformy je důležitá také dokumentace rozhodnutí, která vedla k jejímu vzniku a formovala její podobu. Základní informace o obsahu a cílech projektu by měly být dostupné rovněž na stránkách platformy, má-li veřejnou adresu. 4) Zajištění autorských práv k vystavovanému obsahu Pokud je součástí platformy digitalizovaný obsah, je nutné vědět, zda a jak s ním lze nakládat. Je také nezbytné uvést vlastníky autorských práv. Speciální pozornost je pak potřeba věnovat osobním a citlivým datům, jsou-li ve sbírce obsažena. Pokud uběhlo více než 70 let od úmrtí autora digitalizovaného obsahu, pak lze s dílem automaticky nakládat jako s volným dílem. Pokud však této ochranné lhůty nebylo dosaženo, pak je třeba dodržet ustanovení podle § 27b odst. 3 autorského zákona. V případě, že vlastníka autorských práv nedohledáme ve zmíněných zdrojích, pak postupujeme podle § 37a a zažádáme o patřičnou licenci. 5) Volba licence pro poskytování dat a jejich citování Nejen u volně dostupných sbírek se nabízí otázka dalšího využití zahrnutých dat. Pokud jste sami tvůrci jejího obsahu nebo jeho části, je vhodné uvést na stránkách, pod jakou licencí je tento obsah poskytován. Je možné využít například licence Creative Commons. Jako nejméně restriktivní je doporučována varianta CC BY 4.0. Licencovat lze také samotnou databázi jako celek. Ta může být chráněna autorským právem, pokud jde o tzv. originální databázi, nebo právem pořizovatele databáze. Více informací a názorný diagram lze najít na stránkách Otevřená data. Pro další práci s obsahem je důležité jednoznačně určit, kdo je jeho tvůrcem a kdy byl obsah vytvořen a publikován. Dále je zvykem uvést, jak by měla být platforma správně citována, ať už jako celek, nebo jednotlivá obsažená data. 6) Péče o uživatele Uživateli platforem pro výzkum jsou obvykle samotní tvůrci. Pokud má platforma potenciál dalšího využití, je vhodné zapojit do jejího vzniku více osob a zjišťovat, jaké jsou jejich potřeby. Důležitou součástí tvorby webového obsahu a služeb je také přístupnost pro uživatele s různými druhy omezení. Díky prototypům (průběžným, nehotovým verzím) je možné platformu otestovat a zjistit, zda je pro uživatele srozumitelná. Pro uživatelské testování je vhodné si připravit zadání úkolů, které mají testeři provést. Základní informace o realizaci uživatelského testování nabízí například web 100 metod, spolu s dalšími metodami pro zjišťování uživatelských potřeb. Po spuštění lze zkoumat, jak uživatelé platformu používají. Pracovat lze s daty generovanými samotným systémem (např. s pomocí nástrojů Google Analytics nebo HotJar), nebo metodami jako pozorování či stínování uživatelů. 7) Sdílení informací a (meta)dat Aby se o platformě dozvěděli potenciální uživatelé, vyplatí se zjistit, zda existuje rejstřík platforem podobného zaměření, kam by bylo možné ji zaregistrovat. Platformy vzniklé na Filozofické fakultě MU shromažďujeme v katalogu na stránkách infrastruktury Digitalia MUNI ARTS. Dále existují společné vyhledávací služby, které sbírají metadata z více platforem. V takovém případě je obvykle potřeba, aby metadata splňovala stanovené požadavky. PĚT KROKŮ K CÍLI Tato část má být pomocníkem na cestě od prvotní výzkumné myšlenky až ke kvalitní datové platformě, jejímu zpřístupnění, prezentaci a využití. Je orientována na odborné otázky, každý krok ovšem vyžaduje i manažerská a technická řešení – k těm rovněž uvádíme vybrané podněty. Rozdělení do jednotlivých kroků je do jisté míry arbitrární, v praxi může probíhat plnění některých kroků (zčásti) souběžně. Konkrétní příklady jsme se pokusili přiblížit prostřednictvím fiktivního badatele Alberta, který svými přístupy a pochybnostmi může podnítit další otázky. Krok 1: CO CHCEME Neboli: Základní pojetí, koncepce a účel připravované datové platformy. Kde začít: Vyjasněním cílů chystaného výzkumu – co, jak, kde, kdy, jakým způsobem budeme zkoumat. Kdo a jak bude do výzkumu zapojen. Jak budou vypadat výsledky výzkumu. Jaké typy dat bude výzkum generovat, jak budou popsána (metadata), strukturována, formátována, provázána s dalšími datovými zdroji. Kdo a jakým způsobem bude tato data využívat. Jak bude zajištěna prezentace a propagace vzniklé datové platformy. Kdo, v jakých intervalech a jakými metodami bude datovou platformu udržovat, doplňovat a aktualizovat. Možné překážky a problémy: Rozsah nebo strukturu dat nelze vždy s konečnou platností, přesností a úplností stanovit předem, protože se vyjevuje až v průběhu výzkumu. Výzkumem může být zjištěn parametr, vlastnost, charakteristika dat, která na počátku nebyla známa či se o ní neuvažovalo jako o podstatném hledisku analýzy. Výstup tohoto kroku: Textový dokument shrnující všechna podstatná rozhodnutí uvedená výše, i s případnými nejasnostmi, pochybnostmi apod. Manažerské otázky: Mám pro svůj výzkum dostatečné finanční zabezpečení? Je v něm rezervována položka na vznik datové platformy? Byl pro tuto proceduru vytvořen patřičný časový rámec? Zahrnuje můj tým všechny potřebné profese? Připravil/a jsem pro něj efektivní komunikační platformu? Technické řešení: Programátoři jsou od počátku zapojeni do činnosti týmu a seznámeni s obsahem projektu. Navrhují variantní řešení komplexních otázek (volba SW, zálohování dat, uživatelské rozhraní atd.). Tým LINDAT/CLARIAH-CZ pomůže mj.: formou konzultace, zaměřené zejména na to, zda nic podstatného v tomto kroku nebylo opomenuto, zda je dostatečně zřejmý rozsah odborné a časové investice do přípravy datové platformy. Poznámky badatele Alberta: Zatím je to jasné. Problematice jazyka českých dětských komiksových časopisů se věnuji dlouhodobě, přehled o primární i sekundární literatuře mám dokonalý. Budeme zkoumat jazyk výpovědí hrdinů časopisu Čtyřlístek od jeho vzniku (1969) do roku 2020 a sledovat v něm intertextové a extratextové vazby. Můj tým zahrnuje lingvistu, literární vědkyni, pedagoga, specialistu na komiksový žánr a soukromého badatele orientujícího se výhradně na časopis Čtyřlístek. Potřebovat budeme ještě programátora. Výstupem bude strukturovaný korpus textů s vazbami na další informační objekty. Primárně bude sloužit lingvistům a literárním vědcům, užitečný bude i pro další badatele, laická skupina zájemců o Čtyřlístek je také velká. Přesná struktura dat a metadat ještě není určena, je to jeden z důležitých dalších kroků našeho týmu. Přesnou představu o prezentaci a aktualizaci vzniklé databáze ještě nemáme. Určitě bych využil konzultaci s týmem LINDAT/CLARIAH-CZ, abych věděl, že nic podstatného neuteklo. Krok 2: KDE VEZMEME DATA Neboli: Metody sběru a tvorby dat, jejich strukturace. Kde začít: Identifikací všech dostupných pramenů dat nejrůznějších typů (klasických i elektronických), které se mohou stát dílčími zdroji dat. Připravit metody excerpce těchto dat, stanovit strukturu jejich uložení a zajistit kontrolu validity. Totéž určit pro data získaná terénním výzkumem. Provést procesní analýzu zpracovávaných dat – tedy, co se s daty při zpracování děje (od jejich identifikace až po jejich konečné uložení v databázi) ve smyslu jejich formalizace, unifikace, normalizace atp., a stanovit odpovědnost zpracovatelů za jednotlivé procedury. Zajistit požadovanou retrospektivu, aktuálnost, granularitu, úplnost, konzistenci dat. Možné překážky a problémy: Data, jejich část nebo jejich určitý parametr se ve stanovém rozsahu nebo kvalitě nepodaří získat pramenným ani terénním průzkumem, nebo je jejich získání spojeno s neúměrnými náklady. Výstup tohoto kroku: A) Strukturovaný textový dokument, který popisuje výše uvedené parametry – prameny a jejich výtěžnost, metody terénního výzkumu, vlastnosti a parametry dat a s nimi spojených procedur. B) Na základě stanovených kritérií strukturovaný soubor dat. Manažerské otázky: Byla dostatečně vyřešena otázka autorských práv u dat, která pocházejí z jiných zdrojů? Nepřekračují nároky stanovené na rozsah a kvalitu dat možnosti pracovního týmu? Technické řešení: Příprava databáze, jejíž struktura reflektuje požadavky na formát a strukturu dat a možnosti práce s nimi (editace, import/export, prohlížení, filtrování, vyhledávání, statistické přehledy, vizualizace, analytické zpracování). Tým LINDAT/CLARIAH-CZ pomůže mj.: zejména při definici vlastností a parametrů dat, metod jejich prvotního získávání a následného zpracování. Poznámky badatele Alberta: S některými pojmy se setkávám poprvé (třeba granularita dat). Jinak našim pramenem jednoznačně jsou jednotlivá čísla Čtyřlístku. Teprve rozhodneme, jestli využijeme už digitalizovaných podkladů (vyžaduje spolupráci s redakcí časopisu), nebo přistoupíme k vlastní digitalizaci. Zvažujeme možnost OCR textů, což je vzhledem ke komiksovému formátu nevyzkoušená metoda, takže možná bude jednodušší použít „hlavoruční“ přepis. Data zatím máme strukturována takto: výpověď (vždy jedna „bublina“), mluvčí, identifikace výpovědi (ročník, číslo, stránka, sekvence). Výpovědi budou zapisovány přesně tak, jak jsou uvedeny v dokumentu, dořešit musíme co s překlepy, tiskovými chybami a dalšími zjevnými formálními nedostatky, jak naložit s meta- a polyvýpověďmi apod.. Uvažujeme o třístupňovém modelu zpracovatelů: „plniči“ (prvotní zpracovatelé dat), editoři (kontrolují kvalitu a úplnost dat), administrátor (řeší systémové otázky). S týmem LINDAT/CLARIAH-CZ bych chtěl probrat zejména systémové řešení nepravidelností a inkonzistence vstupních dat. Krok 3: PŘIPRAVUJEME METADATA Neboli: Definice a parametrizace metadat. Kde začít: Stanovením rozsahu popisných, strukturálních a administrativních metadat. Určit obsah, strukturu a formát jednotlivých typů metadat, pokud možno s ohledem na existující standardy. Zvážit využití řízených slovníků pro stanovený okruh metadatových polí. Naplánovat využití nástrojů a postupů zajišťujících úplnost a konzistenci metadat. Použít modelování (např. pomocí orientovaných grafů) pro vyjádření vztahu dat a metadat a jejich implementaci ve vyhledávacím rozhraní. Možné překážky a problémy: Formálně, úzce nebo naopak široce koncipovaná popisná metadata, která neumožňují s daty pracovat předpokládaným způsobem nebo dostatečně přesně. Přílišná akcentace administrativních metadat, která může ubírat síly na vlastní obsahová (popisná a strukturální) metadata. Výstup tohoto kroku: A) Strukturovaný textový dokument, který popisuje výše uvedené parametry – jednotlivé typy metadat (popisná, strukturální, administrativní), jejich formát a strukturu, metody jejich zpracování. B) Na základě stanovených kritérií strukturovaný soubor metadat připojený k dříve zpracovaným datům. Manažerské otázky: Splňují metadata všechny nároky technické i právní standardizace? Technické řešení: Připravit uložení a zobrazení metadat v databázi, jejich propojení s daty. Tým LINDAT/CLARIAH-CZ pomůže mj.: s rozlišením jednotlivých typů metadat, stanovením jejich konkrétní struktury a formátu, doporučeními vhodných standardů a efektivních metod tvorby metadat. Poznámky badatele Alberta: Naše popisná metadata se týkají vlastních textů (výpovědí), subjektu těchto výpovědí a kontextu výpovědi. Každá vrstva metadat zahrnuje další kritéria a parametry, např. u textu složky lingvistické analýzy, u subjektu pohlaví, emoční/fyzický stav, u kontextu denní doba, místo výpovědi (interiér/exteriér) aj. U vrstvy textu bychom pro segmentaci textu rádi nasadili standardní korpusové nástroje, u dalších vrstev řízené slovníky, pokud možno standardizované a parametrizovatelné. S týmem LINDAT/CLARIAH-CZ bych rád podrobně probral všechny aspekty zvolených metadat, abych si byl jist, že jsme neopomněli nějaká hlediska a že nás nepostihla „profesní slepota“. Budeme také rádi za doporučení, jakou minimální úroveň by měla mít administrativní metadata. Krok 4: ZPŘÍSTUPŇUJEME VÝSLEDKY Neboli: Uživatelské rozhraní a možnosti vyhledávání. Kde začít: Určením dat a metadat, která budou používána nejčastěji a ovlivní tak i základní strukturu uživatelského rozhraní. Zvolit strukturu hlavní stránky uživatelského rozhraní a parametry dílčích stránek spojených se zobrazením, prohlížením, filtrací a vyhledáváním údajů. Promyšleně rozlišit možnosti a rozsah plnotextového, nestrukturovaného a strukturovaného vyhledávání. Zapojit do testování systému koncové uživatele. Možné překážky a problémy: Strukturované vyhledávání dostatečně nezužitkovává všechny parametry metadat a omezuje tak analytický přístup uživatele k obsahu databáze. Výsledky vyhledávání jsou z hlediska koncového uživatele zobrazovány nepřehledně nebo nesrozumitelně. Výstup tohoto kroku: A) Strukturovaný textový dokument, který popisuje výše uvedené parametry – jednotlivá rozhraní, prohledávatelná pole a jejich obsah, formát zobrazení údajů. Stane se základem uživatelské dokumentace – nápovědy. B) Konkrétní uživatelské rozhraní s funkčními a otestovanými možnostmi vyhledávání. C) Kontextová nápověda vycházející z A a implementovaná do B. Manažerské otázky: Bude se lišit přístup k datové platformě podle typu uživatele? Jaké licence budou pro konkrétní obsah a uživatele nastaveny? Respektují tyto licence publikační politiku naší instituce (open access)? Jakým způsobem lze výsledky projektu uplatnit při hodnocení výzkumné a vědecké činnosti? Technické řešení: Na základě stanovené struktury připravit prototyp uživatelského rozhraní se zohledněním pravidel přístupnosti a dalších standardů. Po opakovaném testování zpřístupnit výslednou podobu datové platformy. Tým LINDAT/CLARIAH-CZ pomůže mj.: s nastavením vyhledávacích filtrů, definicí vyhledávacího rozhraní, volbou vhodného zobrazení výsledků vyhledávání a testováním uživatelského rozhraní. Poznámky badatele Alberta: Za hlavní filtry našich údajů považujeme předměty (objekty) výpovědí, subjekty výpovědí a časové hledisko. Ty by měly být součástí hlavní stránky stejně jako možnost plnotextového vyhledávání ve výpovědích. Zároveň bychom rádi umožnili badatelům maximálně zužitkovat obsah databáze kladením analytických, kombinovaných, parametrizovatelných dotazů, byť i z našeho pohledu irelevantních nebo nesmyslných (třeba jak často subjekt typu muž v emocionálním stavu rozčilen používá extratextové odkazy k objektům typu stavba). Od týmu LINDAT/CLARIAH-CZ očekávám v tomto kroku zejména konzultaci k možnostem analytického vyhledávání a intenzivní testování uživatelského rozhraní s akcentem na pokročilé vyhledávání. Krok 5: ZŮSTÁVÁME TU NADLOUHO Neboli: Správa a údržba datové platformy, dlouhodobá udržitelnost. Kde začít: Stanovením koncepce dalšího rozvoje datové platformy. Určení okruhů dat a metadat, která budou ve stanovených intervalech aktualizována a doplňována. Identifikace datových i funkčních nedostatků, které vyvstaly z prvotní projektové fáze. Určení dlouhodobé potřeby rozšíření datové základny, metadatového popisu a vylepšených nebo nových funkcí. Možné překážky a problémy: Nedostatek motivace nebo zdrojů pro dlouhodobou správu datové platformy. Nesoustavná aktualizace údajů ústící do zastaralosti nebo neúplnosti dat. Výstup tohoto kroku: A) Strukturovaný textový dokument, který stanovuje pravidla a procedury správy a aktualizace datové platformy. B) Průběžně aktualizovaný a doplňovaný obsah datové platformy. Manažerské otázky: Kdo bude pověřen dlouhodobou správou datové platformy? Bude nutné pro údržbu databáze získávat i mimorozpočtové finanční zdroje? Technické řešení: Implementace nástrojů umožňujících efektivní sledování obsahových i formálních změn datové platformy. Tým LINDAT/CLARIAH-CZ pomůže mj.: s definicí parametrů krátkodobého, střednědobého a dlouhodobého rozvoje datové platformy, modelováním potenciálních uživatelů databáze, úpravou struktury, obsahu a uživatelského rozhraní. Poznámky badatele Alberta: Z této fáze mám největší obavy. Datovou platformu vytváříme v rámci projektu a po jeho skončení hrozí, že vše poběží „na volnoběh“ nebo se databáze zakonzervuje ve stavu ke konci projektu, což bychom neradi, protože podnětů k jejímu dalšímu rozvoji máme řadu. Rady týmu LINDAT/CLARIAH-CZ by proto pro nás mohly být přínosné s ohledem na stanovení priorit rozvoje a zajištění jejich realizace včetně financování. ZPĚTNÁ VAZBA Budete-li to považovat za vhodné a užitečné, dejte nám prosím vědět při našem příštím setkání (nebo na e-mail lindat-clariah@phil.muni.cz), nakolik byl pro vás tento dokument přínosný: A – Podstatně mi ozřejmil záležitosti spojené s tvorbou datové platformy. B – Vysvětlil mi některé nejasnosti, přinesl dílčí podněty, ale celkově můj vhled do problematiky nezměnil. C – Byl pro mě dost obecný, celkový přehled o problematice mám a potřebuji spíše řešit konkrétní kroky. D – Není mi jasné, o co tu jde, potřebuji asi problematiku vysvětlit jinou formou. Poznámky: _____________________________ Děkujeme za váš názor. Zohledníme jej v naší další práci. ENGLISH Creating a data platform for the humanities Recommendations for platform creator Developed in LINDAT/CLARIAH-CZ project, Brno, March 2022 Are you preparing a digital collection, archive, database or other research platform and thinking about the steps, approaches and challenges? This material is for you as a basic introduction to the issues. We'd be happy to meet with you and go deeper into your needs – please contact us at lindat-clariah@phil.muni.cz or book a personal consultation. All original research begins with the preparation of a data backup. Sometimes existing information resources, factual databases, data sets, etc. can be used. If there is no such sources for the intended research, or if it does not have eligible coverage, suitable structure or appropriate validity, it comes down to creating your own data platform. The creator of such a system goes through a complex process in which he makes a series of decisions of a conceptual, professional, managerial, technical nature. We have prepared this material as a basic methodological support for this process. The following recommendations are general, with no link to a specific technical solution. The first set of recommendations – SEVEN PRIMARY CONSIDERATIONS – is devoted to basic conceptual decisions, the second one – FIVE STEPS TO THE GOAL – presents recommendations for individual procedures, methods and practical solutions. SEVEN INITIAL CONSIDERATIONS This section provides suggestions for the data platform developer's initial reflection before embarking on the actual development. When planning the entire process, it is necessary to think not only about the content, scope and structure of the intended database, but also about the documentation of the steps and results, the legal solutions for public access to the database content or the user interaction with the information resource, and the integration of the newly created platform into the data universe. 1) Specification of the purpose and the intended function The basic questions can be summarized as follows: Why should the platform exist? What should its content be? Who will be working with the platform and how? The reason for the existence of the platform is probably due to the research project and the lack of an appropriate resource. The platform is usually used by its administrator (research team) when adding and editing its content. This research team also works with the platform after the content is provided. If the platform is publicly accessible, the group of potential users and their needs extends. The needs of users and the required functions can be described in more ways, from simple text descriptions to various types of models. There are also a number of methods for identifying these needs (see section 6). The decisions concerning the description of the content are also important for the functionality (see section 2). Other requirements may pertain to the data about the use of the platform. For example, it is appropriate to determine whether we want to record the numbers of file downloads or individual record views and whether this data should be displayed publicly, directly in the system. 2) Content description In order to be able to work with the collection objects (scanned materials, data, photos, texts, etc.), they need to be described appropriately. The complexity of the description depends on the needs of the users, primarily the research team building the collection. The amount of time available for production is also a determining factor. In formulating the rules of description, it is necessary to decide what data to include, where to collect it from, and how to record it. All decisions about how to describe should be documented and accessible to all those who will work with the content. These decisions will be influenced by, inter alia, by the practices established in the respective discipline and should be made with a view to the future usability and sustainability of the platform and its content. The way in which descriptive information is stored will also vary depending on the technical solution chosen. 3) Documentation of the process and the result Documentation is often a time-consuming task, yet it is essential to fully exploit the potential of a laboriously built platform. The technical documentation is essential for the eventual machine processing of the contained data or its transfer to another system (for example, if the current solution becomes obsolete and no longer works properly). For inspiration, you can use the offered Documentation Template (PDF) with the basic headings that should be addressed. Documentation of the decisions that led to the creation of the platform and shaped its design is also important to make it more usable. Basic information on the content and objectives of the project should also be available on the platform's website if it has a public address. 4) Ensuring the copyright of the content provided If the platform includes digitised content, it is important to know whether and how it can be handled. It is also necessary to indicate the copyright owners. Special attention should then be paid to personal and sensitive data if it is included in the collection. According to Czech law, if more than 70 years have passed since the death of the author of the digitised content, then the work can automatically be treated as a free work. Otherwise, stipulations of Section 27b(3) of the Copyright Act should be observed. In the event that the copyright holder cannot be found in those resources, a licence for certain uses of orphan works should be requested pursuant to Section 37a. 5) Identification of licence for data access and citation The question of further use of contained data does not pertain only to freely accessible collections. If you are the creators of the content or its parts, it is appropriate to specify, which licence this content is provided under. You can use the Creative Commons licence, for instance. The CC BY 4.0 variant is recommended as the least restrictive option. The database as a whole can also be licensed. It may be protected by copyright, if is the so-called original database, or by the database right. For more information and a schematic, visit Otevřená data (Open Data; Czech version only). For further work with the content, it is important to clearly identify who the creator is and when the content was created and published. It is also customary to indicate how the platform should be properly cited, either as a whole or the individual data contained. 6) User care The users of research platforms are usually the creators themselves. If the platform has potential for further use, it is advisable to involve more people in its creation and to find out what their needs are. Accessibility for users with various types of disabilities is also an important part of the creation of web content and services. Prototypes (interim, unfinished versions) can be used to test the platform and find out whether it is easy to use. For user testing, it is recommended to assign tasks the testers will be asked to perform. General information about user testing can be found, for example, on 100 metod (100 Methods; Czech version only), along with other methods for identifying user needs. Once launched, it can be monitored how users use the platform. You can work with data generated by the system itself (e.g., using Google Analytics or HotJar tools) or methods such as user observation or shadowing. 7) Sharing information and (meta)data In order to make potential users aware of the platform, it is worth finding out if there is a register of platforms with a similar focus where it could be listed. We collect platforms created at the Faculty of Arts of MU in a catalogue on the Digitalia MUNI ARTS infrastructure website. There are also common search services that collect metadata from multiple platforms. In this case, the metadata usually needs to meet specified requirements. FIVE STEPS TO THE GOAL This section is intended to be a guide on the journey from the initial research idea to a quality data platform, its access, presentation and use. It focuses on expert issues, but each step requires managerial and technical solutions – for which we also provide selected suggestions. The division into individual steps is to some extent arbitrary; in practice, the implementation of some steps may (partly) run in parallel. We have attempted to approach specific examples through the fictional researcher Albert, whose approaches and doubts may prompt further questions. Step 1: WHAT WE WANT Or: The basic concept, design and purpose of the upcoming data platform. Starting point: Clarifying the goals of the upcoming research – what, how, where, when, how we will research. Who will be involved in the research and how. What the research results will look like. What types of data the research will generate, how it will be described (metadata), structured, formatted, linked to other data sources. Who will use the data and how. How the presentation and promotion of the resulting data platform will be ensured. Who will maintain and update the data platform, how frequently and by what methods. Potential obstacles and challenges: The scope or structure of the data cannot always be definitively, accurately and completely determined in advance, as it only emerges during the research. The research may reveal a parameter, property, characteristic of the data that was not initially known or considered as an essential aspect of the analysis. Outcome of this step: A text document summarizing all the essential decisions listed above, including any ambiguities, doubts, etc. Management questions: Do I have sufficient financial budget for my research? Is there a provision for the creation of a data platform? Has an appropriate timeframe been established for this procedure? Does my team include all the necessary professions? Have I prepared an effective communication platform for it? Technical solution: The programmers are involved in the team from the beginning and are familiar with the content of the project. They propose alternative solutions to complex issues (choice of software, data backup, user interface, etc.). The LINDAT/CLARIAH-CZ team will help by: consulting, focusing in particular on whether nothing essential has been omitted in this step, whether the extent of the professional and time investment in the preparation of the data platform is clear. Researcher Albert's comments: So far it is clear. I have been working on the issue of the language of Czech children's comic magazines for a long time, and my overview of the primary and secondary literature is perfect. We will examine the language of the heroes' statements in Čtyřlístek [Quatrefoil] magazine from its foundation (1969) to 2020, tracing intertextual and extratextual links. My team includes a linguist, a literary scholar, an educationalist, a comics genre specialist, and a private researcher focused exclusively on the Čtyřlístek magazine. We'll also need a programmer. The output will be a structured corpus of texts with links to other information objects. Primarily it will serve linguists and literary scholars, but it will also be useful for other researchers, and the lay audience for the Čtyřlístek is also large. The exact structure of the data and metadata has not yet been determined, but it is one of the important next steps for our team. We do not yet have a precise idea about the presentation and updating of the resulting database. I would definitely use the consultation with the LINDAT/CLARIAH-CZ team to know that nothing essential has been missed. Step 2: WHERE WE WILL OBTAIN THE DATA Or: Methods of data collecting, creating and structuring. Starting point: Identifying all available data sources of various types (traditional and electronic) that can become constituent data sources. Preparing methods for data extraction, and establish a structure for data storing and ensuring validity checks. Determining the same for field research data. Carrying out a data process analysis – i.e. what happens to the data during processing (from their identification to their final storage in the database) in scope of their formalisation, unification, standardisation, etc., and determining the responsibility for the individual procedures. Ensuring the required data retrospectivity, timeliness, granularity, completeness, consistency. Potential obstacles and challenges: Data, part of it or a certain parameter of it, cannot be obtained to the extent or quality required by source or field research, or is associated with disproportionate costs. Output of this step: A) A structured text document describing the above parameters – sources and their mining potential, field survey methods, data characteristics and parameters, and associated procedures. B) A structured dataset based on the established criteria. Management questions: Has the issue of copyright for external data been adequately addressed? Do the requirements set for the scope and quality of the data exceed the capabilities of the working team? Technical solution: Preparation of a database whose structure reflects the requirements for the format and structure of data and the possibilities of working with them (editing, import/export, browsing, filtering, searching, statistical reports, visualization, analytical processing). The LINDAT/CLARIAH-CZ team will help: in particular, in defining the properties and parameters of the data, the methods of their initial acquisition and subsequent processing. Researcher Albert's comments: Some concepts I am encountering for the first time (e.g. data granularity). Otherwise, our source is clearly the individual issues of the Čtyřlístek magazine. We have yet to decide whether we will use the already digitized material (requiring collaboration with the magazine's editorial staff) or proceed with our own digitization. We are considering the possibility of OCR of the texts, which is an untried method due to the comic format, so it may be easier to use a "manual" transcription. So far we have structured the data as follows: statement (always one "balloon"), speaker, statement identification (year, number, page, sequence). The statements will be written exactly as they appear in the document; we need to work out what to do about typos, typographical errors and other obvious formal deficiencies, how to deal with meta- and polystatements, etc. We are considering a three-layer model of processors: "fillers" (primary data processors), editors (check the quality and completeness of the data), and an administrator (deals with system issues). With the LINDAT/CLARIAH-CZ team, I would particularly like to discuss the systemic handling of input data irregularities and inconsistencies. Step 3: PREPARING METADATA Or: Definition and parameterization of metadata. Starting point: Defining the scope of descriptive, structural and administrative metadata. Determine the content, structure and format of each type of metadata, preferably taking into account existing standards. Considering the use of controlled vocabularies for the defined range of metadata fields. Planning the use of tools and procedures to ensure metadata completeness and consistency. Use modelling (e.g. oriented graphs) to represent the relationships between data and metadata and implementing it in the search interface. Potential obstacles and challenges: Formal, poor or exhaustive descriptive metadata that does not allow the data to be handled in the expected way or with sufficient precision. Over-emphasis on administrative metadata, which may detract from the actual content (descriptive and structural) metadata. Outcome of this step: A) A structured text document that describes the above parameters – the different metadata types (descriptive, structural, administrative), their format and structure, and the methods for processing them. B) A structured set of metadata joined to the previously processed data based on the specified criteria. Management questions: Does the metadata meet all the requirements of technical and legal standardisation? Technical solution: Prepare the storage and display of metadata in the database, linking it to the data. The LINDAT/CLARIAH-CZ team will help: to distinguish between different types of metadata, to determine their specific structure and format, to recommend appropriate standards and efficient methods of metadata creation. Researcher Albert's notes: Our descriptive metadata refers to the actual texts (statements), the subject of those statements, and the context of the statements. Each layer of metadata includes additional criteria and parameters, e.g., for the text, components of linguistic analysis, for the subject, gender, emotional/physical state, for the context, time of day, location of the statements (interior/exterior), etc. For the text layer we would like to deploy standard corpus tools for text segmentation, for the other layers controlled vocabularies, preferably standardized and parameterizable. I would like to discuss all aspects of the chosen metadata in detail with the LINDAT/CLARIAH-CZ team to make sure that we have not missed any aspects and that we have not been affected by "professional blindness". We would also be grateful for recommendations on the minimum level of administrative metadata. Step 4: ACCESSING RESULTS Or: User interface and search options. Starting point: Determining the data and metadata that will be used most often and thus affect the basic structure of the user interface. Choosing the structure of the main UI page and the parameters of the sub-pages associated with displaying, viewing, filtering, and searching the data. Thoughtfully differentiate the capabilities and scope of full-text, unstructured and structured searching. Involve end-users in testing the system. Potential obstacles and challenges: Structured search does not sufficiently exploit all metadata parameters and thus limits the user's analytical access to the database content. The search results are not clearly or comprehensibly displayed from the end-user's perspective. Output of this step: A) A structured text document that describes the above parameters – individual interfaces, searchable fields and their contents, data display format. It becomes the basis of user documentation – help. B) A concrete user interface with functional and tested search options. C) Contextual help based on A and implemented in B. Management questions: Will access to the data platform vary by user type? What licenses will be set for specific content and users? Do these licenses respect the publishing policy of our institution (open access)? How can the results of the project be applied to the evaluation of research and scholarly activities? Technical solution: Based on the defined structure, prepare a prototype user interface taking into account accessibility rules and other standards. After repeated testing, make the final version of the data platform available. The LINDAT/CLARIAH-CZ team will help: with setting up search filters, defining the search interface, choosing the appropriate display of search results and testing the user interface. Researcher Albert's notes: We consider the objects of the statements, the subjects of the statements and the temporal aspect as the main filters of our data. These should be part of the main page as well as a full-text searching of the statements. At the same time, we would like to allow researchers to make analytical, combined, parameterizable queries, even if irrelevant or nonsensical from our point of view (e.g. how often a subject like man in an emotional state of annoyance uses extratextual references to objects like building). What I expect from the LINDAT/CLARIAH-CZ team in this step is mainly consultation on the possibilities of analytical search and intensive testing of the user interface with emphasis on advanced search. Step 5: STAYING HERE FOR A LONG TIME Or: Data platform management and maintenance, long term preservation. Starting point: Defining a concept for further development of the data platform. Identifying the data and metadata types that will be updated and added at specified intervals. Identification of data and functional gaps that have emerged from the initial design phase. Determine the long-term need for expansion of the database, metadata description and enhanced or new functionality. Potential obstacles and challenges: Lack of motivation or resources for long-term management of the data platform. Inconsistent updating of data resulting in outdated or incomplete data. Outcome of this step: A) A structured text document that sets out the rules and procedures for managing and updating the data platform. B) The continuously updated content of the data platform. Management questions: Who will be responsible for the long-term management of the data platform? Will it be necessary to raise extra-budgetary financial resources for the maintenance of the database? Technical solution: Implementation of tools to effectively monitor content and formal changes to the data platform. The LINDAT/CLARIAH-CZ team will help: to define the parameters for the short, medium and longterm development of the data platform, to model the potential users of the database, to modify the structure, content and user interface. Researcher Albert's comments: This is the phase I am most concerned about. We are creating the data platform as part of the project and after the project is over there is a risk that everything will run "idle" or the database will be preserved in its state at the end of the project, which we would not like to do, as we have many ideas for its further development. The advice of the LINDAT/CLARIAH-CZ team could therefore be useful to us with regard to setting development priorities and ensuring their implementation, including funding. BACK BOND Please let us know how useful this document has been to you: A – It substantially clarified for me the issues involved in creating a data platform. B – It explained some ambiguities, provided partial suggestions, but overall did not change my insight. C – He was quite general for me, I have a overview of the issue and I need rather to address specific steps. D – It is not clear to me what is going on, I probably need the issue explained in a different way. Comments: _____________________________ Thank you for your opinion. We will take it into account in our future work.