RapCor I (automne 2024)

Týden 7 - OCR, P a S verze v nové databázi


Vážení studenti,

vzhledem k mé pracovní neschopnosti omluvte prosím provizorní formát interaktivní osnovy.

Připomenutí nejdůležitějších kroků zpracování vyřezaných skenů textově tak, aby mohla píseň jít do korpusového zpracování:

1. etapa (vysvětlovaná na hodině 5.11.) :

Po nahrání vyřezaného skenu do databáze (Add media - 1A/ original text (non-text format) ) 

je potřeba ji ocerizovat (3A/ converted text (OCR)) a zkontrolovat převedenou ocerizaci slovo po slovu, upravit textově přesně tak, jak je text uveden a rozložen na obrázku (výsledkem je 4A/ converted text (OCR) with revision).

V této fázi připomínám, že je třeba vybrat v kolonce Media source, že jde o sken z CD, tedy "physical medium" a do statusu uvést, jestli s prací budete ještě pokračovat (inserted) nebo ji posíláte mě na kontrolu (processed).

Já ji zkontroluji a není-li tam viditelný problém, přepnu status na "checked".


2. etapa (bude vysvětlována na hodině dnes, tj. 3.12.) :

Ocerizace s revizí je po kontrole možné poslat do další etapy zpracování kliknutím na "Save & Transfer".

5AB/ marked-up text je ekvivalent dřívější tzv. P (POCHETTE) verze. Z původního návodu zde vybírám nejpodstatnější:

Zde budeme umazávat záhlaví (příp. zápatí) tak, aby zůstal pouze text písně v podobě, která je totožná se skenem obsahově (ponecháváme všechen pravopis), pouze umazáváme případné typografické znaky navíc (typicky /, lomítka na koncích řádků (nejde-li o slovo se spojovníkem)) a přidáváme informaci o mluvčím a o průběhu písně do tzv. zobáčků < > následovně:

INTERPRET:

<locuteur=xxx>, tedy např. <locuteur=Booba> (střídají-li se interpreti, přidá se nový zobáček s novou hodnotou nad začátek pasáže, kde se interpreti mění, zpívají-li dva, zapíší se do stejného zobáčku oba, např. <locuteur=Booba+Ninho> 

PRŮBĚH PÍSNĚ:

<intro> v případě opakování:  <intro> \2x\ 

<couplet=1> <couplet=2>

<refrain> v případě více refrénů <refrain=A>, <refrain=B> v případě opakování <refrain> \2x\ 

<interlude>

<outro>

<passage scratché>

<passage samplé>

 

Dále pozor na sjednocení apostrofů (Sjednotit na « ' » (ten, který se nachází na francouzské klávesnici pod 4)).

Text psaný majuskulemi ponechat v původním formátu (doplňování akcentů proběhne až v následující fázi SON).


3. etapa (bude také vysvětlována dnes 3.12. na hodině):

Tvorba 6AB/ marked-up text with revision.

Viz návod: 

Dotazy mi prosím pište obratem.