Týden 7 - OCR, P a S verze v nové databázi
Vážení studenti,
vzhledem k mé pracovní neschopnosti omluvte prosím provizorní formát interaktivní osnovy.
Připomenutí nejdůležitějších kroků zpracování vyřezaných skenů textově tak, aby mohla píseň jít do korpusového zpracování:
1. etapa (vysvětlovaná na hodině 5.11.) :
Po nahrání vyřezaného skenu do databáze (Add media - 1A/ original text (non-text format) )
je potřeba ji ocerizovat (3A/ converted text (OCR)) a zkontrolovat převedenou ocerizaci slovo po slovu, upravit textově přesně tak, jak je text uveden a rozložen na obrázku (výsledkem je 4A/ converted text (OCR) with revision).
V této fázi připomínám, že je třeba vybrat v kolonce Media source, že jde o sken z CD, tedy "physical medium" a do statusu uvést, jestli s prací budete ještě pokračovat (inserted) nebo ji posíláte mě na kontrolu (processed).
Já ji zkontroluji a není-li tam viditelný problém, přepnu status na "checked".
2. etapa (bude vysvětlována na hodině dnes, tj. 3.12.) :
Ocerizace s revizí je po kontrole možné poslat do další etapy zpracování kliknutím na "Save & Transfer".
5AB/ marked-up text je ekvivalent dřívější tzv. P (POCHETTE) verze. Z původního návodu zde vybírám nejpodstatnější:
Zde budeme umazávat záhlaví (příp. zápatí) tak, aby zůstal pouze text písně v podobě, která je totožná se skenem obsahově (ponecháváme všechen pravopis), pouze umazáváme případné typografické znaky navíc (typicky /, lomítka na koncích řádků (nejde-li o slovo se spojovníkem)) a přidáváme informaci o mluvčím a o průběhu písně do tzv. zobáčků < > následovně:
INTERPRET:
<locuteur=xxx>, tedy např. <locuteur=Booba> (střídají-li se interpreti, přidá se nový zobáček s novou hodnotou nad začátek pasáže, kde se interpreti mění, zpívají-li dva, zapíší se do stejného zobáčku oba, např. <locuteur=Booba+Ninho>
PRŮBĚH PÍSNĚ:
<intro> v případě opakování: <intro> \2x\
<couplet=1> <couplet=2>
<refrain> v případě více refrénů
<refrain=A>, <refrain=B> v případě opakování <refrain>
\2x\
<interlude>
<outro>
<passage scratché>
<passage samplé>
Text psaný majuskulemi ponechat v původním formátu (doplňování akcentů
proběhne až v následující fázi SON).
3. etapa (bude také vysvětlována dnes 3.12. na hodině):
Tvorba 6AB/ marked-up text with revision.
Viz návod:
Dotazy mi prosím pište obratem.