Získavaní a zpracování textových korpusů z internetu Crawling, deduplikace, odstraňování boilerplate Vít Suchome Centrum zpracování přirozeného jazyka Fakulta informatiky, Masarykova univerzita 13. března 2017 Korpus Co je to korpus? Korpus Jazykový korpus ► Rozsáhlý soubor ► autentických textů (psaných nebo mluvených) ► převedený do elektronické podoby, ► v němž je možné jednoduše vyhledávat jazykové jevy (zejména slova a slovní spojení) ► a zobrazovat je v jejich přirozeném kontextu.1 i - Zdroj: Český národní korpus, http://wiki.korpus.ez/doku.php/pojmy:korpus Velikost jazykových korpusů ► Počet unikátních slov - velikost slovníku z korpusu, types ► Počet výskytů slov - velikost korpusu, tokens Velikost jazykových korpusů ► Počet unikátních slov - velikost slovníku z korpusu, types ► Počet výskytů slov - velikost korpusu, tokens ► Type-Token Ratio: Velikost jazykových korpusů ► Počet unikátních slov - velikost slovníku z korpusu, types ► Počet výskytů slov - velikost korpusu, tokens ► Type-Token Ratio: J r tokens ► Je TTR větší u češtiny nebo angličtiny? Kolikrát? Velikost jazykových korpusů ► Počet unikátních slov - velikost slovníku z korpusu, types ► Počet výskytů slov - velikost korpusu, tokens ► Type-Token Ratio: J r tokens ► Je TTR větší u češtiny nebo angličtiny? Kolikrát? ► TTR češtiny ku angličtině = 1,87 (český web 2012, anglický web 2013) Korpusová lingvistika ► Věda zkoumající jazyk (lingvistika) ► pomocí jazykových korpusů. Query korpus 17,177 > GDEX 17,177 (3.39 per million) O Page 1 of 1,718 Go Räa I Last sportovniobchod.cz kultura21.cz umimeudelatdomov.cz ceskahospodynka.cz stylove-kuchyne.cz jacques.cz oklblog.blog.cz apetitonline.cz korpus.cz mix.cz Ke korpusu pouze připevníte 4 nohy a stolní fotbal je okamžitě provozu schopný. Ti manuálně zruční mohou sestavit korpus stoličky z dvanácti stejných připravených dílů. Také je možná varianta smrkového korpusu s bílými předními dvířky. Krémem bez ořechů potřeme vrchní korpus a boční stěny.

vyšší tloušťka používaných desek Korpusy skříněk jsou vyrobeny z konstrukčních desek o síle 18 mm. Všechny dřevěné díly postele jsou z bukového masivu, korpus má tloušťku 30 mm. Tělo je vyrobeno z hliníkového korpusu , a části mechanismu jsou skutečně kovové.

Korpus dejte znovu minimálně na hodinu chladit.

Celková velikost korpusu InterCorp se tak již blíží k 50 milionům slov.

Tmavý korpus je silný a intenzivní a s jedním soustem roste chuť na další. Ukázka dat v korpusu - XML vertikál Po sedmi letech v kouzelné Paříži i • • • • Ukázka anotací v korpusu - XML vertikál s anotacemi Po po k7c6 0 8 sedmi sedm k4c6 1 7 letech léto klgNnPc6 2 7 v v k7c6 3 10 kouzelné kouzelný k2eAgFnSc6dl 4 9 Paříži Paříž klgFnSc6 5 9 ! ! kx 6 11 7 8 8 11 9 10 10 11 11 - užití korpusů ► Obecně: data ke studiu přirozeného jazyka ► Lexikografové: slovníky ► Lingvisté: jazykové analýzy, změny jazyka ► Sociologové: jak a o čem píšeme, která témata jsou aktuální ► Marketingoví experti: hodnocení značek a výrobků v textech ► Statistické nástroje ZPJ: jazykové modely pro značkovače, analyzátory, překladové systémy, prediktivní psaní,... užití jazykového korpusu v lexikografii korpus czTenTen [2012] freq = 17.176 (3.38 per million) a modifier 7,932 0.46 dortový + 213 9.31 dortový korpus piškotový + 145 8.90 piškotový korpus vychladlý + 139 8.56 . Vychladlý korpus upečený + 193 8.46 . Upečený korpus závislostní 65 7.94 Pražský závislostní korpus anotovaný 40 7.27 anotovaný korpus předpečený 32 7.01 na předpečený korpus diachrónni 33 6.96 Diachrónni korpus synchronní 55 6.90 aen 1 1,923 0.11 skříňka + 203 6.44 Korpusy skříněk skříň + 150 4.71 korpus skříně buben 34 4.67 korpus bubnu komoda 9 4.67 Kristus 87 4.63 s korpusem Krista skřínka 6 4.48 dort 41 4.05 korpus dortu věnec 20 3.91 korpus věnce , svítidlo 16 3.35 trezor 8 3.25 varhany 8 3.06 prec verb 784 0.05 upéct 41 5.40 potřít 19 4.30 péct 24 3.29 peču korpus disponovat 16 0.66 disponuje korpusem typu tvořit 48 0.11 tvoří korpus prec na 657 0.04 rozetřít 21 6.43 rozetřeme n a korpus navršit 6 5.88 nalít 44 4.80 natřít 25 4.77 natřeme na korpus post verb 1,413 0.08 pro kroj i t 14 8.20 korpus prokrojíme rozkrojit 32 7.85 korpus rozkrojíme rozříznout 46 7.64 korpus rozřízneme proříznout 9 5.34 vyklopit 14 5.29 korpus vyklopíme potřít 38 5.27 korpus potřeme pomazat 8 5.16 rozetřít 9 5.07 pokapat 7 4.90 postlat 14 4.80 upéct 14 3.83 vychladnout 7 3.71 Srovnání korpusů podle původu textů - tradiční korpusy ► Příklady: British National Corpus, Corpus of Contemporary American English, Google Books, Český národní korpus ► Vznik: na objednávku, obsahová komise ► Zdroje: nejčastěji tištěná média, potom skenování knih, přepisy rozhovorů Srovnání korpusů podle původu textů - tradiční korpusy ► Příklady: British National Corpus, Corpus of Contemporary American English, Google Books, Český národní korpus ► Vznik: na objednávku, obsahová komise ► Zdroje: nejčastěji tištěná média, potom skenování knih, přepisy rozhovorů ► Výhody: úplná kontrola nad zdroji (kvalitní a bohaté informace o datech: autor, název, rok vydání, žánr, styl, oblast), známe rozložení typů textů v korpusu, zaručená kvalita textů (možnost opravy chyb) Srovnání korpusů podle původu textů - tradiční korpusy ► Příklady: British National Corpus, Corpus of Contemporary American English, Google Books, Český národní korpus ► Vznik: na objednávku, obsahová komise ► Zdroje: nejčastěji tištěná média, potom skenování knih, přepisy rozhovorů ► Výhody: úplná kontrola nad zdroji (kvalitní a bohaté informace o datech: autor, název, rok vydání, žánr, styl, oblast), známe rozložení typů textů v korpusu, zaručená kvalita textů (možnost opravy chyb) ► Nevýhody: nákladnost (jednání s vlastníky dat), omezená velikost (nedostatečná pro některé účely) Srovnání korpusů podle původu textů - tradiční korpusy ► Příklady: British National Corpus, Corpus of Contemporary American English, Google Books, Český národní korpus ► Vznik: na objednávku, obsahová komise ► Zdroje: nejčastěji tištěná média, potom skenování knih, přepisy rozhovorů ► Výhody: úplná kontrola nad zdroji (kvalitní a bohaté informace o datech: autor, název, rok vydání, žánr, styl, oblast), známe rozložení typů textů v korpusu, zaručená kvalita textů (možnost opravy chyb) ► Nevýhody: nákladnost (jednání s vlastníky dat), omezená velikost (nedostatečná pro některé účely) ► Shrnutí: reprezentativní vyvážený korpus daného jazyka Srovnání korpusů podle původu textů - internetové korpusy ► Příklady: Web as Corpus, ClueWeb, TenTen corpora, Corpora from the Web ► Vznik: opakované stahování internetu ► Zdroje: texty na internetu Srovnání korpusů podle původu textů - internetové korpusy ► Příklady: Web as Corpus, ClueWeb, TenTen corpora, Corpora from the Web ► Vznik: opakované stahování internetu ► Zdroje: texty na internetu ► Výhody: aktuální psaná podoba jazyka, velikost - pokrývá lépe/více jazykových jevů (ClueWeb 09: 70 mld. anglických slov), větší rozmanitost textů Srovnání korpusů podle původu textů - internetové korpusy ► Příklady: Web as Corpus, ClueWeb, TenTen corpora, Corpora from the Web ► Vznik: opakované stahování internetu ► Zdroje: texty na internetu ► Výhody: aktuální psaná podoba jazyka, velikost - pokrývá lépe/více jazykových jevů (ClueWeb 09: 70 mld. anglických slov), větší rozmanitost textů ► Nevýhody: malá kontrola nad zdroji (neuspořádanost, nevíme, co stahujeme), nezaručená kvalita textů (ale množství správných tvarů převáží chyby), nežádoucí obsah, duplicity, spam Srovnání korpusů podle původu textů - internetové korpusy ► Příklady: Web as Corpus, ClueWeb, TenTen corpora, Corpora from the Web ► Vznik: opakované stahování internetu ► Zdroje: texty na internetu ► Výhody: aktuální psaná podoba jazyka, velikost - pokrývá lépe/více jazykových jevů (ClueWeb 09: 70 mld. anglických slov), větší rozmanitost textů ► Nevýhody: malá kontrola nad zdroji (neuspořádanost, nevíme, co stahujeme), nezaručená kvalita textů (ale množství správných tvarů převáží chyby), nežádoucí obsah, duplicity, spam ► Shrnutí: velký korpus daného jazyka Proč je velikost korpusů důležitá ► Většina jazykových jevů podléhá Zipfově rozložení Proč je velikost korpusů důležitá ► Většina jazykových jevů podléhá Zipfově rozložení ► „There is no data like more data" (Mercer, 1985) ► „More data usually beats better algorithms" Proč je velikost korpusů důležitá ► Většina jazykových jevů podléhá Zipfově rozložení ► „There is no data like more data" (Mercer, 1985) ► „More data usually beats better algorithms" ► Větší seznamy slov (více unikátních slov) =4> lepší pokrytí slov jazyka ► Více vět s výskytem daného slova =4> lepší příklady použití slov v kontextu ► Lepší pokrytí řídkých jazykových jevů =4> více podkladů pro studium jazyka ► Více dat pro jazykové modely =4> přesnější (?) jazykové modely s větším pokrytím Ukázka: Slova rozvíjející frázi „deliver speech" ► BNC (96 M words): major (8), keynote (6). ► ukWaC (1,32 G words): keynote (125), opening (12), budget (8), wedding (7). ► enTenTenl2 (11,2 G words): keynote (813), acceptance (129), major (127), wedding (118), short (101), opening (97), famous (80). ► enClueWeb09 (70,5 G words): keynote (3802), acceptance (1035), opening (589), famous (555), commencement (356), impassioned (335), inaugural (333). Web crawler ► Traverses the internet (graph of pages and links). ► Downloads documents (content & meta information). ► Stores documents (or their parts) in various formats for further use. ► Crawlers for various purposes: ► GoogleBot - web indexing, ► Linkcrawler - links, broken link checking, ► Heritrix - general crawler, (Java, multiple treads), ► SpiderLing - text corpora, (Python, multiple sockets). Features a crawler should provide ► Distributed: Executable in a distributed fashion across multiple machines. ► Scalable: Scaling up the crawl rate by adding extra machines and bandwidth. ► Performance and efficiency: Efficient use of system resources (processor, memory, storage and network bandwidth). ► Quality: Biased towards fetching "useful" pages first. ► Freshness: Operate in continuous mode: obtain fresh copies of previously fetched pages, i.e. with a frequency that approximates the rate of change of that page. Search engine crawler —>► the index contains a fairly current representation of each indexed web page. ► Extensible: Cope with new data formats, new fetch protocols, various data processing needs. Modular architecture. Source: Manning, Raghavan, Schutze: Introduction to Information Retrieval, Chapter 20 Basic crawler design Scheduler Queue A World Wide A >- Web Web pages URLs Multi-threaded downloader Text and metadata URLs Storage Source: http://en.wikipedia.org/wiki/Web_crawler Advanced crawler implementation details ► Distributed vs. extensible. ► Multi-threaded synchronous vs. multi-socketed asynchronous. ► Web traversal policy: ► depth vs. breadth, ► domain selection, ► domain distance, ► focused crawling (topic oriented) vs. general crawling, ► yield ratio. used crawler design Statistics (ÜrT)- r FocusedWalker UrISeenFilter LanguagePredictor I QualityPrioritizer HostYieldPrioritizer RandomWalker (CLARAx) texrex C HTML FetcherPool Q UrIQ ueues *Q Corpus""^ DNSCacher PolitenessManager ^ I- >^^^^< ^ Snapshots ^ Source: Roland Schafer, Adrien Barbaresi, Felix Bildhauer. Focused Web Corpus Crawling. 9th Web as Corpus Workshop, 2014. SpiderLing - crawler pro textové korpusy ► ► důraz kladen na efektivitu stahování x^x. , ■ velikost výsledných dat míra výtěžnosti = —n—. J. v—/ , , . J velikost stažených dat crawler průběžně vyhodnocuje výtěžnost webových domén, zaměřuje se na „textově bohaté" a odkládá stahování (nebo vůbec nestahuje) z neperspektivních webů cílem je sestavit korpusy velikosti > 1010 slov pro všechny významné jazyky General unfocused crawling efficiency (Heritrix) 10a 10° 10' 10 (LI fi * io6

Questions should be specific . Questions like Hello the best wordpress p I have a request but it's not about WG SI h Davichi ■ love & war mv st but i don't find • I ask you because maybe shook his head, "No." *lp>*p> "Jump up and down." */p>

"Whatr "If I search you, all I find I keepr

"You ain't searching me. man."

Marco gotten from searching sources to answer my curiosity. Using Google Scholar search engine, with key words: winter health tips, I compiled and present to helps us to understand and trade the market swing. For example, we may search the chart for a reversal or breakout pattern that spells opportunity, eventually lose interest in this type of price action and jump ship in search of a more exciting trading vehicle. The market loses broad sponsorship numbers, astrological dates and prayer wheels have all been enlisted in the search for that elusive trading edge.

Most traders believe Fibonacci fits geographic area covered by each publication. Google News Archive Search -- Google's 'News archive search provides an easy way to search and explore publication. ■/p-p ■ Google News Archive Search ■■ Google's "News archive search provides an easy way to search and explore historical archives. Users Archive Search •• Google's "News archive search provides an easy way to search and explore historical archives. Users can search for events, people, provides an easy way to search and explore historical archives. Users can search for events, people, ideas and see how they have been described over time overview of the results by browsing an automatically created timeline. Search results include both content that is accessible to all users and content Google has developed to put related stories together in the same news search result. Excellent place to search for news articles by keywords.

related stories together in the same news search result. Excellent place to search for news articles by keywords.

Technorati -Search Technoratfs s database of over 1.9 weblogs and get up-to-date information on your search terms. *p> NewspaperArchive.com - Search over 12.3 million newspaper pages. Not a complete resource to search - Search over 12.3 million newspaper pages. Not a complete resource to search but a good place to start research.

Today's Front Pages -- Today morale and possibly paralyze you from taking necessary actions in your job search . If that isn't bad enough, it can also stop you from being hired! Here save you a lot of hassle later on and you should do it early in your job search . In fact, this is something we all should do at least once a year: Find on their own in the shortest time possible. Discover more insider job search secrets by visiting http://www.jobchangesecrets.com ■/p>-=p • Art Canvas quickest way to locate the information you want is to use the Label and Search Features. The Label pulldown is by far the easiest and quickest, just the item of information that you require. You can use the very powerful search engine. Remember that each section on shows x" number of posts section that you are currently viewing.

Searching You can very easily search the section that you are currently in. - /p -p> To use, you simply enter section that you are currently in.

To use, you simply enter in your search item and hit Enter or click the Search Button . Your results are then Konkordance - co je spatne? Homepage --/pxp* What is this? I Create Your Own Homepage - p --p • Change My Search To: 'fp>r-p> Google Search

MSN Search

*-p> Yahoo! Search - p --p • Ask this? | Create Your Own Homepage

Change My Search To:

Google Search MSN Search -:/p---:p> Yahoo! Search

Ask.com Search Wikipedia Own Homepage Change My Search To:

Google Search

MSN Search

Yahoo! Search Ask.com Search ■ ip ■■ p ■ Wikipedia English ■■:p---p> Change My Search To:

Google Search

MSN Search

Yahoo! Search

Ask.com Search

Wikipedia English *ip-**p-- Yahoo! Answers • p ■

---p-^ MSN Search -=/p"p> Yahoo! Search ■■■fp^p-- Ask.com Search

<:p> Wikipedia English

Yahoo! Answers Answers.com

a z .

zaz DIRECT Everything You re Looking For <7p>*p> Browse, Search , Find...

Get Found |Ltst Yourself) *

Bookmark Your Favorites france24.com Google News Google News Aggregated headlines and a search engine of many of the world's news sources.

news.google.com

Gold Suppliers *p> All Products

All Suppliers

Popular Searches : Urea Fertilizer Dyes Intermediates Infomation < ;p'

Jiangsu Xinye Chemical Co.. Ltd. ■■

Founded in 1997, Jiangsu Xinye Chemical 'P-- Gold Suppliers

All Products All Suppliers */p>

Popular Searches: Urea Fertilizer Dyes Intermediates Infomation

Online Inquiry -=/p^p> Jiangsu Xinye Chemical Co., Ltd. */pxp:> Search products of this supplier

O-Fluorobenzoyl Chloride

Enquiry ■-p> Gold Suppliers *-p-> All Products

All Suppliers Popular Searches : Urea Fertilizer Dyes Intermediates Infomation -- ip>--p-- Online Inquiry

Jiangsu Xinye Chemical Co., Ltd. '-:p---p^ Search products of this supplier

Flutriafol -= .'p>-=p =■ Enquiry *p>...

'-p> Gold Suppliers All Products

All Suppliers

Popular Searches: Urea Fertilizer Dyes Intermediates Infomation

Online Inquiry Jiangsu Xinye Chemical Co., Ltd.

O-Fluorobenzoyl Chloride

Enquiry ■p> Gold Suppliers • p •• p ■ All Products • p -p • All Suppliers - ip---p ■ Advanced Search Browse Categories • n ••• Popular Searches : Urea Fertilizer Dyes Intermediates Infomation

Online Inquiry

Jiangsu Xinye Chemical Co., Ltd.

Search products of this supplier

O-Fluorobenzoyl Chloride

Enquiry ■p - Gold Suppliers All Products <

All Suppliers

Popular Searches: Urea Fertilizer Dyes Intermediates Infomation

Online Inquiry

--p> Jiangsu Xinye Chemical Co., Ltd.

Search products of this supplier

Flutriafol <-ip>*p> Enquiry ...

■ p -■ Gold Suppliers

Advanced Search Browse Categories - p ---p ■ Popular Searches : Urea Fertilizer Dyes Intermediates

Contact Infomation Online Inquiry

P-Chlorophenol

Search products of this supplier

Product Type: Agrochemicals

•p ■ Gold Suppliers ■ .p■ All Products <.''p- Popular Searches: Urea Fertilizer Dyes Intermediates ■=p> Contact Infomation

Online inquiry

O-Chlorophenol *p> Search products of this supplier

Product Type: Agrochemicals

-p> Gold Suppliers

Advanced Search Browse Categories Popular Searches : Urea Fertilizer Dyes Intermediates Contact Infomation

Online Inquiry

2,4-Dichlorophenol

Search products of this supplier

Product Type: -vpatpr. Agrochemicals

Odstraňovaní nežádoucího obsahu Nežádoucí obsah ► html značky, styly, poznámky ► negramatické věty: navigace, reklamy, tabulky, příliš krátké úseky,... Používáme nástroj jusText (http://nlp.fi.muni.cz/projects/justext) ► rozdělení na odstavce ► slovník častých slov v daném jazyce ► klasifikace odstavce podle délky, hustoty slov ze slovníku, hustoty odkazů, třídy okolních odstavců ► demo na stránce nástroje Ukázka boilerplate Q Fakulte informatiky Bakalárske studium f,' a g i sterské studium Dcktcrské studium Rigorózni řízeni Celozivotn vzděláván Stipendijn prcgramy nicrmace pro studenty se specifickými nároky nicrmace pro vyučuj c Inn Zahn Zahraniční studium E-leaminrj Průmysloví partneři Téměř všichni naši Ostslán poArac ti/í M. TreJIr magís íereAytn s it/deofd | ■ícpnaazyinyc/f o fakulte boilerplate Studijní plány - základní informace Obecná doporučení k sestavování studijních plánů Využívejte ph sestavováni studijních plánů aktuální a úplné údaje o nabízených předmětech. Tištěna pod-oba Stxíjriiho katalogu ma omezený rozsah a nen mezně ji aktualizoval Sylaby v ni uvedené můžete vyuz 11. piedbeziieirLi sestaven stuclijn hc planu na dal; semestr, pred vlastni registraci ci zápise ir vsak doporučujeme pro stt id oval informace dostupné na IS ľ U v Katalogu předníĚtu ä které jsou aktnaln Nav c |;r;"nednicwim úplného výpisu ů získate radu užitečných utlajti. které Study ní katelog neobsáhle (anotace predmetu URL ; dal* iri infcrmacemi. požadavky heliem semestru, způsob hodnocení apod.). Pii výpisu tiplnýcli uclaju c prediretecli irtizete vybrat i skupiny predmetu ; liicíK-it prefixem ínapr. IBWf a získat (si. obsalilej; informace ; podobnou strukturou jako ma seznair sylabů ve Studijním katalogu. Zjistěte si o před metech vybraných k zápisu co nejvíce informací. Abyste n-emuseli vybraný předmět rušit <\z ps začátku výuk.' preto ze jeho naplň necclpev :1a přívodní pi'edsla ,-e snažte se zjistil cc nejvíce li cl aj li předen" Krčme úplného výpisu inicr o předmětu je napr klad vhodně přej i ŕ/elicve stránky vyučuj; hc kde mohcu být materiály předchozích let Řada li; i telu uvacl pi' slušne URL piave ■,• Katalogu předmětů. Venujte pozornost požadavkům, které je treba splnit během semestru. Zjistěte si v úplném výpisu (položka'Typ výuky a zkoušky"; př padne na ivebcvých stránkach všech předmětů vybraných k zápisu jaks požadavky budete muset plnit během semestru nezapisujte si kombinace pfedirelu -; iv.nczstv m průbéžhych požadavků, které zrejire nemůžete z časových ci jiných důvodu zvládnout (napr. resen (r rozsáhleji cli projektu a dvou pravidelných domacícli úloh během jednoho semestru neru-: každý zvládnout]. Vytipujte si předem přední Sty za více kreditů, než kolik hodláte zapsat. pak schopni ihned re si t \it padne rezvilicve kolize vybrané předměty. důvodu n akcii et nezap ;ece iruzete absolvovat v některém z na: leduj: cli lisujte si přehnané množstvi kreditů, měřenou kre;i ť uvacl ej doporučene st irezícli sttidiinihc radu vsak můžete Kredilnvou zátěž individuali Ivheading řt»th. content boilerplate Zdroj: http://corpus.tools/attachment/wiki/Justext/Algorithm/cs_classification_example.png lerplate removal approaches ► Machine learning (SVM, CRF, neural networks, n-gram models): ► Annotated web pages required for training. ► Victor (CRF), ► Ncleaner (n-grams). ► Heuristics: ► Rules for including/excluding sections of text. ► BTE (tag density), ► Boilerpipe (link/text ratio), ► jusText (link/text ratio, frequent words, context sensitive smoothing). Site Style Tree (Yi, Lan, Bing Liu, Xiaoli Li, 2003) ► Represents both layout and content of a web page. ► Node importnace = node entropy over the whole Site Style Tree. 100 Table 100 100 Img 100 Html __±___ 100 I Body Tr Tr Text i : Text Img Div P ■ 100 Text A 1 1 P - a ! P - Img - A 25 1 : ■ 1 f i ! Strong A Img | j Zdroj: Ján Švec: Inteligentní detekování struktury webu, p. 32. Online: http://is.muni.cz/th/420072/fi_m/. jusText Context sensitive paragraph classification: Demo: http://nip.fi.muni.cz/projects/justext/ Konkordance - co je ještě špatně? Homepage --/pxp* What is this? I Create Your Own Homepage - p --p • Change My Search To: 'fp>r-p> Google Search

MSN Search

*-p> Yahoo! Search - p --p • Ask this? | Create Your Own Homepage

Change My Search To:

Google Search MSN Search -:/p---:p> Yahoo! Search

Ask.com Search Wikipedia Own Homepage Change My Search To:

Google Search

MSN Search

Yahoo! Search Ask.com Search ■ ip ■■ p ■ Wikipedia English ■■:p---p> Change My Search To:

Google Search

MSN Search

Yahoo! Search

Ask.com Search

Wikipedia English *ip-**p-- Yahoo! Answers • p ■

---p-^ MSN Search -=/p"p> Yahoo! Search ■■■fp^p-- Ask.com Search

<:p> Wikipedia English

Yahoo! Answers Answers.com

a z .

zaz DIRECT Everything You re Looking For <7p>*p> Browse, Search , Find...

Get Found |Ltst Yourself) *

Bookmark Your Favorites france24.com Google News Google News Aggregated headlines and a search engine of many of the world's news sources.

news.google.com

Gold Suppliers *p> All Products

All Suppliers

Popular Searches : Urea Fertilizer Dyes Intermediates Infomation < ;p'

Jiangsu Xinye Chemical Co., Ltd. ■■

Founded in 1997, Jiangsu Xinye Chemical 'P-- Gold Suppliers

All Products All Suppliers */p>

Popular Searches: Urea Fertilizer Dyes Intermediates Infomation

Online Inquiry -=/p^p> Jiangsu Xinye Chemical Co., Ltd. */pxp:> Search products of this supplier

O-Fluorobenzoyl Chloride

Enquiry ■-p> Gold Suppliers *-p-> All Products

All Suppliers Popular Searches : Urea Fertilizer Dyes Intermediates Infomation -- ip>--p-- Online Inquiry

Jiangsu Xinye Chemical Co., Ltd. '-:p---p^ Search products of this supplier

Flutriafol -= .'p>-=p =■ Enquiry *p>...

'-p> Gold Suppliers All Products

All Suppliers

Popular Searches: Urea Fertilizer Dyes Intermediates Infomation

Online Inquiry Jiangsu Xinye Chemical Co., Ltd.

O-Fluorobenzoyl Chloride

Enquiry ■p> Gold Suppliers • p •• p ■ All Products • p -p • All Suppliers - ip---p ■ Advanced Search Browse Categories • n ••• Popular Searches : Urea Fertilizer Dyes Intermediates Infomation

Online Inquiry

Jiangsu Xinye Chemical Co., Ltd.

Search products of this supplier

O-Fluorobenzoyl Chloride

Enquiry ■p - Gold Suppliers All Products <

All Suppliers

Popular Searches: Urea Fertilizer Dyes Intermediates Infomation

Online Inquiry

--p> Jiangsu Xinye Chemical Co., Ltd.

Search products of this supplier

Flutriafol <-ip>*p> Enquiry ...

■ p -■ Gold Suppliers

Advanced Search Browse Categories - p ---p ■ Popular Searches : Urea Fertilizer Dyes Intermediates

Contact Infomation Online Inquiry

P-Chlorophenol

Search products of this supplier

Product Type: Agrochemicals

•p ■ Gold Suppliers ■ .p■ All Products <.''p- Popular Searches: Urea Fertilizer Dyes Intermediates ■=p> Contact Infomation

Online inquiry

O-Chlorophenol *p> Search products of this supplier

Product Type: Agrochemicals

-p> Gold Suppliers

Advanced Search Browse Categories Popular Searches : Urea Fertilizer Dyes Intermediates Contact Infomation

Online Inquiry

2,4-Dichlorophenol

Search products of this supplier

Product Type: -vpatpr. Agrochemicals

Duplicitní texty na internetu ► Jak duplicitní texty vznikají? Duplicitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky, patičky, navigace, copyright Duplicitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky, patičky, navigace, copyright ► Kopírovaní - informace na více místech Duplicitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky, patičky, navigace, copyright ► Kopírovaní - informace na více místech ► Levné získání obsahu vykradením textu z původních zdrojů Duplicitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky, patičky, navigace, copyright ► Kopírovaní - informace na více místech ► Levné získání obsahu vykradením textu z původních zdrojů ► Média přejímají agenturní zprávy Duplicitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky, patičky, navigace, copyright ► Kopírovaní - informace na více místech ► Levné získání obsahu vykradením textu z původních zdrojů ► Média přejímají agenturní zprávy ► Minimální změny: sportovní výsledky, předpověd počasí Duplicitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky, patičky, navigace, copyright ► Kopírovaní - informace na více místech ► Levné získání obsahu vykradením textu z původních zdrojů ► Média přejímají agenturní zprávy ► Minimální změny: sportovní výsledky, předpověd počasí ► Licenční ujednání icitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky patičky navigace, copyright ► Kopírování - informace na více místech ► Levné získání obsahu vykradením textu z původních zdroj ► Média přejímají agenturní zprávy ► Minimální změny: sportovní výsledky předpověd počasí ► Licenční ujednání ► Jak podobné texty jsou příliš podobné? icitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky, patičky, navigace, copyright ► Kopírování - informace na více místech ► Levné získání obsahu vykradením textu z původních zdroj ► Média přejímají agenturní zprávy ► Minimální změny: sportovní výsledky, předpověd počasí ► Licenční ujednání ► Jak podobné texty jsou příliš podobné? ► Členění textu: dokumenty, odstavce, věty, slova icitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky, patičky, navigace, copyright ► Kopírování - informace na více místech ► Levné získání obsahu vykradením textu z původních zdroj ► Média přejímají agenturní zprávy ► Minimální změny: sportovní výsledky, předpověd počasí ► Licenční ujednání ► Jak podobné texty jsou příliš podobné? ► Členění textu: dokumenty, odstavce, věty, slova ► Jak můžeme měřit podobnost textů? icitní texty na internetu ► Jak duplicitní texty vznikají? Hlavičky patičky navigace, copyright ► Kopírování - informace na více místech ► Levné získání obsahu vykradením textu z původních zdroj ► Média přejímají agenturní zprávy ► Minimální změny: sportovní výsledky předpověd počasí ► Licenční ujednání ► Jak podobné texty jsou příliš podobné? ► Členění textu: dokumenty odstavce, věty slova ► Jak můžeme měřit podobnost textů? ► Jak nastavit práh podobnosti? Ukázka agenturní zprávy - Bahrain News Agency iitttiti .Vi;« * * • »»", IJjjJuJI iLúl öJLig Bahrain NewsAgency ri 10 Feb 2017 lome atest News ocal News .rab News Iforld News lusiness ports INA Reports INA video Home About BNA Photo Archive TV Radio Contact Us Search Explosion Strikes German Convoy in Afghanistan 12 : 47 PM - 19/06/2011 □ □□□□ Kabul, Jime. 19 (BNA) -- Afghan officials say an explosion has struck a German military convoy on a main road northern Afghanistan, killing two Afglian civilians who were nearby. A reporter at the scene saw at least one overturned armored vehicle and what appeared to be a civilian car that was mangled hi the blast Sunday. Provincial spokesman Midibobidlali Sayedi says the two civilians who were killed were pedestrians who were caught up hi the blast. Sayedi said it appeared that bomb came from a suicide attacker. Ukázka agenturní zprávy - Dawn _DAWN HOME LATEST FSL POPULAR PAKISTAN TODAY'S PAPER OPINION WORLD SPORT BUSINESS MAGAZINES CULTURE BLOGS TECH Explosion strikes German convoy in Afghanistan AP — PUBLISHED Juti 19, 201108:35am KUNDUZ, Afghanistan: A suicide car bomber struck a German military convoy in northern Afghanistan on Sunday, detonating explosives that killed three Afghan civilians and overturned at least one armored vehicle, according to officials and witnesses. Taliban spokesman Zabiullah Mujahid claimed responsibility for the attack. The bomber blew his vehicle up shortly before 10 a.m. local time on a busy road on the edge of Kunduz city, near the airport. Ukázka agenturní zprávy - San Diego Union Tribune = SECT,™ Q SEARCH gfct £ffl| fttyß foUHt FRIDAY FEB. 10, 2017 US POLITICS LATEST MOST POPULAR TODAY'S PAPER JOBS HOMES CARS CONTACT US Explosion strikes German convoy in Afghanistan By KATHY GANNON, Associated Press JUNE 18, 201X 11:37 PM | KUH DUZ. AFGHANISTAN A suicide attacker blew up Ms explosives-laden car next to a German military convoy in northern Afghanistan on Sunday, lolling, duee Afghan civilians, officials and witnesses said. Taliban spokesman Zabiullah Mujahid claimed responsibility for die attack. The bomber detonated Ms veliicle shortly before 10 a.m. local time on a busy road on die edge of Kimduz city, near die airport, die Afghan Interior Ministry said in a statement. An Associated Press reporter at die scene saw at least one overturned armored veliicle and what appealed to be a civilian car diat was mangjed in die blast. Ukázka agenturní zprávy - Frum Forum FrumForum searcn hi- tm Search FF HOME BLOGGER INDEX BOOKCLUB ABOUT US CONTACT US BEST OF FF RSS I Taliban Targets German Troops June 19th, 2011 at 12:18 pm FRUMFORUM NEWS | No Comments | | r^Print Share 1 The Associated Press reports: A suicide attacker blew up his explosives-laden car next to a German military convoy in northern Afghanistan on Sunday, killing three Afghan civilians, officials and witnesses said. Taliban spokesman Zabiullah Mujahid claimed responsibility for the attack. The bomber detonated his vehicle shortly before 10 a.m. local time on a busy road on the edge ofKunduz city near the airport, the Afghan Interior Ministry said in a statement. An Associated Press reporter at the scene saw at least one overturned armored vehicle and what appeared to be a civilian car that was mangled in the blast. Three civilians were killed and 11 were wounded in the attack, the ministry said. Germany's military said two German soldiers were lightly wounded and treated at a nearby base. Two vehicles were damaged, according to a German military spokesman, who declined to be named in line with department policy. The spokesman said the military could not immediately confirm whether the attack was a suicide assault or a roadside bomb. Deduplikace Odstranění opakujících se úseků textu ► Zcela identické texty - snadné? Deduplikace Odstranění opakujících se úseků textu ► Zcela identické texty - snadné? ► Text převedeme na číslo pomocí hašovací funkce Deduplikace Odstranění opakujících se úseků textu ► Zcela identické texty - snadné? ► Text převedeme na číslo pomocí hašovací funkce ► Srovnáváme haš nového textu se všemi předchozími Deduplikace Odstranění opakujících se úseků textu ► Zcela identické texty - snadné? ► Text převedeme na číslo pomocí hašovací funkce ► Srovnáváme haš nového textu se všemi předchozími ► A co podobné texty - obtížné? Deduplikace Odstranění opakujících se úseků textu ► Zcela identické texty - snadné? ► Text převedeme na číslo pomocí hašovací funkce ► Srovnáváme haš nového textu se všemi předchozími ► A co podobné texty - obtížné? ► Lidé často zkopírují jen části textu Deduplikace Odstranění opakujících se úseků textu ► Zcela identické texty - snadné? ► Text převedeme na číslo pomocí hašovací funkce ► Srovnáváme haš nového textu se všemi předchozími ► A co podobné texty - obtížné? ► Lidé často zkopírují jen části textu ► Nebo dokument zkopírují a změní Deduplikace Odstranění opakujících se úseků textu ► Zcela identické texty - snadné? ► Text převedeme na číslo pomocí hašovací funkce ► Srovnáváme haš nového textu se všemi předchozími ► A co podobné texty - obtížné? ► Lidé často zkopírují jen části textu ► Nebo dokument zkopírují a změní ► Nebo zkopírují a rozšíří vlastním textem Deduplikace Odstranění opakujících se úseků textu ► Zcela identické texty - snadné? ► Text převedeme na číslo pomocí hašovací funkce ► Srovnáváme haš nového textu se všemi předchozími ► A co podobné texty - obtížné? ► Lidé často zkopírují jen části textu ► Nebo dokument zkopírují a změní ► Nebo zkopírují a rozšíří vlastním textem ► Problém je třeba řešit na nižší úrovni, než celý dokument Deduplikace Odstranění opakujících se úseků textu ► Zcela identické texty - snadné? ► Text převedeme na číslo pomocí hašovací funkce ► Srovnáváme haš nového textu se všemi předchozími ► A co podobné texty - obtížné? ► Lidé často zkopírují jen části textu ► Nebo dokument zkopírují a změní ► Nebo zkopírují a rozšíří vlastním textem ► Problém je třeba řešit na nižší úrovni, než celý dokument ► Nápady? Dokument jako vektor četností slov ► Hlavní myšlenka: počet výskytů slova je důležitý Dokument jako vektor četností slov ► Hlavní myšlenka: počet výskytů slova je důležitý ► Spočítáme relativní četnost slov Dokument jako vektor četností slov ► Hlavní myšlenka: počet výskytů slova je důležitý ► Spočítáme relativa í četnost slov ► Dokument reprezentujeme vektorem četností slov Dokument jako vektor četností slov ► Hlavní myšlenka: počet výskytů slova je důležitý ► Spočítáme relativa í četnost slov ► Dokument reprezentujeme vektorem četností slov ► Jak zjistíme podobnost vektorů v n-rozměrném prostoru? Dokument jako vektor četností slov ► Hlavní myšlenka: počet výskytů slova je důležitý ► Spočítáme relativa í četnost slov ► Dokument reprezentujeme vektorem četností slov ► Jak zjistíme podobnost vektorů v n-rozměrném prostoru? ► Mírou podobnosti dvou vektorů může být kosinová podobnost cos(0) = n AB A B i=l Document A Document B Dokument jako překrývající se n-tice slov ► Hlavní myšlenka: okolí slova je důležité Dokument jako překrývající se n-tice slov ► Hlavní myšlenka: okolí slova je důležité ► Rozdělíme dokument na překrývající se n-tice slov Hospodin je můj, je můj pastýř, můj pastýř nebudu, pastýř nebudu mít, nebudu mít nedostatek Dokument jako překrývající se n-tice slov ► Hlavní myšlenka: okolí slova je důležité ► Rozdělíme dokument na překrývající se n-tice slov Hospodin je můj, je můj pastýř, můj pastýř nebudu, pastýř nebudu mít, nebudu mít nedostatek ► Dokument reprezentujeme množinou hašů těchto n-tic Dokument jako překrývající se n-tice slov ► Hlavní myšlenka: okolí slova je důležité ► Rozdělíme dokument na překrývající se n-tice slov Hospodin je můj, je můj pastýř, můj pastýř nebudu, pastýř nebudu mít, nebudu mít nedostatek ► Dokument reprezentujeme množinou hašů těchto n-tic ► Jak zjistíme podobnost množin? Dokument jako překrývající se n-tice slov ► Hlavní myšlenka: okolí slova je důležité ► Rozdělíme dokument na překrývající se n-tice slov Hospodin je můj, je můj pastýř, můj pastýř nebudu, pastýř nebudu mít, nebudu mít nedostatek ► Dokument reprezentujeme množinou hašů těchto n-tic ► Jak zjistíme podobnost množin? ► Mírou podobnosti dvou množin může být Jaccardova podobnost J(A, B) AnB AUB AnB A + B - AnB A 0 1 B 0 M00 Mio 1 Moi Dokument jako překrývající se n-tice slov V CZPJ používáme následující parametry deduplikace pomocí překrývajících se n-tic slov: ► Úroveň jemnosti: odstavce, ► velikost úseků: sedmice slov ► hranice úseků: začátek a konec věty, ► práh podobnosti sedmic: 50% ► vyhlazování. Dokument jako překrývající se n-tice slov V CZPJ používáme následující parametry deduplikace pomocí překrývajících se n-tic slov: ► Úroveň jemnosti: odstavce, ► velikost úseků: sedmice slov ► hranice úseků: začátek a konec věty, ► práh podobnosti sedmic: 50% ► vyhlazování. Odstavec je ponechán, ► pokud alespoň 50% sedmic slov v daném odstavci nebylo zaznamenáno dříve, ► nebo leží bezprostředně mezi dvěma ponechanými odstavci. Srovnání a slabá místa metod deduplikace Zkonstruujte text, kterým uvedené metody obelstíte ► Metoda založená na relativní četnosti slov Srovnání a slabá místa metod deduplikace Zkonstruujte text, kterým uvedené metody obelstíte ► Metoda založená na relativní četnosti slov ► Stačí zkopírovat dva různé dokumenty za sebe Srovnání a slabá místa metod deduplikace Zkonstruujte text, kterým uvedené metody obelstíte ► Metoda založená na relativní četnosti slov ► Stačí zkopírovat dva různé dokumenty za sebe ► Metoda založená na překrývajících se n-ticích slov Srovnání a slabá místa metod deduplikace Zkonstruujte text, kterým uvedené metody obelstíte ► Metoda založená na relativní četnosti slov ► Stačí zkopírovat dva různé dokumenty za sebe ► Metoda založená na překrývajících se n-ticích slov ► Stačí změnit pořadí slov ve větách Srovnání a slabá místa metod deduplikace Zkonstruujte text, kterým uvedené metody obelstíte ► Metoda založená na relativní četnosti slov ► Stačí zkopírovat dva různé dokumenty za sebe ► Metoda založená na překrývajících se n-ticích slov ► Stačí změnit pořadí slov ve větách ► Obelstěte obě metody deduplikace zároveň Srovnání a slabá místa metod deduplikace Zkonstruujte text, kterým uvedené metody obelstíte ► Metoda založená na relativní četnosti slov ► Stačí zkopírovat dva různé dokumenty za sebe ► Metoda založená na překrývajících se n-ticích slov ► Stačí změnit pořadí slov ve větách ► Obelstěte obě metody deduplikace zároveň ► Stačí zaměnit některá slova za synonyma, ► případně celý text převyprávět Srovnání a slabá místa metod deduplikace Zkonstruujte text, kterým uvedené metody obelstíte ► Metoda založená na relativní četnosti slov ► Stačí zkopírovat dva různé dokumenty za sebe ► Metoda založená na překrývajících se n-ticích slov ► Stačí změnit pořadí slov ve větách ► Obelstěte obě metody deduplikace zároveň ► Stačí zaměnit některá slova za synonyma, ► případně celý text převyprávět ► Ukažte, že existuje text s unikátními větami, který s naším nastavením metody překrývajících se n-tic slov zahodíme Srovnání a slabá místa metod deduplikace Zkonstruujte text, kterým uvedené metody obelstíte ► Metoda založená na relativní četnosti slov ► Stačí zkopírovat dva různé dokumenty za sebe ► Metoda založená na překrývajících se n-ticích slov ► Stačí změnit pořadí slov ve větách ► Obelstěte obě metody deduplikace zároveň ► Stačí zaměnit některá slova za synonyma, ► případně celý text převyprávět ► Ukažte, že existuje text s unikátními větami, který s naším nastavením metody překrývajících se n-tic slov zahodíme ► Tvoří-li unikátní věty méně než 50% sedmic slov, celý odstavec zahodíme Využití k odhalování plagiátů - podezřelá diplomová práce LIDOVKY cz DOMOV SVĚT BYZNYS SPORT KULTURA CESTOVÁNÍ RELAX DESIGN DOBRÁ CHUŤ NÁZORY LIDÉ VIDEO SPECIÁLY OSUDY 20. STOLETÍ VOLEBNÍ SPECIÁLY DOKUMENTY ARCHIVZPRÁV SAMIZDATOVÉ L N 25 LET SVOBODY 4. ŘÍJNA 2016 3:52 | LIDOVKYCZ s ZPRÁVY > DOMOV Piráti: Chovanec opsal úvod bakalářské práce. Snaha o předvolební skandálek, brání se ministr praha Ministr vnitra Milan Chovanec (ČSSD) okopíroval značnou část své bakalářské práce, tvrdí Piráti a dokazují to pasážemi bez řádného citování. Práce pochází z roku 2009, kdy Chovanec stodoval na Právnické fakultě Západočeské univerzity v Plzni. Ministr se brání, že se Piráti snaží jen o „předvolební skandálek" a za svým shidiem si stojí. roblém plagiátorství je však složitější PLAGIARISM If the unattributed language runs longer than seven words in multiple sentences, you've probably caught someone trying to pass their work off as someone else's. Check their work for previous examples of theft — there might be more cribbing lurking in the archives. If the journalism in question is merely a retread of someone else's work using the same sources and concepts, its not plagiarism — but it's not original work, either. EXCESSIVE AGGREGATION If the article is a total rewrite of someone else's story, I it's not plagiarism, but it's still a form of theft — even if the original author is credited. SOURCES: ' Kelly McBride 1 Plagiarism.org | Infographk by Benjamin Mullin . Issues of Building Language Resources from the Web Particular tasks: ► Language identification, ► Character encoding detection, ► Efficient web crawling, ► Boilerplate removal, ► De-duplication (removal of identical or nearly identical texts), ► Fighting web spam, ► Authorship recognition & plagiarism detection, ► Storing & indexing of large text collections. NLPC & Lexical Computing corpus tools: http://corpus.tools/ Postup získavaní webových korpusů v CZPJ ► příprava jayzkově závislých modelů používaných v dalších krocích — učení na dokumentech z Wikipedie ► spuštění crawleru (SpiderLing) ► zpracování a vyhodnocování během běhu crawleru ► detekce znakové sady dokumentu (Chared) ► filtrování jazyka (vektor trigramů znaků) ► odstraňování nežádoucího obsahu (Justext) ► kontrola duplicitních dokumentů ► vyhodnocování průběžné výtěžnosti webových domén ► zpracování získaných dat ► odstranění podobných odstavců (Onion) ► tokenizace (Unitok nebo jiný nástroj) ► značkování morfologické a syntaktické — externími nástroji, jsou-li dostupné ► zakódování a nahrání do korpusového manažeru (Manatee/Sketch Engine)