Kapitola 13 Práce s řetězci
Analýza dat nezahrnuje jen práci s čísly, ale i s řetězci (texty). Když pomineme textovou analýzu jako takovou, velmi často jsou data zabalena v textovém balastu a je třeba je z něj extrahovat. R má v základním balíku base mnoho užitečných funkcí pro práci s řetězci. Tyto funkce však mají často složité a vzájemně nekonzistenční rozhraní. Proto se zde místo nich podíváme na funkce implementované v balíku stringr (a také jednu funkci z balíku glue), který výrazně zjednodušuje práci s řetězci a stále pokrývá velkou většinu toho, co člověk potřebuje. (Balík stringr je uživatelsky přívětivý wrapper nad funkcemi balíku stringi; proto často vypisuje chyby ze stringi a stejně tak část dokumentace je třeba hledat ve stringi.) Pro práci s touto kapitolou je tedy nezbytné načíst balík stringr do paměti počítače:
library(stringr)
Jména všech funkcí z balíku stringr začínají str_
.
V této kapitole se naučíte
- základy práce se řetězci
- jak zjistit délku řetězce,
- jak řetězce spojovat, duplikovat a zalamovat,
- jak řetězce setřídit,
- jak nahrazovat části řetězců,
- jak pracovat s regulárními výrazy a
- jak měnit chování regulárních výrazů
a mnoho dalšího.