Kapitola 13 Práce s řetězci

Analýza dat nezahrnuje jen práci s čísly, ale i s řetězci (texty). Když pomineme textovou analýzu jako takovou, velmi často jsou data zabalena v textovém balastu a je třeba je z něj extrahovat. R má v základním balíku base mnoho užitečných funkcí pro práci s řetězci. Tyto funkce však mají často složité a vzájemně nekonzistenční rozhraní. Proto se zde místo nich podíváme na funkce implementované v balíku stringr (a také jednu funkci z balíku glue), který výrazně zjednodušuje práci s řetězci a stále pokrývá velkou většinu toho, co člověk potřebuje. (Balík stringr je uživatelsky přívětivý wrapper nad funkcemi balíku stringi; proto často vypisuje chyby ze stringi a stejně tak část dokumentace je třeba hledat ve stringi.) Pro práci s touto kapitolou je tedy nezbytné načíst balík stringr do paměti počítače:

library(stringr)

Jména všech funkcí z balíku stringr začínají str_.

V této kapitole se naučíte

  • základy práce se řetězci
  • jak zjistit délku řetězce,
  • jak řetězce spojovat, duplikovat a zalamovat,
  • jak řetězce setřídit,
  • jak nahrazovat části řetězců,
  • jak pracovat s regulárními výrazy a
  • jak měnit chování regulárních výrazů

a mnoho dalšího.