Cómo extender la funcionalidad de texto con stringr en r

Si usted ha trabajado en absoluto con las funciones de manipulación de texto de R, es probable que preguntarse por qué todas estas funciones tienen nombres tan inmemoriales y sintaxis aparentemente diverso. Si es así, usted no está solo.

De hecho, Hadley Wickham escribió un paquete disponible de CRAN que simplifica y estandariza trabajar con texto en R. Este paquete se llama stringr, y se puede instalar mediante el uso de la consola de R o seleccionando Herramientas → instalar paquetes en rstudio.

Aunque usted tiene que instalar un paquete de una sola vez, usted tiene que cargarlo en el espacio de trabajo mediante el biblioteca() funcionar cada vez que inicie una nueva sesión de R y planea utilizar las funciones en ese paquete.

(install.packages"stringr") Biblioteca (stringr)

Estas son algunas de las ventajas de utilizar stringr en lugar de las funciones estándar R:

  • Los nombres de funciones y argumentos son consistentes y más descriptivo. Por ejemplo, todos stringr funciones tienen nombres que comienzan con str_ (como str_detect () y str_replace ()).

  • stringr tiene una forma más consistente de tratar los casos con datos faltantes o valores vacíos.

  • stringr tiene una forma más consistente de asegurar que los datos de entrada y de salida son del mismo tipo.

los stringr equivalente para grep () es str_detect (), y el equivalente para gsub () es str_replace_all ().

Como punto de partida para explorar stringr, es posible que algunas de estas funciones útiles:

  • str_detect (): Detecta la presencia o ausencia de un patrón en una cadena

  • str_extract (): Extrae la primera pieza de una cadena que coincide con un patrón

  • str_length (): Devuelve la longitud de una cadena (en caracteres)

  • str_locate (): Localiza la posición de la primera ocurrencia de un patrón en una cadena

  • str_match (): Extrae el primer grupo emparejado de una cuerda

  • str_replace (): Sustituye a la primera ocurrencia de un patrón emparejado en una cadena

  • str_split (): Divide una cadena en un número variable de piezas

  • str_sub (): Extrae subseries de un vector de caracteres

  • str_trim (): Recorta el espacio en blanco desde el principio y final de la cadena

  • str_wrap (): cuerdas envolturas en párrafos con un formato agradable

Artículos Relacionados