Sistema de búsqueda de palabras individuales en r

Cuando se trabaja con texto, a menudo se pueden resolver los problemas si usted es capaz de encontrar las palabras o patrones en el interior de texto. R lo hace fácil de hacer. Imagine que tiene una lista de los estados de los Estados Unidos, y quiere averiguar cuál de estos estados contiene la palabra Nuevo.

Para investigar este problema, puede utilizar el conjunto de datos incorporada states.names, que contiene - usted lo adivinó - los nombres de los estados de los Estados Unidos:

gt; cabeza (state.names) [1] "Alabama" "Alaska" "Arizona"[4] "Arkansas" "California" "Colorado"

En términos generales, se puede encontrar subcadenas de texto de dos formas:

  • Por posición: Por ejemplo, se puede decir R para obtener tres letras que empiezan en la posición 5.

  • Por patrón: Por ejemplo, se puede decir R para obtener subcadenas que coincidan con una palabra o patrón específico.

    Video: Sustantivos individuales y colectivos - Lengua - Educatina

    Un patrón es un poco como un comodín. En algunos juegos de cartas, es posible utilizar la tarjeta comodín para representar cualquier otra tarjeta. Del mismo modo, un patrón en R puede contener palabras o ciertos símbolos con significados especiales.

Búsqueda por posición en R

Si conoce la posición exacta de un subtexto dentro de un elemento de texto, se utiliza el substr () para devolver el valor. Para extraer el subtexto que comienza en la tercera posición y se detiene en la sexta posición de nombre del Estado, utilice la siguiente:

gt; cabeza (substr (state.name, start = 3, parada = 6)) [1] "ABAM" "Aska" "izon" "kans" "LIFO" "Lora"

Búsqueda por patrón en R

Para encontrar subcadenas, se puede utilizar el grep () función, que toma dos argumentos esenciales:

  • patrón: El patrón que desea encontrar.

    Video: Lección Lengua. Nombre Individual y Colectivo.avi

  • x: El vector de caracteres que desee buscar.

Supongamos que usted quiere encontrar todos los estados que contienen el patrón Nuevo. Hazlo asi:

Video: Lengua Castellana. 2º Primaria. Tema 3. Nombres individuales y colectivos

gt; grep ("Nuevo", State.name) [1] 29 30 31 32

El resultado de grep () es un vector numérico con las posiciones de cada uno de los elementos que contienen el patrón coincidente. En otras palabras, el elemento 29 de nombre del Estado contiene la palabra Nuevo.

gt; state.name [29] Nueva Hampshire

Uf, que funcionó! Pero a escribir en la posición de cada texto coincidente va a ser un montón de trabajo. Afortunadamente, puede utilizar los resultados de grep () directamente al subconjunto del vector original:

Video: Sustantivos individuales-Nueva sección: Cosas que te puedan ser útil!!

gt; state.name [grep ("Nuevo", State.name)] [1] "nueva Hampshire" "New Jersey"[3] "Nuevo Mexico" "Nueva York"

los grep () la función es sensible a mayúsculas - que sólo coincide con el texto en el mismo caso (mayúsculas o minúsculas) como su patrón de búsqueda. Si busca el patrón “nuevo”En minúsculas, los resultados de la búsqueda están vacías:

gt; state.name [grep ("nuevo", State.name)] carácter (0)
Artículos Relacionados