Sistema de búsqueda de varias palabras en r

Cuando se trabaja con texto en R, es posible que tenga que buscar palabras o patrones dentro del texto. Imagine que tiene una lista de los estados de los Estados Unidos, y quiere saber qué nombres de estado constan de dos palabras.

Video: Tutorial de Excel - Función Buscar - Referencias Absolutas - Asesor Juan Manuel

Para encontrar subcadenas, se puede utilizar el grep () función, que toma dos argumentos esenciales:

  • patrón: El patrón que desea encontrar.

  • x: El vector de caracteres que desee buscar.

Video: Buscar palabras o frases dentro de documentos en Windows 7

Así que, ¿cómo encontrar los nombres de todos los estados con más de una palabra? Esto es fácil cuando se da cuenta de que se puede enmarcar la cuestión mediante la búsqueda de todos aquellos estados que contienen un espacio:

gt; state.name [grep (" ", State.name)] [1] "nueva Hampshire" "New Jersey"[3] "Nuevo Mexico" "Nueva York"[5] "Carolina del Norte" "Dakota del Norte"[7] "Rhode Island" "Carolina del Sur"[9] "Dakota del Sur" "Virginia del Oeste"

Los resultados incluyen todos los estados que tienen nombres de dos palabras, como Nueva Jersey, Nueva York, Carolina del Norte, Dakota del Sur y Virginia Occidental.

Video: Crear graficos de frecuencia de palabras en R

Se puede ver en esta lista que no hay nombres de estado que contienen Este. Puede confirmar esto haciendo otro hallazgo:

gt; state.name [grep ("Este", State.name)] carácter (0)

Cuando el resultado de una operación de carácter es un vector vacío (es decir, no hay nada en él), R representa como personaje (0). Del mismo modo, un vacío, o de longitud cero, vector numérico se representa con número entero (0) o numérico (0).

Video: Ayuda en el internet: Buscar palabras especificas dentro de un texto en un browser

R hace una distinción entre NULO y un vector vacío. NULO por lo general significa que algo no está definido. Esta es sutilmente diferente de algo que está vacío. Por ejemplo, un vector de caracteres que pasa a tener ningún elemento sigue siendo un vector de caracteres, representado por personaje (0).

Artículos Relacionados