--- title: "Extracci\u00f3n de palabas clave" date: "`r Sys.Date()`" author: "Agust\u00edn Nieto" output: rmarkdown::html_vignette vignette: > %\VignetteIndexEntry{extraccion_palabras_clave} %\VignetteEngine{knitr::rmarkdown} %\VignetteEncoding{UTF-8} --- ```{r, include = FALSE} knitr::opts_chunk$set( collapse = FALSE, comment = "#>" ) ``` ## Introducción En este artículo presentamos las utilidades de la función `acep_extract()` para la extracción de palabras clave en un corpus de notas sobre la conflictividad laboral en la industria pesquera argentina con un enfoque de diccionario. ## El corpus de notas Las notas que componen el corpus utilizado en este ejercicio fueron raspadas del sitio [revistapuerto.com.ar](https://revistapuerto.com.ar) con las funciones del paquete `rvest`. Se compone de `r nrow(ACEP::acep_load_base(ACEP::acep_bases$rp_mdp))` notas y `r length(ACEP::acep_load_base(ACEP::acep_bases$rp_mdp))` variables: `r paste0(names(ACEP::acep_load_base(ACEP::acep_bases$rp_mdp)), collapse = ', ')`. El corpus de notas cubre desde el 2 de marzo de 2009 hasta el 29 de diciembre de 2020. Para cargar todas las notas haremos uso de la función `acep_load_base()`. ```{r setup, eval=require("tibble"), message=FALSE} # Cargamos la librería ACEP library(ACEP) # Definimos la url url <- acep_bases$rp_mdp # Descargamos el corpus de notas de la Revista Puerto rev_puerto <- acep_load_base(url) # Imprimimos la base en consola rev_puerto ``` ## Los diccionarios Una vez descargada la base de notas vamos a crear variables numéricas y una de carácter que contenga las frecuencias de palabras totales, la frecuencia de palabras de cada diccionario usado para cada una de las notas y las palabras clave mencionadas en cada nota. En esta parte del código haremos uso de tres funciones y un diccionario del paquete ACEP: `acep_count()`, `acep_extract()`, `acep_load_base()` y `acep_diccionarios`. También crearemos dos diccionarios breves para usarlos en las funciones `acep_count()` y `acep_extract()`, con un doble objetivo: 1) identificar las notas que refieran a huelgas; 2) identificar las notas que refieran a lxs trabajadorxs del procesamiento de pescado en tierra en la ciudad de Mar del Plata. ```{r diccionarios0, eval=require("tibble"), message=FALSE} # Cargamos el diccionario de palabras que refieren a conflictividad dicc_conflictos <- acep_load_base(acep_diccionarios$dicc_confl_sismos) # Creamos la variable con la frecuencia de palabras que refieren a conflictividad rev_puerto$frec_conflictos <- acep_count(rev_puerto$nota, dicc_conflictos) # Creamos el diccionario de palabras que refieren a huelgas dicc_huelgas <- c("en paro", "al paro", "huelga", "huelguistas", "paro y movil", "paro de actividades", "conciliación obligatoria", "un paro", "paro total", "paro parcial", "trabajo a reglamento", "el paro", "de brazos caídos") # Creamos la variable con la frecuencia de palabras que refieren a huelgas rev_puerto$frec_huelgas <- acep_count(rev_puerto$nota, dicc_huelgas) # Creamos el diccionario de palabras que refieren a lxs obrerxs del pescado dicc_soip <- c("soip", "sindicato obrero de la industria del pescado", "sindicato de la industria del pescado", "huelguistas", "obreras de la industria del pescado", "obreras del pescado", "obreros de la industria del pescado", "obreros del pescado", "fileteros", "fileteras", "obreros del filet", "obreras del filet") # Creamos la variable con la frecuencia de palabras que # refieren a lxs obrerxs del pescado rev_puerto$frec_soip <- acep_count(rev_puerto$nota, dicc_soip) # Imprimimos la base en consola rev_puerto ``` Ahora vamos a usar las función `acep_extract()` para extraer las palabras clave de los diccionarios de conflictividad, huelgas y SOIP que aparecen en cada una de las notas de la *Revista Puerto*. ```{r diccionarios1, eval=require("tibble")} # Creamos la variable con las palabras que refieren a conflictividad rev_puerto$extract_conflictos <- acep_extract(rev_puerto$nota, dicc_conflictos, izq = "") # Creamos la variable con las palabras que refieren a huelgas rev_puerto$extract_huelgas <- acep_extract(rev_puerto$nota, dicc_huelgas) # Creamos la variable con las palabras que # refieren a lxs obrerxs del pescado rev_puerto$extract_soip <- acep_extract(rev_puerto$nota, dicc_soip) # Imprimimos la base en consola rev_puerto ``` ## Las palabras clave extraídas Ya construidas las variables nos ocuparemos de poner el foco en el rendimiento de la función `acep_extract()`. Seleccionaremos las columnas referidas a las extracciones de conflictos y huelgas. Veamos. ```{r ratio, eval=require("tibble"), message=FALSE} # Seleccionamos las variables de extracción de palabras clave rev_puerto_huelgas <- rev_puerto[rev_puerto$extract_huelgas != "",] rev_puerto_soip <- rev_puerto_huelgas[rev_puerto_huelgas$extract_soip != "",] rev_puerto_seleccion <- rev_puerto_soip[ , c('extract_conflictos', 'extract_huelgas', 'extract_soip')] # Imprimimos la base en consola rev_puerto_seleccion ``` ## Nota final A lo largo de este breve tutorial sobre la función `acep_extract()` del paquete ACEP buscamos ejemplificar de qué modo puede ser usada esta función para individualizar cada una de las palabras clave que fueron contabilizadas en las notas con la función `acep_count()`.