Web Scraping, Web Services e API’s

# Web Scraping, Web Services e API’s
## Extraindo dados através do R
### <br><br> Lucas da Cunha Godoy
### <br>2018/10/16

---

# **1º Datathon - UFRGS **

<br>
# Web Scraping, Web Services e API's  
# <i class="fas  fa-robot "></i>

---

.column.bg-main3[
]
.column.slide-in-right[
.sliderbox.bg-main2.vmiddle[
.font5[Intro  ]
]]

---

.column.bg-main1[
.split-three[
.row.bg-main1[.content.vmiddle.center[
## Web Scraping
]]
.row.bg-main2[.content.vmiddle.center[
## Web Service
]]
.row.bg-main3[.content.vmiddle.center[
## API
]]
]]

.column.bg-black.indigo[.content.vmiddle.center[
### Características
<br>

### Pacotes
<br>

### Quando utilizar
<br>

]]

---

.column.bg-main1[
.split-three[
.row.bg-main1[.content.vmiddle.center[
## Web Scraping
]]
.row.bg-main2[.content.vmiddle.center[
## Web Service
]]
.row.bg-main3[.content.vmiddle.center[
## API
]]
]]

.column.bg-black.indigo[.content.vmiddle[

### Características

- Extração de dados de páginas web

- HTTP ou Navegador Web

### Pacotes

- `RSelenium`

- `rvest`

### Quando utilizar

- Dados não estruturados

- Dados não divulgados via API e Web Service

- SINAM, Wikipédia, etc.
]]

---

.column.bg-main1[
.split-three[
.row.bg-main1[.content.vmiddle.center[
## Web Scraping
]]
.row.bg-main2[.content.vmiddle.center[
## Web Service
]]
.row.bg-main3[.content.vmiddle.center[
## API
]]
]]

.column.bg-black.indigo[.content.vmiddle[

### Características

- Bases de dados disponíveis na web

- URL's parametrizadas

### Pacotes

- Não necessariamente necessita de um pacote específico.
Entretanto, `jsonlite` pode ajudar caso os dados sejam
retornados em forma de json.

### Quando utilizar

- Bases públicas nas quais as URLs seguem padrões
de acordo com os parâmetros solicitados.

- Exemplos:
    * Portal da Transparência;
    * IBGE
]]

---

.column.bg-main1[
.split-three[
.row.bg-main1[.content.vmiddle.center[
## Web Scraping
]]
.row.bg-main2[.content.vmiddle.center[
## Web Service
]]
.row.bg-main3[.content.vmiddle.center[
## API
]]
]]

.column.bg-black.indigo[.content.vmiddle[
### Características

- Application Programming Interface

- Muito parecido com web service

- Melhor documentado

### Pacotes

- Assim como web services, APIs não precisam de um
pacote específico. Contudo, recomenda-se utilização
do pacote `jsonlite`

- `rtweet`

### Quando utilizar

- Sempre que disponível.

]]

---

.row.bg-main1[.content.vmiddle.center[
# API
]]

.row.bg-main2[.content.vmiddle.center[
# Web Service
]]

.row.bg-main3[.content.vmiddle.center[
# Web Scrapping
]]

---

.column.bg-main4[
]
.column.slide-in-right[
.sliderbox.bg-main3.vmiddle[
.font5[Exemplos]
]]

---

<i class="fas  fa-globe fa-3x "></i>
# Web Scraping

---

* Linguagem para estruturar conteúdos para navegadores da web;
* Armazenada em arquivos de texto com o sufixo _html_.

---

## Elementos Comuns

* **html** 
    - Todo conteúdo da página faz parte deste elemento;
* **head** 
    - Contém os metadados do documento (Título, Scripts, etc);
* **title** 
    - Título do documento (mostrado acima da página e quando é marcada como favorito);
* **body** 
    - Tudo que não está no head deve ser incluído no body, se trata do conteúdo visível primário;
* **h1, h2, h3, h4** 
    - Títulos em diferentes níveis para a página;
* **p** 
    - *Um parágrafo*;
* **ul, ol, li** 
    - lista não ordenada, lista ordenada e especificação de elementos da lista, respectivamente;

---

## Utilizando o pacote `RSelenium`

```r
require(RSelenium)

cDr <- wdman::chrome(port = 4444L, verbose = F)
remDr <- remoteDriver(browserName = "chrome", port = 4444L)

#---- IDH - Wikipedia ----

# Abre o navegador

remDr$open()

remDr$navigate("https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_por_IDH")

tabela_idh <- remDr$findElement(using = 'css selector', 
                                value = '#mw-content-text > div > table.wikitable.sortable.jquery-tablesorter')

(tabela_idh <- tabela_idh$getElementAttribute(attrName = 'outerHTML'))

(tabela_idh <- XML::htmlTreeParse(tabela_idh[[1]], useInternalNodes = T, 
                                  encoding = "UTF-8"))

(tabela_idh <- XML::readHTMLTable(doc = tabela_idh, header = T, 
                                  which = 1, as.data.frame = T))
```

---

## Utilizando o pacote `rvest`

```r
require(rvest)

html <- read_html(x = "https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_por_IDH", 
                  encoding = "UTF-8")

tabela <- html %>%
  html_nodes(x = ., 
             xpath = '//*[@id="mw-content-text"]/div/table[1]') %>% 
  html_table(x = ., dec = ',')
```

---

## Resultados

<br>

### `RSelenium`

.center[
<div id="htmlwidget-6899aebbae6f74274286" style="width:100%;height:auto;" class="datatables html-widget"></div>
<script type="application/json" data-for="htmlwidget-6899aebbae6f74274286">{"x":{"style":"bootstrap","filter":"none","data":[["1","2","3","4","5"],["São Caetano do Sul","Águas de São Pedro","Florianópolis","Balneário Camboriú","Vitória"],[" São Paulo"," São Paulo"," Santa Catarina"," Santa Catarina"," Espírito Santo"],["0,862","0,854","0,847","0,845","0,845"]],"container":"<table class=\"table table-striped table-hover\">\n  <thead>\n    <tr>\n      <th>#\n<\/th>\n      <th>Município\n<\/th>\n      <th>UF\n<\/th>\n      <th>IDHM (2010)[5]<\/th>\n    <\/tr>\n  <\/thead>\n<\/table>","options":{"pageLength":5,"dom":"t","ordering":false,"order":[],"autoWidth":false,"orderClasses":false,"lengthMenu":[5,10,25,50,100]}},"evals":[],"jsHooks":[]}</script>
]

<br>

### `rvest`

.center[
<div id="htmlwidget-bc2f0b9082b835d894f3" style="width:100%;height:auto;" class="datatables html-widget"></div>
<script type="application/json" data-for="htmlwidget-bc2f0b9082b835d894f3">{"x":{"style":"bootstrap","filter":"none","data":[[1,2,3,4,5],["São Caetano do Sul","Águas de São Pedro","Florianópolis","Balneário Camboriú","Vitória"],["São Paulo","São Paulo","Santa Catarina","Santa Catarina","Espírito Santo"],[0.862,0.854,0.847,0.845,0.845]],"container":"<table class=\"table table-striped table-hover\">\n  <thead>\n    <tr>\n      <th>#<\/th>\n      <th>Município<\/th>\n      <th>UF<\/th>\n      <th>IDHM (2010)[5]<\/th>\n    <\/tr>\n  <\/thead>\n<\/table>","options":{"pageLength":5,"dom":"t","ordering":false,"columnDefs":[{"className":"dt-right","targets":[0,3]}],"order":[],"autoWidth":false,"orderClasses":false,"lengthMenu":[5,10,25,50,100]}},"evals":[],"jsHooks":[]}</script>
]

---

<i class="fas  fa-server fa-3x "></i>
# Web Service

---

## Portal da Transparência do Governo Federal

- http://www.portaltransparencia.gov.br/download-de-dados/orcamento-despesa/2017
- http://www.portaltransparencia.gov.br/download-de-dados/orcamento-despesa/2018
--
<br>
- http://www.portaltransparencia.gov.br/download-de-dados/receitas/2018
- http://www.portaltransparencia.gov.br/download-de-dados/receitas/2014
--
<br>
- http://www.portaltransparencia.gov.br/download-de-dados/cpgf/201801
- http://www.portaltransparencia.gov.br/download-de-dados/cpgf/201802
--
<br>
- http://www.portaltransparencia.gov.br/download-de-dados/cpcc/201702
- http://www.portaltransparencia.gov.br/download-de-dados/cpcc/201502

---

## Portal da Transparência do Governo Federal

### Dados do Orçamento

```r
download_orcamento <- function(year = NULL, ...) {
  temp_dir <- tempdir()
  link <- ('http://www.portaltransparencia.gov.br/download-de-dados/orcamento-despesa/%d')
  
  lapply(list.files(path = temp_dir, pattern = '.csv$', full.names = T),
         file.remove) %>% invisible()
  
  for(i in year) {
    file_name <- paste0(sprintf('orcamento_%d', i), '.zip')
    dest <- file.path( temp_dir, file_name)
    file.create(dest)
    utils::download.file(url = sprintf(link, i), 
                         destfile = dest, quiet = T, mode = 'wb')
    utils::unzip(zipfile = dest, exdir = temp_dir, 
                 unzip = 'internal')
  }
    
    out <- lapply(list.files(path = temp_dir, pattern = '.csv$', full.names = T),
                  function(x) {
                    aux <- suppressWarnings(data.table::fread(x, dec = ',', sep = ';',
                                                              encoding = 'Latin-1', 
                                                              stringsAsFactors = F))
                    names(aux) <- trimws(iconv(names(aux), from = 'LATIN1', to = 'ASCII//TRANSLIT'), 'b')
                    char_fct <- which(sapply(aux, is.character))
                    aux[, c(char_fct) := lapply(.SD, function(x) {
                      iconv(x, from = 'LATIN1', to = 'ASCII//TRANSLIT')
                    }), .SDcols = char_fct]
                    aux
                  }) %>% data.table::rbindlist()
    
    unlink(list.files(temp_dir, full.names = T), recursive = T)
    
    return(out)
  }
```
  
---

## Pacote para baixar dados do Portal

.middle[
- <i class="fas  fa-box "></i> `transpbrr`
- <i class="fab  fa-github "></i> https://github.com/stats4good/transpbrr 
- <i class="fas  fa-globe "></i> https://stats4good.github.io/transpbrr
]

---

<i class="fas  fa-database fa-3x "></i>
# API

---

.column.bg-main1[
.split-two[
.row.bg-main1[.content.vmiddle.center[
## Twitter <i class="fab  fa-twitter "></i>
]]
.row.bg-main2[.content.vmiddle.center[
## Google <i class="fab  fa-google "></i>
]]
]]

.column.bg-black.white[.content.vmiddle.center[
<i class="fas  fa-question fa-5x "></i>
]]

---

.column.bg-black.indigo[.content.vmiddle[
- <i class="fas  fa-globe "></i> Link para obtenção do token
    - https://developer.twitter.com/en/apps
- <i class="fas  fa-box "></i> Pacote R
    - https://rtweet.info/
]]

---

.column.bg-black.indigo[.content.vmiddle[
- <i class="fas  fa-globe "></i> Link para obtenção do token
    - https://developers.google.com/maps/documentation/geocoding/get-api-key
- <i class="fas  fa-box "></i> Pacote R (Opcional)
    - https://cran.rstudio.com/web/packages/mapsapi/vignettes/intro.html
    - https://cran.r-project.org/web/packages/googleAuthR/index.html
]]

---

## Exemplo: Twitter <i class="fab  fa-twitter "></i>

```r
library(rtweet)

#---- Tweets citando bolso ----

ele_nao <- search_tweets(q = "jairbolsonaro", n = 1000, lang = "pt")

#---- Tweets bolso ----

tl_elenao <- get_timeline(user = "jairbolsonaro", n = 100)

#---- Tweets citando haddad ----

haddad <- search_tweets(q = "Haddad_Fernando", n = 1000, lang = "pt")

#---- Tweets bolso ----

tl_haddad <- get_timeline(user = "Haddad_Fernando", n = 100)

# Outras opcoes de consulta

#---- Multiplos termos ----

eleicoes <- search_tweets(q = "#Eleições2018 OR #Eleicoes2018 OR Eleicao 2018", 
                          n = 1000, lang = "pt")
```

---

## Exemplo: Google <i class="fab  fa-google "></i>
### Geolocation API

```r
library(magrittr)

#---- Endereco - Datathon ----

address <- 'Av. Bento Gonçalves, 9500 - Agronomia, Porto Alegre - RS, 91501-970' %>% 
  tolower() %>% 
  gsub(pattern = ' ', replacement = '+', x = .)

# Voces precisao obter a sua propria chave no site
# das APIs google
google_key <- "CHAVE API"

language <- 'pt-br'
region <- 'BR'

maps_url <- "https://maps.googleapis.com/maps/api/geocode/json?"

urlArgs <- c("address" = address,
             "language" = language,
             "region" = region,
             "key" = google_key)

# Estrutura: &variavel=valor. Exemplo: &region=BR
web_url <- utils::URLencode(paste0(maps_url, paste0("&", paste0(names(urlArgs)), 
                                                    "=", paste0(urlArgs), collapse = "")))

place_request <- jsonlite::fromJSON(web_url)
```

---

## Exemplo: Google <i class="fab  fa-google "></i>
### Geolocation API

.hmiddle[
<div id="htmlwidget-f4c4ea7b11eff09ab8b2" style="width:100%;height:504px;" class="widgetframe html-widget"></div>
<script type="application/json" data-for="htmlwidget-f4c4ea7b11eff09ab8b2">{"x":{"url":"index_files/figure-html//widgets/widget_mapa_google.html","options":{"xdomain":"*","allowfullscreen":false,"lazyload":false}},"evals":[],"jsHooks":[]}</script>
]

---

.column.bg-main4[
]
.column.slide-in-right[
.sliderbox.bg-main3.vmiddle[
.font5[Concluindo]
]]

---

## Conclusões

### 1. Sempre que possível utilizar API's, por serem estáveis e bem documentadas;

### 2. Quando estiverem baixando dados de algum repositório público, verificar se as URL's não seguem um padrão lógico de modo que o processo posso ser automatizado pelo R;

### 3. Web Scraping é uma boa alternativa apenas quando estas duas últimas opções não estão disponíveis;

### 4. Combinando todas essas ferramentas podemos ter acesso à um volume expressivo de dados

---

class: middle center inverse
  
# <i class="fas  fa-globe "></i> lcgodoy.github.io
# <i class="fas  fa-envelope-open "></i> lucasdac.godoy@gmail.com
# <i class="fab  fa-github "></i> github.com/lcgodoy