Análise de dados ambientais com R (ADAR)

Jonatan Tatsch, UFSM
Santa Maria, 14, março de 2018

Introdução

Análise de dados meteorológicos

Processo pelo qual adquire-se conhecimento, compreensão e percepção dos fenômenos meteorológicos a partir de observações (dados) qualitativas e quantitativas.


Ciência de dados

Etapas para abordagem de um problema

  1. Questão científica/problema
  2. Obtenção de dados: coleta/medida do(as) estado/condições da atmosfera
    • Instrumentos e sensores
  3. Processamento de dados: download —> limpeza —> formatação —>
    transformação —> controle de qualidade
    • ferramenta/software
      • conhecimento em programação
  4. Análise de dados
    • ferramenta/software
      • conhecimento em programação
  5. Solução para o problema
    • Proposta de um modelo
      • estatístico, empírico, ou fisicamente baseado
    • conhecimento em programação
  6. Apresentação/divulgação/publicação

Programação computacional

  • R é o termo usado para se referir a linguagem de programação e ao software que interpreta os scripts escritos usando esta linguagem.

  • Comunidade fantástica

    • Contribuidores (R-core Team)
    • milhares de pessoas usam o R diariamente e ajudam outras pessoas
  • Software Livre (GPL), Código aberto e multiplataforma

  • Ambiente para Análise de dados interativa

Por que o R?


  • R não é uma GUI (Interface gráfica do usuário) e isso é bom

    • há uma natural resistência e dificuldade ao uso de códigos e scripts
    • scripts favorecem a automatização e reprodutibilidade
    • força você a ter um conhecimneto mais aprofundado do que está fazendo


Por que o R?


  • Acesso ao estado da arte da ciência de dados (Big Data, Data Mining, Machine Leraning)


  • Interface com Fortran, C, C++, Python




  • R trabalha com dados de todas formas e tamanhos


Pacotes da comunidade do R

Evolução do nº de pacotes disponíveis no CRAN

Por que um meteorologista usaria o R?



A meteorologia é 4D:

meteorologia <- function(x, y, z, t){
  ...muita coisa para caber em um slide...
}



Logo, requer ferramentas específicas para:

  • manipulação de dados espacias

  • análise de séries temporais

  • importação e ferramentas de SIG

  • leitura de dados em formatos específicos (netcdf, binários, grib2, …)

R não é perfeito!


  • Muitos códigos em R são escritos para resolver um problema;
    • foco nos resultados e não no processo
    • usuários não são programadores
    • códigos deselegantes, lentos e difíceis de entender

  • Como o nosso idioma, há muitas exceções para serem lembradas

  • R não é muito rápido e códigos mal escritos serão lentos

  • São apenas ~20 anos de evolução

  • Há muito o que melhorar

RStudio

RStudio é um ambiente de desenvolvimento integrado livre e de código aberto.

RStudio IDE

  • Multiplataforma (Windos, Linux e Mac)

  • ênfase da sintaxe do R, auto-preenchimento de código, identação inteligente

  • execução do R diretamente do editor

  • manejo de diretórios e projetos

  • histórico de gráficos, zoom, atalhos para exportar imagens

  • Integrado com knitr

  • Integrado com GitHub para controle de versões









Material do curso disponível no GitHub

Para saber mais sobre o R


Documentação oficial

Livros relacionados ao R

Fóruns:

Bibliografia

Básica

R FOR DATA SCIENCE. Garret Grolemund, Hadley Wickham. Chambers (O’Reilly). 2016.

EFFICIENT R PROGRAMMING. Colin Gillespie and Robin Lovelace. (O’Reilly). 2016.

R IN A NUTSHELL, A Desktop Quick Reference. 2nd Edition. (O’Reilly). 2012.

DISLAYING TIME SERIES, SPATIAL AND SPACE-TIME DATA WITH R. Oscar Lamigueiro. (CRS PRESS). 2014.

Complementar

HANDS-ON PROGRAMMING WITH R. 1998.Garret Grolemund (O'Reilly).

TIME SERIES ANALYSIS AN WITH APPLICATIONS IN R. 2008 Cryer J.D. & Chan K.S. (Springer)

MODERN OPTIMIZATION WITH R. Paulo Cortez (Springer). 2014

ADVANCED R. Hadley Wickham. (O’Reilly). 2015.

SIMULATION OF ECOLOGICAL AND ENVIRONMENTAL MODELS. Miguel Acevedo. 2012. CRC Press.