Apostila Disciplina R v. 2.0

Universidade Estadual Paulista Programa de Ps-Graduao Biologia Animal
Estatstica aplicada ecologia usando o R
Professores responsveis: Diogo Borges Provete (dbprovete@gmail.com) Fernando Rodrigues da Silva (bigosbio@yahoo.com.br) Thiago Gonalves Souza (tgoncalves.souza@gmail.com) So Jos do Rio Preto, SP Abril, 2011
SUMRIO Objetivo do curso O que voc no encontrar nesta apostila Introduo: integrando questes ecolgicas e anlises estatsticas O melhor caminho para fazer a pergunta certa Introduo ao ambiente de programao R Baixando e instalando a verso base do R Porque usar o R O workspace do R e o Tinn-R Os tipos de objeto: criao e manipulao Operaes aritmticas bsicas Entendendo o arquivo de ajuda Instalando e carregando pacotes Importao e exportao de dados Criao e manipulao de grficos no R Distribuies estatsticas Funes de probabilidade Funes de distribuio acumulada Distribuio binomial Distribuio Poisson Distribuio Normal Modelos Lineares Generalizados Curva de acumulao de espcies 4 5 6 8 9 10 10 11 12 15 16 17 18 20 18 23 24 24 28 32 36 65 2
Estimadores de riqueza ndices de diversidade e diversidade beta () Introduo estatstica multivariada Leitura recomendada
69 82 93 118
OBJETIVO DO CURSO Esta apostila foi elaborada para servir como material de apoio para um curso ministrado
no PPG Biolgia Animal da UNESP de S.J. Rio Preto. Nossa proposta com o curso e com esta apostila de traar o melhor caminho (pelo menos em nosso ponto de vista) entre questes ecolgicas e os mtodos estatsticos mais robustos para test-las. Guiar seus passos nesse caminho (nem sempre linear) necessita que voc utilize um requisito bsico: o de utilizar seu esforo para caminhar. O nosso esforo, em contrapartida, ser o de segurar suas mos, mantlo de p e indicar as melhores direes para que adquira certa independncia em anlises ecolgicas. Todo o material utilizado durante este curso, incluindo scripts e pdf das aulas est disponvel em: https://sites.google.com/site/diogoprovetepage/teaching. Um dos nossos objetivos mostrar que o conhecimento de teorias ecolgicas e a utilizao de questes apropriadas so o primeiro passo na caminha rumo compreenso da lgica estatstica. No deixe que a estatstica se torne a pedra no seu caminho. Em nossa opinio, programas com ambiente de programao favorecem o entendimento da lgica estatstica, uma vez que cada passo (lembre-se de que voc est caminhado em uma estrada desconhecida) precisa ser coordenado, ou seja, as linhas de comando (detalhes abaixo) precisam ser compreendidas para que voc teste suas hipteses. A primeira parte desta apostila pretende utilizar uma estratgia que facilita a escolha do teste estatstico apropriado, por meio da seleo de questes/hipteses claras e da ligao dessas hipteses com a teoria e o mtodo. Posteriormente escolha de suas questes necessrio transferir o contexto ecolgico para um contexto meramente estatstico (hiptese nula/alternativa). A partir da definio de sua hiptese nula partiremos para a aplicao de cada teste estatstico (de modelos lineares generalizados anlises multivariadas) utilizando como plataforma o programa R. Antes de detalhar cada anlise estatstica, apresentaremos os comandos bsicos para a utilizao do R e os tipos de distribuio estatstica que so essenciais para o desenvolvimento do curso. Para isso, organizamos um esquema que chamamos de estrutura lgica que facilita a compreenso dos passos necessrios para testar suas hipteses (Fig. 1). sempre bom ter em mente que muito importante saber aonde se quer chegar para poder escolher o que fazer.
O QUE VOC NO ENCONTRAR NESTA APOSTILA Aprofundamento terico, detalhes matemticos, e explicao dos algoritmos so
informaes que infelizmente no sero abordadas neste curso. O foco do curso a explicao de como cada teste funciona (teoria e procedimentos matemticos bsicos) e sua aplicao em testes ecolgicos usando o programa R. Para tanto, o livro dos irmos Pierre e Louis Legendre (Legendre & Legendre 1998) uma leitura que permite o aprofundamento de cada uma das anlises propostas aqui. Alm disso, so de fundamental importncia para o amadurecimento em anlises ecolgicas as seguintes leituras: Manly (1991), Pinheiro & Bates (2000), Scheiner & Gurevitch (2001), Quinn & Keough (2002), Venables & Ripley (2002), Magurran (2004) e Gotelli & Ellison (2004).
Observao
TEORIA
Unidade amostral Variveis Covariveis Escala
Questes
Hiptese nula Hiptese alternativa
Hipteses estatsticas
Anlises estatsticas
P, R2, F, t, r, Z, AIC, AICc ...
DECISO
Figura 1. Estrutura lgica para integrar teorias/questes ecolgicas com anlises estatsticas (e vice-versa). Lembre-se de que omitimos etapas importantes desta estrutura lgica, como o delineamento experimental, a coleta e organizao dos dados, que esto alm do objetivo desta apostila. 5
Generalizao
Predies
Hipteses biolgicas
INTRODUO INTEGRANDO QUESTES ECOLGICAS E ANLISES ESTATSTICAS Para a grande maioria dos estudantes [e professores] de biologia a palavra estatstica
traz certa vertigem e averso. Em geral, alunos e professores consideram este passo um dos mais (se no o mais) problemticos da pesquisa cientfica. Para ecologia e, especialmente, ecologia de comunidades, mtodos analticos complexos e que consomem muito tempo para serem realizados tornam a estatstica uma tarefa ainda mais distante de ser alcanada (e compreendida). Infelizmente, a maioria opta por no cumprir esta tarefa. Em nossa opinio, muito dessa averso estatstica se deve s disciplinas introdutrias do curso de graduao em Cincias Biolgicas (a maioria, claro) estarem baseados em um contexto puramente estatstico e com exemplos no-biolgicos, sem um programa que integre a ferramenta analtica a um problema de pesquisa. De fato, entender exemplos estatsticos com uma lgica puramente estatstica no parece uma tarefa trivial para alunos que buscam entender, por exemplo, como processos populacionais, de comunidades e ecossistmicos determinam a distribuio das espcies. Uma alternativa que pode facilitar a compreenso das anlises estatsticas para bilogos (e para todos os cientistas!) a utilizao da lgica do mtodo cientfico tomando como fator de deciso os resultados estatsticos. Ao final do curso, ou da leitura desta apostila, gostaramos de que voc refletisse um pouco sobre as seguintes questes: (1) qual a principal teoria do meu trabalho? (2) Qual a principal pergunta do meu trabalho? (3) Qual a unidade amostral, a varivel dependente e independente do meu trabalho? A seguir, apresentamos a seqncia lgica que sugerimos que seja aplicada a todo e qualquer teste que utilize estatstica frequentista (interpretao objetiva da probabilidade baseada no critrio de falseamento de Karl R. Popper). Esta interpretao , por sua vez, diferente da interpretao subjetiva da probabilidade utilizada no arcabouo da estatstica Bayesiana e da Maxima Verossimilhana. importante ressaltar ainda que a probabilidade (o fator de deciso dos frequentistas, i.e., o to sonhado p < 0,05) representa uma classe de eventos (observados) comparados com uma srie de repeties, e portanto o grau de incerteza relacionada a eventos. Todo este arcabouo dos testes de hipteses estatsticas foi desenvolvido por Jerzy Neyman e Egon S. Pearson (Neyman & Pearson, 1933) adotando a viso Popperiana de que uma observao no fornece confirmao para uma teoria, devido ao problema da induo (para uma discusso mais detalhada veja os cap. 2 e 3 de Godfrey-Smith, 2003). Ao contrrio, um teste deveria procurar refutar uma teoria, somente desta forma haveria ganhado conhecimento. Ento, segundo o arcabouo de NeymanPearson, o teste estatstico procura rejeitar a hiptese nula, e no a confirmao da hiptese alternativa. Numa regresso, por exemplo, se o teste verificar que o coeficiente significativo, isto quer dizer que a inclinao da reta diferente de zero, no entanto a interpretao biolgica de uma relao linear entre as duas variveis deve ser feita luz das predies da teoria que se pretende testar. Por outro lado, os testes de modelos lineares generalizados em mistos utiliza a 6
lgica da estatstica Bayesiana e da Maxima Verossimilhana. Estes arcabouos utilizam a interpretaoo subjetiva da probabilidade. Como uma analogia, o arcabouo frequentista presume que a verdade ou todo o universo amostral est numa nuvem, distante e inalcanvel, e que somente temos acesso a pequenas amostras de dados, que nesta metfora, seriam um monte, com o qual chegaramos o mais prximo possvel da nuvem. Seguindo esta metfora, a estatstica Bayesiana e Maxima Verossimilhana assumem que j que a nuvem algo inatingvel no devemos consider-la na anlise e que a melhor estimativa que temos so os dados reais que coletamos. Portanto, neste contexto, devemos considerar nossos dados como o universo amostral total. Ao definir a questo de pesquisa essencial conhecer como a teoria pode ser usada e como e porque ela pode explicar ou ser aplicada sua questo (Ford 2000). Os modelos gerados pelas teorias podem ser aproveitados para criar suas hipteses e predies. As hipteses [cientficas] so definidas como explicaes potenciais que podem ser retiradas de observaes do mundo externo (processo indutivo) ou de componentes de uma teoria (processo dedutivo). Uma hiptese cientfica, do ponto de vista de Popper, deve ser falsevel. As predies so afirmaes deduzidas de uma estrutura lgica ou causal de uma teoria, ou induzidas a partir de informaes empricas; em outras palavras, a predio a conseqncia da hiptese, o resultado esperado se a hiptese for verdadeira. Uma hiptese bem articulada deve ser capaz de gerar predies. Um exerccio fundamental para a criao de hipteses e articulao de suas predies se faz a partir da construo de fluxogramas (Fig. 2). No fluxograma voc pode separar cada varivel e a relao esperada entre cada uma delas. As setas indicam a relao esperada entre as variveis (os sinais acima das setas mostram a direo da relao). Setas com espessuras diferentes podem ser usadas como forma de demonstrar a importncia relativa esperada para cada varivel.
Figura 2. Fluxograma representando as predies que foram articuladas a partir da hiptese as florestas riprias aumentam a riqueza de macro-invertebrados.
O MELHOR CAMINHO PARA FAZER A PERGUNTA CERTA Em geral, questes no devem ser muito gerais (e.g., qual o efeito das mudanas globais
nas florestas?) por que dificultam a compreenso do que efetivamente voc est testando. prefervel que suas hipteses sejam mais gerais (tericas) e suas questes mais especficas (referidas como operacionais daqui pra frente), para que voc e o seu leitor saibam o que vai ser testado efetivamente e qual teste dever ser empregado. Por exemplo, um pesquisador tem a seguinte hiptese: mudanas globais afetam a dinmica e estrutura de florestas; para testar esta hiptese este pesquisador levantou duas questes operacionais: (1) o aumento da temperatura modifica a composio de espcies vegetais? (2) O aumento da temperatura aumenta a ocorrncia de espcies exticas? Com essas questes operacionais fica mais fcil compreender qual sua varivel independente (neste caso temperatura) que representa a mudana climtica e que afeta sua varivel dependente (dinmica e estrutura de florestas) que foi operacionalizada em duas variveis composio de espcies vegetais e ocorrncia de espcies exticas. Alm disso, muito importante saber qual a unidade amostral do seu trabalho. No exemplo acima, o pesquisador coletou em 30 reas de floresta em diversos pontos da Amrica do Norte. Desse modo, os pontos seriam unidades amostrais (as linhas em sua planilha) e as variveis dependentes e independentes seriam consideradas as colunas de sua anlise. bastante importante ter em mente o formato padro das planilhas utilizadas na maioria das anlises ecolgicas (Tabela 1). Alguns pacotes ou funes do R utilizam como padro a matriz transposta da Tabela 1. Aps a definio das hipteses/questes e de suas predies, preciso pensar na estatstica (lembra-se que entre os dois preciso coletar e organizar os dados!). A estatstica necessria para descrever padres nos nossos dados e para decidir se predies das hipteses so verdadeiras ou no. Para comear a anlise estatstica preciso definir as hipteses estatsticas, i.e., hiptese nula (H0) e hiptese alternativa (H1). A hiptese nula representa a ausncia de padro na hiptese cientfica (i.e., as diferenas entre grupos no maior do que o esperado ao acaso), enquanto a hiptese alternativa mostra exatamente a existncia do padro (notem que uma hiptese nula pode ter uma ou mais hipteses alternativas). Por exemplo, a hiptese nula da Fig. 2 que a densidade de rvores da zona ripria no afeta a riqueza de macro-invertebrados aquticos, enquanto a hiptese alternativa de que a densidade de rvores afeta positivamente a riqueza desses organismos. Neste exemplo, o pesquisador comparou grupos de riachos com densidades diferentes (e.g., variando de 0 a 10 rvores/m2) e encontrou que riachos com florestas riprias com densidade de rvores acima de 7/m2 possuem 20% mais macroinvertebrados aquticos (P = 0,01). Desse modo, a hiptese nula de ausncia de padro rejeitada. Para decidir se a hiptese nula pode ser aceita ou no, os testes estatsticos utilizam 8
um valor de probabilidade. Como posso dizer que a mdia de um grupo diferente da mdia de outro grupo ou que o aumento na varivel X representa um aumento na varivel Y? Como posso diferenciar se essas diferenas so reais ou frutos do acaso? O fator de deciso para a maioria dos testes estatsticos o valor de P (probabilidade). O valor de P mede a probabilidade de que a hiptese nula (a ausncia de um padro) seja verdadeira. Desse modo, valores de P muito prximos de zero indicam que a probabilidade de que a hiptese nula seja verdadeira muito baixa e que possvel considerar cenrios alternativos, ou seja, aceitar a hiptese alternativa. No exemplo acima, a chance de a hiptese nula (a zona ripria no afeta a riqueza de macroinvertebrados) ser verdadeira de 1 em 100 (P = 0,01). Se o valor de P fosse 0,76 a chance de a hiptese nula ser verdadeira seria de 76 em 100. O nmero mgico considerado como valor crtico de deciso de 0,05. Desse modo, se a probabilidade de a hiptese nula ser verdadeira
Tabela 1. Planilha modelo para anlises estatstica, com unidades amostrais nas linhas, e variveis dependentes e independentes nas colunas contrrio, valores maiores do que 0,05 indicam que a hiptese nula deve ser aceita. A fixao do v. dependente1 v. dependente2 ... v. dependente n v. independente1 v. independente2 ... v. independente m valor de significncia de 5% foi puramente nominal, um consenso que visou o equilbrio entre o unid.amostral1 2.593 3.789 n1 2.177 3.318 m1
em um teste especfico for 0,05 (resultado significativo), decidimos por rejeit-la. Do
erro do Ie unid.amostral2 tipo 2.326do tipo II. Para entender os2 porqus desse valor de corte, consulte o livro 2do 1.000 n 2.910 2.575 m
unid.amostral3 & Ellison (2004, p. 96). Neste mesmo livro preciso dedicar uma ateno especialm3 2.190 1.828 n3 5.007 3.128 Gotelli aos unid.amostral4 2.883 3.207 n4 5.479 4.250 m4 unid.amostral5
erros atribudos ao teste de hipteses (erros do tipo I e II), que tm importncia fundamental no
1.828 1.810 2.760 n5 n6 1.404 2.614 3.298 3.491 m5 m6
processo analtico. unid.amostral6 3.657
unid.amostral7 3.487 1.602 n7 2.014 1.520 m7 Tabela 1. Planilha modelo para anlises3.206 estatstica, com unidades amostrais nas linhas, e variveis dependentes e independentes unid.amostral8 3.783 n8 1.970 4.081 m8 nas colunas unid.amostral9 1.643 4.069 n9 3.310 3.947 m9 v. dependente1 v. dependente2 ... v. dependente n v. independente1 v. independente2 ... v. independente m unid.amostral10 3.288 3.728 n10 3.214 2.665 m10 unid.amostral1 2.593 3.789 n1 2.177 3.318 m1 unid.amostral11 2.856 4.234 n11 2.862 3.026 m11 unid.amostral2 2.326 1.000 n2 2.910 2.575 m2 unid.amostral12 3.608 3.032 n12 2.925 3.993 m12 unid.amostral3 2.190 1.828 n3 5.007 3.128 m3 unid.amostral13 3.611 3.178 n13 2.403 3.112 m13 unid.amostral4 2.883 3.207 n4 5.479 4.250 m4 unid.amostral14 2.514 2.162 n14 4.532 3.876 m14 unid.amostral5 1.828 1.810 n5 1.404 3.298 m5 unid.amostral15 3.716 0.851 n15 2.935 4.154 m15 unid.amostral6 3.657 2.760 n6 2.614 3.491 m6 unid.amostral16 2.344 1.706 n16 1.480 2.099 m16 unid.amostral7 3.487 1.602 n7 2.014 1.520 m7 ... ... ... ... ... ... ... unid.amostral8 3.783 3.206 n8 1.970 4.081 m8 unid.amostral n i n1 n2 np m1 m2 mq unid.amostral9 1.643 4.069 n9 3.310 3.947 m9
unid.amostral10 unid.amostral11 unid.amostral12 unid.amostral13 unid.amostral14 unid.amostral15
3.288 2.856 3.608 3.611 2.514 3.716
3.728 4.234 3.032 3.178 0.851
n10 n11 n12 n13 n15
3.214 2.862 2.925 2.403 2.935
2.665 3.026 3.993 3.112 4.154
m10 m11 m12 m13 m14 m15
INTRODUO AO n14 AMBIENTE4.532PROGRAMAO R DE 2.162 3.876
unid.amostral16 O objetivo desta seo apresentarn16 2.344 1.706 1.480 2.099 m do aspectos bsicos para qualquer pessoa livrar-se16 ... ... ... ... ... ... ... receio inicial e comear a usar o R para efetuar anlise de dados. Todo processo de unid.amostral n i n1 n2 np m1 m2 mq
aprendizagem torna-se mais efetivo quando a teoria combinada com a prtica, ento ns recomendamos fortemente que voc leitor acompanhe os exerccios desta apostila ao mesmo 9
tempo que os executa no seu computador, e no s os leia passivamente. Ainda, por motivo de tempo e espao no abordaremos todas as questes relacionadas ao uso do R nesta apostila. Logo, aconselhamos que o leitor ao final das aulas voc consulte o material sugerido para poder se aprofundar nas questes abordadas.
BAIXANDO E INSTALANDO A VERSO BASE DO R Para comearmos a trabalhar com o R necessrio baix-lo na pgina do R project da internet. Ento, digite http://www.r-project.org na barra de endereos do seu navegador. Em seguida, clique no link download R embaixo da pgina, que o levar pagina do CRAN (Comprehensive R Archive Network). Escolha qualquer pgina espelho do Brasil para baixar o programa. Escolha o sistema operacional do seu computador e clique em base. Reserve algum tempo posteriormente para explorar esta pgina do R-project. Existem vrios livros (http://www.r-project.org/doc/bib/R-books.html) dedicados a diversos assuntos baseados no R, alm disso, esto disponveis manuais (http://cran.r-project.org/manuals.html) em diversas lnguas (http://cran.r-project.org/other-docs.html) para serem baixados gratuitamente. Como o R um software livre, no existe a possibilidade de o usurio entrar em contato com um servio de suporte de usurios, muito comuns em softwares pagos. Ao invs disso, existem vrias listas de correio eletrnico que fornecem suporte comunidade de usurios (http://www.r-project.org/mail.html). Ns, particularmente, recomendamos o ingresso nas seguintes listas: R-help, R-sig-ecology, e R_BR (http://www.leg.ufpr.br/doku.php/software:rbr). Este ltimo representa um grupo de usurios brasileiro do programa R. Ainda, existem vrios blogs e pginas com arquivos de ajuda e planilhas com comandos, alguns deles podem ser baixados aqui: http://www.nceas.ucsb.edu/scicomp/software/r e http://devcheatsheet.com/tag/r/.
PORQUE USAR O R? Os criadores do R o chamam de uma linguagem e ambiente de programao estatstica e
grfica. O R tambm chamado de programa orientado ao objeto (object oriented programming), o que significa que utilizar o R envolve basicamente a criao e manipulao de objetos em uma tela branca em que o usurio tem de dizer exatamente o que deseja que o 10
programa execute ao invs de simplesmente pressionar um boto. E vem da uma das grandes vantagens em se usar o R: o usurio tem total controle sobre o que est acontecendo e tambm tem de compreender totalmente o que deseja antes de executar uma anlise. Na pgina pessoal do Prof. Nicolas J. Gotelli existem vrios conselhos para um estudante iniciante de ecologia. Dentre esses conselhos, o Prof. Gotelli menciona que o domnio de uma linguagem de programao uma das mais importantes, porque d liberdade ao eclogo para executar tarefas que vo alm daquelas disponveis em pacotes comerciais. Alm disso, a maioria das novas anlises propostas nos mais reconhecidos peridicos em ecologia normalmente so implementadas em linguagem R, e os autores incluem normalmente o cdigo fonte no material suplementar dos artigos, tornando a anlise acessvel. A partir do momento que essas anlises ficam disponveis (seja por cdigo fornecido pelo autor ou por implementao em pacotes pr-existentes), mais simples entendermos a lgicas de anlises complexas, especialmente as multivariadas, com nossos prprios dados realizando-as passo a passo. Sem a utilizao do R, normalmente temos que contatar os autores que nem sempre so acessveis. Uma ltima vantagem que por ser um software livre, a citao do R em artigos permitida e at aconselhvel. Para saber como citar o R, digite citation()na linha de comando. Para citar um pacote especfico, digite citation()com o nome do pacote entre aspas dentro dos parnteses. Neste ponto, esperamos ter convencido voc leitor de que aprender a utilizar o R tem inmeras vantgens, vai ser difcil no comeo mas continue e perceber que o investimento vai valer pena no futuro.
O WORKSPACE DO R E O TINN-R Com o R possvel manipular e analisar dados, visualizar grficos e escrever desde pequenas linhas de comando at programas inteiros. O R a verso em cdigo aberto de uma linguagem de programao inventada nos anos 1980 no Bell Labs chamada de S. Essa linguagem tornou-se bastante popular e vrios produtos comerciais que a usam esto disponveis, como o S-PLUS, SPSS, STATA e SAS. Um aspecto digno de nota que a linguagem R, ao contrrio de outras linguagem como Fortran e C, uma linguagem interpretada, o que a faz ser mais fcil de programar, pois processa linhas de comando e as transforma em linguagem de mquina (cdigo binrio que o computador efetivamente l), mas isso diminui a velocidade de processamento. 11
Nas linhas de comandos do R haver um sinal de >, que indica o prompt, representando que o R est pronto para receber comandos. Se uma linha de comando no est completa, aparecer um sinal de +, indicando que voc poder continuar a digitar aquela linha. Para que o prompt aparea novamente, pressione Esc. Para que os comandos sejam executados, pressione Enter. Para criar objetos, podemos utilizar os smbolos -> ou = . Estes smbolos representam que queremos guardar a informao dentro do objeto. Neste curso iremos utilizar o R em conjunto com um editor, o Tinn-R. Existem vrios editores para a linguagem R, como o RStudio, Eclipse etc. (veja uma lista no exaustiva em http://en.wikipedia.org/wiki/R_(programming_language)), mas preferimos o Tinn-R por ser de mais fcil utilizao e por possibilitar o destaque das sintaxes de programao, diminuindo erros de digitao to comuns. E ainda, possvel salvar os scripts para continuar a trabalhar neles posteriormente. Para baix-lo, v at http://www.sciviews.org/Tinn-R/ e faa o download do programa. Assim que o instalar, somente ser necessrio clicar no cone do Tinn-R e o R abrir automaticamente. Toda vez que terminar de escrever uma linha de comando, pressione Ctrl+Enter para envi-la para o R. Para saber qual o diretrio de trabalho do R, ou seja, em qual pasta o programa salvar arquivos, digite: >get.wd() possvel mudar o diretrio de trabalho do R de acordo com as necessidades do usurio. Ento, como exerccio para este curso, clique em Arquivo>mudar dir. e defina o diretrio para uma pasta deste curso dentro de Meus documentos. Ns recomendamos mudar o diretrio sempre que um novo conjunto de anlises for feito como, por exemplo, quando for mudar das anlises do primeiro captulo da sua dissertao para o segundo, escolha a pasta onde estaro os dados deste captulo como diretrio de trabalho. OS TIPOS DE OBJETOS: CRIAO E MANIPULAO Existem cinco classes de objetos na linguagem R: vetor, matriz, data frame, funes e lista. Vetor Existem trs tipos de vetores: o vetor de caracteres, numrico e o lgico.
12
Vetor numrico >a<-1 >c(1,2,3,4,5)->b >dados.campo=seq(1,10,2)#cria uma sequncia de nmeros de 1 at 10, de 2 em 2 >x=seq(3,10) #cria uma sequncia de nmeros de 3 at 10 >sample(x, 2, replace=T) >mata.1=rep(1:2, c(10,3))#repete o nmero 1 dez vezes e o nmero 2 trs vezes >exemplo=c(1:10) >length(exemplo) A linguagem R case sensitive, o que quer dizer que ele distingue entre letras minsculas e maisculas. Desse modo, fique atento ao criar um objeto e digite-o exatamente como quando voc o criou. Ainda, no use acentos, til, crases etc. ao dar nome aos objetos.
Vetor de caracter Tambm possvel criar vetores de caracteres, ou seja, com nomes ao invs de nmeros. No R, sequncias de caracteres textuais so sempre delimitados por aspas: >dados.pessoais=c(nome=seuNome, nascimento=aniversario, estadoCivil=solteiro) >dados.pessoais Vetor lgico Vetores lgicos so quantidades lgicas manipuladas no R. Estes vetores so bastante teis em programao. Os elementos de um vetor lgico so TRUE, FALSE ou NA (not available). Abaixo esto exemplos de condies criadas, quando a condio satisfeita, o R retorna o valor TRUE, quando a mesma no satisfeita, retorna FALSE >is.factor(x) >FALSE >is.matrix(xy) >FALSE >a<-1 13
>a<1 >a==1 >a>=1 >a!=2 Fator Um fator utilizado para criar uma varivel categrica, muito comum em anlises estatsticas. Para criar um fator, digite: >dados=factor(c(baixo, menos baixo,mdio ,alto))#notem que utilizamos um acento em mdio, isto possvel porque esta palavra aqui tratada como um caracter (por isso as aspas) e no como um objeto >is.factor(dados)#testa a converso Matriz Uma matriz um arranjo bi-dimensional de vetores, todos os vetores devem ser do mesmo tipo (numrico ou de caracteres). Veja um exmplo abaixo de como criar uma matriz e manipul-la: >xy=matrix(1:12, nrow=3) >rownames(xy)=LETTERS[1:3] >colnames(xy)=c(mata.1, mata.2, mata.3, mata.4) >xy >t(xy)#transpe a matriz >class(xy) >xy[,1] #para acessar a primeira coluna de uma matriz >xy[1,] #para acessar a primeira linha de uma matriz. Veja que as chaves representam [linha, coluna] >head(xy) #para acessar as primeiras linhas de uma matriz >tail(xy) #para acessar as ltimas linhas de uma matriz >fix(xy) #edita uma matriz ou data frame >str(xy)#avalia a estrutura do objeto >summary(xy)
14
Data frame O mesmo que uma matriz, mas aceita vetores de tipos diferentes. Este o tipo mais comum de objeto que iremos usar ao longo deste curso. Um data frame permite incluir num mesmo objeto vetores numricos e de caracteres, por exemplo:
>comunidade<- data.frame(especies = c("D.nanus", "S.alter","I.guentheri", "A. callipygius"), habitat = factor(c("Folhio", "Arbreo", "Riacho", "Poa")), altura = c(1.1, 0.8, 0.9, 1), distancia = c(1, 1.7, 0.6, 0.2)) >class(comunidade) >xy=as.data.frame(xy)#converte (coerce) a matriz que criamos acima numa data frame >class(xy) #testa a converso >str(comunidade) >fix(comunidade) >edit(comunidade) Lista Uma lista um objeto que consiste de um conjunto de objetos ou componentes ordenados de forma hierrquica. Por exemplo, possvel construir uma lista com uma matriz, um vetor lgico, etc. > Lista.ex <- list(name="Toyoyo", wife="Rafaela", no.children=2, child.ages=c(2,6)) Muitos testes produzem objetos em formato de listas como resultado. s vezes til extrair partes de uma lista para que possam ser utilizados posteriormente. >Lista.ex$name
OPERAES ARITMTICAS BSICAS O R tambm pode ser utilizado como uma calculadora. Faa algumas operaes aritmticas com os objetos que voc acabou de criar, por exemplo: 15
>a*2 >b*3 #observe o que aconteceu? Como foi feita essa operao? >b[1]*3 #e agora? >b/4 >2+3 >3^3 >log(2)#observe o que aconteceu? Este a funo que calcula o logaritmo neperiano (ln). >log10(2) #compare o resultado anterior com este. So diferentes? >sqrt(3) >sum(a) >mean(b) >sum(b)/length(a) >pi >cor(a,b) >cor.test(a,b) ?cor.test
ENTENDENDO O ARQUIVO DE AJUDA Um importante passo para ter certa intimidade com a linguagem R aprender a usar a ajuda de cada funo. Alm disso, existem uma funo (RSiteSearch) e um pacote (sos) que tambm auxiliam o usurio a realizar uma anlise quando no se sabe qual (e se) a mesma j foi implementada no R. Para utilizar o RSiteSearch, digite um tema ou o nome de uma anlise entre aspas no argumento da funo, como no exemplo abaixo: >RSiteSearch("analysis of variance") A funo ir buscar na pgina do R na internet qual(is) funo est(o) disponvel(is) para implementar aquela dada anlise. Se o pacote sos estiver instalado e carregado, basta digitar: >???analysis of variance e o navegador de internet abrir uma pgina mostrando qual(is) funes executam aquela anlise. Tambm necessrio acesso internet. Outra ferramenta de busca a pgina 16
http://www.rseek.org na qual possvel buscar por um termo no s nos pacotes do R, mas tambm em listas de emails, manuais, pginas na internet e livros sobre o programa. Vamos fazer um exerccio para nos ambientarmos com a pgina de ajuda do R, digite: >?aov O arquivo de ajuda do R possui geralmente nove ou dez tpicos: Description - resumo da funo Usage*- como utilizar a funo e quais os seus argumentos Arguments* - detalha os argumentos e como os mesmos devem ser especifidados Details - detalhes importantes para se usar a funo Value - mostra como interpretar a sada (output) da funo (os resultados) Notes - notas gerais sobre a funo Authors - autores da funo References - referncias bibliogrficas para os mtodos usados pra construir a funo See also - funes relacionadas Examples* - exemplos do uso da funo. s vezes pode ser til copiar esse trecho e colar no R para ver como funciona e como usar a funo. INSTALANDO E CARREGANDO PACOTES O R um ambiente de programao e existem atualmente mais de 3000 pacotes que funes especficas e que precisam ser instalados e carregados
desempenham
independentemente. Os pacotes stats e base j vm instalados e carregados, so estes pacotes que possuem as funes para o clculo de modelos lineares simples, como teste t, ANOVA, 2, glm etc. A funo que instala pacotes no R a install.packages(). Ao longo deste curso utilizaremos vrios pacotes, entre eles o vegan, para instal-lo, utilize: >install.packages(vegan) para instalar vrios pacotes ao mesmo tempo, utilize a funo c()para criar um vetor: 17
>install.packages(c(vegan, sos)) e para carreg-los, utilize: >library(vegan) ?vegan Sempre que tiver de usar as funes de um pacote ser preciso carreg-lo usando a funo library(). A maioria dos pacotes vem com bancos de dados que podem ser acessados pelo comando data(). Esses bancos de dados podem ser usados para testar as funes do pacote. Se estiver com dvida na maneira como voc deve preparar a planilha para realizar uma anlise especfica, entre no help da funo e veja os conjuntos de dados que esto no exemplo desta funo.
IMPORTAO E EXPORTAO DE DADOS >obj=read.table(file.choose(), header=TRUE) # este comando ir abrir uma tela para que o usurio navegue nas pastas e escolha o arquivo a ser aberto. >obj=read.table(clipboard, h=T)#importa objetos que estiverem na rea de transferncia >obj=read.table(nomedoarquivo.txt, h=T) #para utilizar este argumento, o arquivo a ser importado deve estar no diretrio de trabalho >obj=read.csv(file.choose(), h=T) >write.table(nomeDoObjeto, NomeDoObjetoParaSerGravado, sep= , quote=F, dec=.) >sink("japi-so.xls") #Exporta pra o wd o(s) objetos que forem exibidos depois, com o nome que for colocado nesta linha de comando >japi.so1 >sink()#Fecha o dispositivo >?tiff >?jpeg
18
Exerccios 1) Crie 2 conjuntos de dados de 30 unidades amostrais cada com distribuio normal, mdia 1 e desvio padro 2.5 e descubra como calcular um teste t para este conjunto, tentem: >?rnorm >?t.test 2) Crie 4 vetores numricos de qualquer tamanho com a funo c(), voc tambm pode combinar as funes seq() e c() se desejar. a) calcule o comprimento de cada um desses vetores e guarde o resultado num outro vetor. b) calcule o somatrio dos componentes de cada vetor e guarde o valor num outro vetor. c) utilize os itens b) e c) para calcular a mdia dos valores de cada um dos vetores. 3) Calcule novamente a mdia dos vetores, agora utilizando a funo mean(). 4) Digite ls() e recupere o objeto dados.campo, selecione: a) os cinco primeiros elementos deste objeto; b) todos os elementos MENOS os 2 primeiros; c) o 3 elemento; d) todos menores que 4. 5) Crie duas sequncias de 1 a 20 com intervalo de 1. Atribua nomes diferentes a cada uma. 7) Utilize a funo cbind() para unir os dois vetores. Nomeie as colunas de a at u utilizando o vetor letters, e as duas colunas com o vetor LETTERS j disponveis no R. 8) Recupere o objeto xy que criamos h pouco, ele uma matriz. a) Multiplique-o por um escalar qualquer, por exemplo 3, veja o que acontece; b) Divida o valor encontrado por 4, observe o que acontece e tente se lembrar das aulas de lgebra de matrizes do 3 colegial. c) acesse o elemento a3,1.
19
CRIAO E MANIPULAO DE GRFICOS NO R O R uma poderosa ferramenta para criao e manipulao de grficos. Os pacotes graphics e grid, que j vm instalados no R, possuem a funo genrica plot(), alm de outras como hist(). As funes par() e layout() permitem ainda plotar vrios grficos conjuntamente, formando uma nica figura. Alguns pacotes foram desenvolvidos especialmente para manipulao de grficos, como lattice, ggplot2, ggobi e rgl. Estes pacotes nos permitem fazer praticamente todos os tipos de grficos, incluindo 3-D e mapas em relevo. Para visualizar uma parte das potencialidades dos pacotes, instale e carregue-os. Digite no prompt do R demo(lattice) e v apertando Enter. Faa o mesmo com o ggplot2. Neste mdulo iremos demonstrar algumas das potencialidades grficas do R. Reiteramos que esses pacotes so um mundo em si s. Logo, convidamos o leitor a ler e explorar a literatura sugerida abaixo, consultar os quadros resumos, alm de acessar as seguintes pginas da internet: http://research.stowers-institute.org/efg/R/ http://addictedtor.free.fr/graphiques/ http://www.gnuplot.info/ http://gnuplot.sourceforge.net/demo_4.2/ http://www.statmethods.net/advgraphs/parameters.html. As principais funes que possibilitam modificar grficos no R so: plot()#Funo genrica para plotar grficos #utilize os argumentos xlab e ylab para adicionar legendas aos eixos, use aspas. # bty=L retira as molduras das partes direita e superior. # xlim e ylim determina os limites das escalas dos eixos. # cex modifica o tamanho dos pontos. # pch modifica o tipo do ponto # col modifica as cores dos pontos. Veja tambm a ajuda da funo par(). hist()# plota um histograma barchart()# plota um grfico de barras 20
locator()#localiza uma coordenda x-y no grfico, utilize o argumento 1, 2 etc para definir quantos pontos quer localizar text()#adiciona um texto arrows()#adiciona uma seta mtext()adiciona um texto nas margens do grfico box()#adiciona uma moldura segments()#adiciona uma linha legend()#adiciona legendas no alto e embaixo points()#adiciona pontos no grfico lines()#adiciona linhas no grfico par()#divide o layout e plota vrios grficos, utilize o argumento mfrow=c(2,2) para especificar o nmero de linhas e colunas. Neste caso a funo par(mfrow=c(2,2)) cria uma janela para que quatro grficos sejam visualizados (i.e., duas linhas e duas colunas) layout()#divide o layout e plota vrios grficos, utilize o argumento layout(matrix(1:4, ncol=2, nrow=2)) pra definir o nmero de colunas e linhas.
O pacote lattice permite fazer grficos univariados e multivariados de alto nvel. Alm disso, ele permite criar objetos da classe trellis que podem ser exportados e modificados. xyplot()#funo do lattice para grficos univariados bwplot()# plota um boxplotcoplot()#plota vrios grficos com estilos diferentes Exerccios
1) Carregue o pacote lattice e o conjunto de dados quakes, data(quakes), plote os dados utilizando a funo xyplot(). 2) Carregue o conjunto de dados melanoma e utilizando a funo plot() faa um grfico com o tamanho dos pontos 24, legenda do eixo x Frequncia, legenda do eixo y Anos e sem as molduras da direita e superior. 3) Crie dois conjuntos de dados quaisquer e combinando as funes abline() e lm() calcule uma regresso linear simples e ajuste uma reta que indique o modelo. 21
4) Crie um conjunto aleatrio de nmeros com distribuio normal e d nome a este objeto. Utilize a funo hist() para plotar um grfico com as barras em cor cinza. a) Utilize a funo points() para criar um ponto em formato de crculo no eixo x no lugar da mdia. b) Agora crie dois pontos verdes em formato de tringulo verde invertido no lugar dos 2 quantis. c) Crie uma legenda no canto superior esquerdo com os smbolos utilizados (tringulo e crculo), com os significado (mdia e quantil). d) Pinte de vermelho e verde os smbolos.
Quais funes voc aprendeu? Uma linguagem de programao uma linguagem como qualquer outra, e sua aprendizagem exige domnio de vocabulrio e sintaxe. O vocabulrio da linguagem R so as funes e comandos. Ento, sempre que um mdulo acabar, lembre-se de tomar nota das funes e comandos, bem como para que serve cada uma delas. Utilize o marcador # em frente a uma funo para explicar a sua utilidade. Voc se lembra de todas que aprendeu hoje? DISTRIBUIES ESTATSTICAS Uma distribuio estatstica definida como uma funo que define uma curva. A rea sob essa curva determina a probabilidade de ocorrncia de um dado evento.
Variveis aleatrias: A varivel aleatria (X) uma varivel que tem um valor nico (determinado aleatoriamente) para cada resultado de um experimento. A palavra aleatria indica que em geral s conhecemos aquele valor depois do experimento ser realizado. Exemplos de variveis aleatrias: a. Nmero de presas capturadas em um determinado dia; b. Comprimento de um peixe adulto selecionado aleatoriamente. As variveis aleatrias podem ser discretas ou contnuas.
22
Varivel aleatria discreta: nmero ou a quantidade observada na unidade experimental ou tentativa. Representada por nmeros inteiros (0, 1, 2, 3, 4...); No pode conter nmeros negativos; Nmero finito de possibilidades; Podemos achar a probabilidade de cada evento.
Varivel aleatria contnua: usualmente medidas contnuas como peso, altura, distncia, pH, biomassa, etc. Representada por nmeros no inteiros (1,3; - 1,54; - 1,7); Pode conter nmeros negativos; Nmero infinito de possibilidades; Probabilidade de cada evento zero. FUNES DE PROBABILIDADE A funo probabilidade associa cada possvel valor da varivel aleatria (X) sua probabilidade de ocorrncia P(X). Quando conhecemos todos os valores de uma varivel aleatria, juntamente com suas respectivas probabilidades, temos uma distribuio de probabilidades (Fig. 3). As distribuies de probabilidade discreta conhecida como funo massa de probabilidade, enquanto que distribuies de probabilidade contnua conhecida como funo de densidade de probabilidade. A diferena est no fato de que nas distribuies discretas temos a probabilidade para cada valor de X (Fig. 3a), enquanto que nas distribuies contnuas temos a probabilidade para um intervalo (Fig. 3b). (b) (a)
Funodensidadedeprobabilidade Funomassadeprobabilidade Figura 3. Funes de probabilidade para (a) varivel discreta e (b) varivel contnua. 23
FUNESDEDISTRIBUIOACUMULADA A funo de distribuio acumulada igual probabilidade de que a varivel aleatria X assuma um valor inferior ou igual a determinado x (Figura 4).
Figura 4. Funo de distribuio acumulada. DISTRIBUIOBINOMIAL a distribuio de probabilidade discreta do nmero de sucessos em uma sequncia de n tentativas tal que: i) as tentativas so independentes; ii) cada tentativa resulta apenas em duas possibilidades, sucesso ou fracasso; e iii) a probabilidade de cada tentativa, p, permanece constante. Se a varivel aleatria X que contm o nmero de tentativas que resultam em sucesso tem uma distribuio binomial com parmetros n e p, escrevemos X ~ B(n, p). A probabilidade de se ter exatamente k sucessos dada pela funo de probabilidade: = ! (1 )!!!
onde q a probabilidade de um evento ocorrer, 1 q a probabilidade do evento no ocorrer, X a freqncia de ocorrncia e pode adquirir os valores 0, 1, 2, ..., n. Portanto, esta funo fornece a probabilidade de ocorrerem X sucessos em n tentativas. Se a X ~ B(n, p), isto , X uma varivel aleatria distribuda binomialmente, ento o valor esperado de X : = e a varincia = (1 )
24
Exemplo H uma probabilidade de 0,30 de um girino, ao forragear em um corpo dgua, ser predado por uma larva de odonata. Determine as probabilidades de que, dentre seis girinos que esto forrageando no corpo dgua, 0, 1, 2, 3, 5 ou 6 sejam predados. Trace um histograma dessa distribuio de probabilidade. Soluo Admitindo que a escolha seja aleatria, fazemos n = 6, q = 0,30 e, respectivamente, X = 0, 1, 2, 3, 4, 5 e 6 na frmula da distribuio binomial: = ! (1 )!!!
6 0 6 p(0) = (0,30 ) (0,70 ) 0,118 0 6 1 5 p(1) = (0,30 ) (0,70 ) 0,303 1

6 2 4 p(2) = (0,30 ) (0,70 ) 0,324 2 6 3 3 p(3) = (0,30 ) (0,70 ) 0,185 2
6 5 1 p(5) = (0,30 ) (0,70 ) 0,010 5 6 6 0 p(6) = (0,30 ) (0,70 ) 0,001 6
6 4 2 p(4) = (0,30 ) (0,70 ) 0,060 4
Nmerodegirinospredados
Figura 5. Histograma da distribuio binomial com n = 6 e q = 0,30.
25
REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos Existem quatro funes que podem ser utilizadas para gerar os valores associados distribuio binomial. Voc pode obter uma lista completa das mesmas e as suas opes com o comando help: >help(Binomial) Quando o nmero de tentativas (size) e a probabilidade de sucesso so conhecidos para cada evento (prob) possvel utilizar o comando abaixo para descobrir a probabilidade para qualquer valor da varivel x. >dbinom(x, size, prob) No caso do exemplo acima, para descobrirmos qual a probabilidade de dois girinos serem predados, precisamos digitar o seguinte comando: >dbinom (2, size = 6, prob = 0.3) 0.324135 A probabilidade de trs girinos serem predados >dbinom (3, size = 6, prob = 0.3) 0.18522 Funo de probabilidade acumulativa - Para descobrir a probabilidade de valores menores ou iguais a X utilizamos o comando: >pbinom(q, size, prob) Para descobrirmos qual a probabilidade de dois ou menos girinos (0, 1) serem predados, precisamos digitar o seguinte comando: >pbinom (2, size = 6, prob = 0.3) 0.74431
Para descobrirmos qual a probabilidade de que cinco ou menos girinos (0, 1, 2, 3, 4) sejam predados, precisamos digitar o seguinte comando: 26
>pbinom (5, size = 6, prob = 0.3) 0.999271 Inverso da funo de probabilidade acumulativa - Um exemplo contrrio ao comando anterior utilizado quando um valor de probabilidade fornecido e o programa retorna o valor de X associado a ele. Para isso utiliza-se o seguinte comando: >qbinom(p, size, prob) Qual o valor de X (nmero de girinos predados) associado probabilidade de 0,74? >qbinom(0.74, size = 6, prob = 0.3) 2 Qual o valor de X (nmero de girinos predados) associado a probabilidade de 0,99? >qbinom(0.99, size = 6, prob = 0.3) 5 Finalmente, nmeros aleatrios podem ser gerados de acordo com a distribuio binomial com o seguinte comando: >rbinom(n, size, prob) Por exemplo, para gerar dez nmeros aleatrios de uma distribuio binomial com 20 tentativas e probabilidade 0,63. >rbinom(10, size = 20, prob = 0.63)
Voc pode plotar o grfico da funo massa de distribuio atravs do seguinte comando:
>plot(dbinom(seq(0,6, by =1), size = 6, prob = 0.3), type ="h", xlab = "Nmero de girinos predados", ylab = "Probabilidade", main = "Funo massa de probabilidade")
O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando: >plot(pbinom(seq(0,6, by =1), size = 6, prob = 0.3),type ="h", xlab = "Nmero de girinos predados", ylab = "Probabilidade", main = "Funo de probabilidade acumulada") 27
DISTRIBUIOPOISSON Na teoria da probabilidade e na estatstica, a distribuio de Poisson uma distribuio de probabilidade discreta. Expressa a probabilidade de uma srie de eventos ocorrem em um perodo fixo de tempo, rea, volume, quadrante, etc. Esta distribuio segue as mesmas premissas da distribuio binomial: i) as tentativas so independentes; ii) a varivel aleatria o nmero de eventos em cada amostra; e iii) a probabilidade constante em cada intervalo. A probabilidade de que existam exatamente k ocorrncias (k sendo um nmero inteiro, no negativo, k = 0, 1, 2, ...) : ; = !! ! !! ! ! !
e base do logaritmo natural (e = 2.71828...), k! o fatorial de k, um nmero real, igual ao nmero esperado de ocorrncias que ocorrem num dado intervalo de tempo.
Se a X ~ Pois(), isto , X uma varivel aleatria com distribuio Poisson, ento o valor esperado de X = e a varincia = Exemplo Suponha que um pesquisador registrou o nmero de visitas flor de uma planta durante um perodo de 15 minutos. O nmero mdio de borboletas que visitam no perodo de 15 minutos 10 (). Determine a probabilidade de que cinco borboletas visitem a flor em 15 minutos. A probabilidade de uma borboleta visitar a mesma para quaisquer dois perodos de tempo de igual comprimento. Trace um histograma dessa distribuio de probabilidade.
28
Soluo Admitindo que a visita ou no visita de uma borboleta em qualquer perodo de tempo independente da visita ou no visita de uma segunda borboleta em qualquer outro perodo de tempo, fazemos = 10 e X = 5 na frmula da distribuio poisson:
P( X = 5) ==
10 5 e 10 = 0,0378 5!
P( X = 5) ==
10 5 e 10 = 0,0378 5!
Funo distribuio de probabilidade

0.12 0.10
Probabilidade
0.00
0.02
0.04
0.06
0.08
10
12
14
Nmero de visitas
REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos Existem quatro funes que podem ser utilizadas para gerar os valores associados distribuio poisson. Voc pode obter uma lista completa das mesmas e as suas opes com o comando help: >help(Poisson) Quando voc tem a mdia por unidade de tempo, rea ou quadrante () voc pode utilizar o comando abaixo para descobrir a probabilidade para qualquer valor da varivel X. >dpois(x, lambda) No caso do exemplo acima, para descobrirmos qual a probabilidade de que cinco borboletas visitem uma flor, precisamos digitar o seguinte comando: 29
>dpois (5, lambda = 10) 0.03783327 A probabilidade de que oito borboletas visitem uma flor : >dpois (8, lambda = 10) 0.1125 Funo de probabilidade acumulativa - Para descobrir a probabilidade de valores menores ou iguais a X utilizamos o comando: >ppois(x, lambda) Para descobrirmos qual a probabilidade de duas ou menos visitas (1) flor, precisamos digitar o seguinte comando: >ppois (2, lambda = 10) 0.00276 A probabilidade de cinco ou menos visitas (1, 2, 3, 4) flor : >ppois (5, lambda = 10) 0.06708 Inverso da funo de probabilidade acumulativa - Um exemplo contrrio ao comando anterior quando voc fornece um valor de probabilidade e o programa retorna o valor de X associado a ele. Para isso usa-se o seguinte comando: >qpois (p, lambda) Qual o valor de X (nmero de visitas) associado probabilidade de 0.8? >qpois (0.8, lambda = 10) 13 Qual o valor de X (nmero de visitas) associado a probabilidade de 0.1? >qpois (0.1, lambda = 10) 6
30
Finalmente nmeros aleatrios podem ser gerados de acordo com a distribuio Poisson com o seguinte comando: >rpois (n, lambda) Por exemplo, para gerar dez nmeros aleatrios de uma distribuio Poisson com mdia ( ) 22. >rbinom(10, lambda = 22)
Voc pode plotar o grfico da funo massa de distribuio atravs do seguinte comando: >plot(dpois(seq(1,10, by =1), lambda = 10), type ="h",xlab = "Nmero de visitas", ylab = "Probabilidade", main = "Funo massa de probabilidade")
O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando: >plot(ppois(seq(1,10, by =1), lambda = 10),type ="h", xlab = "Nmero visitas", ylab = "Probabilidade", main = "Funo de probabilidade acumulada") Podemos usar a distribuio de Poisson como uma aproximao da distribuio Binomial quando n, o nmero de tentativas, for grande e p ou 1 p for pequeno (eventos raros). Um bom princpio bsico usar a distribuio de Poisson quando n 30 e n.p ou n.(1p) < 5%. Quando n for grande, pode consumir muito tempo em usar a distribuio binomial e tabelas para probabilidades binomiais, para valores muito pequenos de p podem no estar disponveis. Se n(1-p) < 5, sucesso e fracasso devero ser redefinidos de modo que Np < 5 para tornar a aproximao precisa. >plot(dbinom(seq(1,50, by =1), size =50, prob = 0.09), type
="h", ylab = "Probabilidade",
main = "Distribuio Binomial")
>plot(dpois(seq(1,50, by =1), lambda = 50*0.09), type ="h", ylab = "Probabilidade", main = "Distribuio Poisson")
31
DISTRIBUIONORMAL A distribuio normal uma das mais importantes distribuies com probabilidades contnuas. Conhecida tambm como Distribuio de Gauss ou Gaussiana. Esta distribuio inteiramente descrita por parmetros de mdia () e desvio padro (), ou seja, conhecendo-se estes parmetros consegue-se determinar qualquer probabilidade em uma distribuio Normal. A importncia da distribuio normal como um modelo de fenmenos quantitativos devido em parte ao Teorema do Limite Central. O teorema afirma que "toda soma de variveis aleatrias independentes de mdia finita e varincia limitada aproximadamente Normal, desde que o nmero de termos da soma seja suficientemente grande" (Fig. 7). Independentemente do tipo de distribuio da populao, na medida em que o tamanho da amostra aumenta, a distribuio das mdias amostrais tende a uma distribuio Normal.
Figura 7. Grficos demonstrando que mesmo com um grande nmero de variveis aleatrias, as distribuies tm um padro aproximadamente normal. A distribuio binomial B(n,p) aproximadamente normal N(np,np(1 p)) para grande n e para p no to prximos de 0 ou 1. Enquanto que a distribuio Poisson Pois() aproximadamente Normal N(, ) para grandes valores de . A funo de densidade de probabilidade da distribuio normal com mdia e varincia 2 (de forma equivalente, desvio padro ) assim definida,
f ( x) =
1 2
2
(x )
2 2
Variveis aleatrias com distribuio aproximadamente normal apresentam as seguintes propriedades: Metade (50%) est acima (e abaixo) da mdia Aproximadamente 68% est dentro de 1 desvio padro da mdia 32
Aproximadamente 95% est dentro de 2 desvios padres da mdia Virtualmente todos os valores esto dentro de 3 desvios padres da mdia e . Para isso
Na prtica desejamos calcular probabilidades para diferentes valores de teramos que realizar uma 2integral: 2
b
P (a < x < b ) =
a
( x ) / 2
dx
Para facilitar, a varivel X cuja distribuio N ( , ) transformada em uma forma padronizada Z com distribuio N (0, 1) (distribuio Normal padro) cuja distribuio tabelada. A quantidade Z dada por :
X ~ N ( , ) Z =
~ N (0,1)
Exemplo Qual a probabilidade de que um peixe capturado aleatoriamente tenha 20,15 cm ou mais, sabendo que a mdia da populao 17,1 cm e o desvio padro de 1,21 cm? Trace um histograma dessa distribuio de probabilidade. Soluo
ZL =
20.15 17.1 = 2.52 1.21
ZU =
Para descobrir a probabilidade de se capturar um peixe maior que 20,15 cm, voc precisa procurar pelo valor de Z = 2.52 em uma tabela de distribuio Z: P(X20.15)=P(Z2.52)=.0059(1/170)
Portanto, a probabilidade de se capturar um peixe aleatoriamente maior que 20,15 cm numa populao com mdia 17,1 cm e desvio de 1,21 cm de 0.006%. REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos Existem quatro funes que podem ser utilizadas para gerar os valores associados distribuio Normal. Voc pode obter uma lista completa das mesmas e as suas opes com o comando help: 33
>help(Normal) Quando tem-se a mdia e o desvio padro da populao voc pode utilizar o comando abaixo para descobrir a probabilidade para qualquer intervalo. >pnorm(x, mean, sd, lower.tail = TRUE) ## Ficar atento para quando voc quer medir intervalo acima da mdia ou abaixo dela. Quando for acima, voc precisa substituir o TRUE por FALSE No caso do exemplo acima, para descobrirmos qual a probabilidade de se capturar um peixe maior que 20,15 cm, precisamos digitar o seguinte comando: >pnorm (20.15, mean = 17.1, sd = 1.21, lower.tail = FALSE) 0.0058567 Imagine que se tenha uma populao com mdia 100 cm e um desvio padro de 10 cm, para descobrir o intervalo associado com 95% de probabilidade voc deve usar o seguinte comando: >qnorm (0.95, mean = 100, sd = 10) 116.45 Para descobrir a probabilidade de se obter valores entre 80 e 120 cm, deve-se usar o seguinte comando: >pnorm(120, mean=100, sd=10) - pnorm(80, mean=100, sd=10) 0.95449 Voc pode plotar o grfico da funo densidade de probabilidade atravs do seguinte comando: x = seq(70,130,length = 200) y = dnorm(x, mean=100, sd=10) plot(x, y, type="l", lwd=2, col="red", ylab = "Probabilidade",main ="Funo densidade de probabilidade")
O grfico da funo de probabilidade acumulada pode ser plotado com o seguinte comando:
34
x = seq(70,130,length = 200) y = pnorm(x, mean=100, sd=10) plot(x, y, type="l", lwd=2, col="red", ylab = "Probabilidade",main ="Funo de probabilidade acumulada") Exerccios 1) Uma aranha predadora que vive em flores polinizadas por pequenas mariposas consome em mdia cinco mariposas por hora. Qual a probabilidade da aranha predar duas mariposas em uma hora selecionada aleatoriamente? 2) Um pesquisador verificou que seis ovos de uma determinada ave so consumidos em mdia por hora em uma rea de nidificao. a) Qual a probabilidade de que trs ovos sejam predados? b) Qual a probabilidade de que trs ou menos ovos sejam predados? 3) Um trabalho recente verificou que 1% dos fgados de cobaias submetidas ao tratamento com lcool apresentavam danos teciduais. Encontre a probabilidade de que mais de um fgado em uma amostra aleatria de 30 fgados apresente danos teciduais usando: a) Distribuio Binomial b) Distribuio Poisson 4) Uma nova tcnica de amostragem registra dez indivduos de lagartos por hora em uma rea florestal. Encontre a probabilidade de que quatro ou menos indivduos sejam registrados em uma hora aleatria. 5) Supondo que a probabilidade de um casal de ursos pandas ter filhotes albinos de . Se um casal produzir seis filhotes, qual a probabilidade de que metade deles sejam albinos? 6) Se a probabilidade de um sapo capturar uma mosca em movimento de 30%. Qual a probabilidade de que em quatro tentativas ele capture no mnimo trs moscas? 7) Um pesquisador extrai 15 amostras de DNA aleatoriamente de um banco de dados que produz 85% de amostras aceitveis. Qual a probabilidade de que dez amostras extradas sejam aceitveis?
35
8) Um populao de crocodilos tem tamanho corporal mdio de 400 cm e desvio padro de 50 cm. Qual a probabilidade de capturarmos um crocodilo dessa populao com tamanho entre 390 e 450 cm? 9) O comprimento do antebrao de uma espcie de morcego endmica do Cerrado de 4 cm com desvio padro de 0,25 cm. A partir de qual comprimento os morcegos teriam os antebraos mais compridos nessa populao? 10) Suponha que o tempo necessrio para um leo consumir sua presa siga uma distribuio normal de mdia de 8 minutos e desvio padro de 2 minutos. (a) Qual a probabilidade de que um leo consuma sua presa em menos de 5 minutos? (b) E mais do que 9,5 minutos? (c) E entre 7 e 10 minutos? 11) A distribuio dos pesos de coelhos criados em uma granja pode muito bem ser representada por uma distribuio Normal, com mdia 5 kg e desvio padro 0,9 kg. Um pesquisador comprar 5000 coelhos e pretende classific-los de acordo com o peso do seguinte modo: 15% dos mais leves como pequenos, os 50% seguintes como mdios, os 20% seguintes como grandes e os 15% mais pesados como extras. Quais os limites de peso para cada classificao? Classificao do pesquisador
15% x1 Seja,
50% x2
20% x3
15%
x1 o valor do peso que separa os 15% mais leves dos demais, x2 o valor do peso que separa os 65% mais leves dos demais, x3 o valor do peso que separa os 85% mais leves dos demais.
GeneralizedLinearModels(GLM)ModelosLinearesGeneralizados Muitos mtodos estatsticos populares so baseados em modelos matemticos que assumem que os dados seguem uma distribuio Normal, dentre eles a anlise de varincia e a 36
regresso mltipla. No entanto, em muitas situaes a suposio de normalidade no plausvel. Conseqentemente, o uso de mtodos que assumem a normalidade pode ser insatisfatrio e aumentam a probabilidade de cometermos erros inferenciais (erros do Tipo I e II). Nestes casos, outras alternativas que no pressupoem distribuio normal dos dados so atraentes e mais robustas. Podemos usar modelos lineares generalizados (GLM) quando a varincia no constante, e/ou quando os erros no so normalmente distribudos. Muitos tipos de dados tm erros no normais. No passado, as nicas maneiras capazes de lidar com esse problema eram a transformao da varivel resposta ou a adoo de mtodos no paramtricos. Em GLM, assumimos que cada resultado da varivel dependente Y seja gerado a partir de uma variedade de diferentes tipos de distribuies que lidam com esse problema: Poisson teis para dados de contagem Binomial teis para dados com propores Gamma teis para dados mostrando um coeficiente constante de varincia Exponencial teis com dados de anlises de sobrevivncia Existem muitas razes para usar GLMs, em vez de regresso linear. Dados de presena-ausncia so (geralmente) codificados como 1 e 0, os dados proporcionais so sempre entre 0 e 100%, e os dados de contagem so sempre no-negativos. GLMs usados para 0-1 e dados proporcionais so normalmente baseados em distribuio binomial e para dados de contagem as distribuies de Poisson e binomial negativa so opes comuns. A mdia, , da distribuio depende das variveis independentes, X, e calculada atravs de: = = g ! () onde E (Y) o valor esperado de Y; X o preditor linear, uma combinao linear de parmetros desconhecidos, ; g a funo de ligao. GLM consiste em trs etapas: 1. Uma hiptese sobre a distribuio da varivel resposta Yi. Isso tambm define a mdia e a varincia de Yi. (e.x., Distribuio Poisson, Binomial, Gamma). 2. Especificao da parte sistemtica. Esta uma funo das variveis explicativas. ! = + ! !! + ! !! + + ! !!
37
3. A relao entre o valor mdio de Yi e a parte sistemtica. Esta tambm chamada de ligao entre a mdia e a parte sistemtica (Tabelas 2 e 3). Tabela 2. Funes de ligaes para GLM.
Tabela 3. Algumas das ligaes mais comuns para GLM.
Likelihood Os passos finais do processo de modelagem so constitudos pela estimativa dos parmetros a partir dos dados e teste dos modelos uns contra os outros. Estimar os parmetros dos modelos significa achar os parmetros que fazem o modelo se ajustar melhor aos dados coletados. Nosso goodness-of-fit ser baseado na probabilidade (likelihood) - a probabilidade de se encontrar nossos dados dado um modelo particular. Queremos a estimativa da mxima verossimilhana (maximum likelihood estimate) dos parmetros aqueles valores dos parmetros que fazem os dados observados mais provveis de terem acontecido. Uma vez que 38
as observaes so independentes, a juno das probabilidades dos dados totais o produto das probabilidades de cada observao individual. Por convenincia matemtica, sempre maximizamos o logaritimo das probabilidades (log-likelihood) ao invs da probabilidade direto.
LikelihoodRatioTest Os modelos GLM so ajustados aos dados pelo mtodo de mxima verossimilhana, proporcionando no apenas estimativas dos coeficientes de regresso, mas tambm estimando erros padres dos coeficientes. Ns podemos utilizar a likelihood ratio test (LRT) para escolher modelos em certas situaes. A LRT compara dois modelos aninhados, testando se os parmetros aninhados do modelo mais complexo diferem significativamente do valor nulo. Um modelo mais simples (com menos parmetros) aninhado em outro, mais complexo (com mais parmetros), se o modelo complexo for reduzido para o mais simples pela retirada de um dos parmetros. Em outras palavras, ele testa se h necessidade de se incluir um parmetro extra no modelo para explicar os dados. O residual deviance para um GLM Dm = 2 (loge Ls - loge Lm), onde Lm a mxima verossimilhana sob o modelo em questo, e Ls a mxima verossimilhana sob um modelo saturado (modelo mais complexo) que dedica um paramtro para cada observao e consequentemente ajusta os dados o mais prximo possvel. O residual deviance anlogo soma dos quadrados dos resduos para um modelo linear. Em GLM para o qual o parmetro de disperso fixado em 1 (binomial e Poisson), a razo da verossimilhana estatstica do teste a diferena dos residual deviance para os modelos aninhados. LRT apresenta uma distribuio de qui-quadrado com k1- K0 graus de liberdade. Para GLM em que existe um parmetro para estimar a disperso (Gaussian, Quasi-poisson e Gamma), podemos comparar modelos aninhados por um teste F.
Akaike Information Criterion (AIC) - Critrio de Informao de Akaike O critrio de Akaike uma ferramenta para seleo de modelos, pois oferece uma medida relativa do goodness-of-fit (qualidade do ajuste) de um modelo estatstico. AIC no fornece um teste de um modelo no sentido usual de testar uma hiptese nula, ou seja, ele no pode dizer nada sobre o quo bem o modelo ajusta os dados em um sentido absoluto. No caso geral, AIC = 2 2ln()
39
onde k o nmero de parmetros no modelo estatstico, e L o valor maximizado da funo likelihood para o modelo estimado. Dado um conjunto de modelos candidatos, o modelo preferido aquele com o valor mnimo de AIC. O valor de AIC no s recompensa goodnessof-fit, mas inclui tambm uma penalizao que uma funo crescente do nmero de parmetros estimados. Esta penalidade desencoraja overfitting (aumentando o nmero de parmetros livres no modelo melhora a qualidade do ajuste, independentemente do nmero de parmetros livres no processo de gerao de dados). AICC AIC com uma correo para amostras finitas: ! = + 2( + 1) 1
onde k denota o nmero de parmetros do modelo. Assim, AICC AIC com uma maior penalizao para os parmetros extra. Burnham & Anderson (2002) recomendam o uso do AICC, ao invs de AIC, se n for pequeno ou k grande. Uma vez que o valor de AICc converge para AIC quando n se torna grande, AICc geralmente devem ser empregados independentemente do tamanho da amostra. Usar AIC, em vez de AICC, quando n no muitas vezes maior do k2 aumenta a probabilidade de seleo dos modelos que tm muitos parmetros (overfitting). Uma outra comparao entre os modelos pode ser baseada no clculo do Peso do Akaike (Akaike weigths - Buckland et al. 1997). Se existem M modelos candidatos, ento o peso para o modelo i :
(/2) 1 2 exp 2 + exp 2 + exp( 2 )
onde a diferena entre o valor do AIC entre modelo i e os modelos restantes. Os pesos do Akaike calculados desta forma so usados para medir a fora da evidncia em favor de cada um dos modelos, com um grande peso indicando alta evidncia. Dez orientaes para Seleo de Modelo 1) Cada modelo deve representar uma hiptese (interessante) especfica a ser testada. 2) Mantenha os sub-grupos de modelos candidatos curtos. desaconselhvel considerar tantos modelos quanto o nmero de dados que voc tem.
40
3) Verificar a adequao do modelo: use o seu modelo global (modelo mais complexo) ou modelos subglobais para determinar se as hipteses so vlidas. Se nenhum dos modelos se ajustar aos dados, critrios de informao indicaro apenas o mais parcimonioso dos modelos mais pobres. 4) Evitar a dragagem de dados (e.g., procura de padres aps uma rodada inicial de anlise). 5) Evite modelos overfitted. 6) Tenha cuidado com os valores faltantes (NA). Lembre-se de que valores faltantes somente para algumas variveis alteram o tamanho do conjunto de dados e amostras dependendo de qual varivel includa em um dado modelo. sugirido remover casos omissos antes de iniciar a seleo de modelos.
7) Use a mesma varivel resposta para todos os modelos candidatos. inadequado executar alguns modelos com varivel resposta transformados e outros com a varivel no transformada. A soluo usar uma funo de ligao diferente para alguns modelos (e.g., identity vs. log link). 8) Quando se trata de modelos com overdispersion, utilize o mesmo valor de c-hat para todos os modelos em um conjunto de modelos candidatos. Para modelos binomiais com trials > 1 ou com Poisson GLM, deve-se estimar o c-hat do modelo mais complexo (modelo global). Se c hat > 1, deve-se usar o mesmo valor para cada modelo do conjunto de modelos candidatos e incluilo na contagem dos parmetros (K). Da mesma forma, para binomial negativa, voc deve estimar o parmetro de disperso do modelo global e usar o mesmo valor em todos os modelos. 9) Burnham e Anderson (2002) recomendam evitar misturar a abordagem da teoria da informao e noes de significncia (ou seja, os valores P). melhor fornecer estimativas e uma medida de sua preciso (erro padro, intervalos de confiana). 10) Determinar o ranking das modelos apenas o primeiro passo. A soma do Peso Akaike 1 para o modelo de todo o conjunto e pode ser interpretado como o peso das evidncias em favor de um determinado modelo. Modelos com grandes valores do Peso Akaike tm forte apoio. Taxas de evidncias, valores de importncia, e intervalo de confianca para o melhor modelo so outras medidas que auxiliam na interpretao. Nos casos em que o melhor modelo do ranking tem um Peso Akaike > 0,9, pode-se inferir que este modelo o mais parcimonioso. Quando muitos modelos so classificados por valores altos (ou seja, o delta (Q) AIC (c) < 2 ou 4), devese considerar a mdia dos parmetors dos modelos de interesse que aparecem no topo. A mdia dos modelos consiste em fazer inferncias com base no conjunto de modelos candidatos, em vez 41
de basear as concluses em um nico "melhor" modelo. uma maneira elegante de fazer inferncias com base nas informaes contidas no conjunto inteiro de modelos. Exemplos A partir dos exemplos a seguir irei explicar os comandos bsicos necessrios para realizar as anlises de GLM. altamente recomendvel que vocs recorram aos livros sugeridos no incio desta apostila para um aprofundamento no assunto e para que possam realizar anlises mais complexas. Carregando pacotes necessrios para as anlises >library(languageR) >library(nlme) >library(glmmML) >library(lme4) >library(AICcmodavg) >library(bestglm) >library(mgcv) >library(MuMIn) >library(pscl) >library(MASS) >library(bbmle) >library(lattice) >library(AED) ## Esse pacote tem deve ser baixado da pgina #http://www.highstat.com/book2.htm Primeiro Exemplo >data(RoadKills) Portugal Teoria: Ecologia de Paisagem Varivel dependente: Nmero de anfbios mortos Questo: Quais variveis da paisagem melhor explicam a mortalidade de anfbios? >RK <- RoadKills ## Renomeando para facilitar 42 ## Carregando dados - Os dados consistem do
nmero de mortes de anfbios em uma rodovia em 52 stios em
Modelo Global >M1 <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK, family = poisson, data=RK) SELEO DO MELHOR MODELO Akaike Information Criterion (AIC) >step(M1) ## Esse comando faz a seleo automaticamente Outra maneira de utilizar Akaike Information Criterion. preciso construir os modelos de acordo com suas hipteses ou retirando as variveis que no apresentam um efeito significativo. >M2 <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.WATRES + L.WAT.C + SQ.LPROAD + D.PARK, poisson, data=RK) >M3 <- glm (TOT.N ~ MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + data=RK) >M4 <- glm (TOT.N ~ L.WAT.C + SQ.LPROAD + D.PARK, family = poisson, data=RK) Esse comando cria uma tabela colocando os modelos em ordem crescente de valores, ou seja, com o melhor modelo no topo. Ele apresenta o valor de delta que a diferena entre o melhor modelo que recebe o valor de zero e os outros modelos. WEIGHT = so usados para medir a fora da evidncia em favor de cada um dos modelos >AIC <- ICtab (M1, M2, M3, M4, type = c("AIC"), weights = TRUE, delta = TRUE, sort = TRUE) >AIC Contudo, quando o nmero de amostras dividido pelo nmero de paramtros for < 40 recomendado utilizar um AIC corrigido (AICc) para pequenas amostras. Na verdade, como em 43 D.PARK, family = poisson, SQ.SHRUB + family =
grandes amostras o valor de AICc tende ao valor de AIC sem correo, recomendado sempre utilizar AICc. >AICc <- ICtab(M1, M2, M3, M4, type = c("AICc"), weights = TRUE, delta = TRUE, sort = TRUE, nobs = 52) >AICc Terceira maneira de calcular AIC, AICc Cria um vetor com lista de modelos: >Modelos <- list() >Modelos [[1]] <glm(TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK, family = poisson (link = "log"), data=RK) >Modelos [[2]] <+ glm(TOT.N + ~ OPEN.L L.WAT.C + + MONT.S + SQ.POLIC + + SQ.SHRUB SQ.WATRES SQ.LPROAD D.PARK,
family = poisson (link = "log"), data=RK) >Modelos [[3]] <- glm(TOT.N ~ MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + D.PARK, family = poisson (link = "log"), data=RK) >Modelos [[4]] <- glm(TOT.N ~ L.WAT.C + SQ.LPROAD + D.PARK, family = poisson, data=RK) Cria um vetor com nomes dos modelos >(Modnames <- paste("Mod", 1:length(Modelos), sep="")) Gera uma tabela com valores de AIC >(res.table <- aictab(cand.set = Modelos, modnames = Modnames, second.ord = FALSE)) ## FALSE: mostrar valores de AIC
>(res.table <- aictab(cand.set = Modelos, modnames = Modnames, second.ord = TRUE)) ## TRUE: mostrar valores de AICc
44
TESTE DE HIPTESES - Likelihood ratio test (LRT) DEVIANCE = RESIDUAL DEVIANCE = 2 x a diferena entre o log likelihood do modelo que apresenta um ajuste perfeito (modelo saturado) e o modelo em questo. Quanto menor o residual deviance, melhor o modelo. >drop1(M1,test = "Chi") # A diferena entre as deviance dos modelos apresenta uma distribuio chi- square com p1 - p2 graus de liberdade >DM1 <- glm(TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + poisson, data = RK) >drop1(DM1, test = "Chi") D.PARK, family =
Este resultado indica que podemos retirar a varivel SQ.DWATCOUR, pois o modelo sem esta varivel tem o mesmo poder de explicao do modelo com esta varivel. Repita o processo at que nenhuma varivel possa ser retirada do modelo. OVERDISPERSION Contudo a vida no to simples, antes de analisar os resultados e realizar as anlises de seleo voc precisa checar se os seus dados possuem overdispersion. A overdispersion significa que a varincia maior do que a mdia.
45
Como saber se os dados apresentam overdispersion? >M1 <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK, family = poisson, data=RK) >summary(M1)
Veja que o resultado mostra que o parmetro de disperso para famlia Poisson tem que ser 1. Nesse caso o parmetro de disperso do seu modelo 270,23/42 = 6,43. Desse modo, seu modelo apresenta overdispersion e voc no pode continuar a anlise considerando a famlia Poisson. Existem duas alternativas: corrigir o Poisson com Quasi-Poisson ou usar a distribuio Binomial Negativa. QUASI-POISSON >M4 <glm(TOT.N + ~ OPEN.L + + MONT.S + SQ.POLIC+ SQ.DWATCOUR SQ.SHRUB + +
SQ.WATRES >summary(M4)
L.WAT.C
SQ.LPROAD+
D.PARK,
family = quasipoisson, data = RK)
46
Veja que o parmetro de disperso f estimado em 5,93. Isto significa que todos os erros padres foram multiplicados por 2,43 (a raiz quadrada de 5,93), e como resultado, a maioria dos parmetros no so mais significativos. No escreva na sua dissertao ou artigo que usou uma distribuio Quasi-Poisson. Quasi-Poisson no uma distribuio. Basta dizer que voc fez GLM com distribuio Poisson, detectou overdispersion, e corrigiu os erros padres usando um modelo Quasi-GLM, onde a varincia dada por f , onde a mdia e f o parmetro de disperso. Seleo modelos em Quasi-Poisson Quando inserirmos uma varivel para a disperso, os modelos no podem ser comparados por qui-quadrado. Eles so comparados por distribuio F. >drop1(M4, test = "F")
Repita o procedimento at que nenhuma varivel possa ser retirada do modelo. Modelo final selecionado >M12 <- glm (TOT.N ~ D.PARK, family = quasipoisson, data = RK) Grfico com os dados ajustado para a curva Quasi-Poisson-Glm e intervalo de confiana de 95% (IC 95%). >G <- predict (M12, newdata = RK, type = "link", se = TRUE) >F <- exp(G$fit) 47
>FSEUP <- exp(G$fit + 1.96 * G$se.fit) >FSELOW <- exp(G$fit - 1.96 * G$se.fit) >plot(RK$D.PARK, RK$TOT.N, xlab = "Distance to park", ylab = "Nmero de anfbios mortos") >lines(RK$D.PARK, F, lty = 1, col = "red") >lines(RK$D.PARK, FSEUP, lty = 2, col = "red") >lines(RK$D.PARK, FSELOW, lty = 2, col = "red") Em Quasi-Poisson no possvel calcular o valor de AIC. Por isso, necessrio calcular um valor de QUASI-AIC >dd1 <dredge (M4, rank = "QAICc", chat =
summary(M4)$dispersion) >MQP1 <- get.models (dd1, 1:4) model.avg(MQP1) Os usurios devem ter em mente os riscos que correm usando tal "abordagem impensada" de avaliao de todos os modelos possveis. Embora este procedimento seja til em certos casos e justificado, ele pode resultar na escolha de um "melhor" modelo esprio. Deixar o computador descobrir uma estratgia pobre e geralmente reflete o fato de que o pesquisador no se preocupou em pensar claramente sobre o problema de interesse e sua configurao cientfica (Burnham e Anderson, 2002). Outra maneira de computar QAIC >MQP <- list() >MQP [[1]] <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC+ SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD+ SQ.DWATCOUR + D.PARK, family = poisson, data = RK) >MQP [[2]] <- glm (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC+ SQ.SHRUB + >MQP SQ.WATRES <+ L.WAT.C (TOT.N ~ + SQ.LPROAD+ + D.PARK, family SQ.SHRUB = + poisson, data = RK) [[3]] glm MONT.S SQ.POLIC+ SQ.WATRES + L.WAT.C + SQ.LPROAD+ poisson, data = RK) >MQP [[4]] <glm (TOT.N ~ MONT.S + SQ.POLIC + SQ.SHRUB + L.WAT.C + SQ.LPROAD + D.PARK, family = poisson, data = RK) 48 D.PARK, family =
>MQP [[5]] <- glm (TOT.N ~ MONT.S + SQ.POLIC+ SQ.SHRUB + L.WAT.C + D.PARK, family = poisson, data = RK) >MQP [[6]] <- glm (TOT.N ~ MONT.S + SQ.POLIC+ L.WAT.C + D.PARK, family = poisson, data = RK) >MQP [[7]] <- glm (TOT.N ~ MONT.S + L.WAT.C + D.PARK, family = poisson, data = RK) >MQP [[8]] <- glm (TOT.N ~ L.WAT.C + D.PARK, family = poisson, data = RK) >MQP [[9]] <- glm (TOT.N ~ D.PARK, family = poisson, data = RK) Cria um vetor com nomes dos modelos: >(Modnames <- paste ("MQP", 1:length(MQP), sep="")) Overdispersion >c_hat(MQP[[1]]) >c_hat(MQP[[2]]) >c_hat(MQP[[3]]) >c_hat(MQP[[4]]) >c_hat(MQP[[5]]) >c_hat(MQP[[6]]) >c_hat(MQP[[7]]) >c_hat(MQP[[8]]) >c_hat(MQP[[9]]) Gera uma tabela com valores de QAIC: >(res.table <aictab(cand.set = MQP, modnames = Modnames,
second.ord = TRUE, c.hat = 5.92)) BINOMIAL NEGATIVA odTest = Compara o log-likelihood do modelo de regresso binomial negativa com modelo de regresso Poisson.
49
>NB <- glm.nb(TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES >odTest(NB) + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK, link="log", data=RK)
O resultado mostra que a LRT entre Poisson e Binomial Negativa com uma diferena na deviance de 141.515 e com grau de liberdade 1 p < 0.0000. Portanto, Binomial Negativa melhor que Poisson. Modelos de Binomial Negativa: >NB1 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + SQ.DWATCOUR + D.PARK, link="log", data=RK) >NB2 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.POLIC + SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + D.PARK, link = "log", data = RK) >NB3 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.SHRUB + SQ.WATRES + L.WAT.C + SQ.LPROAD + D.PARK, link = "log", data = RK) >NB4 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + SQ.SHRUB + L.WAT.C + SQ.LPROAD + D.PARK, link = "log", data = RK) >NB5 <- glm.nb (TOT.N ~ OPEN.L + MONT.S + L.WAT.C + SQ.LPROAD + D.PARK, link = "log", data = RK) >NB6 <- glm.nb (TOT.N ~ OPEN.L + L.WAT.C + SQ.LPROAD + link = "log", data = RK) >NB7 <- glm.nb (TOT.N ~ OPEN.L + L.WAT.C + D.PARK, link = "log", data = RK) >NB8 <- glm.nb (TOT.N ~ OPEN.L + D.PARK, link = "log", data = RK) D.PARK,
50
Seleo automtica por AIC: >AIC <- stepAIC(NB1) >AIC Seleo dos modelos por AICc: >AICc <- ICtab (NB1, NB2, NB3, NB4, NB5, NB6, NB7, NB8, type = c("AICc"), weights = TRUE, delta = TRUE, sort = TRUE, nobs = 52) >AICc Likelihood Ratio Test (LRT) >drop1(NB1,test="Chi") Repita o procedimento at que nenhuma varivel retirada apresente efeito siginificativo na comparao. Para o modelo final, os autores justificaram a retirada de L.WAT.C porque seu valor estava muito prximo de 0.05. Modelo Final: >NB8 <- glm.nb(TOT.N ~ OPEN.L + D.PARK, link="log", data = RK) >summary(NB8) BINOMIAL NEGATIVA >plot (NB8) QUASI-POISSON >mu <- predict (M12, type = "response") >E <- RK$TOT.N - mu >EP2 <- E / sqrt (7.630148 * mu) >plot(x = mu, y = EP2, main = "Quasi-Poisson", 51
ylab = "residuos", xlab = "predito") abline(h = 0, v = 0) Comparando os resduos do modelo final da Binomial Negativa e Quasi-Poisson vemos que os resduos da Binomial no apresentam um padro, enquanto a Quasi-Poisson apresenta. Ento, Binomial melhor. GLM BINOMIAL Agora mostraremos um exemplo bem simples com dados de presena e ausncia. GLM com dados binrios ou proporo so tambm chamados de regresso logstica. >data(Boar) >head(Boar) Varivel dependente: presena ou ausncia de tuberculose. Varivel independente: Comprimento do javali (cabea-tronco). >B1 = glm ( Tb ~ LengthCT, family = binomial, data = Boar) >summary(B1) Likelihood Ratio Test: >drop1 (B1, test="Chi")
Funo para fazer o grfico: >MyData <- data.frame (LengthCT = seq (from = 46.5, to = 165, by = 1)) >Pred <- predict (B1, newdata = MyData, type = "response") 52
>Plot (x = Boar$LengthCT, y = Boar$Tb, xlab = "Comprimento", ylab = "Probabilidade de tuberculose") >lines(MyData$LengthCT,Pred) Segundo exemplo Binomial >data(Tbdeer) Varivel dependente: proporo de infectados. Varivel independente: variveis da paisagem. Transforma a varivel Fenced em vetor: >Tbdeer$fFenced <- factor(Tbdeer$Fenced) Transforma a varivel dependente em proporo: >Tbdeer$DeerPosProp <- Tbdeer$DeerPosCervi/ Tbdeer$DeerSampledCervi Modelo Geral: >Deer2 + <glm fFenced, (DeerPosProp family ~ = OpenLand binomial, + ScrubLand weights + =
QuercusPlants + QuercusTrees + ReedDeerIndex + EstateSize DeerSampledCervi,data = Tbdeer) >summary(Deer2)
Como na distribuio Poisson, quando trabalhamos com distribuio Binomial temos que verificar se existe overdispersion no modelo. Nesse caso, 152,79/15 = 10,18. A varincia maior que a mdia. Portanto, utilizamos um modelo corrigido por Quasi-Binomial. 53
QUASI-BINOMIAL >Deer2 <- glm(DeerPosProp ~ OpenLand + ScrubLand + QuercusPlants + QuercusTrees + ReedDeerIndex + EstateSize + fFenced, family = quasibinomial, weights = DeerSampledCervi,data = Tbdeer) Seleo do modelo por LRT >drop1(Deer2,test="F") Continue at que no seja permitido retirar mais nenhuma varivel. Modelo final: >Deer8 <glm(DeerPosProp ~ OpenLand, family =
quasibinomial,weights = DeerSampledCervi,data = Tbdeer) Funo para fazer o grfico: >MyData <- data.frame(OpenLand = seq (from = min(Tbdeer$OpenLand), to = max(Tbdeer$OpenLand),by=0.01)) >P1 <- predict(Deer8, newdata = MyData, type = "link", se = TRUE) >plot(MyData$OpenLand,exp(P1$fit)/(1+exp(P1$fit)), type="l",ylim=c(0,1), xlab="Porcentagem de rea aberta", ylab="Probabilidade de infeco por E. cervi") >lines(MyData$OpenLand,exp(P1$fit+1.96*P1$se.fit)/ (1+exp(P1$fit+1.96*P1$se.fit)),lty=2) >lines(MyData$OpenLand,exp(P1$fit-1.96*P1$se.fit)/ (1+exp(P1$fit-1.96*P1$se.fit)),lty=2) >points(Tbdeer$OpenLand,Tbdeer$DeerPosProp) Este resultado sugere que quanto maior a porcentagem de rea aberta menor a probabilidade de amostrar um veado com infeco por E. cervi.
54
Visualizao dos resduos: >EP = resid(Deer8,type = "pearson") >mu = predict(Deer8,type = "response") >E = Tbdeer$DeerPosProp - mu >plot(x = mu,y = EP, main="Pearson residuals") >plot(Deer8) Generalized Mixed Effects Models So usados para modelos mais complexos com design em blocos, medidas repetidas, split plot e dados aninhados. Aprensenta dois efeitos dentro da formla do modelo: EFEITO FIXO - depende somente da mdia as variveis independentes de interesse. EFEITO ALEATRIO - depende somente da varincia (no queremos medir o efeito, e.g. blocos). Exemplo 1 >data(RIKZ) Riqueza de animais marinhos bentnicos em nove praias, cada praia com cinco amostras. NAP = altura da estao de amostral em relao ao nvel da mar PERGUNTA: Existe relao positiva entre a riqueza e a NAP? Transforma praia em fator: >RIKZ$fBeach <- factor(RIKZ$Beach) Modelo >Mlme1 <- lme (Richness ~ NAP, random = ~1 | fBeach, data=RIKZ) summary (Mlme1)
55
Utilizando praia como efeito aleatrio permite que cada praia tenha um intercepto diferente. Se o StdDev do efeito aleatrio for zero, todos os interceptos ficam na linha predita. Veja o grfico abaixo. Funo para fazer o grfico: >F0 <- fitted(Mlme1,level=0) >F1 <- fitted(Mlme1,level=1) >I <- order(RIKZ$NAP) >NAPs <- sort(RIKZ$NAP) >plot(NAPs,F0[I],lwd=4,type="l",ylim=c(0,22), espcies",xlab="NAP") for (i in 1:9){ x1<-RIKZ$NAP[RIKZ$Beach==i] y1<-F1[RIKZ$Beach==i] K<-order(x1) lines(sort(x1),y1[K]) } >text(RIKZ$NAP,RIKZ$Richness,RIKZ$Beach,cex=0.9) Suponha que a relao entre riqueza de espcies e NAP diferente em cada praia. Isto implica em que temos de incluir um interao entre NAP*Praia no modelo. Mas isso tem um custo muito alto elevando o modelo para 17 parmetros. E no estamos interessados no efeito da praia. Contudo, no podemos ignorar uma possvel variao entre praias e na interao NAP*Praias. Se fizermos isso, a variao sistemtica vai aparecer nos resduos, levando inferncias erradas. Podemos aplicar o Mixed Effects Model com intercepto e slope (inclinao) aleatrios. >Mlme2 <- lme (Richness ~ NAP, random = ~ 1 + NAP | fBeach, data = RIKZ) >summary(Mlme2) ylab="Riqueza de
56
O valor 3,54 a quantidade de variao no intercepto da populao. O valor 1,71 a variao no slope (inclinao) nas nove praias. A correlao mostra que praias com interceptos mais altos tambm tem inclinao negativa mais alta. Veja o grfico abaixo. Funo para fazer o grfico: >F0 <- fitted(Mlme2,level=0) >F1 <- fitted(Mlme2,level=1) >I <- order(RIKZ$NAP) >NAPs <- sort(RIKZ$NAP) >plot(NAPs,F0[I],lwd=4,type="l",ylim=c(0,22), espcies",xlab="NAP") for (i in 1:9){ x1<-RIKZ$NAP[RIKZ$Beach==i] y1<-F1[RIKZ$Beach==i] K<-order(x1) lines(sort(x1),y1[K]) } >text(RIKZ$NAP,RIKZ$Richness,RIKZ$Beach,cex=0.9) Likelihood em Mixed Models MAXIMUM LIKELIHOOD (ML) - escolhe os parmetros tal que o valor de L mximo. O problema que ML ignora o fato que intercepto e slope so estimados no modelo. RESTRICTED MAXIMUM LIKELIHOOD (REML) - corrige o grau de liberdade incluindo o intercepto e o slope. Transformar algumas variveis em fatores: >RIKZ$fExp <- RIKZ$Exposure >RIKZ$fExp[RIKZ$fExp==8]<- 10 >RIKZ$fExp <- factor(RIKZ$fExp,levels = c (10,11)) Modelos com ML e com REML: 57 ylab="Riqueza de
>M0.ML <- lme (Richness ~ NAP, data = RIKZ, random = ~1| fBeach, method = "ML") >M0.REML <-lme (Richness ~ NAP, random = ~1|fBeach, data = RIKZ, method = "REML") >M1.ML <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1| fBeach, method = "ML") >M1.REML <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1| fBeach, method = "REML") Tabela 4. Resultados para dois modelos usando ML (coluna da esquerda) e REML (coluna da direita). Nmeros entre parnteses so erros padres. O primeiro modelo (parte de cima da tabela) usa um intercepto e NAP como varivel fixa e um intercepto aleatrio. O segundo modelo (parte inferior da tabela) usa os mesmos termos, exceto que a varivel nominal exposure usada como uma varivel fixa tambm.
PROTOCOLO PARA MIXED MODELS 1 - Comece com um modelo onde o componente fixo contm todas as variveis independentes e tantas interaes possveis. 2 - Ache a melhor estrutura para o modelo aleatrio. Modelos com REML precisam ser comparados tanto para LRT como para AIC ou BIC;
58
3 - Depois de achar o modelo aleatrio, temos que comparar os modelos fixos. Para isso temos que usar ML; 4 - Apresente o modelo final com REML; PASSOS 1 e 2 - Selecionando efeito aleatrio >B1 <- gls(Richness ~ 1 + NAP * fExp, method = "REML", data = RIKZ) >B2 <- lme(Richness ~1 + NAP * fExp, data = RIKZ, random = ~1 | fBeach, method = "REML") >B3 <- lme(Richness ~ 1 + NAP * fExp,data = RIKZ, random = ~1 NAP | fBeach, method = "REML") Seleo de Modelos Aleatrios AIC (B1, B2, B3) ou anova (B1, B2, B3) PASSO 3 - Selecionando efeito fixo >B2 <- lme (Richness ~ NAP * fExp, data = RIKZ, random = ~1 | fBeach, method = "ML") Fiquem atentos com valores de P prximos a 0,05. >B3 <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 | fBeach, method = "ML") >B3a <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 | fBeach, method = "ML") >B3b <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 | fBeach, method = "ML") >AICc <- ICtab(B2, B3, B3a, B3b, type = c("AICc"), weights = TRUE, delta = TRUE, sort = TRUE, nobs = 45) >AICc
59
PASSO 4 - Modelo Final com REML >B2 <- lme (Richness ~ NAP + fExp, data = RIKZ, random = ~1 | fBeach, method = "REML") >plot(B2) Exemplo Abelhas Os dados so aninhados com mltiplas observaes na mesma colmia. No total so 24 colmias com trs medidas por colmia. Mostrar comando VarIdent >data(Bees) Como varivel dependente temos densidade de esporos medido em cada colmia. A varivel independente Infection quantifica o grau de infeco, com valores 0, 1, 2 e 3. Embora mixed effects modelling podem lidar com um certo grau de dados desbalanceados, neste caso, melhor converter a varivel Infection em 0 (sem infeco) e 1 (infectado) porque existem poucas observaes com valores 2 e 3. Transformar a varivel Infection em presena e ausncia: >Bees$Infection01 <- Bees$Infection >Bees$Infection01[Bees$Infection01 > 0] <- 1 >Bees$fInfection01 <- factor(Bees$Infection01) Transformar colmia em fator e logaritimizar esporos: >Bees$fHive <- factor(Bees$Hive) >Bees$LSpobee <- log10(Bees$Spobee + 1) Plotar os dados por colmia: >op <- par(mfrow = c(1, 2), mar = c(3, 4, 1, 1)) >dotchart(Bees$Spobee, groups = Bees$fHive) >dotchart(Bees$LSpobee, groups = Bees$fHive) 60
>par(op) Comearemos com uma regresso linear e plotaremos os resduos por colmeia: >M1 <- lm (LSpobee ~ fInfection01 * BeesN, data = Bees) >E1 <- rstandard(M1) >plot (E1 ~ Bees$fHive, ylab = "Resduos", xlab = "Colmias") >abline (0, 0) Veja que algumas colmias apresentam os trs resduos acima do esperado, enquanto outras possuem trs resduos abaixo do esperado. Temos a opo de colocar colmia como random effect. Vantagens (1) requer um parmetro extra (varincia do intercepto), comparado com regresso linear que requer 23 parmetros extras. (2) Podemos fazer afirmaes para colmias em geral no s para as 24 colmias do estudo. Selecionando random effect >M1 <- lme(LSpobee ~ fInfection01 * BeesN, random = ~ 1 | fHive, method = "REML", data = Bees) >M2 <- lme(LSpobee ~ fInfection01 * BeesN, random = ~ 1 + BeesN | fHive, method = "REML", data = Bees) >M3 <- lme (LSpobee ~ fInfection01 * BeesN, random = ~ 1 + fInfection01 | fHive, method = "REML", ` >anova(M1,M2) >anova(M1,M3) Verificando o modelo selecionado: >plot (M1, col = 1) plota por infeco: >boxplot (LSpobee ~ fInfection01, data = Bees, varwidth = TRUE) 61 data = Bees)
Veja que h diferena na variao entre as categorias. Inserimos um comando para dizer que as varincias para infeco so diferentes. varIdent = permite modelar diferentes varincias para variveis categricas. >M1 <- lme (LSpobee ~ fInfection01 * BeesN, random = ~ 1 | fHive, method = "REML", data = Bees) >M4 <- lme (LSpobee ~ fInfection01 * BeesN, random = ~ 1 | fHive, method = "REML", data = Bees, weights = varIdent (form = ~ 1 | fInfection01)) >anova (M1,M4) Selecionando estrutura fixa: >M7full<lme (LSpobee ~ fInfection01 * BeesN, random = ~
1|fHive, weights = varIdent(form = ~ 1 | fInfection01), method = "ML", data = Bees) >M7sub <- update(M7full, .~. -fInfection01 : BeesN ) >anova (M7full,M7sub) >M8full <lme (LSpobee method = ~ fInfection01 "ML", data + = BeesN, Bees, random weights = ~ = 1|fHive,
varIdent(form =~ 1 | fInfection01)) >M8sub1 <- update (M8full, .~. -fInfection01 ) >M8sub2 <- update (M8full, .~. -BeesN ) >anova(M8full,M8sub1) >anova(M8full,M8sub2) >M9full<-lme(LSpobee fInfection01)) >M9sub1<-update(M9full, .~. -fInfection01 ) >anova(M9full,M9sub1) Modelo final: >Mfinal <- lme (LSpobee ~ fInfection01, random =~ 1|fHive, data = Bees, weights = varIdent (form = ~ 1 | fInfection01), method = "REML") 62 ~ fInfection01, random = ~ 1|fHive, method="ML", data = Bees, weights = varIdent(form =~ 1 |
>plot(Mfinal) Dados categricos: >data(ergoStool) Esforo requerido por quatro diferentes mandbulas para rasgar nove objetos diferentes. >fm1Stool <- lme (effort ~ Type, data = ergoStool, random = ~ 1 | Subject) >summary(fm1Stool) Tentar exe,plicar os valores: > (mean <- tapply(ergoStool$effort, ergoStool$Type, mean)) O primeiro parmetro (intercepto) a mdia da primeira categoria definida por ordem alfabtica. Portanto, sempre que for comparar categorias, o intercepto ser a categoria que comear com a menor letra do alfabeto. O segundo parmetro a diferena entre o segundo parmetro e o intercepto: 12.44 - 8.55 = 3.89 O terceiro parmetro a diferena entre o terceiro parmetro e o intercepto: 10.77 - 8.55 = 2.22 9.22 - 8.55 = 0.66 As comparaes podem ser alteradas de acordo com suas hipteses. Comparaes planejadas: >contrasts(ergoStool$Type)<-cbind(c(3,-1,-1,-1), c(0,2,-1,-1), c(0,0,-1,1)) >fm2Stool <- lme (effort ~ Type, data = ergoStool, random = ~ 1 | Subject) >summary(fm2Stool)
63
Veja que o efeito totak de fm1Stool no muda quando alteramos os contrastes: >anova(fm1Stool) >anova(fm2Stool) EXERCCIOS EXERCCIO 1 Carreguem os dados das corujas como demonstrado abaixo: >library (AED)## O pacote AED tem que ser baixado da pgina ## http://www.highstat.com/book2.htm >data(Owls) Varivel dependente = nmero de piados dos filhotes na ausncia dos pais - NegPerChick (Transforme em log essa varivel). Variveis independentes = variveis fixas [sexo dos pais, tratamento da alimentao (saciado e privado), hora de chegada dos pais] e varivel aleatria (ninho) Unidade amostral = ninho Teoria: Ecologia Comportamental Responda: Quais variveis melhor explicam o comportamento de negociao dos filhotes de coruja? EXERCCIO 2 Carregue a planilha predador.csv Varivel dependente = presena ou ausncia de predadores (larvas de odonata) em poas dgua com diferentes tamanhos onde foram amostrados girinos de Pseudopaludicola falcipes. Variveis independentes = tamanho das poas dgua Unidade amostral = poa dgua Teoria: Predao, Forrageio timo
64
Responda: A probabilidade da presena de predadores est relacionada com o tamanho das poas dgua? EXERCCIO 3 - Carregue os dados da planilha Solea.csv Varivel dependente = presena ou ausncia do peixe Solea solea num esturio em Portugal. Variveis independentes = 11 variveis preditoras Unidade amostral = cada rea de coleta ou ponto de coleta no esturio Teoria: Ecologia de Paisagem Responda: Quais variveis melhor explicam a presena de Solea solea nos berrios de Portugal?
CURVADEACUMULAODEESPCIES Curvas de acumulao de espcies, algumas vezes chamadas de curva do coletor, so representaes grficas que demonstram o nmero acumulado de espcies registradas (S) em funo do esforo amostral (n). O esforo amostral pode ser o nmero de indivduos coletados, ou uma medida tal como o nmero de amostras (e.g., quadrados) ou tempo amostral (e.g., meses). Colwell & Coddington (1994) sugeriram um mtodo que consiste em montar vrias curvas adicionando-se as amostras em uma ordem aleatria. Aps construir vrias curvas com este mtodo, pode-se calcular uma curva do coletor mdia (baseada na riqueza mdia para cada nmero de amostra) e expressar a variao possvel em torno dessa mdia. importante frisar que esta variao no corresponde ao conceito estatstico de intervalo de confiana, j que calculada por repeties das mesmas unidades amostrais (Santos 2003). Se as curvas de acumulao de espcies atingem um ponto em que o aumento do esforo de coleta no implica num aumento no nmero de espcies, isto significa que aproximadamente toda a riqueza da rea foi amostrada (Fig. 8).
65
Figura 8. Exemplo de uma curva de acumulao de espcies. RAREFAO Esse mtodo nos permite comparar o nmero de espcies entre comunidades quando o tamanho da amostra ou o nmero de indivduos (abundncia) no so iguais. A rarefao calcula o nmero esperado de espcies em cada comunidade tendo como base comparativa um valor em que todas as amostras atinjam um tamanho padro, ou comparaes baseadas na menor amostra ou com menos indivduos (dentre todas amostras possveis). Se considerarmos n indivduos (n < N) para cada comunidade, quantas espcies iramos registrar? () = Onde: E(S) = Nmero de espcies esperado N = Nmero total de indivduos na amostra Ni = Nmero de indivduos da isima espcie n = tamanho da amostra padronizada (menor amostra) 1 ( ! )/ /
Gotelli & Collwel (2001) descrevem este mtodo e discutem em detalhes as restries sobre seu uso na ecologia: i) as amostras a serem comparados devem ser consistentes do ponto de vista taxonmico, ou seja, todos os indivduos devem pertencer ao mesmo grupo taxonmico; ii) as comparaes devem ser realizadas somente entre amostras com as mesmas tcnicas de coleta; iii) os tipos de hbitat onde as amostras so obtidas devem ser semelhantes; e iv) um mtodo para estimar a riqueza de espcies em uma amostra menor no pode ser usado para extrapolar e estimar riqueza.
66
Exemplo: Uma amostra de roedores tem quatro espcies e 42 indivduos. A abundncia de cada espcie foi 21, 16, 3, e 2 indivduos. Desejamos calcular a riqueza de espcies esperada para amostras com 30 indivduos.
= 1
42 21 /30 42 16 /30 42 3 /30 42 2 /30 + 1 + 1 + 1 42/30 42/30 42/30 42/30
E(30) = 1 + 1 +0.981 + 0.923
E(30) = 3.9 espcies
REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos Primeiramente carregue o pacote vegan: >library(vegan) O comando geral para realizar a anlise de rarefao : >rarefy(x, sample, se = FALSE, MARG = 1) Onde: x = comunidade para a qual se deseja estimar a riqueza de espcies sample = tamanho da sub-amostra (n) se = desvio padro MARG = maneiras de visualizar o resultado Utilizar nmero 2 Imagine que voc tenha uma planilha aberta no R com o nome rare. Nesta planilha, existem trs colunas referentes trs comunidades de roedores, e em cada linha a abundncia de cada espcie (exemplo abaixo): 67
rare roedore roedore roedore s 21 16 3 2 0 0 0 0 s1 16 15 13 31 1 1 1 1 s2 10 10 10 10 10 10 10 0
Para obter-se o mesmo resultado do exerccio anterior sem ter que realizar os clculos manualmente, voc precisa digitar o seguinte comando: >rarefy(rare$roedores, sample = 30, MARG = 2) >3.9
Para calcular a rarefao para diferentes valores de sub-amostras precisa criar um comando com diversos tamanhos de amostras: >amostras1 <>amostras2 <c(seq(5, 40, by = 1)) c(seq(5, 80, by = 1))
>amostras3 <- c(seq(5, 70, by = 1))
Rarefao para as trs comunidades com vrios valores de sub-amostras: >roedor1 <- rarefy(rare$roedores, sample = amostras1, se = T, MARGIN = 2) >roedor2 <- rarefy(rare$roedores1, sample = amostras2, se = T, MARGIN = 2) >roedor3 <- rarefy(rare$roedores2, sample = amostras3, se = T, MARGIN = 2)
68
Grfico de rarefao para as trs comunidades >plot (amostras2, roedor2[1,], ylab = "Riqueza de espcies",xlab = "No. de Individuos",ylim = c(1, 9), xlim = c(1,90), type= "n") >text(30, 9, "Rarefao comunidade de roedores") >lines (amostras1, roedor1[1, ], type = "b", col = "red", lwd = 1.7) >lines (amostras2 + 0.2, roedor2[1, ], type = "b", col = "blue", lwd = 1.7) >lines (amostras3 + 0.4, roedor3[1, ], type = "b", col = "black", lwd = 1.7) >labs <- c ("Comunidade 1","Comunidade 2", "Comunidade 3") >legend (locator(1), labs, lty = c(1,2,3), col = c("red", "blue", "black") ,bty = "n") >abline (h = 0, v = 40, col = "yellow")
ESTIMADORESDERIQUEZA Uma vez que determinar a riqueza total de espcies numa rea praticamente impossvel, principalmente em regies com alta diversidade de espcies, os estimadores so teis para extrapolar a riqueza observada e tentar estimar a riqueza total atravs de uma amostra incompleta de uma comunidade biolgica (Walther & Moore 2005). Nesta apostila sero considerados apenas os estimadores no paramtricos (que no so baseados nos parmetros de um modelo de abundncia das espcies), para outros estimadores veja Magurran (2004). Chazdon et al. (1998) e Horter et al. (2006) definem quatro caractersticas para um bom estimador de riqueza: i) Independncia do tamanho da amostra (quantidade de esforo amostral realizado); ii) Insensibilidade a diferentes padres de distribuies (diferentes equitabilidades); iii) Insensibilidade em relao ordem das amostragens; iv) Insensibilidade heterogeneidade entre as amostras usadas entre estudos.
69
Tabela 5. Nmero de indivduos registrados de cada espcie de anuros em 14 amostras no noroeste de So Paulo, Brasil. Ser utilizado nos exemplos abaixo.
Espcies Delian Dmelan Dminu Dnanu Dmulle Ebic Esp Enat Halb Hfab Hran Lchaq Lfus Llab Riqueza Total AMOSTRAS 7 8 9 0 0 0 0 1 0 0 1 2 0 7 0 2 0 0 0 1 0 0 0 0 2 0 1 0 9 0 0 4 0 0 0 0 3 0 0 1 6 1 0 0 0 4 7 3 Total 38 2 39 42 17 3 3 30 20 4 30 14 47 1
1 0 0 0 4 0 0 0 0 5 0 14 0 8 0 4
2 0 0 2 0 0 0 0 4 0 0 0 0 3 0 3
3 6 0 1 3 0 0 2 1 0 0 0 0 2 0 6
4 15 0 15 15 3 0 0 0 0 0 5 0 5 0 6
5 2 1 8 2 12 1 0 17 0 0 0 11 4 0 9
6 2 0 2 2 0 0 0 0 1 0 1 0 2 0 6
10 1 0 2 2 0 0 1 0 1 0 2 0 3 1 8
11 0 0 0 0 0 0 0 4 0 0 0 0 1 0 2
12 5 0 4 3 0 0 0 0 0 0 0 0 2 0 4
13 5 0 0 2 0 1 0 0 4 0 8 0 3 0 6
14 2 0 2 2 0 0 0 1 0 0 0 0 6 0 5
CHAO 1 Estimador simples do nmero absoluto de espcies em uma comunidade. baseado no nmero de espcies raras dentro de uma amostra. Esse mtodo requer a abundncia das espcies. ! = !"# + onde: Sobs = o nmero de espcies na comunidade F1 = nmero de espcies observadas com abundncia de um indivduo (espcies singleton) F2 = nmero de espcies observadas com abundncia de dois indivduos (espcies doubletons). O valor de Chao 1 mximo quando todas as espcies menos uma so nicas (singleton). Neste caso, a riqueza estimada aproximadamente o dobro da riqueza observada. Exemplo: Usando os dados da tabela 1 calcule o valor de Chao 1 para a comunidade: Chao 1 = 14 + [(12)/(2*1)] = 14 + (1/2) = 14 + 0,5 Chao 1 = 14,5
! ! 2!
70
REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos Carregue os pacotes Vegan e BiodiversityR >library(vegan) >library(BiodiversityR)
Imagine que voc tenha a mesma tabela acima salva no R com o nome est. Aps carregar essa tabela voc pode obter o valor de Chao 1 atravs do seguinte comando: >est <- read.table (estimadores, h = T) >Chao1 <-estaccumR (est, permutations = 100) >summary(Chao1, display = chao)
Outra maneira de conseguir o mesmo valor: >est1 <colSums(est)## soma abundncia de cada linha =
abundncia total por espcie >Chao1 <- estimateR (est1) >Chao1 CHAO 2 De acordo com Anne Chao, o estimador Chao 1 pode ser modificado para uso com dados de presena/ausncia levando em conta a distribuio das espcies entre amostras. Neste caso necessrio somente conhecer o nmero de espcies encontradas em somente uma amostra e o nmero de espcies encontradas exatamente em duas amostras. Essa variao ficou denominada Chao 2: ! = !"# + onde: L = nmero de espcies que ocorrem apenas em uma amostra (espcies uniques) M = nmero de espcies que ocorrem em exatamente duas amostras (espcies duplicates) O valor de Chao 2 mximo quando todas as espcies menos uma so nicas (singletons). Neste caso, a riqueza estimada aproximadamente o dobro da riqueza observada. 71 ! 2
Collwel & Coddington (1994) encontraram que o valor de Chao 2 mostrou ser o estimador menos enviesado para amostras com tamanho pequeno. Exemplo: Usando os dados da tabela 1 calcule o valor de Chao 2 para a comunidade: Chao 2 = 14 + [(22)/(2*3)] = 14 + (4/6) = 14 + 0.66 Chao 2 = 14.66
REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos A funo poolaccum do pacote vegan apresenta resultados mais completos com valores de riqueza de espcie estimado para cada amostra >est <- read.table (estimadores, h = T) >Chao2 <- poolaccum (est, permutations = 100) >summary(Chao2, display = chao)
Os comandos specpool e diversityresult so mais simples e diretos, pois apresentam somente o valor final estimado: >Chao2 <- specpool(est) >Chao2 >Chao2 <- diversityresult(est, index = chao)
JACKKNIFE 1 Este estimador baseia-se no nmero de espcies que ocorrem em somente uma amostra (Q1). ! = !"# + ! Onde: m = nmero de amostras 1
72
Palmer (1990) verificou que Jackknife 1 foi o estimador mais preciso e menos enviesado quando comparado a outros mtodos de extrapolao.
Exemplo: Usando os dados da tabela 1 calcule o valor de Jaccknife 1 para a comunidade: Jack 1 = 14 + 2 * [(14-1)/14] = 14 + 2 * (0.92) = 14 + 1.857 Jack 1 = 15.857
REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos >est <- read.table(estimadores, h = T) >Jackk1 <- poolaccum(est, permutations = 100) >summary(Jackk1, display = jack1)
Outra maneira de conseguir o mesmo valor: >Jackk1 <- specpool(est) >Jackk1 >Jackk1 <- diversityresult(est, index = jack1) JACKKNIFE 2 Este mtodo basea-se no nmero de espcies que ocorrem em apenas uma amostra e no nmero de espcies que ocorrem em exatamente duas amostras.
1 (2 3) 2 ( 2)2 2 = + ( 1)
Onde: Q1 = nmero de espcies registradas em apenas uma amostra Q2 = nmero de espcies registradas em exatamente duas amotras 73
m = nmero de amostras Exemplo: Usando os dados da tabela 1 calcule o valor de Jaccknife 2 para a comunidade: Jack 2 = 14 + [2 *(((2*14)-3))/14))] [3*((14-2)2)/(14(14-1))] = 14 + 3,57 2,37 Jack 2 = 15.197
REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos >est <-read.table(estimadores, h = T) >Jackk2 <- poolaccum(est, permutations = 100) >summary(Jackk2, display = jack2)
Outra maneira de conseguir o mesmo valor: >Jackk2 <- specpool(est) >Jackk2 >Jackk 2 <- diversityresult(est, index = jack2)
ACE (Abundance-based Coverage Estimator) Este mtodo trabalha com a abundncia das espcies raras (abundncia baixa). Entretanto, diferente dos estimadores anteriores, esse mtodo permite ao pesquisador determinar os limites para os quais uma espcie seja considerada rara. Em geral, so consideradas raras espcies com abundncia entre 1 e 10 indivduos. A riqueza estimada pode variar conforme se aumente ou diminua o limiar de abundncia, e infelizmente no existem critrios biolgicos definidos para a escolha do melhor intervalo (Santos 2003). = !"#$% + !"!# ! ! + !"# !"# !"#
Onde:
74
! !"# =
!" !"!# !!! ( 1)! 1 !"# (!"!# )(!"!# 1)
!"# = 1 +
!"
! !"!#
!"!# =
!!!
No precisa fazer cara feia, bvio que iremos usar o programa para fazer esses clculos.
REALIZANDO O EXERCCIO NO PROGRAMA R: Comandos >est <- read.table(estimadores.txt, h = T) >ACE <- estaccumR(est, permutations = 100) >summary(ACE, display = ace)
Outra maneira de conseguir o mesmo valor: >est1<-colSums(est) ## soma abundncia de cada linha= abundncia total por espcie >ACE <- estimateR(est1) >ACE ICE (Incidence-based Coverage Estimator) Este mtodo trabalha com o nmero de espcies infreqentes (que ocorrem em poucas unidades amostrais). Esse mtodo permite ao pesquisador determinar os limites para os quais uma espcie seja considerada infreqente. Em geral, so consideradas como tal espcies com incidncia entre 1 e 10 indivduos (Chazdon et al. 1998) ou 1 a 20 (Walther & Morand 1998). A riqueza estimada pode variar conforme se aumente ou diminua o limiar de incidncia, e
75
infelizmente no existem critrios biolgicos definidos para a escolha do melhor intervalo (Santos 2003). = !"#$ + !"# ! ! ! + !"# !"# !"#
onde:
! !"# =
!"# ! !"# ! !"# (!"# !!! )
!" !!! (
1)!
(!"# ! )!
!"# = 1 +
!"
! !"# !
!"#! =
!!!
REALIZANDO O EXERCCIO NO PROGRAMA R: Comandos >est <-read.table(estimadores, h = T) >ICE <- poolaccum(est, permutations = 100) >summary(ICE, display = ice)
Outra maneira de conseguir o mesmo valor: >ICE <- specpool(est) >ICE BOOTSTRAP Este mtodo difere dos demais por utilizar dados de todas as espcies coletadas para estimar a riqueza total, no se restringindo s espcies raras. Ele requer somente dados de
76
incidncia. A estimativa pelo bootstrap calculada somando-se a riqueza observada soma do inverso da proporo de amostras em que cada espcie ocorre.
!!"#
= !"# +
!!!
(1 ! )!
Onde: Pk = proporo do nmero de amostras em que cada espcie foi registrada m = nmero de amostras Exemplo: Usando os dados da tabela 1 calcule o valor de bootstrap para a comunidade: Bootstrap = 14 + [ (1- 8/14)14 +(1- 2/14)14 +(1- 10/14)14 +(1- 10/14)14 +(1- 3/14)14 +(1- 3/14)14 +(1- 2/14)14 + (1- 7/14)14 +(1- 5/14)14 +(1- 1/14)14 +(1- 5/14)14 +(1- 2/14)14 +(1- 14/14)14 +(1- 1/14)14] Bootstrap = 14 + 1 ,127 Boostrap = 15,127
REALIZANDO O MESMO EXERCCIO NO PROGRAMA R: Comandos >est <-read.table(estimadores, h = T) >BOOT <- poolaccum(est, permutations = 100) >summary(BOOT, display = boot)
Outra maneira de conseguir o mesmo valor: >BOOT <- specpool (est) >BOOT >BOOT <- diversityresult (est, index = boot)
77
EXERCCIOS 1) Utilize os dados da planilha rarefao exercicios.csv que foi entregue no cd junto com a apostila. a) Calcule a abundncia total em cada uma das comunidades b) Calcule a riqueza total em cada comunidade c) Construa uma grfico de rarefao comparando as quatro comunidades 2) Para esse exerccio usaremos os dados disponveis na pagina do Prof. Dr. Adriano Melo da Universidade Federal de Gois. Para carregar os dados vocs precisam digitar o comando abaixo: japi <read.table(http://www.ecologia.ufrgs.br/~adrimelo/div/japi.txt , h=T) a) Faa um grfico com a curva do coletor e acumulao (rarefao) de espcies/amostra juntos no mesmo grfico. 3) Utilizando a planilha est.csv a) Faa um grfico com o estimador de riqueza bootstrap e a riqueza observada b) Faa um grfico com o estimador de riqueza chao1 e a riqueza observada c) Faa um grfico com os estimadores jackknife 1 e 2 e a riqueza observada ESTIMATES O programa R tem grandes vantagens sobre outros programas estatsticos, por permitir realizar diversos tipos de anlises, plotar grficos, e alterar funes de acordo com suas necessidades (leia o incio dessa apostila). No entanto, existe um programa gratuito, disponvel na internet no endereo http://viceroy.eeb.uconn.edu/estimates voltado analises com estimadores de riqueza. Este site foi criado e mantido pelo Dr. Robert K. Colwell, um dos maiores especialistas do mundo em estimativas da biodiversidade.
78
Aqui mostramos rapidamente como realizar as anlises nesse programa. 1 A planilha que voc utilizar deve ser montada da seguinte maneira no Excel. A1 = nome da planilha; A2 = Nmero de espcies; B2 = Nmero de amostras. NO coloque o nome das espcies.
2 Salve a planilha no formato .txt Texto separado por tabulao; 3 Depois de salvar a planilha no formato Texto separado por tabulao, abrir o programa Estimates; 4 - A tela abaixo deve aparecer; 5 - Selecionar FILE; 6 Selecionar a opo LOAD DATA INPUT FILE para carregar a planilha. Procure onde ela foi salva no seu computador;
7 Se o programa carregar a planilha corretamente, aparecer a tela abaixo; 8 Veja o nmero de espcies (Species) e amostras (Samples). Se estiver correto, clicar em OK nas telas que aparecero;
79
9 Agora necessrio configurar o programa para realizar os testes; 10 Clicar em DIVERSITY, como demonstrado na tela abaixo;
11 Escolham a opo Diversity Settings
12 Coloque 500 no lugar de 50 aleatorizaes 13 Depois de colocarem 500 cliquem na aba Estimators (destacado em amarelo) e depois em OK;
80
14 - Determine o nmero de espcies raras para o ACE e ICE. Esse nmero corresponde ao nmero de espcies que o programa ir considerar como espcies raras; 15 Clicar em OK; 16 - Agora s correr o teste. Clicar em Compute Diversity Stats;
17 Aparecer uma tela com os resultados do teste; 18 Clicar em Export e salvar em algum lugar no seu computador, depois s abrir com o Excel e fazer os grficos no R;
81
NDICES DE DIVERSIDADE E DIVERSIDADE BETA () ndices de diversidade Os ndices de diversidade representam uma medida que combina a riqueza e abundncia relativa (equitabilidade) das espcies de uma comunidade. O ndice de Shannon (H) um dos mais utilizados na literatura para medir a diversidade de espcies. Este ndice derivado da teoria da informao e sua funo foi derivada como: H = ! ln! Onde pi representa a proporo de indivduos na i-nsima espcie em relao abundncia total na comunidade. Quanto maior o valor de H, maior a diversidade da comunidade. Os valores de H raramente ultrapassam 4, sendo que para que H seja maior do que 5 a comunidade precisa ter mais de 105 espcies. Um dos problemas do ndice de Shannon que a diversidade confundida pela riqueza de espcies e equitabilidade. Desse modo, tanto o nmero de espcies quanto o esforo amostral afetam o valor final do ndice. Alm disso, quando confrontamos valores de diversidade entre duas comunidades, por exemplo, H = 2,71 e H = 2,59, temos dificuldade para decidir se os valores so, de fato, diferentes. Outro ndice de diversidade muito usado por eclogos o ndice de Simpson (D). Este ndice mede a probabilidade de dois indivduos coletados ao acaso pertencerem mesma espcie atravs da frmula:
! D = !
Onde pi representa a proporo de indivduos na i-nsima espcie em relao s abundncia total na comunidade. Quanto maior o valor de D, menor a diversidade da comunidade. Alguns autores expressam a frmula do ndice de Simpson como 1 D ou 1 / D. Este ndice considerado uma das medidas de diversidade mais robustas. Apesar de existir um nmero impressionante de mtricas para medir a diversidade biolgica (Hulbert 1972, Magurran 2004), diversos autores desencorajam o uso dessas mtricas para testar hipteses ecolgicas. Dentre os principais motivos destacamos: (1) ausncia de uma base probabilstica que nos permita assinalar valores de significncia que, por sua vez, impede que faamos comparaes biolgicas entre duas comunidades; (2) todos os ndices de diversidade so fortemente sensveis ao nmero de indivduos e de espcies; (3) problemas conceituais e de mltiplas definies que trazem pouco sentido biolgico e dificultam a interpretao de padres ecolgicos. Dentre os autores que criticam a utilizao de ndices de diversidade na ecologia, se destacam pela clareza dos argumentos o trabalho marcante de 82
Hulbert (1971) e Gotelli & Graves (1996). Resumindo as idias, a indefinio conceitual e tcnica dos ndices de diversidade sugerem que sua utilizao seja abandonada (ou que sejam utilizados com rigor tremendo). H quem se refira diversidade de espcies como um noconceito (Hulbert 1971). Como alternativa elegante, a utilizao da riqueza de espcies e da abundncia relativa como mtricas distintas para medir a diversidade, bem como suas respostas s alteraes ambientais, pode ser o melhor caminho para o desenvolvimento de bons estudos ecolgicos. Calculando os ndices de diversidade no R >library(vegan) >mata.atlantica=read.table("mata.atlantica.txt", header=T) >H=diversity(mata.atlantica, index="shannon") >D=diversity(mata.atlantica, index="simpson") >D.inv=diversity(mata.atlantica, index="invsimpson") >riqueza=specnumber(mata.atlantica) >diversidade.MA=cbind(riqueza, H, D, D.inv) >diversidade.MA >pairs(cbind(riqueza, H, D, D.inv), pch="+", col="black") Praticando: Exemplo 1: Bromlias geralmente acumulam gua no fitotelmata e diversos grupos de artrpodes utilizam esses tanques para depositar ovos. Desse modo, as larvas aquticas desses animais vivem imersas at atingirem a fase adulta. Uma biloga coletou larvas em quatro espcies de bromlias-tanque (n=30 plantas de cada espcie) e dividiu cada bromlia em trs grupos de tamanho: pequena (<100 ml de gua acumulada; n=10/espcie), mdia (101 600 ml de gua acumulada; n=10/espcie) e grande (> 601 ml de gua acumulada; n=10/espcie). Utilize os arquivos bromelias.txt e bromelia1.txt. Pergunta 1: Qual espcie de bromlia possui maior diversidade de artrpodes aquticos? Pergunta 2: O volume de gua afeta a diversidade de espcies de artrpodes aquticos na Bromlia sp.1? - Teoria: teoria da biogeografia de ilhas (volume de hbitat). 83
- Unidade amostral: bromlia - Varivel dependente: diversidade medida por algum ndice de diversidade - Varivel independente: espcie de bromlia, volume (categorias pequena, mdia e grande) Responda: Qual a espcie de bromlia com maior diversidade? O volume de gua acumulada no fitotelmata aumenta a diversidade de artrpodes na Bromlia sp.1? Utilize as funes do R que aprendeu e calcule o ndice de Shannon e Simpson.
Curvas de dominncia ou Padro de Distribuio da Abundncia das Espcies (SADs) Uma alternativa mais interessante para investigar concomitantemente a riqueza e a equitabilidade das espcies numa comunidade a construo de curvas de dominncia, conhecida na literatura ecolgica por Species Abundance Distributions (SADs), curvas de dominncia ou diagramas de abundncia relativa. Essas curvas descrevem a abundncia das espcies encontradas na comunidade (McGill et al. 2007). A maioria das comunidades dominada por poucas espcies, um padro conhecido como na literatura como J invertido. Uma maneira comum de representar graficamente as curvas de dominncia organizar as espcies em ordem decrescente de abundncia no eixo x (i.e., da espcie mais abundante para a menos abundante) e o log da abundncia de cada espcie no eixo y (Fig. 9a). A representao desses diagramas evidencia as diferenas no padro de equibilidade entre diferentes comunidades. Aps o trabalho de Whittaker (1965), a utilizao de diagramas de abundncia relativa ganhou fora, especialmente para ilustrar as modificaes na flora ou na fauna durante a sucesso ecolgica ou aps um impacto ambiental. A informao mais bsica que pode ser retirada dos diagramas est na inclinao das curvas; quanto maior a inclinao, maior a dominncia da comunidade estudada (Fig. 9b). Alm disso, quanto mais longa a curva, maior a riqueza de espcies da comunidade. Diversos trabalhos propuseram modelos tericos para explicar os padres de distribuio da abundncia das espcies (Tokeshi 1999, Hubbel 2001, Magurran 2004, McGill et al. 2007). Alguns deles tm origem puramente estatstica, como o modelo Log-normal, enquanto outros foram criados a partir de um arcabouo terico (biolgico) explcito, como os modelos Broken-Stick (nomeado null no pacote radfit do R), srie geomtrica (preemption no R), Zipf e Zipf-Mandelbrot. A abundncia esperada (LNar) segundo o modelo estatstico Log-normal para a espcie da ordem r : ! = exp(log + ) 84
Onde N representa o desvio Normal e e so os coeficientes da frmula. A abundncia esperada (BSar) para a espcie na ordem (do ingls rank) r para o modelo BrokenStick : ! = (/)
! !!!
(1/)
Onde J representa o nmero total de indivduos na comunidade e S o nmero total de espcies. Para o modelo Srie Geomtrica, a abundncia esperada (GSar) para a espcie da ordem r : ! = (1 )!!! Onde J representa o nmero total de indivduos na comunidade e o coeficiente uma estimativa da taxa de decrscimo da abundncia por ordem r. Para o modelo Zipf, a abundncia esperada (Zar) para a espcie da ordem r : ! = ! ! Onde J representa o nmero total de indivduos na comunidade, p1 a proporo ajustada da espcie mais abundante e o coeficiente de decrscimo da abundncia por ordem r. O modelo Zipf-Mandelbrot acrescenta um parmetro na frmula do Zipf para estimar a abundncia (ZMar) da espcie da ordem r: ! = ( + )! Onde J representa o nmero total de indivduos na comunidade, c e so constantes de escala e o coeficiente de decrscimo da abundncia por ordem r (Wilson 1991).
A)
Nmerodeespcies
160 140
B)
100
90 80 70
ComunidadeA ComunidadeB ComunidadeC
Abundncia
120 100
60 50 40 30 20 10 0
80
60 40 20 0
10
20
40
60
10 11 12 13 14 15 16 17 18 19 20
Ordemdasespcies
Figura 9. Duas representaes comuns do padro de distribuio da abundncia das espcies. (A) Representao bsica com o nmero de espcies com suas respectivas abundncias organizadas em ordem decrescente. (B) Diagramas de abundncia relativa (ou curvas de dominncia) que podem ser utilizados para comparar o padro de dominncia entre diferentes comunidades. 85
Nmerodeindivduos
Escolhendo o melhor modelo terico no R > library(vegan) > rios=read.table("rios.txt", h=T) > rios > rad.rio1=radfit(rios[1,]) > rad.rio1 > plot(rad.rio1, xlab="Ordem das espcies", ylab="Abundncia", pch=19) > rad.rio2=radfit(rios[2,]) > rad.rio2 > plot(rad.rio2, xlab="Ordem das espcies", ylab="Abundncia", pch=19) > rad.rio3=radfit(rios[3,]) > rad.rio3 > plot(rad.rio3, xlab="Ordem das espcies", ylab="Abundncia", pch=19) > par(mfrow=c(2, 2)) > plot(rad.rio1, main="Rio 1", xlab="Ordem das espcies", ylab="Abundncia", pch=19) > plot(rad.rio2, main="Rio 2", xlab="Ordem das espcies", ylab="Abundncia", pch=19) > plot(rad.rio3, main="Rio 3", xlab="Ordem das espcies", ylab="Abundncia", pch=19) Praticando: Exerccio 1: A biloga responsvel pela Secretaria de Meio Ambiente do Municpio de Florianpolis/SC precisa determinar a qualidade da gua das seis praias mais movimentadas da cidade. Este trabalho surgiu aps reclamaes de banhistas e de pescadores de algumas dessas praias. A biloga mediu os nveis de colifrmes fecais e coletou peixes em vrios pontos de cada praia. Um estagirio derrubou o computador da biloga e perdeu todos os dados dessa pesquisa. Por sorte, a biloga havia anotado todos os dados referentes aos peixes coletados nas praias. Porm, os dados sobre os nveis de colifrmes fecais s foram anotados em arquivo digital. Com recursos limitados, a biloga no pde refazer as anlises da qualidade da gua e precisa realizar uma avaliao indireta a partir dos dados de riqueza e abundncia de peixes. Teoria: Teoria do distrbio + Distribuio da Abundncia das Espcies (SADs)
86
Pergunta: Praias mais poludas possuem padro de distribuio da abundncia da espcies mais equitativo? Unidade amostral: Pontos de amostragem em cada praia Varivel dependente: Abundncia relativa Varivel independente: Praia Importe a planilha peixes.floripa.txt e indique a partir dos diagramas de abundncia relativa qual a praia com melhor e pior qualidade da gua. Informe os modelos tericos que melhor explicam o padro de distribuio de abundncia de cada praia e faa um diagrama de abundncia relativa para cada praia e uma figura contendo todos os diagramas na mesma janela.
Diversidade beta Desde o incio da ecologia, a identidade das espcies que constituem determinada comunidade (i.e., composio de espcies) tem gerado uma srie de hipteses importantes para o entendimento de como os organismos se distribuem no espao e no tempo. Uma das principais perguntas sobre esse assunto O que torna comunidades de espcies mais ou menos similares em diferentes lugares e tempos? (Vellend 2010). Aps os influentes estudos do eclogo Robert Whittaker (Whittaker 1960, 1972), o termo diversidade beta (i.e., variao na composio de espcies entre reas) ganhou fora na literatura ecolgica. Nas duas ltimas dcadas, o nmero de trabalhos aumentou expressivamente com o desenvolvimento de novos mtodos para medir a diversidade beta e de novos pacotes estatsticos. A grande quantidade de medidas, abordagens estatsticas, termos e interpretaes para a diversidade beta aumentaram a confuso em relao s maneiras corretas de acessar e testar os padres de modificao na composio de espcies (Tuomisto 2010a,b, Anderson et al. 2011). Nesta apostila utilizaremos um roteiro prtico baseado em hipteses sugerido recentemente por Anderson et al. (2011). Primeiro, importante diferenciar dois tipos de conceito de diversidade beta, o conceito de substituio (turnover) e de variao. A substituio representa a modificao na composio de espcies de uma unidade amostral para a outra ao longo de um gradiente espacial, temporal ou ambiental. A substituio requer um gradiente que indique direo como, por exemplo, investigar a mudana na composio de espcies ao longo de um gradiente de profundidade em um lago (Fig. 10a). As principais questes testadas na anlise de substituio so: (1) quantas novas espcies so encontradas ao longo de um gradiente e quantas delas foram inicialmente presentes e agora foram perdidas? (2) Qual a proporo de espcies encontradas em uma unidade amostral que no so compartilhadas com a prxima unidade do gradiente? 87
Por outro lado, a variao representa a modificao na composio de espcies entre um grupo de unidades amostrais (Fig. 10b). A variao necessariamente no-direcional e representa a modificao das espcies dentro de uma extenso espacial ou temporal determinada, ou dentro de um mesmo fator (e.g., tipo de hbitat, fragmentos florestais). As principais questes testadas na anlise de variao so: (1) podemos encontrar as mesmas espcies repetidamente entre diferentes unidades? (2) Qual a proporo esperada de espcies no compartilhadas entre todas as unidades amostrais? Antes de usar os ndices propostos nessa apostila, leia atentamente o artigo recentemente publicado na Ecology Letters (Anderson et al. 2011) para escolher corretamente o ndice que responde a sua questo. Alm disso, Koleff et al. (2003) e Legendre & Legendre (1998) so extremamente importantes para compreender a formulao e caractersticas de cada um dos ndices de diversidade beta.
A) B)
Transecto
Unidadeamostral
Gradienteespacial,temporalouambiental
Figura 10. Diagrama esquemtico dos dois tipos de diversidade beta: (A) substituio, mede taxa de modificao na composio de espcie em relao a um gradiente direcional; (B) variao, mede a diferena na composio de espcies entre grupos de unidades amostrais e no-direcional (adaptado de Anderson et al. 2011).
Mtricas para medir a diversidade beta Um dos primeiros ndices propostos para medir a diversidade beta o ndice de Whittaker (w), que examina a taxa de diferenciao na diversidade alfa (riqueza local; ) entre duas ou mais comunidades em relao diversidade gama (riqueza regional; ). A frmula foi proposta por Whittaker (1960) : ! = / = (b + c) / (2a + b + c) Onde representa o total de espcies S, e o valor mdio da riqueza de uma amostra. O valor a representa o nmero de espcies compartilhadas, e os valores b e c o nmero de 88
espcies no compartilhadas entre duas comunidades. O foco dessa anlise na identidade da espcie e em quantas vezes a riqueza em uma regio maior do que o valor mdio da riqueza na menor unidade amostral. ndices binrios (presena/ausncia) Os ndices mais conhecidos e utilizados na ecologia so o ndice de similaridade de Jaccard (J) e Srensen (S). O inverso desses ndices, i.e., o valor de dissimilaridade, so denomidados dJ e dS. Para calcular cada um desses ndices usamos as frmulas: J = a / (a + b + c) dJ = 1 J S = 2a / (2a + b + c) dS = 1 S Onde a representa o nmero de espcies compartilhadas entre duas unidades amostrais i e j, b representa o nmero de espcies que ocorrem na comunidade i, mas no em j, e c representa o nmero de espcies que ocorrem na comunidade j, mas no em i. Os valores de J e S variam de 0 (comunidades sem nenhuma espcie compartilhada) a 1 (comunidades que compartilham todas as espcies, i.e., similaridade total). Os valores de dissimilaridade dJ e ds variam de 0 (comunidades idnticas) a 1 (comunidades que no compartilham nenhuma espcies, i.e., dissimilaridade total). A diferena bsica entre os ndices J e S que o segundo atribui maior peso presena das espcies (2a na frmula de S). Em teoria, uma espcie que ocorre em duas comunidades mais importante do que uma espcie que no ocorre em nenhuma das duas comunidades (dupla ausncia) (veja discusso em Anderson et al. 2011).
ndices quantitativos (abundncia relativa) Bray-Curtis O ndice de Bray-Curtis (BCij) considerado um ndice semi-mtrico e utiliza a abundncia das espcies em sua frmula :
! !!! !! ! !!!(!!
(!!,!!) =
!! + !! )
89
Onde y1j representa a abundncia da espcie j na localidade x1 e y2j na localidade x2. Esse clculo prossegue at a espcie p.
Medidas multivariadas Uma medida de diversidade beta interessante para comparar N amostras a disperso em um espao multivariado, com uma anlise conhecida como teste de homogeneidade de disperses multivariadas (Anderson 2006). Esta anlise calcula o centride (ou mediana especial) de um grupo especfico (e.g., lagoa 1) e compara a dissimilaridade mdia das n observaes individuais dentro desse grupo (e.g., abundncia de cada espcie p na lagoa 1) utilizando uma medida apropriada de dissimilaridade (e.g., Bray-Curtis, Chao-Srensen, Distncia Euclideana, Jaccard, Srensen). O clculo do centride para medidas que utilizam distncia euclidiana a mdia aritmtica de cada varivel. Porm, para calcular o centride para ndice de distncia no-euclidianos (e.g., Jaccard) necessrio fazer uma anlise de coordenadas principais (Anderson 2006). A hiptese nula desta anlise a de que a diversidade beta no diferente entre as amostras de interesse. Para acessar a probabilidade de a hiptese nula ser verdadeira utiliza-se a estatstica F de Levene comparando a distncia mdia de cada observao ao centride do seu grupo que, por sua vez, definido por uma medida de dissimilaridade. Para gerar os valores do P so realizadas n permutaes (e.g., 1000) (detalhes em Anderson 2006).
Calculando os ndices de diversidade no R 1. Calculando o ndice clssico de Whittaker (w): > salinidade=read.table("salinidade.txt", header=T) > salinidade > diversidade.beta=betadiver(salinidade, "w") > diversidade.beta 2. Calculando ndices de Jaccard e Srensen: > jaccard=betadiver(salinidade, "j") > sorensen=betadiver(salinidade, "sor") > scores(jaccard) > scores(sorensen)
90
3. Calculando os ndices de Bray-Curtis e Morisita-Horn: > library(vegan) > data(mite) > bray=vegdist(mite, "bray") > bray > morisita.horn=vegdist(mite, "horn") > morisita.horn # Testando hipteses com as matrizes de similaridade/dissimilaridade > library(vegan) > data(varespec) > data(varechem) > dist.species=vegdist(varespec, "bray") > dist.chemical=vegdist(scale(varechem), "euclidean") > associacao=mantel(dist.species, dist.chemical) > associacao 4. Calculando os ndices de Chao-Jaccard e Chao-Srensen: > CSoren.dist=ecol.dist(ilhas, chao.sorenson, type="dis") > CSoren.simi=ecol.dist(ilhas, chao.sorenson, type="sim") > CJaccar.dist=ecol.dist(ilhas, chao.jaccard, type="dis") > CJaccar.simi=ecol.dist(ilhas, chao.jaccard, type="sim") # se optar por calcular a similaridade entre duas localidades use a seguinte funo: > IlhaA=ilhas[,1] > IlhaB=ilhas[,2] > CSoren.A.B=chao.sorenson(IlhaA, IlhaB) > CJaccar.A.B=chao.jaccard(IlhaA, IlhaB) > CSoren.A.B > CJaccar.A.B 5. Calculando outros ndices de similaridade com o pacote fossil: > library (fossil) > Comunidade.A <- c(1,0,4,3,5,0,0,7) > Comunidade.B <- c(2,1,3,0,0,1,0,6) > bray.curtis(Comunidade.A, Comunidade.B) 91
> jaccard(Comunidade.A, Comunidade.B) > simpson(Comunidade.A, Comunidade.B) > sorenson(Comunidade.A, Comunidade.B) > morisita.horn(Comunidade.A, Comunidade.B) 6. Teste de homogeneidade de disperses multivariadas: > library(vegan) > cafe=read.table("cafe.txt", header=T) > tipo.matriz=factor(c(rep(1,16), rep(2,8)), labels = c("com.mata","sem.mata")) > dissimilaridade=vegdist(cafe, "bray") > HDM=betadisper(dissimilaridade, tipo.matriz) > valor.P=permutest(HDM, pairwise = F) > plot(HDM) Praticando: Exerccio 1: Baseado na teoria de que os organismos selecionam sua planta hospedeira considerando caractersticas fisiolgicas e estruturais, um bilogo pretende testar se trs clones (clones x1, x2, e x3) de uma planta X possuem composio de espcies de caros diferente. Ele coletou caros em 60 plantas (20 plantas de cada clone) em uma estao experimental que cultiva a planta X. Em cada planta, o bilogo coletou 10 folhas e identificou e quantificou todos os caros. Alm disso, o bilogo mensurou o comprimento, largura e rea foliar e a densidade de tricomas. Pergunta: O clone afeta a composio de espcies de caros? Teoria: Teoria do nicho (species sorting) Unidade amostral: Folha Varivel dependente: Composio de espcies Varivel independente: comprimento, largura e rea foliar, e a densidade de tricomas. Importe a planilha clone.col1.txt e clone.col2.txte verifique se os clones possuem composio semelhante ou diferente nas duas coletas hipotticas. Aps as anlises, responda a pergunta do bilogo para cada coleta. Os resultados realmente permitem que a pergunta seja respondida? O que voc pode interpretar com a coleta 1 e com a coleta 2?
92
Exerccio 2: Uma atividade muito comum em pases com megadiversiadade de aves tais como o Brasil chamada de birdwatching (BW), que consiste no estudo e observao de aves a olho nu ou com binculos. Turistas estrangeiros gastam milhes de dlares anualmente para observar aves em florestas tropicais. Em uma fazenda particular com 10000 ha de floresta amaznica, um bilogo comparou o impacto do BW na diversidade beta de aves. Ele comparou dez trilhas utilizadas para BW e dez trilhas bloqueadas para turismo e pesquisa. O bilogo acredita que o fluxo de turistas nas trilhas interfere no comportamento de forrageio de muitas espcies de aves e diminui a riqueza e diversidade beta em comparao com reas sem esta atividade. Pergunta: a diversidade beta maior em reas sem BW? Teoria: Nicho, teoria do forregaio timo. Unidade amostral: pontos de amostragem ao longo da trilha. Varivel dependente: diversidade beta. Varivel independente: tipo de trilha (indiretamente relacionado ao impacto do turismo). - Importe a planilha birdwatch.txt e responda se o turismo (BW) afeta a diversidade beta de aves utilizando o teste de homogeneidade de disperses multivariadas. Faa uma figura representando a disperso multivariada das observaes em relao ao centride de cada grupo: trilha com turismo e trilha sem turismo. As dez primeiras linhas do arquivo birdwatch.txt representam trilhas bloqueadas a turistas e pesquisadores e as dez ltimas linhas so trilhas utilizadas para BW.
INTRODUO ESTATSTICA MULTIVARIADA Neste mdulo iremos aprender como implementar no R as anlises multivariadas mais comumente utilizadas em ecologia de comunidades. Para isso precisaremos dos pacotes vegan, labdsv e ade4. Devido restries de tempo, este mdulo do curso ter um componente mais informativo que formativo. Procuraremos explicar a lgica por trs de cada teste, a sua aplicao em problemas comumente encontrados em estudos ecolgicos, mas infelizmente no h tempo hbil para destrinchar detalhadamente como cada mtodo funciona e o seu componente matemtico.
93
Em geral, anlises multivariadas tm trs principais utilidades: encontrar a principal direo de variao dos dados, efetuar correlaes entre matrizes, ou ainda encontrar diferenas entre grupos. Apesar dessas anlises tambm serem utilizadas como anlises exploratrias e para descrever padres em estudos ecolgicos, a necessidade de se ter hipteses, ou ao menos expectativas, no pode ser ignorada. Antes de iniciar a parte prtica, gostaria de discutir alguns aspectos tericos e filosficos, grandemente baseada em James & McCulloch (1990). A amostragem em campo deve ser adequada para o objetivo da anlise. Se o objetivo do usurio for estimar parmetros, a amostragem deve ser aleatria ou estratificada. Se o objetivo for a deteco de padres, a amostragem deve ser sistemtica (veja Hayek, 1994; Gotelli & Ellison, 2004; Sutherland, 2006; Greenwood & Robinson, 2006). Para estudos experimentais, deve haver sempre aleatorizao (sorteio), ou seja, cada unidade amostral tem de ser independente da outra e ter a mesma chance de ser selecionada (veja Hurlbert, 1984). Este procedimento eliminaria qualquer fonte de confundimento e enviesamento da amostragem, por dissolver possveis fatores que possam afetar a varivel de interesse e que no foram medidos/considerados no estudo. Alm disso, ao desenhar o seu estudo, priorize ou a escala temporal ou a espacial. Sempre obtenha mais amostras que variveis. Sempre que possvel, evite perder dados (missing values, NAs), pois eles diminuem o poder do teste (mas veja Legendre & Legendre, 1998 para saber como lidar com NAs). Para avaliar a suficincia amostral, verifique se o mesmo padro de classificao emerge com o aumento do nmero das amostras. Por fim, anlises multivariadas podem ser divididas, grosseiramente, em dois tipos: agrupamento e ordenao. Anlises de agrupamento em geral tentam agrupar objetos (observaes) em grupos de maneira que objetos do mesmo grupo sejam mais semelhantes entre si do que objetos de outros grupos. Mais formalmente, o agrupamento de objetos (ou descritores) uma operao pela qual um conjunto de objetos (ou descritores) particionado em dois ou mais subconjuntos, usando regras pr-estabelecidas de aglomerao ou diviso (Legendre & Legendre, 1998). Por outro lado, a anlise de ordenao uma operao pela qual os objetos (ou descritores) so posicionados num espao que contm menos dimenses que o conjunto de dados original; a posio dos objetos ou descritores em relao aos outros tambm podem ser usadas para agrup-los.
94
Agrupamento Anlise de agrupamento hirerrquico (cluster) A anlise de agrupamento hierrquico a mais utilizada em ecologia. No entanto, existem tambm outras anlises no hierrquicas, como a K-means, que no sero abordadas neste curso. O objetivo da anlise de agrupamento agrupar objetos admitindo que haja um grau de similaridade entre eles. Esta anlise pode ser utilizada ainda para classificar uma populao em grupos homogneos de acordo com uma caracterstica de interesse. A grosso modo, uma anlise de agrupamento tenta resumir uma grande quantidade de dados e apresentla de maneira fcil de visualizar e entender (em geral, na forma de um dendrograma). No entanto, os resultados da anlise podem no refletir necessariamente toda a informao originalmente contida na matriz de dados. Para avaliar o quo bem uma anlise de agrupamento representa os dados originais existe uma mtrica o coeficiente de correlao cofentico o qual discutiremos em detalhes mais adiante. Apesar da sua versatilidade, deve-se ressaltar que nem todos os problemas em ecologia so problemas de agrupamento. Antes de considerar algum mtodo de agrupamento, pense porque voc esperaria que houvesse uma descontinuidade nos dados; ou ainda, considere se existe algum ganho prtico em dividir uma nuvem de objetos contnuos em grupos. Alm disso, existem algumas crticas que merecem ateno: mesmo para um conjunto de dados aleatrios possvel encontrar grupos; o padro apresentado pelo dendograma depende do protocolo utilizado (mtodo de agrupamento e ndice de dissimilaridade); os grupos formados dependem do nvel de corte escolhido. Normalmente, a anlise de agrupamento tenta arranjar os objetos em grupos que so mutuamente excludentes, ou seja, o mesmo objeto no pode fazer parte de mais de um grupo. No entanto, existem algumas tcnicas, chamadas de fuzzy clustering, que permitem uma gradao na classificao de objetos. Esta tcnica no ser abordada neste mdulo, mas o leitor interessado remetido duas referncias: Legendre & Legendre (1998) e Borcard et al. (2011).
Os passos para a anlise de agrupamento so os seguintes:
1) A matriz deve conter os objetos a serem agrupados (p.ex. espcies) nas linhas e as variveis (p.ex., locais de coleta ou medidas morfolgicas) nas colunas. Primeiramente, se os dados forem de abundncia, mais correto realizar a transformao de Hellinger (Legendre & Gallagher, 2001). Se a matriz original contiver muitos valores 95
discrepantes (p.ex., uma espcie muito mais ou muito menos abundante que outras) necessrio transformar os dados usando Log (x+1)1. Se as variveis forem medidas tomadas em diferentes escalas (metros, graus celcius etc), necessrio padronizar cada varivel utilizando a seguinte frmula:
Z=
obs mdia desvio
Onde obs representa o valor da unidade amostral de interesse e os valores da mdia e do desvio padro so calculados para cada varivel. 2) Escolha do mtodo de agrupamento A escolha do mtodo de agrupamento crtico para a escolha de um coeficiente de associao. importante compreender completamente as propriedades dos mtodos de agrupamento para interpretar corretamente a estrutura ecolgica que eles evidenciam (Legendre & Legendre, 1998). De acordo com a classificao de Sneath & Sokal (1973) existem cinco tipos de mtodos: 1) seqenciais ou simultneos; 2) aglomerativo ou divisivo; 3) monotticos ou politticos; 4) hierrquico ou no hierrquicos e 5) probabilstico. Por motivos de espao e tempo discutiremos somente os mtodos hierrquicos, que so os mais comumente encontrados na literatura ecolgica. Mtodos hierrquicos podem ser divididos naqueles que consideram o centride ou a mdia aritmtica entre os grupos. O principal mtodo hierrquico que utiliza a mdia aritmtica o UPGMA (Agrupamento pelas mdias aritmticas no ponderadas), e o principal mtodo que utiliza centrides a Distncia mnima de Ward. O UPGMA funciona da seguinte forma: a maior similaridade (ou menor distncia) identifica os prximos agrupamentos a serem formados. Aps esse evento, o mtodo calcula a mdia aritmtica das similaridades ou distncias entre um objeto e cada um dos membros do grupo ou, no caso de um grupo previamente formado, entre todos os membros dos dois grupos. Todos os objetos recebem pesos iguais no clculo. A matriz de similaridade ou distncia atualizada e reduzida de tamanho em cada etapa do agrupamento, por isso no exige tanto do computador (Legendre & Legendre, 1998).
1Ousodo1obrigatriopoisLogdezeronabase10noexiste.
96
O mtodo de Ward baseado no critrio de quadrados mnimos dos modelos lineares. O objetivo definir os grupos de maneira que a soma de quadrados (i.e. similar ao erro quadrado da ANOVA) dentro dos grupos seja minimizada (Borcard et al. 2011).
3) Escolha dos ndices de similaridade (coeficientes de distncia ou de associao, ou ndices de dissimilaridade). Os ndices de similaridade medem a distncia entre dois objetos ou quantificam o quanto eles so parecidos. Lembre-se: as questes e hipteses iniciais do estudo devem ser levadas em conta na escolha do ndice (veja Anderson et al. 2011).
ndices binrios assimtricos Se os dados disponveis foram de presena-ausncia (binrios), os ndices recomendados so os de Jaccard e Srensen. Os ndices tradicionais de Jaccard e Srensen so chamados de ndices assimtricos, pois ao fazerem a comparao entre amostras no levam em conta duplas ausncias. Essa caracterstica desejvel ao analisar dados ecolgicos porque o no encontro de duas espcies em duas localidades no um indicativo de que duas localidades sejam similares, j que isto pode ter surgido por variao estocstica na amostragem, padres de disperso, etc. Alm disso, as duplas-ausncias no refletem necessariamente diferenas nas localidades (Legendre & Legendre, 1998; Anderson et al., 2011). Desta forma, somente sero considerados similares localidades que de fato compartilhem espcies. Compare as frmulas dos coeficientes de Jaccard e Srensen (Pag. 89): Como possvel perceber pelas frmulas, o coeficiente de Srensen d um peso maior para as duplas presenas, pois elas so um indicativo mais forte de semelhana. No entanto, o ndice de Srensen sensvel variaes na riqueza entre as localidades. Como uma alternativa, o ndice de Simpson para similaridade mltipla entre comunidades foi proposto recentemente por Baselga et al. (2007) como uma modificao do ndice de diversidade de Simpson. Este ndice tem a vantagem de ser independente da riqueza e assim, consegue distinguir entre a substituio verdadeira e a simples perda de espcies. Isto importante porque, como visto anteriormente, a diversidade beta pode ser causada por dois distintos fenmenos: aninhamento e substituio de espcies (turnover) que, por sua vez, so causados por processos ecolgicos diferentes. Alm disso, este ndice leva em considerao a similaridade em toda comunidade e no par-a-par, como outros ndices tradicionais (Baselga et 97
al. 2007). Se o leitor estiver interessado nesse assunto, existe outro ndice de mltiplas comunidades proposto por Anne Chao (Chato et al. 2005, 2006; veja acima) que implementado na funo no programa SPADE da autora que usa tanto dados de incidncia quanto de presena-ausncia. Esta autora tambm props modificaes nos ndices clssicos de Jaccard e Srensen para possibilitar a incluso de dados de abundncia. A implementao destes ndices de Chao-Jaccard e Chao-Srensen est disponvel na funo chao.sorenson() do pacote fossil.
ndices quantitativos assimtricos Esses ndices permitem a incorporao de dados de abundncia nas anlises. Os ndices recomendados e os mais usados so os de Bray-Curtis, Gower2 (elimina duplas ausncias, pode ser usado tanto para abundncia quanto variveis dummy) e Morisita-Horn. A grande vantagem deste ltimo a sua independncia do tamanho amostral (Krebs, 1999).
Coeficientes de distncia mtricos O principal coeficiente de distncia usado em cologia a distncia euclidiana e suas demais variantes: distncia euclidiana mdia, ponderada e padronizada. A distncia euclidiana recomendada nos casos em que as variveis de estudo forem contnuas, morfomtricas ou descritores ambientais.
Como avaliar a representatividade do dendrograma? E como avaliamos se o dendrograma representa adequadamente a matriz de dados original? Existem basicamente duas formas: avaliar o coeficiente de correlao cofentica ou utilizar a distncia de Gower (Borcard et al., 2011). A correlao cofentica obtida simplesmente pela correlao de Pearson entre a matriz original de similaridade e a matriz cofentica. Esta dada pela distncia cofentica (distncia onde dois objetos tornam-se membros de um mesmo grupo) entre todos os pares de objetos. Quanto maior a correlao, melhor a representatividade da anlise. Normalmente, uma regra de polegar usada somente admitir anlises que produzam uma correlao maior que 0.8. Se o usurio no tem certeza de qual mtodo de agrupamento ou coeficiente de distncia usar, possvel (mas talvez no muito recomendado) realizar a anlise com vrios mtodos e depois escolher o que produzir a maior
98
correlao utilizando um diagrama de Shepard (Borcard et al., 2011). Ainda, possvel utilizar a correlao de Kendall ou Spearman como alternativa para a de Pearson. A distncia de Gower calculada como a soma dos quadrados da diferena entre as matrizes de distncias cofenticas e a original. O mtodo de agrupamento que produzir a menor distncia de Gower aquele que fornece o melhor modelo de agrupamento para a matriz de distncia. Mas observe que o mtodo da correlao cofentica e a distncia de Gower nem sempre concordam (Borcard et al., 2011).
Interpretao dos grupos: qual o nvel de corte? A anlise de agrupamento um procedimento heurstico e no um teste estatstico (Borcard et al., 2011). Portanto necessrio que o usurio interprete o resultado (dendrograma) luz dos dados originais. Isto tambm enfatiza a necessidade de se escolher o mtodo mais apropriado para o estudo, j que o resultado depende fortemente dos mtodos. Existem vrias formas propostas para escolher o nvel de corte do dendrograma. possvel realizar uma inspeo visual e determinar quais agrupamentos fazem sentido, em relao ao conjunto de dados. Ainda, possvel utilizar matrizes modelos contrudas e depois compar-las com a original, posteriormente faz-se uma correlao entre essas matrizes para encontrar o nvel de corte mais apropriado (Bini & Diniz-Filho, 1995). Outra regra de polegar normalmente usada escolher o nvel de corte como 50% de similaridade. Outra opo adicionar valores de bootstrap aos ns do dendrograma e interpreter somente os ns co um valor alto, algo como 70%, de bootstrap. O livro Borcard et al. (2011, p. 65) traz mais alguns mtodos para a escolha do nvel de corte. Recomendamos ao leitor avali-los para determinar se algum se encaixa na proposta do seu estudo. Outra alternativa para encontrar grupos em um dendrograma oferecida pelo pacote pvclust (Suzuki & Shimodaira, 2005). Este pacote calcula automaticamente o valor de P para cada agrupamenteo formado. O pacote ainda emprega uma reamostragem em multiescala usando bootstrap que, por sua vez, utiliza tamanhos amostrais maiores e menores que a matriz original de dados, ao contrrio da anlise comum de bootstrap, na qual o tamanho amostral permanece constante e igual ao tamanho da matriz de dados (Shimodaira 2004). Assim, o valor de P estimado pelo ajuste a uma curva terica obtida de todos os tamanhos de amostragem, corrigindo assim para o enviesamento do tamanho amostral constante do bootstrap comum. A seguir, faremos alguns exerccios que utilizaro o pvclust para selecionar os grupos do dendrograma.
99
Exerccios 1) No R existem dois pacotes que realizam a anlise de agrupamento: a funo hclust() do pacote vegan e o pacote cluster. Para comearmos a trabalhar, baixe e carregue o pacote vegan, depois carregue o arquivo de dados mite para o R da seguinte forma: >library(vegan) >data(mite) a) Efetue a anlise de agrupamento pela funo hclust() utilizando o mtodo UPGMA e o ndice de Bray-Curtis. Lembre-se de dar nome ao objeto para poder plotar o dendrograma depois. Utilize a ajuda para encontrar como entrar com os argumentos da funo. b) Faa agora o dendrograma com outro ndice de dissimilaridade e compare os resultados. So diferentes? No que eles influenciaram a interpretao do resultado? 2) Agora vamos usar a abordagem proposta pelo pvclust. Primeiro instale o pacote e depois carregue-o. Em seguida, digite esta funo no script do R: dist <- function(x, ...){ vegdist(x, ...) } O pvclust limitado porque s permite que usemos os indices de dissimilaridade da funo dist(). Essa funo faz com que possamos utilizar os ndices da funo vegdist() do pacote vegan. Se preferir, possvel usar os ndices disponveis na funo dsvdis() do pacote labdsv substituindo-a na funo acima. Importe o conjunto de dados bocaina.txt para o R e faa a anlise utilizando o mtodo UPGMA e o ndice de Morisita-Horn. O pvclust agrupa os objetos que esto na coluna. Dese modo, se quisermos agrupar as espcies da comunidade devemos primeiro transpr a matriz. Lembre-se de dar nome ao objeto para podermos plotar o dendrograma depois. 3) Calcule novamente o dendrograma usando o pvclust e o conjunto de dados dunedata$veg do pacote ade4 utilizando o mtodo UPGMA e a distncia de Bray-Curtis.
IndVal O objetivo desta anlise identificar especies indicadoras de grupos pr-estabelecidos. Uma alta fidelidade significa que espcies ocorrem em todos os locais do grupo e uma alta 100
especificidade significa que as espcies ocorrem somente naquele grupo. Uma boa espcie indicadora aquela na qual todos os indivduos ocorrem em todas a amostras referentes a um grupo especfico. A Especificidade dada pela diviso da abundancia mdia da espcie no grupo pela somatria das abundancias mdias dos grupos. Fidelidade igual ao nmero de lugares no grupo onde a espcie est presente dividido pelo nmero total de lugares do grupo (Dufrne & Legendre, 1997). As vantagens desta anlise que ela baseada na abundncia das espcies dentro do grupo e mede a associao entre as espcies e os grupos. A anlise originalmente proposta por Dufrne & Legendre (1997) parecia um pouco circular, j que a classificao das localidades para a formao dos grupos feita a partir de dados das espcies, ento as espcies indicadoras j seriam aquelas que foram usadas pra formao dos grupos. Uma forma de contornar essa circularidade seria utilizar alguma informao independente para a formao dos grupos como, por exemplo, algum descritor ambiental. Algumas melhorias foram realizadas na anlise original e esto disponveis em De Cceres & Legendre (2009), incluindo um novo pacote chamado indicspecies disponvel na pgina pessoal do autor (http://sites.google.com/site/miqueldecaceres/software). Espcies raras podem receber o mesmo valor de IndVal das espcies indicadoras e so chamadas de indicadoras assimtricas, i.e., contribuem com a especificidade do habitat mas no servem para predizer grupos. Ao contrrio, as espcies indicadoras so verdadeiros indicadores simtricos e podem ser usadas para predizer grupos. Espcies indicadoras podem mostrar caractersticas particulares de um determinado grupo, podendo inferir, por exemplo, situaes de eutrofizao de ambiente aqutico. Por exemplo, algumas espcies quando muito abundantes em determinado local podem indicar que o ambiente est poludo. A espcie indicadora definida como a mais caracterstica de um determinado grupo. A anlise procede da seguinte forma: 1 Uma matriz de distncia construda e as unidades amostrais so classificadas com alguma anlise de agrupamento, hierrquico ou no; 2 A varivel ambiental para a qual se deseja classificar os grupos inserida; 3 As espcies indicadoreas de cada grupo so formadas atravs do clculo da especificidade e fidelidade, obtendo-se o valor de IndVal para cada espcie; 4 Por fim, o conjunto de dados originais comparado para ver se anlise faz sentido.
101
O ndice calculado seguindo a frmula abaixo para cada espcie: IndValij = Aij * Bij * 100, onde Aij a especificidade da espcie i, que dada pela abundncia mdia dessa espcie no grupo j dividiva pela soma das abundncias mdias da espcie i em todos os grupos. Bij a fidelidade da espcie, que dada pelo nmero de locais do grupo j onde a espcie i ocorre dividido pelo nmero de locais do grupo j. O clculo da significncia do ndice de IndVal feito por aleatorizao de Monte Carlo. Assim, o valor do ndice aleatorizado 999 vezes (ou o nmero de vezes que voc optar) dentro dos tratamentos e o valor de P dado pelo nmero de vezes em que o ndice observado foi igual ou maior que os valores aleatorizados. Na interpretao do resultado, uma espcie pode ser indicadora perfeita, quando ocorre em somente um grupo restrito de locais que tm uma dada caracterstica e tambm ocorre em todos locais daquele grupo, ou seja, ela tem uma alta fidelidade e especificidade. Uma espcie pode ser ainda indicadora assimtrica quando a mesma no tem alta fidelidade, mas alta especificidade. Ao contrrio, uma espcie indicadora simtrica tem alta fidelidade, mas baixa especificidade.
Exemplo >install.packages(labdsv) >library(labdsv) >mam.cerrado=read.table(file.choose(), h=T) >?indval >fitofis=c(rep(1,4), rep(2,4), rep(3,4), rep(4,4), rep(5,4)) >resultado=indval(mam.cerrado, fitofis) >summary(resultado)#para apresentar uma tabela dos resultados >resultado$maxcls >resultado$indcls >resultado$pval >tab.resultado=cbind(resultado$maxcls,resultado$indcls,resultado $pval) >colnames(tab.resultado)<-c("maxgrp", "ind. value","P") >tab.resultado
102
Exerccios 1) Importe o conjunto de dados indvalR.txt. Nestes dados, as espcies de cladceros esto nas colunas e as unidades amostrais (lagoas) nas linhas, existe tambm informao sobre a turbidez (varivel contnua) da gua, para o qual iremos tentar encontrar espcies indicadoras de cada faixa. Esta coluna deve ser selecionada para compor os grupos. 2) Importe conjunto de dados exemploIndval.txt. Neste conjunto, as espcies de anfbios anuros esto nas colunas e os locais de reproduo esto nas linhas. O arquivo gruposIndval.txt classifica os locais de acordo com o nvel de poluio. Calcule o IndVal para cada espcie e descubra se existe alguma espcie que pode ser indicativa de locais poludos.
Comparao de mdias entre grupos Anlise de Similaridade (ANOSIM) A anlise de similaridade (ANOSIM, ANalysis Of SIMilarity) um tipo particular de anlise de varincia multivariada (MANOVA, Multivariate ANalysis Of VAriance) para comparao de mdias, mas que no requer que os dados tenham distribuio normal multivariada e homogeneidade de varincia. Esta anlise testa se a similaridade menor dentro do que entre grupos definidos numa matriz. Por exemplo, quando temos dois ambientes muito distintos (p.ex., um conjunto de riachos poludos e outro saudvel) e queremos avaliar se abundncia de espcies diferente entre estes dois tipos de ambientes. O teste ranqueia as similaridades dando o ranque de 1 para a maior similaridade entre um par de objetos (McCune & Grace, 2002). A estatstica do teste, R, varia de -1 a 1, quanto mais positivo for o valor, maior a diferena entre os grupos. A estatstica R dada por: = (! ! ) ( 2)
onde rb a similaridade ranqueada entre grupos; rw a similaridade ranqueada dentro do grupo; M=n(n-1)/2; n=nmero de total de unidades amostrais. O ANOSIM tambm pode ser utilizado com dados de incidncia para avaliar se a composio de espcies difere entre locais. A MANOVA raramente utilizada para analisar dados ecolgicos de campo, devido s restries mencionadas acima (McCune & Grace, 2002). Logo, no a inclumos neste curso. Por outro lado, a MANOVA, ou a sua variao PERMANOVA, comumente utilizada para analisar dados de experimentos cujo desenho se encaixa nas premissas do teste (McCune & Grace, 2002). O ANOSIM muito robusto quando temos somente dois grupos para os quais 103
queremos comparar a diferena. Quando temos mais de dois grupos, o procedimento mais recomendado o MRPP, que veremos a seguir.
Procedimento de permutaao multi-resposta (MRPP) O MRPP um procedimento no-paramtrico muito similar ao ANOSIM, diferindo somente na estatstica do teste. Alm disso, o MRPP usualmente utilizado quando h mais de dois grupos para os quais se deseja testar se h diferena (McCune & Grace, 2002; p.188), enquanto o ANOSIM mais recomendado quando se tem dois grupos. Os procedimentos do teste incluem o clculo de uma estatstica , que dada por:
!
=
!!!
! !
onde g o nmero de grupos, e C um peso que depende do nmero de tens nos grupos. Existem vrios mtodos para atribuir peso, o mais usado e recomendado Ci=ni/N; onde n o nmero de itens no grupo i e N o nmero total de itens. So calculados dois valores de , um observado e outro simulado, que re-ordena as unidades amostrais dentro dos grupos. Posteriormenre, o valor de entra no clculo da estatstica do teste, R, que dada por: = 1 ( observado ) esperado
O valor de R mede o tamanho do efeito e ento independente do tamanho amostral. O R do MRPP funciona de maneira oposta ao R do ANOSIM: quanto maior o seu valor, menor a diferena entre os grupos (McCune & Grace, 2002; p.191).
Exemplo >library(vegan) >bocaina >?anosim >vec.bocaina=factor(c(rep(1, 7), rep(2,7)), labels=c(Temporrias, Permanentes)) >bocaina.pad=decostand(bocaina, pa) >anosim(bocaina.pad, vec.bocaina) >plot(anosim) 104
Teoria: Teoria de histria de vida Hiptese: As poas temporrias e permanentes tero similaridades diferentes Unidade amostral: espcies Amostras: Poas Exerccio 1) Na perspectiva de metacomunidades (Leibold et al., 2004), a disperso dos organismos tem um papel proeminente para entender como as espcies esto distribudas na natureza. Com o objetivo de testar se a disperso influencia a composio de espcies de cladceros e coppodos, e portanto a estrutura da metacomunidade, um pesquisador selecionou dois conjuntos de lagos: em um deles todos os lagos so isolados e no outro os lagos so conectados. Importe para o R o conjunto de dados lagos.txt e responda a pergunta se o fato de os lagos estarem conectados ou no influencia a composio de espcies desses microcrustceos. 2) Refaa o mesmo teste para encontrar se a abundncia relativa diferente entre os lagos. Explore os resultados com as funes summary(), plot(), names(). 3) Importe o conjunto de dados anosim.txt para o R. Este conjunto consiste de um levantamento de artrpodos de serrapilheira coletados em uma regio de mata ombrfila densa (cinco primeiras unidades amostrais) e uma regio de mata ombrfila mista (demais unidades amostrais). Faa um teste para calcular se a abundncia dos artrpodes diferente entre esses dois grupos de unidades amostrais. 4) Importe o conjunto de dados mrpp.txt para o R e responda se a composio de espcies vegetais diferente entre as fitofisionomias de cerrado.
Ordenao irrestrita
Anlise de Componentes Principais (PCA) Ao contrrio de anlises de agrupamento (ou classificao), anlises de ordenao no buscam por uma descontinuidade nos dados, mas sim analisar como os objetos se distribuem ao longo de gradientes. A ordenao representa uma situao mais prxima da prtica em estudos ecolgicos. A anlise de componentes principais (PCA) principalmente usada para reduzir a dimensionalidade dos dados, e tambm verificar como as amostras se relacionam, ou seja, o
105
quo semelhantes so segundo as variveis utilizadas. O resultado prtico produzir um diagrama de ordenao que sintetize os dados, no qual os objetos mais prximos so mais semelhantes. Alm disso, o mtodo matemtico procura maximizar a varincia entre os objetos. Diferentemente de outras anlises de ordenao, s possvel utilizar a distncia euclidiana como coeficiente de similaridade na PCA. Logo, mais recomendado us-la para analisar variveis ambientais ou medidas morfolgicas. A PCA tem como principais vantagens: retirar a multicolinearidade das variveis, pois permite transformar um conjunto de variveis originais intercorrelacionadas em um novo conjunto de variveis no correlacionadas (componentes principais). Para visualizar o correlograma dos dados, utilize a funo cor() e digite a matriz de dados como argumento. Alm disso, reduz muitas variveis a eixos que representam algumas variveis, sendo estes eixos perpendiculares (ortogonais) explicando a variao dos dados de forma decrescente e independente. As desvantagens so: a sensibilidade a outliers, no recomendada quando se tem duplas ausncias (muitos zeros na matriz) e dados ausentes. A PCA tambm no recomendada quando se tem mais variveis do que unidades amostrais.
Conceitos importantes Combinaes lineares: equao que agrupa as diferentes variveis, como em uma regresso mltipla. Componentes principais: so as combinaes lineares das variveis, eixos ortogonais (independentes) que resumem (explicam) a variao dos objetos, e como tal podem ser consideradas como novas variveis e usadas em anlises posteriores. O nmero de componentes principais igual ao nmero de variveis. O primeiro componente principal resume a maior variao dos dados, o segundo, a segunda direo de maior variao dos dados e asim por diante. Autovalores (eigenvalues): esses valores representam a varincia dos componentes principais e traz a porcentagem de explicao de cada eixo. O nmero de autovalores o mesmo do nmero de variveis. Os autovalores sero maiores para aquelas variveis que forem mais importantes na formao do eixo. Autovetores (eigenvectors): o mesmo que Loading, ou seja, coeficientes de combinao linear. Os autovetores so os eixos principais de disperso da matriz e medem a importncia de uma
106
varivel em cada eixo. Desse modo, representam o peso de uma varivel para a construo de um eixo e variam de -1 a 1 (correlao de Pearson); Centride: mdia ponderada de um conjunto multivariado, a menor distncia mdia de todos os objetos num espao multivariado; Escores (Z1, Z2, Zn): posio das unidades amostrais ao longo de um eixo de ordenao, pode se referir tanto unidades mostrais quanto variveis. Escores so fornecidos pela substituio dos valores assumidos pelas variveis originais nas combinaes lineares. So utilizados para ordenar as unidades amostrais em um diagrama uni, bi ou tridimensional. Inrcia: a soma de todas as correlaes das variveis com elas mesmas, mede a quantidade de varincia total que explicada por um eixo. Loadings (coeficiente de estrutura): correlao de Pearson entre os escores e as variveis.
O procedimento da anlise o seguinte: uma matriz de similaridade extrada de uma matriz de dados quantitativos utilizando a distncia euclidiana. Se os dados estiverem em escalas diferentes, lembre-se de padroniz-los primeiro, ou usar a matriz de correlao ao invs da matriz de covarincia. Os autovalores so ento extrados da matriz de similaridade para o clculo dos autovetores, e ento os componentes principais so calculados. A matriz de escores extrada a partir da matriz de autovetores. Um passo importante selecionar quais so os eixos que foram os mais importantes, ou seja, aqueles que resumem a maior quantidade de variao dos dados. Para isso existem vrios mtodos (veja Jackson, 1993 e Peres-Neto et al. 2005): O critrio de Kaiser-Guttman sugere calcular a mdia de todos os autovalores e interpretar somente aqueles cujo os autovalores sejam maiores que a mdia. Uma regra de polegar sugere escolher todos os componentes principais at atingir 75% de explicao. Outra opo realizar um screen-plot que plota os componentes principais no eixo x e os autovalores no eixo y, os componentes com menor explicao tendem a estar numa linha reta; logo deve-se interpretar somente os componentes principais que no esto nesta reta. O critrio da esferidade de Bartlett sugere que os componentes principais sejam selecionados at que as duas ltimas medidas de explicao formem uma esfera. Finalmente, o mtodo de Broken Stick sugere considerar somente os eixos maiores que o valor predito pelo modelo de Broken Stick. Este o critrio mais utilizado por ser um mtodo estatsico e no heurstico, por isso vamos utiliz-lo no exemplo desta seo. A PCA produz melhores resultados quando as variveis possuem uma forte estrutura de correlao entre si (ou seja, qundo as variveis so redundantes) e ao fazer esta anlise, deseja107
se justamente eliminar a correlao entre as variveis, produzindo assim novas variveis que no correlacionadas. Alm disso, a PCA tambm muito sensvel a valores discrepantes e outliers. Se a porcentagem de explicao dos eixos for muito similar entre si indica que no h uma associao entre as variveis, i.e., no h uma estrutura clara nos dados. Como perceber se a PCA foi a anlise adequada? Aqui no existe um nmero mgico como o coeficiente de correlao cofentico. Ento, um critrio que se utiliza nestes casos (dependendo do conjunto de dados analisado) utilizar a anlise somente se os dois, ou no mximo, os trs primeiros eixos explicarem em torno de 70% da variao dos dados. Se isso no acontecer, deve-se considerar outras anlises, como veremos a seguir. Caso contrrio, se considerarmos quatro ou cinco eixos, a interpretao pode ficar complicada. Um exemplo de interpretao de um biplot de PCA pode ser encontrado nas pginas 125-126 de Borcard et al. (2011).
Exerccios 1) Carregue o pacote MASS que j instalado no R. Ative o pacote de dados Crabs, data(crabs). Este conjunto traz medidas morfolgicas de dois morfo-tipos da espcie de carangueijo Leptograpsus variegatus coletada em Fremantle, Austrlia. Calcule uma PCA e veja se existe uma semelhana morfolgica entre os dois morfo-tipos. Lembre-se de dar nome ao objeto e use a funo biplot.rda() para plotar o resultado do teste, utilize o argumento scaling=1 e scaling=2. Dica: a projeo de um objeto perpendicular seta do descritor fornece a posio aproximada do objeto ao longo desse descritor. A distncia dos objetos no espao cartesiano reflete a distncia euclidiana entre eles. 2) Importe o arquivo DoubsEnv.csv para o R. Este conjunto fornece os descriores ambientais em 30 locais do rio Doubs, prximo fronteira FranaSuia e consiste de 11 variveis ambientais relacionada hidrologia, geomorfologia e qumica do rio. Calcule uma PCA com a funo rda() do pacote vegan. Para ver como entrar com os argumentos na funo, digite ?rda, utilize o argumento scale=T para padronizar as variveis. Para ver quais eixos reter para plotar e interpretar, carregue e utilize a funo evplot() escrita por Bocard et al. (2011) disponvel no arquivo evplot.R. O argumento da funo deve ser os autovalores, portanto extraia-os utilizando objeto1=objeto$CA$eig.
108
Anlise de Coordenadas Principais (PCoA) A Anlise de Coordenadas Principais muito semelhante PCA, diferindo somente pelo fato de que com ela possvel usar qualquer coeficiente de similaridade, e no s a distncia euclidiana, como na PCA. Da advm uma de suas grandes vantagens: possvel realizar a anlise se s a matriz de similaridade estiver disponvel. Alm disso, a PCoA adequada quando o nmero variveis maior que o nmero de amostras, ao contrrio da PCA e tambm robusta para valores ausentes, duplas ausncias ou mesmo dados de incidncia (variveis dummy). bastante til para se analisar variaes sazonais e gradientes de diversidade ou mesmo quando existem poucas unidades amostrais. No entanto, no informa quais variveis influenciam a distribuio dados objetos e tambm no fornece a relao entre as variveis e os eixos principais, somente as unidades amostrais. Outra desvantagem do mtodo a impossibilidade de interpretar os eixos com base na projeo dos descritores num continuum, ou em subconjuntos. Os procedimentos para a anlise so muito semelhantes PCA, a nica diferena que a matriz de similaridade original passa por uma transformao denominada centralizao dupla. Este procedimento usado para manter a relao euclidiana entre as unidades amostrais. A PCoA produz n-1 eixos, quando o nmero de unidades amostrais igual ou maior que o nmero de variveis. Uma maneira de perceber se a anlise foi adequada verificar se foram produzidos autovalores negativos e altos, se sim, a matriz de distncia que est sendo usada pode no ser adequada para a ordenao, pois a representao cartesiana pode estar distorcida. Para corrigir isso existem alguns mtodos implementados na funo pcoa(), do pacote ape. Na PCoA tambm os prprios autovetores so os escores, que podem ento ser utilizados para ordenar as unidades amostrais.
Exerccio 1) Importe o conjunto de dados bocaina_temporal.txt para o R. Este conjunto de dados consiste da abundncias das espcies (nas linhas) de girinos que ocorreram em 13 poas durante 11 meses (colunas) no PARNA Serra da Bocaina. Faa uma PCoA utilizando o coeficiente de Bray-Curtis com a funo pcoa() do pacote ape para descobrir se as espcies podem ser agrupadas de acordo com um padro de ocorrncia temporal. Construa o biplot com a funo biplot.pcoa().
109
Escalonamento multidimensional no-mtrico (nMDS) Este mtodo muito parecido com o anterior. Assim como a PCoA, o nMDS tambm permite utilizar qualquer coeficiente de distncia para construir a matriz de similaridade e tambm aceita valores ausentes e duplas ausncias. Mas, diferentemente da PCoA, o nMDS uma tcnica iterativa que visa minimizar o STRESS (STandard REsiduals Sum of Squares), uma medida do quanto as posies de objetos em uma configurao tridimensional desviam-se das distancias originais ou similaridades aps o escalonamento. A anlise procede pela atribuio de escores aleatrios aos eixos de ordenao escolhidos pelo usurio. Posteriormente, uma matriz de distncia calculada entre as unidades amostrais. Essa matriz ento correlacionada com a matriz de distncia construda a partir dos dados originais. Os escores dos eixos de ordenao so aleatorizados at que a correlao entre a matriz de distncia obtida com a aleatorizao dos escores e a matriz de distncia dos dados originais seja a maior possvel e o valor de STRESS ento calculado. Este valor varia de 0 at 1, um bom ajuste produzido quando o STRESS se aproxima de 0. Logo, o STRESS pode ser utilizado como uma medida do quo adequada a anlise . Uma regra de polegar (Clarke, 1993) sugere que: Stress <0.05 representao excelente; Stress <0.1 boa ordenao. Improvvel de produzir algo melhor dimenses do diagrama de Shepard; Stress <0.2 ordenao razovel. No possvel discutir detalhes minusciosos, mas o aumento das dimenses do diagrama Shepar pode melhorar a representao; Stress >0.2 ordenao invivel e a interpretao pode ficar comprometida. Com valores de stress entre 0.35 e 0.4 as amostras esto posicionadas aleatoriamente, mantendo pouca ou nenhuma relao com a similariadde original. aumentando-se as
Ao contrrio da PCA e da PCoA, o nMDS permite escolher o nmero de eixos que se deseja produzir previamente anlise. Outras variantes do nMDS foram propostas, como o Hybrid MDS, que permite combinar coeficientes mtricos e no mtricos, mas no foram muito populares e no est disponvel no R. A anlise leva em conta o ranque das distncias, e portanto no assume a linearidade entre as amostras, uma caracterstica desejvel quando se analisa dados de comunidades de espcies. No entando, essa caracterstica no exclui a necessidade de se transformar os dados, se for preciso. As principais desvantagens do nMDS so: a anlise no fornece a porcentagem de explicao de cada eixo, j que o nmero de eixos escolhido previamente pelo usurio. Lembre-se de que na PCoA e PCA os eixos escolhidos so aqueles que produzem os maiores autovalores. O usurio deve fornecer o valor de STRESS, o coeficiente de distncia utilizado e finalmente, se foi feita alguma transformao nos dados 110
previamente. Como o nMDS uma tcnica iterativa, possvel realizar a anlise vrias vezes como um procedimento para diminuir o valor de STRESS.
Exerccio 1) Utilize a funo metaMDS() do pacote vegan para ordenar os dados do arquivo DoubsSpe.csv. Este conjunto de dados consiste da abundncia de peixes coletados em vrios trechos do rio Doubs, prximo fronteira Frana-Suia, utilize a distncia de Bray-Curtis primeiramente e depois escolha um outro ndice que tambm incorpore abundncia e plote o resultado. Os resultados forram muito diferentes?
Ordenao restrita Anlise de Correspondncia Cannica (CCA) e Anlise de Redundncia (RDA) As duas principais anlises de ordenao restritas (constrained ordination) utilizadas em ecologia so a Anlise de Correspondncia Cannica (CCA) e a Anlise de Redundncia (RDA). Estas duas anlises so os equivalentes restritos da Anlise de Correspondncia (CA) (no abordada no curso) e da PCA, respectivamente. O principal objetivo destas anlises identificar a influncia de variveis ambientais sobre os padres de composio e abundncia das espcies numa comunidade. Estas anlises so particularmente teis para analisar a distribuio de espcies ao longo de gradientes ambientais, por isso so chamadas de anlises direta de gradientes (direct gradient analysis). A CCA avalia a estrutura de correlao dentro de um conjunto de dados (e.g., matriz de abundncia de espcies) e entre a matriz de espcies e a matriz ambiental. Estas anlises so chamadas de restritas por que restrigem a ordenao dos objetos de uma matriz por uma regresso linear mltipla de uma segunda matriz. Em termos prticos, se o usurio est interessado em saber o quanto da estrutura da comunidade pode estar relacionada a descritores ambientais e se se espera que as espcies respondam de forma unimodal a estes gradientes, ento a anlise de escolha a CCA. Similarmente, a RDA tambm busca encontrar o quanto da composio e abundncia das espcies na comunidade esto relacionadas com descritores ambientais, mas assume que existe uma resposta linear das espcies aos gradientes ambientais. Enquanto o presuposto da CCA parece ser mais ecologicamente plausvel, os dados do usurio podem ser apropriados para uma RDA se a amostragem no compreender todo o gradiente ambiental. Por outro lado, a CA pode ser mais apropriada se o gradiente que influencia a
111
distribuio de espcies no tiver sido medido. Uma anlise recentemente proposta permite analisar dados nos quais as espcies apresentem respostas mistas aos gradientes. O OMI (sigla para Outlying Mean Index, Doldec et al., 2000) est disponvel na funo niche()do pacote ade4. A CCA maximiza a separao dos nichos das espcies. Assim, as respostas das espcies diante do gradiente ambiental assumiriam a forma de curvas unimodais. Muitas variveis ambientais podem ser utilizadas com o objetivo de explicar a distribuio das espcies, resultando em nichos p-dimensionais, no entanto a anlise perde poder medida que a matriz ambiental contiver mais e mais descritores do que unidades amostrais. A matriz de espcies pode conter somente dados de incidncia. A RDA conceitualmente equivalente a uma regresso linear mltipla multivariada, seguida de uma PCA baseada nos valores ajustados. Diferentemente de outras anlises, como PCA, PCoA e nMDS, todas as anlises de correspondncia, incluido a CCA, no calculam uma matriz de distncia. Ao contrrio, so baseadas nas distncias de 2 onde as amostras so ponderadas de acordo com o total, fazendo com que haja uma distino exagerada em amostras com muitas espcies raras. Por esse motivo, o uso da CCA deve ser restrito situaes onde as espcies raras foram adequadamente amostradas e so consideradas indicadores de caractersticas do ecosistema, do contrrio, considere retirar espcies raras previamente anlise (Bocard et al., 2011, p.198-9). O resultado prtico destas duas anlises, CCA e RDA, um biplot no qual as variveis ambientais so plotadas como setas e as espcies como pontos. Quanto menor o ngulo da seta em relao a um eixo, maior ser a correlao daquela varivel com o eixo. Geralmente em uma anlise de ordenao, os nmeros que esto plotados nos eixos so os autovalores. Tambm pouco comum plotar a correlao nos outros eixos. Se essa informao estiver disponvel, o usurio pode projetar a ponta da seta representando a varivel no eixo da correlao para encontrar a correlao da varivel com o eixo. O usurio pode saber a posio de uma amostra no eixo simplesmente projetando perpencidularmente a amostra no eixo. De forma similar, uma amostra pode ser projetada numa seta para saber em qual posio da varivel uma amostra se encontra. No caso da CCA, ao projetar a espcie na seta da varivel o usurio encontra o timo da espcie ao longo daquele gradiente. Quanto maior a seta, mais importante a varivel para explicar a distribuio das espcies. As espcies que estiverem no quadrante para o qual a seta aponta esto positivamente correlacionadas com varivel. Ao contrrio, as espcies que estiverem no quadrante oposto, esto negativamente correlacionadas com a varivel. Mais detalhes de interpretao do grfico produzido pela anlise podem ser encontradas em Legendre & Legendre (1998; p. 586587), Zurr et al. (2007; p. 240-2) e Bocard et al. (2011; p.166-7).
112
Se no temos uma hiptese a ser testada ou estamos particularmente interessados em descrever um padro, um problema que pode surgir que a grande quantidade de variveis plotadas pode dificultar ou at mesmo confundir a interpretao dos dados. Para contornar essa questo, vrias tcnicas foram desenvolvidas, uma delas a seleo forward de variveis. Neste procedimento, somente as variveis que forem significativas aps uma aleatorizao dos dados entram no modelo. No entando, um estudo recente (Blanchet et al., 2008) demonstrou que este procedimento pode levar consluses equivocadas. Portanto, as opes que temos so: avaliar a estrutura de correlao entre as variveis e plotar somente as que no forem correlacionadas, ou delinear o estudo previamente coleta das variveis para diminuir a quantidade de informao a ser adicionada ao modelo.
Como decidimos qual anlise usar: respostas lineares ou unimodais? Muitos pacotes estatsticos disponveis comercialmente, e.g., CANOCO, implementam um teste de aleatorizao de Monte Carlo para avaliar a significncia dos autovalores dos eixos cannicos baseado na estatstica F (veja frmula 6.2 em Bocard et al., 2011). Este teste avalia se as espcies exibem uma resposta linear ou unimodal aos gradientes ambientais, e portanto crtico para a escolha correta do teste. No R este procedimento implementado pela funo genrica anova(), com os argumentos by=axis, que indica que todos os eixos sero testados e step=999 que indica o nmero de repeties do procedimento de aleatorizao. Este analisa testa a significncias dos eixos.
Exerccios 1) Calcule uma RDA com os dados DoubsEnv.csv e DoubsSpe.csv, verifique se a anlise foi aproprida e interprete o biplot. 2) Carregue os dados mite.env e mite e calcule uma CCA com esses dados, verifique se a anlise foi aproprida e interprete o biplot.
RDA e CCA parcial Como mostrado acima, RDA e CCA compem um conjunto de anlises chamadas anlises cannicas assimtricas, que permitem a comparao de duas ou mais tabelas de dados. So chamadas anlises assimtricas por que o conjunto de dados no tm a mesma funo. O 113
exemplo mais famoso a comparao de uma tabela de composio de espcies com uma segunda tabela de descritores ambientais (i.e., anlise direta de gradientes). A ideia bsica da RDA limitar a matriz Y de composio de espcies a uma combinao linear com as variveis ambientais. Em resumo, a RDA pode ser considerada uma regresso mltipla com todas as espcies sendo testadas simultaneamente (ter Braak & Smilauer 2002). Tanto a RDA parcial quanto a CCA parcial (daqui em diante RDAp e CCAp) tm a mesma lgica da RDA e CCA, porm as parciais utilizam uma terceira matriz no clculo. A RDAp e CCAp possuem dois grupos de variveis explanatrias: uma matriz X com as variveis explanatrias que sero utilizadas no modelo, e uma matriz W com as covariveis (e.g., variao espacial ou temporal); o efeito das covariveis em Y (geralmente matriz de composio de espcies) controlado na anlise. Em geral, a matriz W contm variveis cujos efeitos sobre a matriz Y so conhecidos. Por exemplo, coletas realizadas em tempos diferentes (e.g., dia, semana, ms) podem ser consideradas como covariveis e, dessse modo, devem ser controladas com RDAp ou CCAp. Para analisar a relao da matriz Y com a matriz X na presena da covarivel W necessrio: (i) calcular os resduos de Y sobre W (chamados de Yres|w) e os resduos de X sobre W (chamados Xres|w); (ii) calcular a RDA (ou CCA) entre Yres|w e Xres|w ou entre Y e Xres|w. Para testar a significncia das anlises RDAp ou CCAp so utilizados mtodos de permutao. importante notar que uma hiptese nula pode ser formulada sobre a relao entre X e Y. A partir dessa hiptese nula e dos testes de permutao, valores de probabilidade so acessados por meio de aleatorizaes (veja detalhes metodolgicos em Legendre & Legendre 1998; Bocard et al. 2011). Para calcular a fora da relao entre Y e Xres|w (R2 cannico) usa-se a seguinte frmula: ! !|!!"#|! = SS(Y!"# ) SS(Y)
Onde SS (Yfit) representa a soma dos quadrados dos valores ajustados de Y, e SS(Y) a soma dos quadrados dos valores observados de Y. Para calcular a soma dos quadrados, o clculo mais apropriado : SS (Yfit) = SS (Yfit|(X+W)) SS(Yfit|W), e SS (Yres) = SS (Y) SS (Yfit|(X+W)). A soma de (X + W) representa a concatenao de X e W na mesma matriz. Yfit representado como uma regresso mltipla de Y contra X, ou seja, os valores ajustados de Y conforme frmula da regresso, Yfit=X[XX]-1XY. Cuidado! No caso de interao entre a varivel temporal e as variveis ambientais ou espaciais, abordagens adicionais so necessrias para validar o modelo (mais detalhes em Legendre & Legendre 1998).
114
Na funo rda() do vegan, a variao em Y explicada pelas variveis ambientais denominada constrained variance e a variao no-explicada (residual) chamada unconstrained variance.
Praticando: Exemplo 1: Uma pesquisadora pretende testar como a composio de espcies de caros (matriz Y) varia na espcie de planta Tibouchina granulosa (Melastomataceae) na Serra do Mar. Para cada planta, ela anotou as seguintes variveis: espessura da folha (esfl), rea foliar (arfl) e densidade de tricomas (dtri). A pesquisadora tinha conhecimento de que a quantidade de gua no substrato (quag), o tipo de solo (tiso) e a densidade da planta competidora Tibouchina clavatium (dens.tc) afetavam caractersticas estruturais da planta T. granulosa. Por isso, ela coletou esses dados para utilizar como covariveis na anlise. - Principal teoria: Teoria do nicho - Pergunta: a estrutura foliar de T. granulosa determina a composio de espcies de caros? - Unidade amostral: planta. - Varivel dependente: composio de espcies. - Varivel independente: planta, variveis ambientais (i.e., comprimento, largura, espessura e rea foliar, densidade de tricomas). - Covariveis: quantidade de gua no substrato e tipo de solo. Exemplo 2: Um pesquisador pretende comparar a comunidade de caros associados seringueiras em diversas regies do Brasil. A principal questo investigar se a composio de espcies de caros influenciada por caractersticas ambientais (estrutura da planta hospedeira) e espaciais (oito localidades nos seguintes estados: AM, BA, ES, MS, MT, PA, SP). O pesquisador dividiu as caractersticas ambientais em duas escalas: uma ao nvel da planta (densidade de tricomas, espessura foliar) e outra ao nvel bioqumico (teor de nitrognio, enxofre, protenas e acares solveis) e anotou as coordenadas geogrficas dos pontos de coleta de cada planta. - Principais teorias: Teoria do nicho e teoria neutra - Pergunta: qual a importncia relativa das caractersticas ambientais e espaciais na determinao da composio de espcies de caros associados seringueira? 115
- Unidade amostral: planta. - Varivel dependente: composio de espcies. - Varivel independente: planta, variveis ambientais e espaciais.
Anlise de Procrustes A anlise de Procrustes um mtodo que compara dois grupos de dados. Esta anlise mede o grau de concordncia entre duas matrizes. Em outras palavras, o mtodo combina pontos correspondentes (chamados marcos) que so representados pela ordenao de espcies e caractersticas ambientais (quando aplicados ecologia de comunidades) amostrados nas mesmas unidades amostrais. O objetivo da anlise de minimizar os desvios da soma de quadrados, o que define a estatstica do teste (m2) por meio da traduo (combina os dados de maneira que possuam o mesmo centride), rotao e dilatao (dimensionamento dos dados) de um conjunto de dados para que seja combinvel com a configurao alvo (target matrix ABC; veja esquema abaixo). Desse modo, quanto menor o valor dos resduos, maior a concordncia entre o conjunto de dados. Para testar a significncia do valor de m2 observado, so realizadas vrias aleatorizaes (definidas pelo usurio) com os dados originais para gerar n valores de m2. Esta aleatorizao conhecida como PROtest na literatura. Os valores de m2 e de P so definidos por: m2 = 1 (TraceW)2 P = 1 + m2small / 1 + n Para obter a matriz W necessrio decompor a matriz Y(nxp) em duas matrizes ortogonais V(nxp) e U(pxp), e na matriz diagonal W. Para o clculo do m2, TraceW representa a soma dos elementos da diagonal principal (ou trao) da matriz W. A demonstrao matemtica dessa funo no est no escopo dessa apostila. Para mais detalhes consulte Legendre & Legendre (1998). Para testar a significncia do valor observado (m2obs), m2small indica o nmero de valores de m2 simulados que so menores ou iguais ao m2obs, e n representa o nmero de aleatorizaes. Por exemplo, se 12 valores encontrados na aleatorizao (n = 9999 aleatorizaes) so menores ou iguais ao m2obs observado, a probabilidade de que a hiptese nula seja verdadeira (ou seja, os dados no so concordantes) P = (1 + 12) / (1 + 9999) = 0,0013.
116
Dados originais
Dados originais
Traduo (centride comum)
Rotao e dimensionamento
Praticando: Exemplo 1: Um pesquisador pretende testar se peixes e macro-invetebrados aquticos tm respostas concordantes em relao aos lagos que ocorrem na regio de Linhares, ES. Um dos objetivos desse pesquisador foi usar espcies-chave para reduzir o custo de se coletar vrios txons em uma mesma regio. Em teoria, se espcies de txons distintos respondem da mesma maneira em relao diversas localidades (i.e., respostas concordantes), a resposta de um grupo taxonmico pode ser extrapolada para grupos concordantes. Cada lago (n = 25) foi dividido previamente em 30 parcelas imaginrias (selecionadas com imagens areas dos lagos). Foram sorteadas 5 parcelas/lago para fazer a coleta de peixes e macro-invertebrados com os mtodos apropriados. - Principal teoria: Teoria do nicho (baseando-se nas idias de concordncia de comunidades; Community concordance em ingls). Em um contexto de metacomunidades importante conhecer a perspectiva de species sorting. - Pergunta: peixes e macro-invertebrados possuem distribuio concordante em lagos da regio de Linhares? 117
- Unidade amostral: parcela. - Varivel dependente: composio de espcies. - Varivel independente: lago. Exerccio 1: O bilogo responsvel pela gesto de uma RPPN (Reserva Particular do Patrimnio Natural) deseja utilizar um grupo indicador de qualidade ambiental. O proprietrio da RPPN precisa reduzir os custos necessrios para amostrar artrpodes e vertebrados e requisitou ao bilogo que optasse por um dos grupos. O bilogo tem dois problemas para resolver: o primeiro que artrpodes e vertebrados podem responder de maneira diferente qualidade ambiental, o segundo qual dos grupos deveria escolher para trabalhar. Para resolver o primeiro problema, faa uma anlise Procrustes e indique para o bilogo se as comunidades so concordantes ou no. O bilogo recuperou dados de coleta de artrpodes (artropodes.txt) e vertebrados (vertebrados.txt) em 50 pontos localizados em ambientes da RPPN. Os pontos foram definidos de acordo com diferentes tipos de solo e vegetao.
LEITURA RECOMENDADA
As maioria das referncias (artigos e livros) citadas nesta apostila se encontram no CD entregue na primeira aula. Abaixo seguem uma lista de referncias, algumas com comentrios, cuja leitura recomendamos.
Anderson, M.J. 2001. A new method for nonparametric multivariate analysis of variance. Austral Ecology, 26: 3246. *Artigo da PERMANOVA Blanchet, F. G., Legendre, P. & Borcard, D. 2008. Anderson, M.J. et al. 2011. Navigating the multiple meanings of beta diversity: a roadmap for the practicing ecologist. Ecology Letters 14: 19-28. *Artigo mostrando que o mtodo forward selection Baselga, A., Jimenez-Valverde, A. & Niccolini, G. 2007. A multiple-site similarity measure independent of richness. Biology letters 3:642-645. Burnham, K.P. & Anderson, D.R. 2010. Model *Descreve e implementa o ndice de similaridade de Simpson selection and multimodel inference: A pratical information-theoretic approach. Berlin, Springer. para selecionar variveis numa CCA no a melhor opo. Forward selection of explanatory variables. Ecology 89:26232632. Bini, L. M. & Diniz-Filho, J.A.F. 1995. Spectral decompositions in cluster analysis with applications to limnological data. Acta Limnologica Brasiliensia 7: 35-40.
118
Bocard, D. et al. 2011. Numerical ecology with R. Berlin: Springer. **Escrito por autores de ponta em anlises multivariadas, traz a implementao de testes abordados no livro de 1998 em R. Chao A, Chazdon RL, Colwell RK, Shen T-J. 2005. A new statistical approach for assessing similarity of species composition with incidence and abundance data. Ecology Letters 8:148 159.
De Cceres, M. & Legendre, P. 2009. Associations between species and groups of sites: indices and statistical inference. Ecology 90(12): 3566-3574. *Artigo que expande o IndVal propondo variantes do ndice. Doldec, S.; Chessel, D. & Gimaret-Carpentier, C. 2000. Niche separation in community analysis: a new method. Ecology 81(10): 29142927. Dufrene, M. & Legendre, P. 1997. Species
Chao A, Chazdon RL, Colwell RK, Shen T-J. 2006. Abundance-based similarity indices and their estimation when there are unseen species in samples. Biometrics 62:361371.
assemblages and indicator species: the need for a flexible asymmetrical approach. Ecol. Monogr. 67(3):345-366 *Artigo que prope o IndVal
Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. Australian Journal of Ecology 18, 117-143. **Artigo que descreve o ANOSIM e uma tima referncia para o nMDS tambm. Clarke, K.R. & Warwick, R.M. 2000. Change in Marine Communities: An Approach to Statistical Analysis and Interpretation. 2nd eds. Plymouth Marine Laboratory & PRIMER-E: Plymouth. *Manual do software Primer que traz tambm um pouco de teoria dos testes. Cook, D. & Swayne, D.F. 2007. Graphics for data analysis interactive and dynamics with R and GGobi. Berlin: Springer. *Este livro traz a implementao das funcionalidades do pacote ggobi, mais informaes em: http://www.ggobi.org/. Crawley, M.J. 2007. The R book. Nova York: Wiley. *Livro que vai do bsico ao avanado, tem informaes sobre linguagem R, estatstica univariada, multivariada e modelagem. Relativamente fcil de compreender. Cap. 5 e 27 traz funes para criao e manipulo de grficos passoa-passo Gotelli N.J. & Ellison A.M. 2004. A primer of ecological statistics. Sunderland: Sinauer. * O cap. 7 deste livro trs um apanhado geral sobre desenhos amostrais voltados para experimentao e os dois ltimos captulos so uma introduo estatstica multivariada. Greenwood, J. J. D. & Robinson, R. A. 2006. Principles of sampling. In: Sutherland, W. J. (ed.) Ecological Census Techniques, a handbook. 2 Ed. Cambridge: Cambridge University Press. * Excelente abordagem sobre mtodos de amostragem para pesquisas de campo. Hayek, L-A. C. 1994. Research design for quantitative amphibian studies. In: Heyer, W.R. et al. (eds.) Measuring and monitoring biological diversity, standard methods for amphibians. Washington: Smithsonian Books. Ford ED. 2000. Scientific method for ecological research: Cambridge Univ Press. Godfrey-Smith P. 2003. Theory and reality: An introduction to the philosophy of science: University of Chicago Press.
Hurlbert SH. 1984. Pseudoreplication and the Design of Ecological Field Experiments. Ecological Monographs 54:187-211. * Artigo clssico sobre amostragem e desenho experimental, alm de uma leitura agradvel. Hurlbert, S.H. 1971. The Nonconcept of Species Diversity: A Critique and Alternative Parameters. Ecology 52(4):577-586. Husson, F.; L, S. & Pags, J. 2011. Exploratory Multivariate Analysis by Example Using R. CRC Press. *Traz alguns exemplos de ecologia.
*Este o manual que acompanha o programa PCORD, mas tambm traz um contedo terio bastante til. McGill BJ, et al. 2007. Species abundance distributions: moving beyond single prediction theories to integration within an ecological framework. Ecology Letters 10:9951015. Murrell, P. 2006. R graphics. Boca Raton: Chapman & Hall/CRC. Oksanen, J. 2011. Constrained Ordination: Tutorial with R and vegan. Disponvel em: http://cc.oulu.fi/~jarioksa/opetus/metodi/sessio2.pdf The Ordination web page
Jackson D.A. 1993. Stopping rules in principal components analysis: a comparison of heuristical and statistical approaches. Ecology 74:2204-2214. James, F.C. & McCulloch, C. E. 1990. Multivariate analysis in ecology and systematics: Panacea or pandoras box? Annual Review of Ecology and Systematics21:129-66.
http://ordination.okstate.edu/ *pgina com vrios recursos para auxiliar na execuo de anlises de ordenao, exemplos de planlha para entrada de dados em programas e um glossrio termos em anlise de ordenao podem parecer complicados no incio e de fcil confuso. Owen, W. J. The R Guide disponvel em
*texto crtico que deve de ser lido por todo usurio de anlises multivariadas. Bom tambm para escolher a anlise correta.
http://www.mathcs.richmond.edu/~wowen/TheRGuid e.pdf. * Este um manual pequeno (49 pginas) fcil de
Krebs, C. J. 1999. Ecological Methodology. 2 ed. Menlo-Park: Benjamin-Cummings. *Texto bom para descries e exemplos de coeficientes de similaridade e ndices de diversidade, mas desatualizado infelizmente. Legendre, P. & Legendre, L. 1998. Numerical ecology. 2 ed. inglesa. Elsevier.
entender para iniciantes no s no R mas tambm em computao. Uma boa pedida como texto inicial. Palmer, M. W. 1993. Putting things in even better order: The advantages of canonical correspondence analysis. Ecology 74,2215-2230. *Reviso sobre CCA Paradis, E. 2005. R for beginners. Disponvel em
**Este o manual terico essencial e leitura obrigatria para qualquer anlise multivariada. Magurran A.E. 2004. Measuring biological diversity. Oxford: Blackwell publishing. McCune, B. & Grace, J. B. 2002. Analysis of Ecological Communities. MjM Software Design, Oregon: Gleneden Beach.
http://cran.r-project.org/doc/contrib/Paradisrdebuts_en.pdf * Este manual d algumas noes iniciais de como lidar com objetos e grficos no R, alm de rudimentos de programao e anlises estatsticas elementares.
Peres-Neto PR, Jackson DA, Somers KM. 2005. How many principal components? Stopping rules for determining the number of non-trivial axes revisited. Computational Statistics &Data Analysis 49:974-997. Pillar VDP. 1999. How sharp are classifications? Ecology 80:2508-2516.
Venables, W. N. & Ripley, B.D. 2000. S programming. Springer. *Leitura avanada sobre programao em linguagem S, similar R. O Cap. 12 deste manual contm mais detalhes de como criar e manipular grficos Venables, W. N. & Ripley, B.D. 2002. Modern
R Labs for Vegetation Ecologists<http://ecology.msu.montana.edu/labdsv/R /labs/> *Esta pgina traz uma introduo anlise de dados em R para eclogos de comunidade. Santos, A.J. 2003. Estimativas de riqueza em espcies. In: Cullen Jr., L. et al. (Org.). Mtodos de estudo em biologia da conservao e manejo da vida silvestre. Curitiba: Ed. UFPR e Fundao O Boticrio de Proteo Natureza, p. 19-41.
applied statistics with S. 4.ed. Springer. *Um livro para usurios avanados mas que traz muita informao sobre testes e um pouco de programao. Boa leitura para quem desejar se aventurar no R. Venables, W. N. & Smith, D. M. 2010. An introduction to R. Disponvel em http://brieger.esalq.usp.br/CRAN/doc/manuals/Rintro.pdf * Este o manual oficial do R development core
Sarkar, D. 2008. Lattice, multivariate data visualization with R. Berlin: Springer. Statistica electronic textbook <http://www.statsoft.com/textbook/> *Esta uma pgina que contm um livro-texto preparado pelos criadores do Statistica Sutherland, W. J. 2006. Planning a research programme. In: Sutherland, W. J. (ed.)Ecological Census Techniques, a handbook. 2 Ed. Cambridge: Cambridge University Press. *Boa leitura para treinar o raciocnio e planejar o trabalho de campo. Ter Braak, C. J. F. (1986) Canonical Correspondence Analysis: a new eigenvector technique for multivariate direct gradient analysis. Ecology 67, 1167-1179. *Artigo que props a CCA ter-Braak CJE, M.Verdonschot PE. 1995. Canonical correspondence analysis and related multivariate methods in aquatic ecology Aquatic Sciences 57(3):254-289.
team atualizado a cada verso lanada do R. Contm mais detalhes de como criar e manipular objetos no R, assim como as classes de objetos, grficos, importao e exportao de dados, alm de rudimentos de programao e anlises estatsticas bsicas, mas de difcil leitura. Verzani, J. Simple R. Disponvel em http://www.math.csi.cuny.edu/Statistics/R/simpleR/pr intable/simpleR.pdf * Outro manual simples e de fcil consulta, bom como texto introdutrio. Wickham, H. 2009. ggplot2, Elegant graphics for data analysis. Berlin: Springer. WolframathWorld<http://mathworld.wolfram.com/> Zuur, A. F.; Ieno, E.N. & Meesters, E. H.W.G. 2009. A Beginners Guide to R. Berlim: Springer. * Este um livro da srie use R! da Springer de grande valia para os iniciantes, pois consegue atingir o equilbrio entre detalhamento e volume de informao.
Zuur, A. et al. 2007. Analysing ecological data. Berlin: Springer. *Captulos 11-15 trazem implementao de anlises multivariadas em R com exemplos de ecologia.

Apostila Disciplina R v. 2.0

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apostila Disciplina R v. 2.0

Uploaded by

Copyright:

Available Formats

Universidade Estadual Paulista Programa de Ps-Graduao Biologia Animal

Estatstica aplicada ecologia usando o R

Unidade amostral Variveis Covariveis Escala

Hiptese nula Hiptese alternativa

em um teste especfico for 0,05 (resultado significativo), decidimos por rejeit-la. Do

processo analtico. unid.amostral6 3.657

unid.amostral10 unid.amostral11 unid.amostral12 unid.amostral13 unid.amostral14 unid.amostral15

3.288 2.856 3.608 3.611 2.514 3.716

3.728 4.234 3.032 3.178 0.851

n10 n11 n12 n13 n15

3.214 2.862 2.925 2.403 2.935

2.665 3.026 3.993 3.112 4.154

m10 m11 m12 m13 m14 m15

INTRODUO AO n14 AMBIENTE4.532PROGRAMAO R DE 2.162 3.876

PORQUE USAR O R? Os criadores do R o chamam de uma linguagem e ambiente de programao estatstica e

6 0 6 p(0) = (0,30 ) (0,70 ) 0,118 0 6 1 5 p(1) = (0,30 ) (0,70 ) 0,303 1

6 5 1 p(5) = (0,30 ) (0,70 ) 0,010 5 6 6 0 p(6) = (0,30 ) (0,70 ) 0,001 6

6 4 2 p(4) = (0,30 ) (0,70 ) 0,060 4

Figura 5. Histograma da distribuio binomial com n = 6 e q = 0,30.

Funo distribuio de probabilidade

="h", ylab = "Probabilidade",

main = "Distribuio Binomial")

20.15 17.1 = 2.52 1.21

Tabela 3. Algumas das ligaes mais comuns para GLM.

(/2) 1 2 exp 2 + exp 2 + exp( 2 )

nmero de mortes de anfbios em uma rodovia em 52 stios em

family = quasipoisson, data = RK)

QuercusPlants + QuercusTrees + ReedDeerIndex + EstateSize DeerSampledCervi,data = Tbdeer) >summary(Deer2)

42 21 /30 42 16 /30 42 3 /30 42 2 /30 + 1 + 1 + 1 42/30 42/30 42/30 42/30

E(30) = 1 + 1 +0.981 + 0.923

E(30) = 3.9 espcies

rare roedore roedore roedore s 21 16 3 2 0 0 0 0 s1 16 15 13 31 1 1 1 1 s2 10 10 10 10 10 10 10 0

>amostras3 <- c(seq(5, 70, by = 1))

!" !"!# !!! ( 1)! 1 !"# (!"!# )(!"!# 1)

!"# ! !"# ! !"# (!"# !!! )

11 Escolham a opo Diversity Settings

ComunidadeA ComunidadeB ComunidadeC

Os passos para a anlise de agrupamento so os seguintes:

obs mdia desvio

Traduo (centride comum)

http://www.mathcs.richmond.edu/~wowen/TheRGuid e.pdf. * Este um manual pequeno (49 pginas) fcil de

You might also like