25/01/2023 12:30 8_Examinando_Dados UNIVERSIDADE FEDERAL DO AMAPÁ Curso de Ciência da Computação Examinando dados Dr. José Walter Cárdenas Sotil Examinando dados Num projeto geramos dados ou usamos dados de outras fontes, os quais tem quer lidos e analisados. No R usamos pacotes para ler, analisar, graficar e fornecer relatórios. A grande quantidade de dados não permite fornecer conclusões úteis, pelo qual se construem tabelas e gráficos para facilitar uma primeira análise dos dados Apresentamos primeiro como realizar a leitura e visualização dos dados do arquivo gapminder e luego analisamos relações entre os dados usando tabelas e gráficos. Carregando pacotes Se um pacote não estiver instalado na linha de comando digite install.package('nome do pacote') ou ir para a aba Packages -> install e digite o nome do pacote para carregar um pacote: library(nome do pacote) O pacote tidyverse é uma coleção de pacotes criados para ciência de dados, ela carrega os seguintes pacotes tibble para data frames repaginados readr para importarmos bases para o R tidyr e dplyr para arrumação e manipulação de dados stringr para trabalharmos com textos forcats para trabalharmos com fatores ggplot2 para gráficos file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 1/22 25/01/2023 12:30 8_Examinando_Dados O pacote dplyr pacote de manipulação de dados com 5 funções chave: select(): seleciona variáveis com base em seus nomes filter(): seleciona observações com base em seus valores arrange(): muda a ordem das linhas summarise(): reduz muitos valores em um único resumo mutate(): cria novas variáveis em função das variáveis existentes. O pacote ggplot2 O objetivo é construir o gráfico camada a camada. Tem as seguintes vantagens: gráficos naturalmente mais bonitos fácil personalização (mais simples deixar o gráfico do jeito que você quer) a diferença no código entre tipos diferentes de gráficos é muito pequena O operador pipe (%>%) O operador pipe (%>%) permite direcionar a saída de um comando para outro, permitindo criar vários tipos de filtros e executar operações complicadas de uma forma muito mais concisa Ele já é carregado no pacote tidyverse Leitura de dados - Dataframe Usamos a base de dados da Fundação Gapminder, a qual busca divulgar gratuitamente informações, baseada em dados e estatísticas oficiais, sobre o mundo Todos os dados mundiais reunidos pela fundação podem ser acessados, gratuitamente, no site https://www.gapminder.org/ usamos o arquivo gapminder_dados.rds cuja leitura é feita com a função readRDS: In [1]: gapminder <- readRDS('gapminder_dados.rds') Usuarios do google colab Para usar o R no google colab na sua conta do google acesse o link: https://colab.research.google.com/#create=true&language=r file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 2/22 25/01/2023 12:30 8_Examinando_Dados no lado direito clique sobre a pasta arquivos de um clique no simbolo do arquivo com uma seta para cima (fazer upload para o armazenamento da sessão) baixe o arquivo gapminder_dados.rds de seu computador, este arquivo ficará disponível enquanto a sessão ficara ativa digite na linha de comando: gapminder <- readRDS('gapminder_dados.rds') Para visualizar o nome das variáveis usamos o comando names(): In [2]: names(gapminder) 'pais' · 'continente' · 'região' · 'nivel_de_renda' · 'ano' · 'renda_per_capita' · 'mortalidade_infantil' · 'expectativa_vida' obtem-se informação adicional do arquivo de dados com o comando str(): In [3]: str(gapminder) Classes 'tbl_df', 'tbl' and 'data.frame': 15957 obs. of 8 variables: $ pais : Factor w/ 197 levels "Afghanistan",..: 1 1 1 1 1 1 1 1 1 1 ... $ continente : Factor w/ 4 levels "África","Américas",..: 3 3 3 3 3 3 3 3 3 3 ... $ região : Factor w/ 8 levels "África do Norte",..: 5 5 5 5 5 5 5 5 5 5 ... $ nivel_de_renda : Ord.factor w/ 4 levels "Low income"<"Lower middle income" <..: 1 1 1 1 1 1 1 1 1 1 ... $ ano : num 1940 1941 1942 1943 1944 ... $ renda_per_capita : num 2064 2094 2126 2159 2191 ... $ mortalidade_infantil: num 436 434 431 431 428 ... $ expectativa_vida : num 31.9 31.9 32 32.1 32.1 ... as primeras linhas do arquivo de dados são visualizados com o comando head(): In [4]: head(gapminder) A tibble: 6 × 8 pais continente região nivel_de_renda ano renda_per_capita mortalidade_infantil <fct> <fct> <fct> <ord> <dbl> <dbl> <dbl> 1 Afghanistan Asia Ásia Ocidental Low income 1940 2064 435.64 2 Afghanistan Asia Ásia Ocidental Low income 1941 2094 433.52 3 Afghanistan Asia Ásia Ocidental Low income 1942 2126 431.41 4 Afghanistan Asia Ásia Ocidental Low income 1943 2159 430.59 5 Afghanistan Asia Ásia Ocidental Low income 1944 2191 428.48 file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 3/22 25/01/2023 12:30 8_Examinando_Dados 6 pais continente região nivel_de_renda ano renda_per_capita mortalidade_infantil <fct> <fct> <fct> <ord> <dbl> <dbl> <dbl> Afghanistan Asia Ásia Ocidental Low income 1945 2223 426.38 Identificando o rango dos anos no Gapminder a função range fornece os valores máximos e mínimos de variáveis declaradas como numéricas In [5]: range(gapminder$ano) 1940 · 2020 Gapminder apresenta os dados entre os anos de 1940 a 2020. Identificando os fatores nos dados Gapminder Fatores são uma classe de objetos no R criada para representar as variáveis categóricas numericamente. A livraria forcats nos permite trabalhar com fatores Fatores dos continentes In [6]: library(dplyr) Attaching package: 'dplyr' The following objects are masked from 'package:stats': filter, lag The following objects are masked from 'package:base': intersect, setdiff, setequal, union In [7]: gapminder %>% pull(continente) %>% unique() Asia · Europa · África · Américas Levels: Os continentes no Gapminder são: Americas, Africa, Asia, Europa (Oceania está dentro de Asia) file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 4/22 25/01/2023 12:30 8_Examinando_Dados Fatores das regiões In [8]: In [9]: options(dplyr.summarise.inform = FALSE) gapminder %>% group_by(continente, região) %>% summarise(n()) A grouped_df: 8 × 3 continente região n() <fct> <fct> <int> África África do Norte 486 África África Subsaariana 3888 Américas América do Norte 1863 Américas América do Sul 972 Asia Ásia Ocidental 2187 Asia Extremo Oriente 2592 Europa Leste Europeu 1944 Europa Europa Ocidental 2025 Filtrando dados para o ano 2017 Trabalhamos em boa parte da análise dos dados com o ano 2017, pelo qual definimos um dataframe para o ano 2017 usando o operador pipe %>% e filter: In [10]: In [11]: gapminder2017 <- gapminder %>% filter(ano == 2017) head(gapminder2017) A tibble: 6 × 8 pais continente região nivel_de_renda ano renda_per_capita mortalidade_infantil <fct> <fct> <fct> <ord> <dbl> <dbl> <dbl> Afghanistan Asia Ásia Ocidental Low income 2017 1758 64.73 Albania Europa Leste Europeu Upper middle income 2017 11803 9.02 Algeria África África do Norte Upper middle income 2017 13876 24.02 Andorra Europa Europa Ocidental High income 2017 49768 3.01 Angola África África Subsaariana Lower middle income 2017 6045 80.44 file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html e 5/22 25/01/2023 12:30 8_Examinando_Dados pais continente região nivel_de_renda ano renda_per_capita mortalidade_infantil <fct> <fct> <fct> <ord> <dbl> <dbl> <dbl> Antigua and Barbuda Américas América do Norte High income 2017 22856 6.69 e Gráfico de Barras: Número de paises por continentes Um gráfico de barras é uma forma de resumir dados categóricos os dados são mostrados utilizando um número de barras da mesma largura, cada uma representa uma determinada categoria a altura de cada barra é proporcional à frequência absoluta ou relativa de cada categoria por exemplo, os continentes são variáveis categóricas que podem ser representadas numa tabela de frequência (número de países por continente) Os 4 continentes são tabeladas usando a função table(): In [12]: table(gapminder2017$continente) África Américas 54 35 Asia 59 Europa 49 ou numa tabela de frequências relativas, usando a função prop.table(): In [13]: prop.table(table(gapminder2017$continente)) África Américas Asia Europa 0.2741117 0.1776650 0.2994924 0.2487310 ou usando a função summarise: In [14]: gapminder2017 %>% group_by(continente) %>% summarise(Países = n()) A tibble: 4 × 2 continente Países <fct> <int> África 54 Américas 35 Asia 59 Europa 49 file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 6/22 25/01/2023 12:30 8_Examinando_Dados as frequências relativas em percentual com a função summarise: In [15]: gapminder2017 %>% group_by(continente) %>% summarise('Frequência relativa (%)' = n()/nrow(gapminder2017)*100) A tibble: 4 × 2 continente Frequência relativa (%) <fct> <dbl> África 27.41117 Américas 17.76650 Asia 29.94924 Europa 24.87310 Graficamos os 4 continentes usando ggplot do módulo ggplot2 da livraria tidyverse os continentes estão sob o eixo x e a sua frequência no eixo y o gráfico de barras é desenhado com geom_bar() as cores são definidas por fill = continente as frequências nas barras se definem com geom_label os titulos se definem com labs() In [16]: library(tidyverse) -- Attaching packages ------------------------------------------------------------------------------ tidyverse 1.3.1 -v v v v ggplot2 tibble tidyr readr 3.3.5 3.1.2 1.1.3 2.0.0 v purrr 0.3.4 v stringr 1.4.0 v forcats 0.5.1 -- Conflicts --------------------------------------------------------------------------------- tidyverse_conflicts() -x dplyr::filter() masks stats::filter() x dplyr::lag() masks stats::lag() In [17]: gapminder2017 %>% group_by(continente) %>% summarize(frequência = n()) %>% ggplot(aes(x = continente, y = frequência)) + geom_bar(stat = 'identity', aes(fill = continente)) + geom_label(aes(label = frequência)) + labs(title = paste('Número de países por região'), x = 'continentes', y = 'Frequ file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 7/22 25/01/2023 12:30 8_Examinando_Dados o gráfico de barras em percentual (%), arredondando os percentuais a 2 dígitos significativos: In [18]: gapminder2017 %>% group_by(continente) %>% summarize(freq_rel = n()/nrow(gapminder2017)*100) %>% ggplot(aes(x = continente, y = freq_rel)) + geom_bar(stat = 'identity', aes(fill = continente)) + geom_label(aes(label = sprintf('%0.2f', round(freq_rel, digits = 2)))) + labs(title = paste('Número de países por continente'), x = 'continentes', y = 'Fre file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 8/22 25/01/2023 12:30 8_Examinando_Dados Gráfico de barras: Continentes vs nível de renda 2017 Os dados gapminder dividem o nível de renda em: baixa renda (Low income) renda média baixa (Lower middle income) renda média alta (Upper middle income) renda alta (High income) agrupamos os dados em nível de renda por continente usando group_by() e summarise: In [19]: gapminder2017 %>% group_by(continente, nivel_de_renda) %>% summarise(freq = n()) A grouped_df: 16 × 3 continente nivel_de_renda freq <fct> <ord> <int> África Low income 27 África Lower middle income 18 África Upper middle income 8 África High income 1 Américas Low income 1 Américas Lower middle income 5 file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 9/22 25/01/2023 12:30 8_Examinando_Dados continente nivel_de_renda freq <fct> <ord> <int> Américas Upper middle income 20 Américas High income 9 Asia Low income 3 Asia Lower middle income 25 Asia Upper middle income 15 Asia High income 16 Europa Lower middle income 4 Europa Upper middle income 12 Europa High income 32 Europa NA 1 ou usando table(): In [20]: table(gapminder2017$continente, gapminder2017$nivel_de_renda) África Américas Asia Europa Low income Lower middle income Upper middle income High income 27 18 8 1 1 5 20 9 3 25 15 16 0 4 12 32 o Grafico de barras do nível de renda e continentes segue o gráfico de uma variável, mais agrupando os dados com group_by() e summarize(): In [21]: gapminder2017 %>% group_by(continente, nivel_de_renda) %>% summarize(frequência = n()) %>% ggplot(aes(x = continente, y = frequência)) + geom_bar(stat = 'identity', position = 'dodge', aes(fill = nivel_de_renda)) + geom_label(position = position_dodge2(width = 1), aes(label = frequência)) file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 10/22 25/01/2023 12:30 8_Examinando_Dados Grafico de Dispersão ou Scatterplot Um gráfico de dispersão é uma associação entre pares de dados por exemplo, desejamos saber se a riqueza econômica de um país pode afetar a expectativa de vida média de seus habitantes no eixo x colocamos a variável explicativa: renda per capita (dolares) no eixo y colocamos a variavel resposta: expectativa de vida (anos) Tabelamos os dados da renda per capita e expectiva de vida para cada país, usando a função select(): In [22]: gapminder2017 %>% select(pais, renda_per_capita, expectativa_vida) A tibble: 197 × 3 pais renda_per_capita expectativa_vida <fct> <dbl> <dbl> Afghanistan 1758 63.38 Albania 11803 78.23 Algeria 13876 77.74 Andorra 49768 82.70 Angola 6045 64.19 file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 11/22 25/01/2023 12:30 8_Examinando_Dados pais renda_per_capita expectativa_vida <fct> <dbl> <dbl> Antigua and Barbuda 22856 77.02 Argentina 18945 76.66 Armenia 8745 75.61 Australia 44888 82.39 Austria 45493 81.77 Azerbaijan 15929 70.76 Bahamas 28705 73.73 Bahrain 43320 79.49 Bangladesh 3634 73.12 Barbados 16839 77.13 Belarus 17193 74.03 Belgium 42781 81.38 Belize 7726 74.16 Benin 2069 64.63 Bhutan 9247 74.05 Bolivia 6799 72.75 Bosnia and Herzegovina 12275 76.72 Botswana 16165 69.07 Brazil 14236 75.51 Brunei 72524 75.35 Bulgaria 18606 74.88 Burkina Faso 1696 61.68 Burundi 671 61.55 Cambodia 3654 69.88 Cameroon 3313 62.98 ... ... ... Sweden 46681 82.50 Switzerland 57998 83.96 Syria 3100 69.79 Taiwan 42194 79.95 Tajikistan 2924 70.32 Tanzania 2809 66.72 Thailand 16286 78.11 Timor-Leste 6741 70.81 Togo 1530 64.37 file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 12/22 25/01/2023 12:30 8_Examinando_Dados pais renda_per_capita expectativa_vida <fct> <dbl> <dbl> Tonga 5746 71.77 Trinidad and Tobago 28567 74.24 Tunisia 10950 78.33 Turkey 25024 78.94 Turkmenistan 16390 70.10 Tuvalu 3548 NA Uganda 1768 65.71 Ukraine 7907 70.55 United Arab Emirates 66676 73.32 United Kingdom 39862 80.97 United States 54471 78.59 Uruguay 20658 77.05 Uzbekistan 6040 70.35 Vanuatu 2827 64.72 Venezuela 14506 75.29 Palestine 4652 76.85 Vietnam 6233 74.53 Yemen 2404 68.06 Zambia 3718 63.20 Zimbabwe 2568 61.35 South Sudan 1848 59.25 o gráfico de dispersão para o ano 2017 é gerado com ggplot com as opções: o gráfico de pontos com a opção geom_point() as cores para cada ponto são definidas com color(pais) o gráfico se faz interactivo usando plotly: In [23]: library(plotly) Attaching package: 'plotly' The following object is masked from 'package:ggplot2': last_plot The following object is masked from 'package:stats': filter file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 13/22 25/01/2023 12:30 8_Examinando_Dados The following object is masked from 'package:graphics': layout In [24]: In [25]: grafo <- gapminder2017 %>% filter(!is.na(renda_per_capita) & !is.na(expectativa_vida)) %>% ggplot(aes(x=renda_per_capita, y=expectativa_vida)) + geom_point(aes( color = pais)) ggplotly(grafo) Se observa que a expectativa de vida é menor para paises com uma renda per capita menor. Entre os paises com a menor expectativa de vida, temos a Republica Central da Africa com expectativa de vida de 51,87 anos e renda per capita de 754 dolares por ano Leshoto, republica da Africa com expectativa de vida de 54,66 anos e renda per capita de 2846 dolares por ano, A expectativa de vida é maior para paises com renda per capita maior, com tendência no ano de 2017 a uma expectativa de vida maior a 80 anos para paises com alta renda per capita, entre estes paises temos a Luxemburgo, com expectativa de vida de 81,66 anos e renda per capita de 93.102 dolares por ano, file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 14/22 25/01/2023 12:30 8_Examinando_Dados Singapura, com expectativa de vida de 84,79 anos e renda per capita de 87.700 dolares por ano Nesta nuvem de dados traçamos uma curva que mostre esta associação entre a expectativa de vida e a renda per capita. Esta curva é denominada curva de regressão não linear Para desenhar a curva de regressão não linear usamos xyplot(), com a opção type=c('p', 'smooth') a qual desenha um polinômio suavizado pela opção smooth In [26]: require(tigerstats) Carregando pacotes exigidos: tigerstats Carregando pacotes exigidos: abd Carregando pacotes exigidos: nlme Attaching package: 'nlme' The following object is masked from 'package:dplyr': collapse Carregando pacotes exigidos: lattice Carregando pacotes exigidos: grid Carregando pacotes exigidos: mosaic Registered S3 method overwritten by 'mosaic': method from fortify.SpatialPolygonsDataFrame ggplot2 The 'mosaic' package masks several functions from core packages in order to add additional features. The original behavior of these functions should not be affecte d by this. Attaching package: 'mosaic' The following object is masked from 'package:Matrix': mean The following object is masked from 'package:plotly': do The following object is masked from 'package:purrr': cross The following object is masked from 'package:ggplot2': stat file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 15/22 25/01/2023 12:30 8_Examinando_Dados The following objects are masked from 'package:dplyr': count, do, tally The following objects are masked from 'package:stats': binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test, quantile, sd, t.test, var The following objects are masked from 'package:base': max, mean, min, prod, range, sample, sum Welcome to tigerstats! To learn more about this package, consult its website: http://homerhanumat.github.io/tigerstats In [27]: xyplot(expectativa_vida~renda_per_capita, data = gapminder2017, col='black',type=c(' a curva de regressão mostra a tendência entre estas variáveis, um pais com maior renda per capita apresenta uma maior expectativa de vida de sua população tem países fora da curva, e tem-se que analizar se são potenciais outliers. Outliers são dados que se diferenciam drasticamente de todos os outros, eles podem causar anomalias nos resultados obtidos por algoritmos e sistemas de analíses tem-se que analisar se o outlier vai ser exluido dos dados, se vai ser analisado separadamente ou se agrupamos os dados, contendo algunos destes grupos estes dados discrepantes file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 16/22 25/01/2023 12:30 8_Examinando_Dados um dado outlier pode atrapalhar a análise, mas há que ter cuidado se ele vai ser exluido pois pode ser o que se está procurando entre os potenciais pontos fora da curva, temos Guinea Equatorial, com expectativa de vida de 65,52 anos e renda per capita de 22.999 dolares por ano. Swaziland (Essuatini), pais da africa com expectativa de vida de 59,80 anos e renda per capita de 9568 dolares por ano. Brasil que acompanha a curva tinha em 2017 expectativa de vida de 75,51 anos de vida e 14.236 dolares por ano Catar, com expectativa de vida de 78 anos e a maior renda percapita de 120366 dolares por ano no ano de 2017 Não se pode simplesmente ignorar os outliers da curva sem um análise detalhado de cada caso. América do Sul 2017 Analisamos os dados de renda per capita versus expectativa de vida para os países de América do Sul no ano 2012 A variável regiâo contém a América do Sul Filtramos os dados de América do Sul com filter() e selecionamos o pais, a renda percapita e a expectativa de vida com select: In [28]: gapminder2017 %>% filter(região == 'América do Sul') %>% select(pais, renda_per_capita, expectativa_vida) A tibble: 12 × 3 pais renda_per_capita expectativa_vida <fct> <dbl> <dbl> Argentina 18945 76.66 Bolivia 6799 72.75 Brazil 14236 75.51 Chile 22297 79.70 Colombia 13186 80.11 Ecuador 10454 76.73 Guyana 7399 69.21 Paraguay 11790 76.12 Peru 12518 80.31 Suriname 13636 72.04 file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 17/22 25/01/2023 12:30 8_Examinando_Dados pais renda_per_capita expectativa_vida <fct> <dbl> <dbl> Uruguay 20658 77.05 Venezuela 14506 75.29 Graficamos usando ggplot, geom_point() e ggplotly(): In [29]: In [30]: grafo2 <- gapminder2017 %>% filter(região == 'América do Sul' & !is.na(renda_per_capita) & !is.na(expectativa_ ggplot(aes(x=renda_per_capita, y=expectativa_vida)) + geom_point(aes( color = pais)) ggplotly(grafo2) Os dados indicam a tendência que paises de sudamérica com maior renda per capita tem maior expectativa de vida Desenhamos a curva de regressão não linear para analisar melhor os dados In [31]: In [32]: grafo3 <- gapminder2017 %>% filter(região == 'América do Sul' & !is.na(renda_per_capita) & !is.na(expectativa xyplot(expectativa_vida~renda_per_capita, data = grafo3, col='black',type=c('p','smo file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 18/22 25/01/2023 12:30 8_Examinando_Dados Chile tem expectativa de vida de 79,7 anos com a maior renda per capita de 22.297 dolares por ano Bolivia tem expectativa de vida de 72,75 anos com renda per capita de 6799 dolares por ano Guyana é um ponto fora da curva, com expectativa de vida de 69,21 anos e renda per capita de 7399 por ano Suriname é um ponto fora da curva, com expectativa de vida de 72 anos e renda per capita de 13363 dolares por ano Perú é um ponto fora da curva, com a maior expectativa de vida de 80,31 anos e renda per capita de 12518 dolares por ano Brasil tem expectativa de vida de 75,51 anos e renda per capita de 14236 dolares por ano A curva de regressão linear cresce até atingir um máximo, logo decresce até atingir um mínimo e novamente volta a crescer. Há uma suspeita ao observar a curva de regressão linear que a expectativa de vida não é totalmente explicada pela renda per capita. Outros fatores que influênciam a expectativa de vida deverão ser identificados. Como por exemplo o percentual de assistencia a serviços básicos, como água, esgoto, coleta de lixo, etc. Relação entre variáveis file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 19/22 25/01/2023 12:30 8_Examinando_Dados Para analisar a relação entre duas variáveis é util examinar: 1. a direção da relação está aumentando (positiva) ou decrescendo (negativa) 1. a forma da relação é linear? ou segue outra forma? 1. a força da relação é forte (strong)? ou fraca (weak)? file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 20/22 25/01/2023 12:30 8_Examinando_Dados 1. verificar a existência de possíveis outliers file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 21/22 25/01/2023 12:30 8_Examinando_Dados file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html 22/22