Uploaded by lawey36930

4 Examinando Dados

advertisement
25/01/2023 12:30
8_Examinando_Dados
UNIVERSIDADE FEDERAL DO AMAPÁ
Curso de Ciência da Computação
Examinando dados
Dr. José Walter Cárdenas Sotil
Examinando dados
Num projeto geramos dados ou usamos dados de outras fontes, os quais tem quer lidos e
analisados.
No R usamos pacotes para ler, analisar, graficar e fornecer relatórios.
A grande quantidade de dados não permite fornecer conclusões úteis, pelo qual se
construem tabelas e gráficos para facilitar uma primeira análise dos dados
Apresentamos primeiro como realizar a leitura e visualização dos dados do arquivo
gapminder e luego analisamos relações entre os dados usando tabelas e gráficos.
Carregando pacotes
Se um pacote não estiver instalado na linha de comando digite
install.package('nome do pacote')
ou ir para a aba Packages -> install e digite o nome do pacote
para carregar um pacote:
library(nome do pacote)
O pacote tidyverse
é uma coleção de pacotes criados para ciência de dados, ela carrega os seguintes pacotes
tibble para data frames repaginados
readr para importarmos bases para o R
tidyr e dplyr para arrumação e manipulação de dados
stringr para trabalharmos com textos
forcats para trabalharmos com fatores
ggplot2 para gráficos
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
1/22
25/01/2023 12:30
8_Examinando_Dados
O pacote dplyr
pacote de manipulação de dados com 5 funções chave:
select(): seleciona variáveis com base em seus nomes
filter(): seleciona observações com base em seus valores
arrange(): muda a ordem das linhas
summarise(): reduz muitos valores em um único resumo
mutate(): cria novas variáveis em função das variáveis existentes.
O pacote ggplot2
O objetivo é construir o gráfico camada a camada. Tem as seguintes vantagens:
gráficos naturalmente mais bonitos
fácil personalização (mais simples deixar o gráfico do jeito que você quer)
a diferença no código entre tipos diferentes de gráficos é muito pequena
O operador pipe (%>%)
O operador pipe (%>%) permite direcionar a saída de um comando para outro, permitindo
criar vários tipos de filtros e executar operações complicadas de uma forma muito mais
concisa
Ele já é carregado no pacote tidyverse
Leitura de dados - Dataframe
Usamos a base de dados da Fundação Gapminder, a qual busca divulgar gratuitamente
informações, baseada em dados e estatísticas oficiais, sobre o mundo
Todos os dados mundiais reunidos pela fundação podem ser acessados, gratuitamente, no
site https://www.gapminder.org/
usamos o arquivo gapminder_dados.rds cuja leitura é feita com a função readRDS:
In [1]:
gapminder <- readRDS('gapminder_dados.rds')
Usuarios do google colab
Para usar o R no google colab na sua conta do google acesse o link:
https://colab.research.google.com/#create=true&language=r
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
2/22
25/01/2023 12:30
8_Examinando_Dados
no lado direito clique sobre a pasta arquivos
de um clique no simbolo do arquivo com uma seta para cima (fazer upload para o
armazenamento da sessão)
baixe o arquivo gapminder_dados.rds de seu computador, este arquivo ficará disponível
enquanto a sessão ficara ativa
digite na linha de comando: gapminder <- readRDS('gapminder_dados.rds')
Para visualizar o nome das variáveis usamos o comando names():
In [2]:
names(gapminder)
'pais' · 'continente' · 'região' · 'nivel_de_renda' · 'ano' · 'renda_per_capita' · 'mortalidade_infantil' ·
'expectativa_vida'
obtem-se informação adicional do arquivo de dados com o comando str():
In [3]:
str(gapminder)
Classes 'tbl_df', 'tbl' and 'data.frame':
15957 obs. of 8 variables:
$ pais
: Factor w/ 197 levels "Afghanistan",..: 1 1 1 1 1 1 1 1 1 1
...
$ continente
: Factor w/ 4 levels "África","Américas",..: 3 3 3 3 3 3 3 3
3 3 ...
$ região
: Factor w/ 8 levels "África do Norte",..: 5 5 5 5 5 5 5 5 5
5 ...
$ nivel_de_renda
: Ord.factor w/ 4 levels "Low income"<"Lower middle income"
<..: 1 1 1 1 1 1 1 1 1 1 ...
$ ano
: num 1940 1941 1942 1943 1944 ...
$ renda_per_capita
: num 2064 2094 2126 2159 2191 ...
$ mortalidade_infantil: num 436 434 431 431 428 ...
$ expectativa_vida
: num 31.9 31.9 32 32.1 32.1 ...
as primeras linhas do arquivo de dados são visualizados com o comando head():
In [4]:
head(gapminder)
A tibble: 6 × 8
pais
continente
região
nivel_de_renda
ano
renda_per_capita
mortalidade_infantil
<fct>
<fct>
<fct>
<ord>
<dbl>
<dbl>
<dbl>
1
Afghanistan
Asia
Ásia
Ocidental
Low income
1940
2064
435.64
2
Afghanistan
Asia
Ásia
Ocidental
Low income
1941
2094
433.52
3
Afghanistan
Asia
Ásia
Ocidental
Low income
1942
2126
431.41
4
Afghanistan
Asia
Ásia
Ocidental
Low income
1943
2159
430.59
5
Afghanistan
Asia
Ásia
Ocidental
Low income
1944
2191
428.48
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
3/22
25/01/2023 12:30
8_Examinando_Dados
6
pais
continente
região
nivel_de_renda
ano
renda_per_capita
mortalidade_infantil
<fct>
<fct>
<fct>
<ord>
<dbl>
<dbl>
<dbl>
Afghanistan
Asia
Ásia
Ocidental
Low income
1945
2223
426.38
Identificando o rango dos anos no Gapminder
a função range fornece os valores máximos e mínimos de variáveis declaradas como
numéricas
In [5]:
range(gapminder$ano)
1940 · 2020
Gapminder apresenta os dados entre os anos de 1940 a 2020.
Identificando os fatores nos dados Gapminder
Fatores são uma classe de objetos no R criada para representar as variáveis categóricas
numericamente.
A livraria forcats nos permite trabalhar com fatores
Fatores dos continentes
In [6]:
library(dplyr)
Attaching package: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
In [7]:
gapminder %>%
pull(continente) %>%
unique()
Asia · Europa · África · Américas
Levels:
Os continentes no Gapminder são: Americas, Africa, Asia, Europa (Oceania está dentro de
Asia)
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
4/22
25/01/2023 12:30
8_Examinando_Dados
Fatores das regiões
In [8]:
In [9]:
options(dplyr.summarise.inform = FALSE)
gapminder %>%
group_by(continente, região) %>%
summarise(n())
A grouped_df: 8 × 3
continente
região
n()
<fct>
<fct>
<int>
África
África do Norte
486
África
África Subsaariana
3888
Américas
América do Norte
1863
Américas
América do Sul
972
Asia
Ásia Ocidental
2187
Asia
Extremo Oriente
2592
Europa
Leste Europeu
1944
Europa
Europa Ocidental
2025
Filtrando dados para o ano 2017
Trabalhamos em boa parte da análise dos dados com o ano 2017, pelo qual definimos um
dataframe para o ano 2017 usando o operador pipe %>% e filter:
In [10]:
In [11]:
gapminder2017 <- gapminder %>%
filter(ano == 2017)
head(gapminder2017)
A tibble: 6 × 8
pais
continente
região
nivel_de_renda
ano
renda_per_capita
mortalidade_infantil
<fct>
<fct>
<fct>
<ord>
<dbl>
<dbl>
<dbl>
Afghanistan
Asia
Ásia
Ocidental
Low income
2017
1758
64.73
Albania
Europa
Leste
Europeu
Upper middle
income
2017
11803
9.02
Algeria
África
África do
Norte
Upper middle
income
2017
13876
24.02
Andorra
Europa
Europa
Ocidental
High income
2017
49768
3.01
Angola
África
África
Subsaariana
Lower middle
income
2017
6045
80.44
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
e
5/22
25/01/2023 12:30
8_Examinando_Dados
pais
continente
região
nivel_de_renda
ano
renda_per_capita
mortalidade_infantil
<fct>
<fct>
<fct>
<ord>
<dbl>
<dbl>
<dbl>
Antigua
and
Barbuda
Américas
América do
Norte
High income
2017
22856
6.69
e
Gráfico de Barras: Número de paises por
continentes
Um gráfico de barras é uma forma de resumir dados categóricos
os dados são mostrados utilizando um número de barras da mesma largura, cada uma
representa uma determinada categoria
a altura de cada barra é proporcional à frequência absoluta ou relativa de cada categoria
por exemplo, os continentes são variáveis categóricas que podem ser representadas numa
tabela de frequência (número de países por continente)
Os 4 continentes são tabeladas usando a função table():
In [12]:
table(gapminder2017$continente)
África Américas
54
35
Asia
59
Europa
49
ou numa tabela de frequências relativas, usando a função prop.table():
In [13]:
prop.table(table(gapminder2017$continente))
África Américas
Asia
Europa
0.2741117 0.1776650 0.2994924 0.2487310
ou usando a função summarise:
In [14]:
gapminder2017 %>%
group_by(continente) %>%
summarise(Países = n())
A tibble: 4 × 2
continente
Países
<fct>
<int>
África
54
Américas
35
Asia
59
Europa
49
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
6/22
25/01/2023 12:30
8_Examinando_Dados
as frequências relativas em percentual com a função summarise:
In [15]:
gapminder2017 %>%
group_by(continente) %>%
summarise('Frequência relativa (%)' = n()/nrow(gapminder2017)*100)
A tibble: 4 × 2
continente
Frequência relativa (%)
<fct>
<dbl>
África
27.41117
Américas
17.76650
Asia
29.94924
Europa
24.87310
Graficamos os 4 continentes usando ggplot do módulo ggplot2 da livraria tidyverse
os continentes estão sob o eixo x e a sua frequência no eixo y
o gráfico de barras é desenhado com geom_bar()
as cores são definidas por fill = continente
as frequências nas barras se definem com geom_label
os titulos se definem com labs()
In [16]:
library(tidyverse)
-- Attaching packages ------------------------------------------------------------------------------ tidyverse 1.3.1 -v
v
v
v
ggplot2
tibble
tidyr
readr
3.3.5
3.1.2
1.1.3
2.0.0
v purrr
0.3.4
v stringr 1.4.0
v forcats 0.5.1
-- Conflicts --------------------------------------------------------------------------------- tidyverse_conflicts() -x dplyr::filter() masks stats::filter()
x dplyr::lag()
masks stats::lag()
In [17]:
gapminder2017 %>%
group_by(continente) %>%
summarize(frequência = n()) %>%
ggplot(aes(x = continente, y = frequência)) +
geom_bar(stat = 'identity', aes(fill = continente)) +
geom_label(aes(label = frequência)) +
labs(title = paste('Número de países por região'), x = 'continentes', y = 'Frequ
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
7/22
25/01/2023 12:30
8_Examinando_Dados
o gráfico de barras em percentual (%), arredondando os percentuais a 2 dígitos
significativos:
In [18]:
gapminder2017 %>%
group_by(continente) %>%
summarize(freq_rel = n()/nrow(gapminder2017)*100) %>%
ggplot(aes(x = continente, y = freq_rel)) +
geom_bar(stat = 'identity', aes(fill = continente)) +
geom_label(aes(label = sprintf('%0.2f', round(freq_rel, digits = 2)))) +
labs(title = paste('Número de países por continente'), x = 'continentes', y = 'Fre
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
8/22
25/01/2023 12:30
8_Examinando_Dados
Gráfico de barras: Continentes vs nível de
renda 2017
Os dados gapminder dividem o nível de renda em:
baixa renda (Low income)
renda média baixa (Lower middle income)
renda média alta (Upper middle income)
renda alta (High income)
agrupamos os dados em nível de renda por continente usando group_by() e summarise:
In [19]:
gapminder2017 %>%
group_by(continente, nivel_de_renda) %>%
summarise(freq = n())
A grouped_df: 16 × 3
continente
nivel_de_renda
freq
<fct>
<ord>
<int>
África
Low income
27
África
Lower middle income
18
África
Upper middle income
8
África
High income
1
Américas
Low income
1
Américas
Lower middle income
5
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
9/22
25/01/2023 12:30
8_Examinando_Dados
continente
nivel_de_renda
freq
<fct>
<ord>
<int>
Américas
Upper middle income
20
Américas
High income
9
Asia
Low income
3
Asia
Lower middle income
25
Asia
Upper middle income
15
Asia
High income
16
Europa
Lower middle income
4
Europa
Upper middle income
12
Europa
High income
32
Europa
NA
1
ou usando table():
In [20]:
table(gapminder2017$continente, gapminder2017$nivel_de_renda)
África
Américas
Asia
Europa
Low income Lower middle income Upper middle income High income
27
18
8
1
1
5
20
9
3
25
15
16
0
4
12
32
o Grafico de barras do nível de renda e continentes segue o gráfico de uma variável, mais
agrupando os dados com group_by() e summarize():
In [21]:
gapminder2017 %>%
group_by(continente, nivel_de_renda) %>%
summarize(frequência = n()) %>%
ggplot(aes(x = continente, y = frequência)) +
geom_bar(stat = 'identity', position = 'dodge', aes(fill = nivel_de_renda)) +
geom_label(position = position_dodge2(width = 1), aes(label = frequência))
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
10/22
25/01/2023 12:30
8_Examinando_Dados
Grafico de Dispersão ou Scatterplot
Um gráfico de dispersão é uma associação entre pares de dados
por exemplo, desejamos saber se a riqueza econômica de um país pode afetar a expectativa
de vida média de seus habitantes
no eixo x colocamos a variável explicativa: renda per capita (dolares)
no eixo y colocamos a variavel resposta: expectativa de vida (anos)
Tabelamos os dados da renda per capita e expectiva de vida para cada país, usando a
função select():
In [22]:
gapminder2017 %>%
select(pais, renda_per_capita, expectativa_vida)
A tibble: 197 × 3
pais
renda_per_capita
expectativa_vida
<fct>
<dbl>
<dbl>
Afghanistan
1758
63.38
Albania
11803
78.23
Algeria
13876
77.74
Andorra
49768
82.70
Angola
6045
64.19
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
11/22
25/01/2023 12:30
8_Examinando_Dados
pais
renda_per_capita
expectativa_vida
<fct>
<dbl>
<dbl>
Antigua and Barbuda
22856
77.02
Argentina
18945
76.66
Armenia
8745
75.61
Australia
44888
82.39
Austria
45493
81.77
Azerbaijan
15929
70.76
Bahamas
28705
73.73
Bahrain
43320
79.49
Bangladesh
3634
73.12
Barbados
16839
77.13
Belarus
17193
74.03
Belgium
42781
81.38
Belize
7726
74.16
Benin
2069
64.63
Bhutan
9247
74.05
Bolivia
6799
72.75
Bosnia and Herzegovina
12275
76.72
Botswana
16165
69.07
Brazil
14236
75.51
Brunei
72524
75.35
Bulgaria
18606
74.88
Burkina Faso
1696
61.68
Burundi
671
61.55
Cambodia
3654
69.88
Cameroon
3313
62.98
...
...
...
Sweden
46681
82.50
Switzerland
57998
83.96
Syria
3100
69.79
Taiwan
42194
79.95
Tajikistan
2924
70.32
Tanzania
2809
66.72
Thailand
16286
78.11
Timor-Leste
6741
70.81
Togo
1530
64.37
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
12/22
25/01/2023 12:30
8_Examinando_Dados
pais
renda_per_capita
expectativa_vida
<fct>
<dbl>
<dbl>
Tonga
5746
71.77
Trinidad and Tobago
28567
74.24
Tunisia
10950
78.33
Turkey
25024
78.94
Turkmenistan
16390
70.10
Tuvalu
3548
NA
Uganda
1768
65.71
Ukraine
7907
70.55
United Arab Emirates
66676
73.32
United Kingdom
39862
80.97
United States
54471
78.59
Uruguay
20658
77.05
Uzbekistan
6040
70.35
Vanuatu
2827
64.72
Venezuela
14506
75.29
Palestine
4652
76.85
Vietnam
6233
74.53
Yemen
2404
68.06
Zambia
3718
63.20
Zimbabwe
2568
61.35
South Sudan
1848
59.25
o gráfico de dispersão para o ano 2017 é gerado com ggplot com as opções:
o gráfico de pontos com a opção geom_point()
as cores para cada ponto são definidas com color(pais)
o gráfico se faz interactivo usando plotly:
In [23]:
library(plotly)
Attaching package: 'plotly'
The following object is masked from 'package:ggplot2':
last_plot
The following object is masked from 'package:stats':
filter
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
13/22
25/01/2023 12:30
8_Examinando_Dados
The following object is masked from 'package:graphics':
layout
In [24]:
In [25]:
grafo <- gapminder2017 %>%
filter(!is.na(renda_per_capita) & !is.na(expectativa_vida)) %>%
ggplot(aes(x=renda_per_capita, y=expectativa_vida)) +
geom_point(aes( color = pais))
ggplotly(grafo)
Se observa que a expectativa de vida é menor para paises com uma renda per capita
menor. Entre os paises com a menor expectativa de vida, temos a
Republica Central da Africa com expectativa de vida de 51,87 anos e renda per capita
de 754 dolares por ano
Leshoto, republica da Africa com expectativa de vida de 54,66 anos e renda per capita
de 2846 dolares por ano,
A expectativa de vida é maior para paises com renda per capita maior, com tendência no ano de
2017 a uma expectativa de vida maior a 80 anos para paises com alta renda per capita, entre
estes paises temos a
Luxemburgo, com expectativa de vida de 81,66 anos e renda per capita de 93.102 dolares
por ano,
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
14/22
25/01/2023 12:30
8_Examinando_Dados
Singapura, com expectativa de vida de 84,79 anos e renda per capita de 87.700 dolares por
ano
Nesta nuvem de dados traçamos uma curva que mostre esta associação entre a expectativa
de vida e a renda per capita. Esta curva é denominada curva de regressão não linear
Para desenhar a curva de regressão não linear usamos xyplot(), com a opção type=c('p',
'smooth') a qual desenha um polinômio suavizado pela opção smooth
In [26]:
require(tigerstats)
Carregando pacotes exigidos: tigerstats
Carregando pacotes exigidos: abd
Carregando pacotes exigidos: nlme
Attaching package: 'nlme'
The following object is masked from 'package:dplyr':
collapse
Carregando pacotes exigidos: lattice
Carregando pacotes exigidos: grid
Carregando pacotes exigidos: mosaic
Registered S3 method overwritten by 'mosaic':
method
from
fortify.SpatialPolygonsDataFrame ggplot2
The 'mosaic' package masks several functions from core packages in order to add
additional features. The original behavior of these functions should not be affecte
d by this.
Attaching package: 'mosaic'
The following object is masked from 'package:Matrix':
mean
The following object is masked from 'package:plotly':
do
The following object is masked from 'package:purrr':
cross
The following object is masked from 'package:ggplot2':
stat
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
15/22
25/01/2023 12:30
8_Examinando_Dados
The following objects are masked from 'package:dplyr':
count, do, tally
The following objects are masked from 'package:stats':
binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
quantile, sd, t.test, var
The following objects are masked from 'package:base':
max, mean, min, prod, range, sample, sum
Welcome to tigerstats!
To learn more about this package, consult its website:
http://homerhanumat.github.io/tigerstats
In [27]:
xyplot(expectativa_vida~renda_per_capita, data = gapminder2017, col='black',type=c('
a curva de regressão mostra a tendência entre estas variáveis, um pais com maior renda per
capita apresenta uma maior expectativa de vida de sua população
tem países fora da curva, e tem-se que analizar se são potenciais outliers.
Outliers são dados que se diferenciam drasticamente de todos os outros, eles podem
causar anomalias nos resultados obtidos por algoritmos e sistemas de analíses
tem-se que analisar se o outlier vai ser exluido dos dados, se vai ser analisado
separadamente ou se agrupamos os dados, contendo algunos destes grupos estes dados
discrepantes
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
16/22
25/01/2023 12:30
8_Examinando_Dados
um dado outlier pode atrapalhar a análise, mas há que ter cuidado se ele vai ser exluido
pois pode ser o que se está procurando
entre os potenciais pontos fora da curva, temos
Guinea Equatorial, com expectativa de vida de 65,52 anos e renda per capita de 22.999
dolares por ano.
Swaziland (Essuatini), pais da africa com expectativa de vida de 59,80 anos e renda per
capita de 9568 dolares por ano.
Brasil que acompanha a curva tinha em 2017 expectativa de vida de 75,51 anos de vida e
14.236 dolares por ano
Catar, com expectativa de vida de 78 anos e a maior renda percapita de 120366 dolares por
ano no ano de 2017
Não se pode simplesmente ignorar os outliers da curva sem um análise detalhado de cada
caso.
América do Sul 2017
Analisamos os dados de renda per capita versus expectativa de vida para os países de
América do Sul no ano 2012
A variável regiâo contém a América do Sul
Filtramos os dados de América do Sul com filter() e selecionamos o pais, a renda percapita
e a expectativa de vida com select:
In [28]:
gapminder2017 %>%
filter(região == 'América do Sul') %>%
select(pais, renda_per_capita, expectativa_vida)
A tibble: 12 × 3
pais
renda_per_capita
expectativa_vida
<fct>
<dbl>
<dbl>
Argentina
18945
76.66
Bolivia
6799
72.75
Brazil
14236
75.51
Chile
22297
79.70
Colombia
13186
80.11
Ecuador
10454
76.73
Guyana
7399
69.21
Paraguay
11790
76.12
Peru
12518
80.31
Suriname
13636
72.04
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
17/22
25/01/2023 12:30
8_Examinando_Dados
pais
renda_per_capita
expectativa_vida
<fct>
<dbl>
<dbl>
Uruguay
20658
77.05
Venezuela
14506
75.29
Graficamos usando ggplot, geom_point() e ggplotly():
In [29]:
In [30]:
grafo2 <- gapminder2017 %>%
filter(região == 'América do Sul' & !is.na(renda_per_capita) & !is.na(expectativa_
ggplot(aes(x=renda_per_capita, y=expectativa_vida)) +
geom_point(aes( color = pais))
ggplotly(grafo2)
Os dados indicam a tendência que paises de sudamérica com maior renda per capita tem
maior expectativa de vida
Desenhamos a curva de regressão não linear para analisar melhor os dados
In [31]:
In [32]:
grafo3 <- gapminder2017 %>%
filter(região == 'América do Sul'
& !is.na(renda_per_capita) & !is.na(expectativa
xyplot(expectativa_vida~renda_per_capita, data = grafo3, col='black',type=c('p','smo
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
18/22
25/01/2023 12:30
8_Examinando_Dados
Chile tem expectativa de vida de 79,7 anos com a maior renda per capita de 22.297 dolares
por ano
Bolivia tem expectativa de vida de 72,75 anos com renda per capita de 6799 dolares por
ano
Guyana é um ponto fora da curva, com expectativa de vida de 69,21 anos e renda per capita
de 7399 por ano
Suriname é um ponto fora da curva, com expectativa de vida de 72 anos e renda per capita
de 13363 dolares por ano
Perú é um ponto fora da curva, com a maior expectativa de vida de 80,31 anos e renda per
capita de 12518 dolares por ano
Brasil tem expectativa de vida de 75,51 anos e renda per capita de 14236 dolares por ano
A curva de regressão linear cresce até atingir um máximo, logo decresce até atingir um
mínimo e novamente volta a crescer.
Há uma suspeita ao observar a curva de regressão linear que a expectativa de vida não é
totalmente explicada pela renda per capita.
Outros fatores que influênciam a expectativa de vida deverão ser identificados.
Como por exemplo o percentual de assistencia a serviços básicos, como água, esgoto,
coleta de lixo, etc.
Relação entre variáveis
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
19/22
25/01/2023 12:30
8_Examinando_Dados
Para analisar a relação entre duas variáveis é util examinar:
1. a direção da relação está aumentando (positiva) ou decrescendo (negativa)
1. a forma da relação é linear? ou segue outra forma?
1. a força da relação é forte (strong)? ou fraca (weak)?
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
20/22
25/01/2023 12:30
8_Examinando_Dados
1. verificar a existência de possíveis outliers
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
21/22
25/01/2023 12:30
8_Examinando_Dados
file:///H:/AULAS-DISCIPLINAS/Probabilide_e_Estatística-CC/PE_2022-2_em_2023/4_Examinando_Dados/4_Examinando_Dados.html
22/22
Download