Uploaded by penasco 10

Modelo Relatório estat1819

advertisement
Estat | LEEC | 2018- 2019
Relatório do trabalho prático
Página 1 de 11
Estat | LEEC | 2018- 2019
Estudo do efeito fator município
ao nível da utilização de um sistema de “bike sharing”
(Trabalho Prático de Estatística)
Preparado por:
Vítor Hugo Silva Campos, 1160553
1160553@isep.ipp.pt
José Maria Queirós Rodrigues Sarmento, 1160699
1160699@isep.ipp.pt
Pedro Manuel da Silva Vieira, 1160705
1160705@isep.ipp.pt
João Fernando Brito Vieira de Vasconcelos Peixoto, 1160953
1160953@isep.ipp.pt
Paulo, 1161119
1161119@isep.ipp.pt
02 de fevereiro de 2019
Relatório do trabalho prático
Página 2 de 11
Estat | LEEC | 2018- 2019
Resumo
De forma a estudar o interesse na utilização de um sistema de “bike sharing”, aluguer de bicicletas,
foi elaborado um estudo com base na recolha do número de alugueres, por unidade de tempo (u.t) e o tempo
utlizado por aluguer. Na realização do estudo foram observados 60 utilizadores adultos do sistema,
escolhidos aleatoriamente e analisados 90 períodos de tempo de 1 u.t; O estudo foi realizado em 2
municípios, Município A e Município B.
O estudo consiste na recolha de dados e medidas de forma a poder ser estudado a afluência ao
sistema (períodos de maior e menor adesão), o estudo de médias, moda, quartis, e do número de pessoas
envolvidas. Será estudado também o grau de confiança, zonas de rejeição, diferenças de médias segundo o
critério do valor-p, principais diferenças encontradas entre municípios e as suas possíveis razões,
distribuição empírica e leitura de erros tipo I e tipo II.
Ao longo do trabalho serão usados vários métodos estatísticos dos quais se destacam a leitura e
elaboração de tabelas de contingência, elaboração de gráficos de linhas e barras, leitura de tabelas
predefinias da Normal, cálculo em Excel, entre outros.
Após o tratamento dos dados podemos concluir os momentos onde o aluguer de bicicletas é maior
ou menor e a quantidade de pessoas a alugar face ao número de bicicletas disponíveis, permitindo assim
uma gestão mais eficiente das mesmas.
1 Introdução
O sistema de “bike sharing” poderá ser uma nova medida a ser implementada em vários municípios. Antes
de ser implementado o sistema, é feito um estudo sobre o mesmo. Para o estudo foram escolhidos 2
municípios para recolha de dados. Na análise dos dados é tratado os seguintes objetivos:
Objetivo 1:
“Considerando gráficos adequados, e medidas descritivas de localização e dispersão, analise e comente a
distribuição dos dados do TUA e do NA segundo cada município.”
Objetivo 2:
“Estime o tempo médio de utilização, por aluguer, para cada um dos municípios, considerando um grau de
confiança à sua escolha, superior ou igual a 90%.”
Objetivo 3:
“Pode afirmar.se que a % de períodos com mais de 7 alugueres é maior no município B? Considere uma
significância de 4% e apresente a região de rejeição em unidades originais.”
Objetivo 4:
“Teste se o município tem um efeito estatisticamente significativo sobre o tempo de utilização sobre o
número de alugueres, por u.t., ao nível da diferença de médias. Considere uma significância inferior ou
igual a 5%. Use o critério do valor-p para fundamentar a sua decisão”
Relatório do trabalho prático
Página 3 de 11
Estat | LEEC | 2018- 2019
Objetivo 5:
“Ajuste uma distribuição teórica à distribuição empírica das variáveis TU no município A e NU no
município B. Verifique a qualidade do ajuste ao nível de 5%
Objetivo 6:
“Apresente um gráfico expressando a relação entre o erro tipo I e o erro tipo II, para um dado valor
hipotético da verdadeira diferença de médias calculada anteriormente no ponto 4.”
2 O conjunto de dados
Variáveis em estudo
1. Nominais
a. Duas categorias (binárias ou dicotómicas)
i. Município (A,B)
2. Numéricas
a. Discretas
i. Número de alugueres (NA) por unidade de tempo(u.t.)
b. Contínuas
i. Tempo de utilização (TUA), por aluguer(expresso em u.t)
3 Metodologia Estatística
Objetivo 1:
Para ser possível estudar a distribuição, iremos analisar as medidas descritivas, que podem ser
dividas em:
Localização:
-Media
e o valor que se obtém através da divisão da soma de todos os elementos a dividir
pelo número de elementos de um conjunto.
Em variáveis classificadas:
Em variáveis não classificadas:
-Moda
E a classe ou valor com maior frequência.
-Mediana e quantis
Quantil e o valor que divide uma serie de n observações em duas partes, os quantis
que iremos estudar serão:
Quantil 1: O valor desta quantil ira ficar dividido de modo a que 25por
cento dos valores será inferior.
Quantil 2 ou mediana: Será o valor da serie que que se ira dividir em duas
partes iguais.
Relatório do trabalho prático
Página 4 de 11
Estat | LEEC | 2018- 2019
Quantil 3: O valor desta quantil ira ficar dividido de modo a que 25por
cento dos valores será superior.
De modo a calcularmos estes valore para variáveis não classificadas, foi utilizado
uma fórmula disponível no Exel, QUARTIL.EXC (dados, número do quantil), aonde introduzíamos os
dados e o numero do quantil desejado. Por outro lado, para variáveis classificadas, foi calculada a frequência
acumulada através da fórmula na (img X), em seguida conforme a frequência fosse 25,50 e 75
correspondera ao quantil 1,2 e 3 respetivamente.
Dispersão:
-Amplitude
E o valor da diferença entre o maior e menos valor do conjunto de n observações.
-Variância e Desvio Padrão
O desvio padrão e um dos métodos mais utilizados na estatística, e utilizado para
comparar a proximidade dos valores a media, o valor e conseguido através da raiz quadrada da variância
que por sua vez e conseguida por:
Para variáveis não classificadas.
Para variáveis classificadas.
Objetivo 2:
O grau de confiança tem como objetivo estudar um determinado parâmetro de uma população, onde
será selecionado uma amostra aleatória dessa população e estimado o parâmetro populacional. Não sabendo
o valor concreto do parâmetro pode causar uma certa dúvida e incerteza do quão o valor estudado se
aproxima do valor real. O resultado final dependerá da precisão do estimador e dos respetivos valores reais
a serem estudados. A solução para este problema consiste no cálculo de um intervalo da qual o parâmetro
tem alta probabilidade de pertencer [REFERÊNCIA].
No enunciado é salientado este pormenor: “por aluguer” o que indica que os dados a serem usados
para desenvolver este objetivo são os dados da tabela de Tempo de Utilização (TUA).
Da tabela retira-se o n.
Considera-se a população em estudo, sendo uma v.a. Normal, com média (desconhecida) e
variância conhecida (valor calculado no objetivo anterior) e aa (X1, …, X2) de dimensão N. Para calcular o
intervalo de confiança para a média deve-se considerar a distribuição de média amostral [REFERÊNCIA]:
- “tempo médio de utilização por aluguer, em 60 alugueres”.
O Z é a variável com distribuição normal padronizada.
Considere-se um grau (nível) de confiança em que (1-α)*100%.
O intervalo de confiança (IC) toma valores entre o -Zα/2 e Zα/2. Estes valores são obtidos pela tabela
da distribuição da normal ou pela fórmula em Excel NORM.DIST. [REFERêNCIA PORTAL ACTION]
Relatório do trabalho prático
Página 5 de 11
Estat | LEEC | 2018- 2019
Sabendo o intervalo e o grau de confiança, temos que:
Substitui-se o Z:
Desenvolve-se a função:
Para um intervalo de confiança de 1- α para , com variância conhecida é dado por:
Em Excel calculou-se o erro através da função CONFIDENCE.T.
Objetivo 4:
Para resolver esta questão, recorre-se ao método de teste de hipóteses, que segundo a definição é
uma conjetura sobre a distribuição de uma ou mais populações. Neste caso utiliza-se o teste bilateral, em
que H0: µ = µ0 e H1: µ ≠ µ0, sendo o objetivo final da pergunta decidir se rejeita ou não a hipótese 0 (H0),
segundo o critério do valor-p.
Como é pedido para testar se o município terá efeito quer sobre o tempo de utilização, quer sobre
o número de alugueres, faz-se dois testes bilaterais, um para cada situação.
Em ambos os casos, recorre-se ao teste bilateral, e como se trata de duas populações diferentes
(Município A e Município B), esse teste é feito ao nível da diferença de médias. Como tal, calcula-se o
valor do segundo da seguinte formula:
Relatório do trabalho prático
Página 6 de 11
Estat | LEEC | 2018- 2019
Os valores das médias relacionadas quer ao tempo de utilização, quer
ao número de alugueres de cada município, e os respetivos desvios padrões, foram anteriormente calculados
na pergunta 1.
Depois de obtido o valor de para ambas as situações e sabendo que se têm 95% de confiança (1-α
,α =0.05), como já analisado anteriormente, calcula-se as regiões criticas (c1 e c2).
Finalmente pode-se decidir se o teste rejeita ou não a hipótese 0 através do critério da Região crítica:
No entanto, em alternativa ao critério da Região crítica pode ser usado o critério do valor de prova
(valor-p). Considerando RC em unidades reduzidas, RCz .
Assim, tal como foi comprovado pelo critério da Região crítica, o critério do valor-p quando
aplicado nesta situação, confirma que a hipótese 0 deverá ser rejeitada, pois valor-p ≤ α.
Conclui-se então, que quer na situação sobre o tempo de utilização (TUA), quer na situação sobre
o número de alugueres (NA), a hipótese 0 deve ser rejeitada.
Objetivo 5:
Para o teste qui quadrado e necessário comparar os valor obtidos com valores esperados
para calcular os valores esperados foram usadas as seguintes formulas:
Relatório do trabalho prático
Página 7 de 11
Estat | LEEC | 2018- 2019
Apos isso, iremos usar a região critica para verificar a veracidade da hipótese.
4 Resultados e interpretação
Objetivo 1
Minimo
Máximo
Media
Moda
Mediana
Quantil1
Quantil2
N
Variância
Desvio padrão
Amplitude
Municipio A
NA
1
11
4,5556
3
4
3
6
90
5,0137
2,2391
10
TUA
0
23
18,8333
23
[10-20[
[0-10[
[20-30[
80
237,5989
15,4142
23
Relatório do trabalho prático
Página 8 de 11
Municipio B
NA
1
11
5,2889
5
5
3
7
90
4,9268
2,2196
10
TUA
1
17
25,6667
3
[20-30[
[10-20[
[30-40[
80
447,0339
21,1432
16
Estat | LEEC | 2018- 2019
Distribuição NA
20
18
16
14
12
10
8
6
4
2
0
freq A
freq B
1
2
3
4
5
6
7
8
9
10
11
Objetivo 2:
Dados comuns aos 2 municípios
Grau de confiança: 95%
Alfa= 0.05
n = 60
Zα/2= 1.96
Dados município A
Desvio padrão = 15.41424244
Variância = 237.5988701
Dados município A
Desvio padrão = 21.14318
Variância = 447.0339
X0= 18.8(3)
X0= 25.6(6)
Erro = 3.981921057
Erro = 5.461862
Limite inferior = 14.85141228
Limite superior = 22.81525439
Limite inferior = 20.20481
Limite superior = 31.12853
ICµ= [14.85141228;22.81525439]
ICµ= [20.20481;31.12853]
Objetivo 4:
Relatório do trabalho prático
Página 9 de 11
Estat | LEEC | 2018- 2019
Teste bilateral: H0: µ= µ0
H1: µ≠ µ0
Média do tempo de utilização ( )
Média do tempo de utilização ( )
Desvio padrão (A)
Desvio padrão (B)
Nível de significância
Valor do Z observado
Valor do Z
Valor-p
Confiança (1-α)
Região crítica (c1)
Região crítica (c2)
Decisão
18.8333333
25.6666667
15.4142424
21.1431762
≤ 5%
2.02292318
1,96
6.83333333
0.04308107
1-0,05 (95%)
0.21267301
13.4539937
Deve ser Rejeitada
Teste bilateral: H0: µ= µ0
H1: µ≠ µ0
Média do número de alugueres ( )
Média do número de alugueres ( )
Desvio padrão (A)
Desvio padrão (B)
Nível de significância
Valor do Z observado
Valor do Z
Valor-p
Confiança (1-α)
Região crítica (c1)
Região crítica (c2)
Decisão
4.55555556
5.28888889
2.23913663
2.21964895
≤ 5%
2.20656611
1,96
0.73333333
0.02734439
1-0,05 (95%)
-0.0644376
1.53110426
Deve ser Rejeitada
5 Conclusões
Esta secção deve resumir as principais conclusões do trabalho e as oportunidades de melhoria que forem
identificadas.
Referências
Relatório do trabalho prático
Página 10 de 11
Estat | LEEC | 2018- 2019
Lista de referências bibliográficas consultadas.
Apêndices
Output do software, dados, etc...
Relatório do trabalho prático
Página 11 de 11
Download