Estat | LEEC | 2018- 2019 Relatório do trabalho prático Página 1 de 11 Estat | LEEC | 2018- 2019 Estudo do efeito fator município ao nível da utilização de um sistema de “bike sharing” (Trabalho Prático de Estatística) Preparado por: Vítor Hugo Silva Campos, 1160553 1160553@isep.ipp.pt José Maria Queirós Rodrigues Sarmento, 1160699 1160699@isep.ipp.pt Pedro Manuel da Silva Vieira, 1160705 1160705@isep.ipp.pt João Fernando Brito Vieira de Vasconcelos Peixoto, 1160953 1160953@isep.ipp.pt Paulo, 1161119 1161119@isep.ipp.pt 02 de fevereiro de 2019 Relatório do trabalho prático Página 2 de 11 Estat | LEEC | 2018- 2019 Resumo De forma a estudar o interesse na utilização de um sistema de “bike sharing”, aluguer de bicicletas, foi elaborado um estudo com base na recolha do número de alugueres, por unidade de tempo (u.t) e o tempo utlizado por aluguer. Na realização do estudo foram observados 60 utilizadores adultos do sistema, escolhidos aleatoriamente e analisados 90 períodos de tempo de 1 u.t; O estudo foi realizado em 2 municípios, Município A e Município B. O estudo consiste na recolha de dados e medidas de forma a poder ser estudado a afluência ao sistema (períodos de maior e menor adesão), o estudo de médias, moda, quartis, e do número de pessoas envolvidas. Será estudado também o grau de confiança, zonas de rejeição, diferenças de médias segundo o critério do valor-p, principais diferenças encontradas entre municípios e as suas possíveis razões, distribuição empírica e leitura de erros tipo I e tipo II. Ao longo do trabalho serão usados vários métodos estatísticos dos quais se destacam a leitura e elaboração de tabelas de contingência, elaboração de gráficos de linhas e barras, leitura de tabelas predefinias da Normal, cálculo em Excel, entre outros. Após o tratamento dos dados podemos concluir os momentos onde o aluguer de bicicletas é maior ou menor e a quantidade de pessoas a alugar face ao número de bicicletas disponíveis, permitindo assim uma gestão mais eficiente das mesmas. 1 Introdução O sistema de “bike sharing” poderá ser uma nova medida a ser implementada em vários municípios. Antes de ser implementado o sistema, é feito um estudo sobre o mesmo. Para o estudo foram escolhidos 2 municípios para recolha de dados. Na análise dos dados é tratado os seguintes objetivos: Objetivo 1: “Considerando gráficos adequados, e medidas descritivas de localização e dispersão, analise e comente a distribuição dos dados do TUA e do NA segundo cada município.” Objetivo 2: “Estime o tempo médio de utilização, por aluguer, para cada um dos municípios, considerando um grau de confiança à sua escolha, superior ou igual a 90%.” Objetivo 3: “Pode afirmar.se que a % de períodos com mais de 7 alugueres é maior no município B? Considere uma significância de 4% e apresente a região de rejeição em unidades originais.” Objetivo 4: “Teste se o município tem um efeito estatisticamente significativo sobre o tempo de utilização sobre o número de alugueres, por u.t., ao nível da diferença de médias. Considere uma significância inferior ou igual a 5%. Use o critério do valor-p para fundamentar a sua decisão” Relatório do trabalho prático Página 3 de 11 Estat | LEEC | 2018- 2019 Objetivo 5: “Ajuste uma distribuição teórica à distribuição empírica das variáveis TU no município A e NU no município B. Verifique a qualidade do ajuste ao nível de 5% Objetivo 6: “Apresente um gráfico expressando a relação entre o erro tipo I e o erro tipo II, para um dado valor hipotético da verdadeira diferença de médias calculada anteriormente no ponto 4.” 2 O conjunto de dados Variáveis em estudo 1. Nominais a. Duas categorias (binárias ou dicotómicas) i. Município (A,B) 2. Numéricas a. Discretas i. Número de alugueres (NA) por unidade de tempo(u.t.) b. Contínuas i. Tempo de utilização (TUA), por aluguer(expresso em u.t) 3 Metodologia Estatística Objetivo 1: Para ser possível estudar a distribuição, iremos analisar as medidas descritivas, que podem ser dividas em: Localização: -Media e o valor que se obtém através da divisão da soma de todos os elementos a dividir pelo número de elementos de um conjunto. Em variáveis classificadas: Em variáveis não classificadas: -Moda E a classe ou valor com maior frequência. -Mediana e quantis Quantil e o valor que divide uma serie de n observações em duas partes, os quantis que iremos estudar serão: Quantil 1: O valor desta quantil ira ficar dividido de modo a que 25por cento dos valores será inferior. Quantil 2 ou mediana: Será o valor da serie que que se ira dividir em duas partes iguais. Relatório do trabalho prático Página 4 de 11 Estat | LEEC | 2018- 2019 Quantil 3: O valor desta quantil ira ficar dividido de modo a que 25por cento dos valores será superior. De modo a calcularmos estes valore para variáveis não classificadas, foi utilizado uma fórmula disponível no Exel, QUARTIL.EXC (dados, número do quantil), aonde introduzíamos os dados e o numero do quantil desejado. Por outro lado, para variáveis classificadas, foi calculada a frequência acumulada através da fórmula na (img X), em seguida conforme a frequência fosse 25,50 e 75 correspondera ao quantil 1,2 e 3 respetivamente. Dispersão: -Amplitude E o valor da diferença entre o maior e menos valor do conjunto de n observações. -Variância e Desvio Padrão O desvio padrão e um dos métodos mais utilizados na estatística, e utilizado para comparar a proximidade dos valores a media, o valor e conseguido através da raiz quadrada da variância que por sua vez e conseguida por: Para variáveis não classificadas. Para variáveis classificadas. Objetivo 2: O grau de confiança tem como objetivo estudar um determinado parâmetro de uma população, onde será selecionado uma amostra aleatória dessa população e estimado o parâmetro populacional. Não sabendo o valor concreto do parâmetro pode causar uma certa dúvida e incerteza do quão o valor estudado se aproxima do valor real. O resultado final dependerá da precisão do estimador e dos respetivos valores reais a serem estudados. A solução para este problema consiste no cálculo de um intervalo da qual o parâmetro tem alta probabilidade de pertencer [REFERÊNCIA]. No enunciado é salientado este pormenor: “por aluguer” o que indica que os dados a serem usados para desenvolver este objetivo são os dados da tabela de Tempo de Utilização (TUA). Da tabela retira-se o n. Considera-se a população em estudo, sendo uma v.a. Normal, com média (desconhecida) e variância conhecida (valor calculado no objetivo anterior) e aa (X1, …, X2) de dimensão N. Para calcular o intervalo de confiança para a média deve-se considerar a distribuição de média amostral [REFERÊNCIA]: - “tempo médio de utilização por aluguer, em 60 alugueres”. O Z é a variável com distribuição normal padronizada. Considere-se um grau (nível) de confiança em que (1-α)*100%. O intervalo de confiança (IC) toma valores entre o -Zα/2 e Zα/2. Estes valores são obtidos pela tabela da distribuição da normal ou pela fórmula em Excel NORM.DIST. [REFERêNCIA PORTAL ACTION] Relatório do trabalho prático Página 5 de 11 Estat | LEEC | 2018- 2019 Sabendo o intervalo e o grau de confiança, temos que: Substitui-se o Z: Desenvolve-se a função: Para um intervalo de confiança de 1- α para , com variância conhecida é dado por: Em Excel calculou-se o erro através da função CONFIDENCE.T. Objetivo 4: Para resolver esta questão, recorre-se ao método de teste de hipóteses, que segundo a definição é uma conjetura sobre a distribuição de uma ou mais populações. Neste caso utiliza-se o teste bilateral, em que H0: µ = µ0 e H1: µ ≠ µ0, sendo o objetivo final da pergunta decidir se rejeita ou não a hipótese 0 (H0), segundo o critério do valor-p. Como é pedido para testar se o município terá efeito quer sobre o tempo de utilização, quer sobre o número de alugueres, faz-se dois testes bilaterais, um para cada situação. Em ambos os casos, recorre-se ao teste bilateral, e como se trata de duas populações diferentes (Município A e Município B), esse teste é feito ao nível da diferença de médias. Como tal, calcula-se o valor do segundo da seguinte formula: Relatório do trabalho prático Página 6 de 11 Estat | LEEC | 2018- 2019 Os valores das médias relacionadas quer ao tempo de utilização, quer ao número de alugueres de cada município, e os respetivos desvios padrões, foram anteriormente calculados na pergunta 1. Depois de obtido o valor de para ambas as situações e sabendo que se têm 95% de confiança (1-α ,α =0.05), como já analisado anteriormente, calcula-se as regiões criticas (c1 e c2). Finalmente pode-se decidir se o teste rejeita ou não a hipótese 0 através do critério da Região crítica: No entanto, em alternativa ao critério da Região crítica pode ser usado o critério do valor de prova (valor-p). Considerando RC em unidades reduzidas, RCz . Assim, tal como foi comprovado pelo critério da Região crítica, o critério do valor-p quando aplicado nesta situação, confirma que a hipótese 0 deverá ser rejeitada, pois valor-p ≤ α. Conclui-se então, que quer na situação sobre o tempo de utilização (TUA), quer na situação sobre o número de alugueres (NA), a hipótese 0 deve ser rejeitada. Objetivo 5: Para o teste qui quadrado e necessário comparar os valor obtidos com valores esperados para calcular os valores esperados foram usadas as seguintes formulas: Relatório do trabalho prático Página 7 de 11 Estat | LEEC | 2018- 2019 Apos isso, iremos usar a região critica para verificar a veracidade da hipótese. 4 Resultados e interpretação Objetivo 1 Minimo Máximo Media Moda Mediana Quantil1 Quantil2 N Variância Desvio padrão Amplitude Municipio A NA 1 11 4,5556 3 4 3 6 90 5,0137 2,2391 10 TUA 0 23 18,8333 23 [10-20[ [0-10[ [20-30[ 80 237,5989 15,4142 23 Relatório do trabalho prático Página 8 de 11 Municipio B NA 1 11 5,2889 5 5 3 7 90 4,9268 2,2196 10 TUA 1 17 25,6667 3 [20-30[ [10-20[ [30-40[ 80 447,0339 21,1432 16 Estat | LEEC | 2018- 2019 Distribuição NA 20 18 16 14 12 10 8 6 4 2 0 freq A freq B 1 2 3 4 5 6 7 8 9 10 11 Objetivo 2: Dados comuns aos 2 municípios Grau de confiança: 95% Alfa= 0.05 n = 60 Zα/2= 1.96 Dados município A Desvio padrão = 15.41424244 Variância = 237.5988701 Dados município A Desvio padrão = 21.14318 Variância = 447.0339 X0= 18.8(3) X0= 25.6(6) Erro = 3.981921057 Erro = 5.461862 Limite inferior = 14.85141228 Limite superior = 22.81525439 Limite inferior = 20.20481 Limite superior = 31.12853 ICµ= [14.85141228;22.81525439] ICµ= [20.20481;31.12853] Objetivo 4: Relatório do trabalho prático Página 9 de 11 Estat | LEEC | 2018- 2019 Teste bilateral: H0: µ= µ0 H1: µ≠ µ0 Média do tempo de utilização ( ) Média do tempo de utilização ( ) Desvio padrão (A) Desvio padrão (B) Nível de significância Valor do Z observado Valor do Z Valor-p Confiança (1-α) Região crítica (c1) Região crítica (c2) Decisão 18.8333333 25.6666667 15.4142424 21.1431762 ≤ 5% 2.02292318 1,96 6.83333333 0.04308107 1-0,05 (95%) 0.21267301 13.4539937 Deve ser Rejeitada Teste bilateral: H0: µ= µ0 H1: µ≠ µ0 Média do número de alugueres ( ) Média do número de alugueres ( ) Desvio padrão (A) Desvio padrão (B) Nível de significância Valor do Z observado Valor do Z Valor-p Confiança (1-α) Região crítica (c1) Região crítica (c2) Decisão 4.55555556 5.28888889 2.23913663 2.21964895 ≤ 5% 2.20656611 1,96 0.73333333 0.02734439 1-0,05 (95%) -0.0644376 1.53110426 Deve ser Rejeitada 5 Conclusões Esta secção deve resumir as principais conclusões do trabalho e as oportunidades de melhoria que forem identificadas. Referências Relatório do trabalho prático Página 10 de 11 Estat | LEEC | 2018- 2019 Lista de referências bibliográficas consultadas. Apêndices Output do software, dados, etc... Relatório do trabalho prático Página 11 de 11