Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 O LINCER TÉCNICO DE COLETA ESTATÍSTICA CONSEQUÊNCIAS DAS CAUDAS GORDURAS Pré-assintóticos, epistemologia e aplicações do mundo real Artigos e comentários NASSIM NICHOLAS TALEB Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Este formato é baseado na Tese Clássica de André Miede, com adaptação da Ars Classica de Lorenzo Pantieri. Com imensa gratidão ao André e ao Lorenzo. STEM Academic Press opera sob um conselho estilo periódico acadêmico e publica livros contendo material revisado por pares nas ciências matemáticas e quantitativas. Os autores devem disponibilizar gratuitamente as versões eletrônicas ao público em geral. A Scribe Media ajudou a organizar o processo de publicação; agradecimentos especiais a Tucker Max, Ellie Cole, Zach Obront e Erica Hoffman. Consequências estatísticas de caudas gordas: pré-assintóticos, epistemologia e aplicações do mundo real (coleção técnica de incerto) Palavras-chave: Estatística Matemática/Análise de Risco/Teoria de Probabilidade ISBN 978-1-5445-0805-4 ÿc Nassim Nicholas Taleb, 2020. Todos os direitos reservados 10 9 8 7 6 5 4 3 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 iii COAUTORES 1 Pasquale Cirillo (Capítulos 13, 15 e 16 ) Raphael Douady (Capítulo 14) Andrea Fontanari (Capítulo 13) Hélyette Geman (Capítulo 25) Donald Geman (Capítulo 25) Aspen Haug (Capítulo 22 ) A equipe da Universa Investments (Capítulo 23 ) 1 Os artigos utilizados aqui são [45, 46, 47, 48, 95, 106, 126, 165, 224 , 227, 228, 229 , 231 , 232, 233, 234, 243, 244, 245] Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4 Sem sobreposição EMPÍRICO CÉTICO Montaigne TRADIÇÃO (Filosofia) (ensaio método) Pirro de Ellis e os pirrônicos "aplicados" Pequeno sobreposição Menódoto de Nicomédia, Sexto Pareto, Lévy (I) Empírico, Enesidemo de Cnossos, Mandelbrot (eu) Antíoco de Laodicéia, Heródoto de Tarso,... Polya, Feller Algazel ACADEMIA Zolotarev, Taqku Almôndegas Samorodnisky Escola Algazelista (Nicolas d'Autrecourt, etc.) Probabilidade PROBLEMA moderno de INDUÇÃO em Epistemologia: Simon Foucher Bayes, Peirce, Bayle, Huet, Hume, Mill, Russell, Ayer, Empirismo Negativo Complexidade Brochard-Favier-Popper Teoria Hayek Algema Goodman... Ramsey, Carnap, Levi, Kyburgh, Econofísica Jeffreys, ... Modelos de Perda Sobreposição limitada /SEGURO (I) para psicologia de indução, Heurística e Vieses/Decisão Teoria/Psicologia da Probabilidade Economia da Incerteza ÉTICA ESTOCÁSTICO Knightiano Pele no Problema de Agência, SEGURO (II) Contrato Teoria (escolástica) Pedra de Matemático jogo ASSIMETRIA Finança /FRAGILIDADE/ /Derivado CONVEXIDADE Jean Oliveira Teoria/Stochas Cálculo de tiques Não há sobreposição entre Heurísticas e preconceitos TONYISMO GORDO e caudas gordas Mundo real História do comerciante A "incerteza knightiana" é muito Pele no jogo grosseira em termos matemáticos Ergodicidade e filosóficos para ser conectada. Nenhuma sobreposição visível Não há sobreposição entre a economia entre concavidade/ fragilidade e contração e da incerteza e a caudas gordas/ ceticismo/indução ergodicidade Genealogia do projeto Incerto com ligações às diversas tradições de investigação. Nenhuma sobreposição no TONYISMO tratamentos unc Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 em Matemática Filosofia Ciências Sociais Sem sobreposição Teoria Jurídica Montaigne CAUDAS GORDURAS (ensaio método) (Matemática) Mundo real Pareto, Lévy (I) Mandelbrot (eu) Polya, Feller ACADEMIA Zolotarev, Taqku Almôndegas Samorodnisky Valor extremo Quase nenhuma Teoria sobreposição entre LDT e Fat Tails icismo Gnedenko, Resnick (Condição de Cramer para Embrechts, Balkema momentos exponenciais) de Haan, Picklands, Complexidade -Popper Teoria Hayek Algema Econofísica Paulo Levy (II), PROBLEMAS DE RUÍNA/GRANDE Mandelbrot (II) Cramer, Lundberg, Denbo, CONVERGÊNCIA Zeitouni, Varadhan, etc. LEIS Modelos de Perda /SEGURO (I) De Moivre, Markov Bienaymé, Chebyc Olá, Bernstein, Kolmogorov, S ESTOCÁSTICO Lujin, Berry, No ensaio, Petrov, e Irmãos Nagayev, Matemático SIMETRIA Finança FRAGILIDADE/ /Derivado ONVEXIDADE Mikosch Teoria/Stochas Cálculo de tiques TONYISMO todo o mundo Pouca sobreposição entre Conhecimento do Adicionador leis de convergência no jogo (LLN) e o rgodicidade problema filosófico CC disponível sob licença Creative Commons Não há sobreposição na literatura entre o mundo das ideias e FAT TONYISMO exceto alguns tratamentos de incerteza ecológica (cont. da página esquerda). Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 CONTEÚDO Os capítulos não técnicos são indicados com uma estrela *; Os capítulos de discussão são indicados com um †; adaptação de artigos publicados ("revisados por pares") com um ‡. Enquanto os capítulos são indexados por algarismos arábicos, os minicapítulos expositivos e muito breves (a meio caminho entre os apêndices) e capítulos completos) usam letras como A, B, etc. 1 prólogoÿ,† 1 5 2 glossário, definições e notações 2.1 Notações Gerais e Símbolos Frequentemente Utilizados 2.2 Catálogo Raisonné de Conceitos Gerais e Idiossincráticos 2.2.1 Lei de Potência Classe P 7 8 2.2.2 Lei dos Grandes Números (Fraca) 8 2.2.3 O Teorema do Limite Central (CLT) 5 7 8 2.2.4 Lei dos Números Médios ou Pré-sintóticos 2.2.5 Métrica Kappa 8 9 2.2.6 Distribuição elíptica 9 2.2.7 Independência estatística 2.2.8 Distribuição estável (estável de Lévy) 2.2.9 Distribuição estável 10 multivariada 2.2.10 Ponto Karamata 10 10 10 13 _ 11 11 12 12 12 13 2.2.19 Aparência no Jogo 13 2.2.20 Gráfico MS 14 2.2.21 Domínio Máximo de Atração, MDA 14 2.2.22 Substituição de Integral na literatura de psicologia 2.2.23 Inseparabilidade de Probabilidade (outro erro comum) 14 15 15 2.2.24 A Régua de Wittgenstein 2.2.25 Cisnes Negros 15 2.2.26 A distribuição empírica não é empírica 2.2.27 A cauda oculta 17 16 vii Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 viii Conteúdo 2.2.28 Momento de Sombra 17 2.2.29 Dependência da Cauda 17 17 2.2.30 Metaprobabilidade 2.2.31 Cobertura Dinâmica 18 i fat tails e seus efeitos, uma introdução 19 ÿ,‡ 3 uma visão geral não técnica - a palestra da faculdade de Darwin 3.1 Sobre a rabo: uma intuição 3.3 Uma categorização (mais 21 21 diferença entre caudas finas e grossas 3.2 Cães que abanam o 23 25 avançada) e suas consequências 3.4 As principais consequências e como elas se relacionam com o livro 30 3.4.1 Previsão 3.4.2 A 37 Lei dos Grandes Números 39 3.5 Epistemologia e Assimetria Inferencial 41 3.6 Empirismo ingênuo: O Ebola não deve ser comparado às quedas de Escadas 46 49 3.6.1 Como alguns riscos multiplicativos são dimensionados 3.7 Cartilha sobre Leis de Potência (quase sem matemática) 3.9 Bayesiano Schmayesiano 3.10 50 52 3.8 Onde estão as propriedades ocultas? 56 X vs F(X): exposições a X confundidas com conhecimento sobre X 57 3.11 Ruína e Dependência do Caminho 60 3.12 O que fazer? 63 4 caudas gordas univariadas, nível 1, momentos finitos† 65 65 4.1 Uma heurística simples para criar caudas levemente gordas 4.1.1 Uma heurística de preservação de variância 67 68 4.1.2 Engorda de caudas com variância distorcida 4.2 A volatilidade estocástica gera leis de potência? 70 4.3 O corpo, os ombros e as caudas 4.3.1 Os cruzamentos 71 72 e o efeito túnel. 4.4 Caudas Gordas, Desvio Médio e Normas Ascendentes 75 75 4.4.1 Os erros comuns 4.4.2 Algumas análises 76 4.4.3 Efeito das caudas mais gordas na "eficiência" do STD vs MD 78 4.4.4 Momentos e a desigualdade da média de poder 79 4.4.5 Comentário: Por que deveríamos retirar o desvio padrão agora! 82 4.5 Visualizando o Efeito do Aumento de p nas Iso-Normas 86 89 5 nível 2: subexponenciais e leis de potência 89 5.0.1 Revisitando as classificações 5.0.2 O que é uma distribuição de probabilidade limítrofe? 91 5.0.3 Vamos inventar uma distribuição 92 5.1 Nível 3: Escalabilidade e Leis de Potência 93 5.1.1 Escalável e Não Escalável, Uma Visão Mais Profunda das Caudas Gordas 5.1.2 Cisnes Cinzentos 95 5.2 Algumas Propriedades das Leis de Potência 96 5.2.1 Somas de variáveis 5.2.2 Transformações 96 97 93 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Conteúdo ix 5.3 Leis de potência em formato de sino versus leis de potência sem formato de sino 98 5.4 Potências interpolativas de leis de potência: 99 um exemplo 99 5.5 Caudas supergordas: a distribuição Log-Pareto 5.6 Volatilidade pseudo-estocástica: uma investigação 100 6 caudas grossas em dimensões superiores† 105 6.1 Caudas grossas em dimensões superiores, momentos finitos 106 6.2 Cauda gorda conjunta e elipticidade das distribuições 108 6.3 Student multivariado T 110 6.3.1 Elipticalidade e Independência sob Caudas Grossas 111 6.4 Caudas gordas e informações mútuas 112 6.5 Caudas gordas e matrizes aleatórias, um interlúdio rápido 114 6.6 Correlação e variância indefinida 114 6.7 Resíduos de cauda gorda em modelos de regressão linear 116 um caso especial de caudas grossas 119 a.1 Multimodalidade e caudas grossas, ou o modelo de guerra e paz 119 a.2 Probabilidades de transição: o que pode quebrar irá quebrar 123 ii a lei dos números médios 125 7 distribuições de limite, uma consolidaçãoÿ,† 127 7.1 Atualização: O LLN fraco e forte 127 7.2 Limite central em ação 129 7.2.1 A Distribuição Estável 129 7.2.2 A Lei dos Grandes Números para a Distribuição Estável 130 7.3 Velocidade de Convergência do CLT: Explorações Visuais 131 7.3.1 Convergência Rápida: a Dist. Uniforme. 131 7.3.2 Convergência semi-lenta: a exponencial 132 7.3.3 O Pareto lento 133 7.3.4 O Pareto meio cúbico e sua bacia de convergência 135 7.4 Cumulantes e Convergência 135 7.5 Atualização Técnica: Versões Tradicionais do CLT 137 7.6 A Lei de grandes números para momentos mais elevados 138 7.6.1 Momentos Superiores 138 7.7 Desvio Médio para Distribuições Estáveis 141 8 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ 143 8.1 Introdução e definições 144 8.2 A métrica 146 8.3 Bacia de convergência estável como referência 148 8.3.1 Equivalência para distribuições estáveis 149 8.3.2 Significância prática para suficiência amostral 149 8.4 Consequências técnicas 151 8.4.1 Algumas estranhezas com distribuições assimétricas 151 8.4.2 Taxa de convergência de uma distribuição T de Student para a bacia gaussiana 151 8.4.3 O lognormal não é nem fino nem cauda gorda 152 8.4.4 O Kappa pode ser negativo ? 152 8.5 Conclusão e Consequências 152 8.5.1 Pseudo-Estabilização do Portfólio 153 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 x Conteúdo 8.5.2 Outros Aspectos da Inferência Estatística 154 8.5.3 Comentário Final 154 8.6 Apêndice, Derivações e Provas 154 8.6.1 Student Cúbico T (Bacia Gaussiana) 154 8.6.2 Somas Lognormais 156 8.6.3 Exponencial 158 8.6.4 Kappa Negativo, Curtose Negativa 159 ÿ,† 9 valores extremos e caudas ocultas 161 9.1 Introdução preliminar ao EVT 161 9.1.1 Como qualquer cauda de lei de potência leva a Fréchet 163 9.1.2 Caso gaussiano 164 9.1.3 Teorema de Picklands-Balkema-de Haan 166 9.2 A cauda invisível para uma lei de potência 167 9.2.1 Comparação com a Distribuição Normal 170 9.3 Apêndice: A Distribuição Empírica Não é Empírica 170 b a taxa de crescimento e o resultado não estão na mesma classe de distribuição 173 b.1 O quebra-cabeça 173 b.2 As pandemias são realmente de cauda gorda 176 c o princípio do grande desvio, em resumo 177 d calibração sob paretianidade 181 d.1 Distribuição do Expoente da cauda da amostra 183 10 "é o que é": diagnosticando o sp500† 185 10.1 Paretianidade e Momentos 185 10.2 Testes de Convergência 187 10.2.1 Teste 1: Curtose sob Agregação 187 10.2.2 Rebaixamentos Máximos 188 10.2.3 Kappa Empírico 189 10.2.4 Teste 2: Excesso de Expectativa Condicional 190 10.2.5 Teste 3Instabilidade de 4 10.2.6 Teste 4: º momento 192 Gráfico MS 192 10.2.7 Registros e Extremos 194 10.2.8 Assimetria cauda direitaesquerda 197 10.3 Conclusão: É o que é 197 e o problema com a econometria 199 e.1 Desempenho de Estimadores de Risco Paramétricos Padrão 200 e.2 Desempenho de Estimadores de Risco Não Paramétricos Padrão 202 f considerações sobre aprendizado de máquina 207 f.0.1 Calibração via Ângulos 209 iii previsões, previsões e incertezas 211 11 calibração de probabilidade sob caudas gordas ‡ 213 11.1 Resultados Contínuos vs. Discretos: Definições e Comentários 214 11.1.1 Longe do Verbalístico 215 11.1.2 Não há "colapso", "desastre" ou "sucesso" definidos sob caudas gordas 218 11.2 Superestimação espúria da probabilidade da cauda em psicologia 219 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Conteúdo xi 11.2.1 Caudas finas 220 11.2.2 Caudas gordas 220 11.2.3 Conflações 221 11.2.4 Incerteza distributiva 224 11.3 Calibração e calibração incorreta 225 11.4 Métricas de pontuação 225 11.4.1 Derivando distribuições 228 11.5 Funções de recompensa não verbalísticas/aprendizado de máquina 229 11.6 Conclusão: 232 11.7 Apêndice: Provas e Derivações 232 11.7.1 Distribuição da contagem binária P (p) (n) 232 11.7.2 Distribuição da pontuação Brier 233 12 previsões eleitorais como martingales: uma abordagem de arbitragem‡ 235 12.0.1 Principais resultados 237 12.0.2 Organização 238 12.0.3 Uma discussão sobre neutralidade de risco 240 12.1 A avaliação estilo Bachelier 240 12.2 Processo de Martingale duplo limitado 242 12.3 Relação com o avaliador de probabilidade de De Finetti 243 12.4 Conclusão e comentários 245 iv estimadores de desigualdade sob caudas gordas 249 13 estimativa de gini sob variância infinita ‡ 251 13.1 Introdução 251 13.2 Assintótica do Estimador Não Paramétrico sob Variáveis Infinitas ança 255 13.2.1 Uma rápida recapitulação sobre variáveis aleatórias ÿ-estáveis 256 13.2.2 O limite assintótico ÿ-estável do índice de Gini 257 13.3 O estimador de máxima verossimilhança 258 13.4 Uma ilustração paretiana 259 13.5 Correção de pequenas amostras 262 13.6 Conclusões 265 14 sobre os vieses de superaditividade e estimativa de contribuição quantílica butões ‡ 271 14.1 Introdução 271 14.2 Estimativa para distribuições de cauda de Pareto não misturadas 273 14.2.1 Viés e convergência 273 14.3 Uma desigualdade sobre agregação de desigualdade 276 14.4 Distribuições mistas para o expoente de cauda 279 14.5 Uma soma total maior é acompanhada por aumentos em ÿq 282 14.6 Conclusão e Pró por Estimativa da concentração 282 14.6.1 Métodos robustos e uso de dados exaustivos 283 14.6.2 Como devemos medir a concentração? 283 v papéis de momentos de sombra 285 momentos de sombra de fenômenos de média aparentemente infinita 15.1 Introdução 287 ‡ 287 15 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 xii Conteúdo 15.2 A distribuição dupla 288 15.3 De volta a Y: a média sombra (ou média populacional) 290 15.4 Comparação com outros métodos 293 15.5 Aplicações 294 16 na cauda risco de conflito violento (com p. cirillo)‡ 297 16.1 Introdução/Resumo 297 16.2 Discussão estatística resumida 300 16.2.1 Resultados 300 16.2.2 Conclusão 301 16.3 Discussão metodológica 302 16.3.1 Método de reescalonamento 302 16.3.2 Expectativa por condicionamento (menos rigoroso) 303 16.3.3 Confiabilidade dos dados e efeito sobre Estimativas de cauda 304 16.3.4 Definição de um "evento" 305 16.3.5 Eventos ausentes 306 16.3.6 Viés de sobrevivência 306 16.4 Análise de dados 306 16.4.1 Picos acima do limite 307 16.4.2 Lacunas em séries e autocorrelação 308 16.4.3 Análise de cauda 309 16.4.4 Uma visão alternativa do Maxima 311 16.4.5 Análise completa de dados 311 16.5 Testes adicionais de robustez e confiabilidade 312 16.5.1 Bootstrap para o GPD 312 16.5.2 Perturbação entre limites de estimativas 313 16.6 Conclusão: o mundo é mais inseguro do que parece? 314 16,7 Agradecimentos 316 g quais são as chances de uma terceira guerra mundial?ÿ,† 317 vi artigos de metaprobabilidade 321 17 como caudas grossas emergem da incerteza epistêmica recursiva† 323 17.1 Métodos e Derivações 324 17.1.1 Incertezas em camadas 324 17.1.2 Integrais de ordem superior no caso gaussiano padrão 325 17.1.3 Efeito em pequenas probabilidades 329 17.2 Regime 2: Casos de parâmetros decaindo a(n) 331 17.2.1 Regime 2-a; “Sangria” de Erro de Ordem Superior 331 17.2.2 Regime 2-b; Segundo método, uma taxa de erro não multiplicativa 332 17.3 Distribuição limite 333 18 expoente de cauda estocástica para leis de potência assimétricas† 335 18.1 Antecedentes 336 18.2 Distribuições Unicaudais com Alfa Estocástico 336 18.2.1 Casos Gerais 336 18.2.2 Desigualdade Alfa Estocástica 337 18.2.3 Aproximações para a Classe P 338 18.3 Somas de Leis de Potência 339 18.4 Distribuições Estáveis Assimétricas 340 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Conteúdo xiii 18,5 Distribuição de Pareto com distribuição lognormal ÿ 341 18,6 Distribuição de Pareto com distribuição gama Alfa 342 18,7 A Lei de Potência Limitada em Cirillo e Taleb (2016) 342 18,8 Comentários Adicionais 343 18,9 Agradecimentos 343 19 meta-distribuição de valores p e p-hacking‡ 345 19.1 Provas e derivações 347 19.2 Potência Inversa do Teste 351 19.3 Aplicação e Conclusão 352 h algumas confusões na economia comportamental 355 h.1 Estudo de caso: Como a aversão miópica à perda é mal especificada 355 vii negociação de opções e precificação sob caudas gordas 361 20 falhas da teoria financeira com precificação de opções† 363 20.1 Bachelier, não Black-Scholes 363 20.1.1 Distorção da idealização 364 20.1.2 O processo real de replicação: 366 20.1.3 Falha: como erros de hedge podem ser proibitivos. 366 21 medida única de precificação de opções (sem hedge dinâmico/mercados completos)‡ 367 21.1 Antecedentes 367 21.2 Prova 369 21.2.1 Caso 1: Forward como medida neutra ao risco 369 21.2.2 Derivações 369 21.3 Caso em que o Forward não é neutro ao risco 373 21.4 comentário 373 22 traders de opções nunca usam a fórmula black-scholes-mertonÿ,‡ 375 22.1 Quebrando a cadeia de transmissão 375 22.2 Introdução/Resumo 376 22.2.1 BlackScholes foi um argumento 376 22.3 Mito 1: Os traders não precificavam opções antes do BSM 379 22.4 Métodos e Derivações 380 22.4.1 Fórmulas de opções e Delta Hedging 383 22.5 Mito 2: Os traders hoje usam Black-Scholes 384 22.5.1 Quando avaliamos? 385 22.6 Sobre a impossibilidade matemática do hedge dinâmico 385 22.6.1 A (confusa) robustez do gaussiano 387 22.6.2 Fluxo de pedidos e opções 388 22.6.3 Bachelier-Thorp 388 23 precificação de opções sob leis de potência: uma heurística robustaÿ,‡ 391 23.1 Introdução 392 23.2 Preço de chamadas além da constante Karamata 392 23.2.1 Primeira abordagem, S está na classe de variação regular 393 23.2.2 Segunda abordagem, S tem retornos geométricos na classe de variação regular 394 23.3 Preço de venda 396 23.4 Limites de arbitragem 397 23,5 Comentários 398 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 xiv Conteúdo 24 quatro erros em finanças quantitativasÿ,‡ 399 24.1 Conflação do segundo e quarto momentos 399 24.2 Faltando a desigualdade de Jensen na análise dos retornos das opções 400 24.3 A inseparabilidade do seguro e do segurado 401 24.4 A necessidade de um Numéraire em finanças 402 24.5 Apêndice (Apostas nas caudas da distribuição) 402 25 restrições de risco de cauda e entropia máxima (wd& h. geman)‡ 405 25.1 Risco de cauda esquerda como restrição central da carteira 405 25.1.1 O Barbell visto por ET Jaynes 408 25.2 Revisitando a configuração de variância média 408 25.2.1 Analisando as restrições 409 25.3 Revisitando o Caso Gaussiano 410 25.3.1 Uma mistura de duas normais 411 25.4 Entropia máxima 412 25.4.1 Caso A: Restringindo a média global 413 25.4.2 Caso B: Restringindo a média absoluta 414 25.4.3 Caso C: Leis de potência para a cauda direita 415 25.4. 4 Extensão para um cenário de vários períodos: um comentário 415 25,5 Comentários e conclusão 417 25,6 Apêndice/Provas 417 Bibliografia e Índice 419 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 1 PRÓLOGO Eÿ,† Quanto menos você entende o mundo, mais fácil é tomar uma decisão. 5 Figura 1.1: O problema não é a consciência das “caudas gordas”, mas a falta de compreensão das suas consequências. Dizer “é cauda gorda” implica muito mais do que mudar o nome da distribuição, mas uma revisão geral das ferramentas estatísticas e dos tipos de decisões tomadas. Crédito Stefan Gasic. A ideia principal por trás do projeto Incerto é que embora haja muita incerteza e opacidade sobre o mundo, e uma incompletude de informação e compreensão, há pouca, ou nenhuma, incerteza sobre quais ações devem ser tomadas com base em tal incompletude, em qualquer situação. T este livro consiste em 1) artigos publicados e 2) comentários (sem censura), sobre classes de distribuições estatísticas que geram eventos extremos e como devemos lidar com eles tanto para inferência estatística quanto para decisão fazendo. A maioria das estatísticas "padrão" vem de teoremas projetados para caudas finas: Capítulo de discussão. 1 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 2 prólogoÿ,† Figura 1.2: Complicação sem insight: a clareza mental de muitos profissionais que usam estatística e ciência de dados sem uma compreensão dos conceitos centrais, do que se trata fundam Crédito: Wikimedia Commons. eles precisam ser adaptados pré-sintoticamente a caudas gordas, o que não é trivial – ou mesmo abandonado por completo. Tantas vezes foi dito a este autor que é claro que sabemos disso ou da maleta bestial, nada de novo sobre caudas gordas por um professor ou profissional que acabou de produzir uma análise usando "variância", "GARCH", "curtose" , "Índice de Sharpe" ou "valor em risco", ou produziu alguma "significância estatística" que claramente não é significativa. De forma mais geral, este livro baseia-se na série de vários volumes do autor, Incerto [226] e no programa de investigação técnica associado, que trata de como viver no mundo real, um mundo com uma estrutura de incerteza que é demasiado complicada para nós. O Incerto tenta conectar cinco campos diferentes relacionados às probabilidades e extremos da cauda: matemática, filosofia, ciências sociais, teoria dos contratos, teoria da decisão e o mundo real. Se você se pergunta por que a teoria dos contratos, a resposta é: a teoria das opções baseia-se na noção de contratos contingentes e probabilísticos concebidos para modificar e partilhar classes de exposições nas caudas da distribuição; de certa forma, a teoria das opções é a teoria matemática dos contratos. A teoria da decisão não trata de compreender o mundo, mas de sair dos problemas e garantir a sobrevivência. Este ponto é o tema do próximo volume do Incerto Técnico, com o título provisório provisório Convexidade, Risco e Fragilidade. uma palavra sobre terminologia "Caudas grossas" é frequentemente usado em contextos acadêmicos. Para nós, aqui, corresponde a uma “curtose muito mais elevada do que a gaussiana” – para estar em conformidade com a linguagem dos profissionais de finanças. Quanto às "Caudas Gordas", preferimos reservá-las tanto para caudas extremamente grossas quanto para pertencer à classe da lei de potência (que mostramos no Capítulo 8 e não pode ser desemaranhada). Para muitos, pretendese que seja uma definição mais restrita, limitada a “leis de potência” ou “variações regulares” – mas preferimos chamar “leis de potência” de “leis de potência” (quando estamos bastante Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 prólogoÿ,† 3 Figura 1.3: A resposta clássica: um “substituto” é algo que não prejudica a procura de renda. Crédito: Stefan Gasic. certeza sobre o processo), então o que chamamos de “caudas gordas” pode às vezes ser tecnicamente “caudas extremamente grossas” para muitos. Para evitar ambiguidade, evitamos designações como “caudas pesadas” ou “caudas longas”. Os próximos dois capítulos esclarecerão. agradecimentos Além dos coautores mencionados anteriormente, o autor agradece Zhuo Xi, Jean-Philippe Bouchaud, Robert Frey, Spyros Makridakis, Mark Spitznagel, Brandon Yarkin, Raphael Douady, Peter Carr, Marco Avellaneda, Didier Sornette, Paul Em-brechts, Bruno Dupire, Jamil Baz, Damir Delic, Yaneer Bar-Yam, Diego Zviovich, Joseph Norman, Ole Peters, Chitpuneet Mann, Harry Crane –e, claro, fim- menos 13 discussões realmente intermináveis com o grande Benoit Mandelbrot. Editores voluntários de mídia social, como Maxime Biette, Caio Vinchi, Jason Thorell e Petri Helo, corrigiram muitos erros de digitação. Kevin Van Horn enviou uma extensa lista de erros de digitação e possíveis confusões de notação. Alguns dos artigos que viraram capítulos foram apresentados em conferências; o autor agradece a Lauren de Haan, Bert Zwart e outros pelos comentários sobre problemas relacionados a valores extremos. Agradecimentos mais específicos serão feitos em capítulos individuais. Como sempre, o autor gostaria de expressar sua gratidão à equipe do restaurante Naya em NY. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4 prólogoÿ,† T seu autor apresentou o presente livro e os pontos principais na conferência mensal Bloomberg Quant, em Nova York, em setembro de 2018. Após a palestra, um proeminente professor de finanças matemáticas veio me ver. “Este é um Taleb muito típico”, disse ele. "Você mostra o que está errado, mas não oferece muitos substitutos”. Claramente, nos negócios ou em qualquer coisa sujeita aos rigores do mundo real, ele teria sido demitido. Pessoas que nunca estiveram envolvidas no jogo [236] não conseguem compreender a necessidade da suspensão circunstancial da crença e o valor informativo da falta de confiabilidade para a tomada de decisões: não dê a um piloto uma métrica errada, aprenda a fornecer apenas informações confiáveis; informar ao piloto que o avião está com defeito salva vidas. Nem conseguem obter o desempenho superior da via negativa – a ciência popperiana funciona por remoção. O falecido David Freedman tentou, sem sucesso, domar modelos estatísticos insípidos e enganosos, amplamente superados pelo “nada”. Mas acontece que os vários capítulos e artigos aqui oferecem soluções e alternativas, exceto que estas não são as mais confortáveis para alguns, pois exigem algum trabalho matemático para rederivações para condições de cauda gorda. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 2 T GLOSSÁRIO, DEFINIÇÕES , E N VOCÊ TOMA ÍONS Este é um catálogo raisonné dos principais tópicos e notações. As notações são sempre redefinidas no texto; esta é uma ajuda para o leitor aleatório. Alguns capítulos extraídos de artigos terão notações específicas, conforme especificado. Observe que, embora nossa terminologia possa estar em desacordo com a de alguns grupos de pesquisa, ela visa permanecer consistente. 2.1 notações gerais e símbolos usados com frequência P é o símbolo de probabilidade; normalmente em P(X > x), X é a variável aleatória, x é a realização. Definições mais formais da teoria da medida de eventos e outras questões francesas estão no Capítulo 11 e em outros lugares onde tal formalismo faz senso. E é o operador de expectativa. V é o operador Variância. M é o desvio médio absoluto que é, quando centrado, centrado em torno do média (em vez da mediana). ÿ(.) ef(.) são geralmente reservados para a PDF (função de densidade de probabilidade) de uma distribuição pré-especificada. Em alguns capítulos, é feita uma distinção entre fx(x) e fy(y), particularmente quando X e Y seguem duas distribuições separadas. n geralmente é reservado para o número de somas. p geralmente é reservado para a ordem momentânea. rv é a abreviação de variável aleatória. F(.) é reservado para o CDF (função de distribuição cumulativa P(X < x), F(.), ou S é a função de sobrevivência P(X > x). 5 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 6 glossário, definições e notações ÿ indica que uma variável aleatória é distribuída de acordo com uma certa lei especificada. ÿ(t) = E(e itXs ) é a função característica de uma distribuição. Em algumas discussões, o argumento t ÿ R é representado como ÿ. Às vezes ÿ é usado. D ÿ denota convergência na distribuição, como segue. Seja X1 , X2 ,. . . , Xn seja uma sequência D de variáveis aleatórias; Xn ÿ X significa que o CDF Fn para Xn tem o seguinte limite: limnÿÿ Fn(x) = F(x) para todo x real para o qual F é contínuo. P ÿ denota convergência em probabilidade, ou seja, para ÿ > 0, temos, usando o mesmo sequência como antes limnÿÿ Pr(|Xn ÿ X| > ÿ) = 0. como ÿ denota convergência quase certa, a forma mais forte: P ( limnÿÿ Xn = X ) = 1. Sn é normalmente uma soma para n somas. ÿ e ÿs: normalmente tentaremos usar ÿs ÿ (0, 2] para denotar o expoente final da distribuição limitante e estável platônica e ÿp ÿ (0, ÿ) o equivalente paretiano (pré-sintótico) correspondente, mas apenas em situações onde há pode haver alguma ambigüidade. ÿ simples deve ser entendido no contexto. 2 N (µ1 , ÿ1 ) a distribuição gaussiana com média µ1 e variância ÿ L(., .) ou LN 1 . (., .) é a distribuição Lognormal, com PDF f (L) (.) tipicamente parametrizada ÿ 1 ) X aqui como L(X0 ÿ 1 p2 2 2p . 0. , ÿ) para obter uma média X0 e variância ( e S(ÿS, ÿ, µ, ÿ) é a distribuição estável com índice de cauda ÿs em (0, 2], índice de simetria ÿ em ÿ1, 1), parâmetro de centralidade µ em R e escala ÿ > 0. P é a classe da lei de potência (veja abaixo). S é a classe subexponencial (veja abaixo). ÿ(.) é a função delta de Dirac. ÿ(.) é a função teta de Heaviside. erf(.), a função de erro, é a integral da distribuição gaussiana erf(z) = ÿ dte-t 2 . erfc(.), é a função de erro complementar 1 ÿ er f(.). 2 ÿ Pi Com 0 ÿ.ÿp é uma norma definida para (aqui um vetor real) X = (X1 , . . ., Xn) ÿ ÿXÿpÿ ( 1 n n i=1|xi | p )1/p . Observe o valor absoluto neste texto. T , Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 2.2 catálogo raisonné de conceitos gerais e idiossincráticos 7 ÿ 1F1 (.; .; .) é a função hipergeométrica confluente de Kummer: 1F1 (a; b; z) = ÿ k=0 2F˜ 2 é a função hipergeométrica generalizada regularizada: 2F˜ 2(., .; ÿ e pFq(a; b; z) tem expansão em série ÿ símbolok=0 (a1)k ...(ap)k (b1)k ...(bp)k e kz ! k obrigado . ., 2F2(a;b;z) .; .) = (ÿ(b1)...ÿ(bq)) z k/k!, onde (aq)(.) é o Pockham- mer. n-1 eu=1 ( 1 ÿ aqi ) . (aq)(.) é o símbolo Q-Pochhammer (aq)n = ÿ 2.2 catálogo raisonné de conceitos gerais e idiossincráticos Em seguida vem a duplicação da definição de alguns temas centrais. 2.2.1 Lei de Potência Classe P A classe da lei de potência é convencionalmente definida pela propriedade da função de sobrevivência, como segue. Seja X uma variável aleatória pertencente à classe de distribuições com cauda direita "lei de potência", ou seja: -a P(X > x) = L(x) x (2.1) onde L : [xmin, +ÿ) ÿ (0, +ÿ) é uma função de variação lenta, definida como lim xÿ+ÿ L(kx) =1 eu(x) para qualquer k > 0 [22]. A função de sobrevivência de X pertence à classe de "variação regular" RVÿ. Mais especificamente, uma função f : R+ ÿ R+ é um índice que varia no infinito com índice ÿ (f ÿ RVÿ) quando lim f(tx) ÿ=x . f(t) tÿÿ Mais praticamente, existe um ponto onde L(x) se aproxima do seu limite, l, tornando-se uma constante – que chamamos de "constante Karamata" e o ponto é apelidado de "ponto Karamata". Além desse valor, as caudas das leis de potência são calibradas usando técnicas padrão como o estimador de Hill. A distribuição naquela zona é apelidada de lei de Pareto forte por B. Mandelbrot[162],[75]. O mesmo se aplica, quando especificado, à cauda esquerda. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8 glossário, definições e notações 2.2.2 Lei dos Grandes Números (Fraca) A apresentação padrão é a seguinte. Seja X1 , X2 ,. . . Xn é uma sequência infinita de variáveis aleatórias independentes e distribuídas de forma idêntica (integráveis por Lebesgue) com valor esperado E(Xn) = µ (embora se possa relaxar um pouco as suposições de iid). A média amostral 1 Xn = (X1 + · · · + Xn) converge para o valor esperado, Xn ÿ µ, para n ÿ ÿ. n A finitude da variância não é necessária (embora, é claro, os momentos superiores finitos acelerem a convergência). A lei forte é discutida quando necessário. 2.2.3 O Teorema do Limite Central (CLT) A versão Padrão (Lindeberg-Lévy) do CLT é a seguinte. Suponha uma sequência de variáveis 2 aleatórias iid com E(Xi ) = µ e V(Xi ) = ÿ < +ÿ, e Xn a média amostral para n. Então, à medida que n se aproxima do infinito, a soma das variáveis aleatórias ÿ n(Xnµ) converge em distribuição para a Gaussiana [20] [21]: d ÿ n ( Xn ÿ µ ) ÿÿ N ( 0, ÿ 2 ) . A convergência na distribuição aqui significa que o CDF (função de distribuição cumulativa) de ÿ n converge pontualmente para o CDF de N (0, ÿ) para cada z real, ÿ n(Xn ÿ µ) limnÿÿ P (ÿ n(Xn ÿ µ) ÿ z ) = limnÿÿ P [ p ÿ Com ÿ]=ÿ( Com p ), ÿ>0 onde ÿ(z) é o CDF normal padrão avaliado em z. Existem muitas outras versões da CLT, apresentadas conforme necessário. 2.2.4 Lei dos Números Médios ou Pré-assintóticos Este é praticamente o tema central deste livro. Estamos interessados no comportamento da variável aleatória para n grande, mas não muito grande ou assintótico. Embora não seja um grande problema para o Gaussiano devido à convergência extremamente rápida (tanto pelo LLN quanto pelo CLT), este não é o caso para outras variáveis aleatórias. Veja Kappa a seguir. 2.2.5 Métrica Kappa A métrica aqui não deve ser interpretada no sentido matemático de uma função de distância, mas sim no seu sentido de engenharia, como uma medida quantitativa. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 2.2 catálogo raisonné de conceitos gerais e idiossincráticos 9 Kappa, em [0, 1], desenvolvido por este autor aqui, no Capítulo 8, e no artigo [235], mede o comportamento pré-sintótico ou uma variável aleatória; é 0 para o Gaussiano considerado como referência e 1 para um Cauchy ou um rv que não tem média. Seja X1 , . . . , Xn são variáveis aleatórias iid com média finita, ou seja E(X) < +ÿ. + X2 + desvio absoluto . . . + Xn seja uma soma parcial. Seja M(n) = E(|Sn ÿ E(Sn)|) o Seja Sn = X1 médio esperado da média para n somas (lembre-se de que não usamos a mediana, mas centralizamos em torno da média) . Defina a "taxa" de convergência para n somas adicionais começando com n0: 1 ÿn0,n : M(n) M(n0) 2ÿÿn0 ,n = ( n n0 ) , n0, n = 1, 2, ..., (2.2) n > n0 ÿ 1, portanto ÿ(n0, n) = 2 ÿ log(n) ÿ log(n0) (2.3) registro M(n0) ( M(n) ). Além disso, para os valores da linha de base n = n0 + 1, usamos a abreviatura ÿn0 . 2.2.6 Distribuição Elíptica Diz-se que X, ap × 1 vetor aleatório tem uma distribuição elíptica (ou com contorno elíptico) com parâmetros de localização µ, uma matriz não negativa ÿ e alguma função escalar ÿ se sua função característica for da forma exp(itÿµ )ÿ(tÿt ÿ ). Em palavras práticas, deve-se ter uma única matriz de covariância para que a distribuição conjunta seja elíptica. Mudança de regime, covariâncias estocásticas (correlações), tudo isso evita que as distribuições sejam elípticas. Portanto, mostraremos no Capítulo 6 que uma combinação linear de variáveis seguindo distribuições de cauda fina pode produzir propriedades explosivas de cauda grossa quando a elipticalidade é violada. Isto (além da cauda gorda) invalida grande parte das finanças modernas. 2.2.7 Independência estatística A independência entre duas variáveis X e Y com PDFs marginais f(x) e f(y) e PDF conjunta f(x, y) é definida pela identidade: f(x, y) = 1, f(x)f(y) independentemente do coeficiente de correlação. Na classe de distribuições elípticas, a gaussiana bivariada com coeficiente 0 é independente e não correlacionada. Isto não se aplica ao Student T ou ao Cauchy em suas formas multivariadas. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 10 glossário, definições e notações 2.2.8 Distribuição Estável (Lévy estável) Esta é uma generalização da CLT. Seja X1 , . . . , Xn sejam variáveis aleatórias independentes e distribuídas de forma idêntica. Considere a soma deles Sn. Nós temos Sn ÿ an ÿ D Xs, bn (2.4) onde Xs segue uma distribuição estável S, an e bn são constantes normativas, e, to ÿ denota serão D convergência na distribuição (a distribuição de X como n ÿ ÿ). repito, as propriedades de S definidas e exploradas mais adequadamente no próximo capítulo. Consideremos por enquanto que uma variável aleatória Xs segue uma distribuição estável (ou ÿestável), simbolicamente Xs ÿ S(ÿs, ÿ, µ, ÿ), se sua função característicaÿ(t) = E(e itXs ) for do tipo forma: 2 )sgn(t))) quando ÿs ÿ= 1. ÿ(t) = e (iµtÿ|tÿ| ÿs (1ÿiÿ tan( ÿÿÿs (2.5) As restrições são ÿ1 ÿ ÿ ÿ 1 e 0 < ÿs ÿ 2. 2.2.9 Distribuição Estável Multivariada Um vetor aleatório X = (X1 , . . . , Xk ) mas T diz-se que tem a distribuição estável multivariada se toda combinação linear de seus componentes Y = a1X1 + · · · + akXk tem uma distribuição estável. Ou seja, para qualquer vetor constante a ÿ Rk a variável aleatória, Y = a TX deve ter uma distribuição estável univariada. 2.2.10 Ponto Karamata Veja aula de lei de potência 2.2.11 Subexponencialidade A fronteira natural entre o Mediocristão e o Extremistão ocorre na classe subexponencial que possui a seguinte propriedade: Seja X = X1 , . . . , Xn será uma sequência de variáveis aleatórias independentes e distribuídas de forma idêntica com suporte em (R+ ), com função de distribuição cumulativa F. A classe subexponencial de distribuições é definida por (ver [248], [196]): limão xÿ+ÿ onde F ÿ2 ÿ=F 1 - F *2 (x) =2 1 ÿ F(x) (2.6) ÿ F é a distribuição cumulativa de X1 + X2, a soma de duas cópias independentes de X. Isto implica que a probabilidade de a soma X1 + X2 exceder um valor x é duas vezes a probabilidade de qualquer uma delas separadamente exceder x. Assim, cada Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 2.2 catálogo raisonné de conceitos gerais e idiossincráticos 11 sempre que a soma excede x, para valores suficientemente grandes de x, o valor da soma é devido a um ou outro exceder x – o máximo sobre as duas variáveis – e a outra contribui de forma insignificante. De forma mais geral, pode-se mostrar que a soma de n variáveis é dominada pelo máximo dos valores sobre essas variáveis da mesma forma. Formalmente, as duas propriedades a seguir são equivalentes à condição subexponencial [43],[84]. Para um dado n ÿ 2, seja Sn = ÿ n i=1xi e Mn = max1ÿiÿn xi P(Sn>x) a) limxÿÿ = n, P(X>x) b) limxÿÿ P(Sn>x) = 1. P(Mn>x) Assim, a soma Sn tem a mesma magnitude que a maior amostra Mn, o que é outra forma de dizer que as caudas desempenham o papel mais importante. Intuitivamente, os eventos de cauda em distribuições subexponenciais deveriam declinar mais lentamente do que uma distribuição exponencial para a qual grandes eventos de cauda deveriam ser irrelevantes. Na verdade, pode-se mostrar que as distribuições subexponenciais não têm momentos exponenciais: ÿ ÿ0 e ÿx dF(x) = +ÿ (2.7) para todos os valores de ÿ maiores que zero. Contudo, o inverso não é verdadeiro, uma vez que as distribuições não podem ter momentos exponenciais, mas não satisfazem a condição subexponencial. 2.2.12 Aluno T como Procurador Usamos o estudante T com ÿ graus de liberdade como uma conveniente distribuição de lei de potência bicaudal. Para ÿ = 1 torna-se Cauchy e, claro, Gaussiano para ÿ ÿ ÿ. O aluno T é a principal lei de potência em forma de sino, ou seja, a PDF é contínua e suave, aproximando-se assintoticamente de zero para x grande negativo/positivo, e com um único máximo unimodal (além disso, a PDF é quase côncava, mas não côncavo). 2.2.13 Anel de Citação Um mecanismo altamente circular pelo qual o destaque acadêmico é alcançado graças a discussões onde os artigos são considerados proeminentes porque outras pessoas os citam, sem filtragem externa, fazendo com que a pesquisa se concentre e fique presa em "cantos", áreas focais sem significado real. Isto está ligado ao funcionamento do sistema acadêmico na ausência da supervisão de um adulto ou da filtragem de pele no jogo. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 12 glossário, definições e notações E exemplo de campos que são, praticamente, fraudes no sentido de que seus resultados não são portáveis para a realidade e servem apenas para alimentar artigos adicionais que, por sua vez, produzirão mais artigos: Teoria Financeira Moderna, econometria (particularmente para variáveis macro), processos GARCH, psicometria, controle estocástico modelos em finanças, economia comportamental e finanças, tomada de decisões sob incerteza, macroeconomia e um pouco mais. 2.2.14 Aluguel na academia Existe um conflito de interesses entre um determinado pesquisador e o assunto em questão. consideração. A função objetivo de um departamento acadêmico (e pessoa) torna-se coleta de citações, homenagens, etc. em detrimento da pureza do assunto: por exemplo, muitas pessoas ficam presas nos cantos da pesquisa porque é mais benéfico para suas carreiras e para seu departamento. 2.2.15 Pseudoempirismo ou Problema Pinker Discussão de “evidências” que não são estatisticamente significativas ou uso de métricas que são pouco informativos porque não se aplicam às variáveis aleatórias em consideração – como, por exemplo, fazer inferências a partir das médias e correlações para variáveis de cauda gorda. Este é o resultado de: i) o foco na educação estatística em variáveis gaussianas ou de cauda fina, ii) a ausência de conhecimento probabilístico aliada à memorização de termos estatísticos, iii) completa ignorância sobre dimensionalidade, todos os quais são predominantes entre os cientistas sociais. Exemplo de pseudo-empirismo: comparar a morte por ações terroristas ou epiepidemias como o ebola (cauda gorda) até quedas de escadas (cauda fina). Este “positivismo” confirmatório é uma doença da ciência moderna; isso quebra sob dimensionalidade e cauda gorda. Na verdade, não é necessário distinguir entre variáveis de cauda grossa e variáveis gaussianas para perceber a falta de rigor nestas atividades: critérios simples de significância estatística não são atendidos – nem esses operadores compreendem a noção de um conceito como significado. 2.2.16 Pré-sintóticos A estatística matemática está amplamente preocupada com o que acontece com n = 1 (onde n é o número de somas) e n = ÿ. O que acontece no meio é o que nós chamamos de mundo real – e o foco principal deste livro. Algumas distribuições (digamos aquelas Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 2.2 catálogo raisonné de conceitos gerais e idiossincráticos 13 com variância finita) têm comportamento gaussiano assintoticamente, para n = ÿ, mas não para n extremamente grande, mas não infinito. 2.2.17 Estocástica Tornar um parâmetro determinístico estocástico, (i) de forma simples, ou (ii) através de uma distribuição contínua ou discreta mais complexa. (i) Seja s o parâmetro determinístico; estocasticizamos (estilo básico) criando um Bernouilli de dois estados com p probabilidade de assumir o valor s1 , 1 ÿ p de assumir o valor s2. Uma transformação preserva a média quando ps1 + (1 ÿ p)s2 = s, ou seja, preserva a média do parâmetro s. Mais geralmente, pode ser preservado de maneira semelhante, etc. (ii) Podemos usar uma distribuição de probabilidade completa, normalmente uma Gaussiana se a variável for bicaudal, e a Lognormal ou exponencial se a variável for unicaudal (raramente , torna uma lei de potência). Quando s é o desvio padrão, pode-se estocasticizar s onde ele 2se "volatilidade estocástica", com uma variância ou desvio padrão normalmente denominado "Vvol". 2.2.18 Valor em Risco, VaR Condicional A expressão matemática do Valor em Risco, VaR, para uma variável aleatória X com função de distribuição F e limite ÿ ÿ [0, 1] VaRÿ(X) = ÿ inf {x ÿ R : F(x) > ÿ}, e o correspondente CVar ou défice esperado ES no limiar ÿ: ESÿ(X) = E ( ÿX |Xÿÿ VaRÿ(X) ) ou, no domínio positivo, considerando a cauda de X em vez da cauda de ÿX. De forma mais geral, o défice esperado para o limiar K é E(X|X>K). 2.2.19 Aparência no Jogo Um mecanismo de filtragem que obriga os cozinheiros a comerem a sua própria comida e a ficarem expostos a danos em caso de falha, expulsando assim pessoas perigosas do sistema. Áreas que têm influência no jogo: encanamento, odontologia, cirurgia, engenharia, atividades onde os operadores são avaliados por resultados tangíveis ou sujeitos à ruína e à falência. Campos onde as pessoas não têm qualquer participação no jogo: campos académicos circulares onde as pessoas dependem da avaliação dos pares em vez das pressões de sobrevivência da realidade. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 14 glossário, definições e notações 2.2.20 Gráfico MS O gráfico MS, “máximo para soma”, nos permite ver o comportamento do LLN para um determinado momento, considerar a contribuição da observação máxima para o total, e ver como ela se comporta à medida que n aumenta. Para um rv X, uma abordagem para detectar se E(X p ) existe consiste em examinar a convergência de acordo com a lei dos grandes números (ou melhor, a ausência de), observando o comportamento dos momentos mais elevados em uma determinada amostra. Uma abordagem conveniente é o gráfico de Máximo para Soma, ou gráfico MS, conforme mostrado na Figura 10.3. O MS Plot depende de uma consequência da lei dos grandes números [184] quando se trata do máximo de uma variável. Para uma sequência X1 , X2, ..., Xn de variáveis aleatórias iid não negativas, se para p = 1, 2, 3, . . . , E[X p ] < ÿ, então Rpp _=M n/Snp ÿ como 0 n como n ÿ ÿ, onde S p n = n ÿ XI p _ p n é a soma parcial, e M = máx(X p 1 , ..., Xnp ) o eu=1 máximo parcial. (Observe que podemos ter X como o valor absoluto da variável aleatória caso o rv possa ser negativo para permitir que a abordagem seja aplicada a momentos ímpares.) 2.2.21 Domínio Máximo de Atração, MDA A distribuição de valores extremos diz respeito à do rv máximo, quando x ÿ x onde x ÿ , ÿ = sup{x : F(x) < 1} (o "ponto final" direito da distribuição) está no domínio máximo de atração, MDA [116]. Em outras palavras, máx(X1 , X2, ... Xn) P ÿx ÿ . 2.2.22 Substituição de Integral na literatura de psicologia A literatura verbalística faz a seguinte fusão. Seja K ÿ R+ um limite, f(.) uma função de densidade e pK ÿ [0, 1] a probabilidade de excedê-lo, e g(x) uma função de impacto. Seja I1 o retorno esperado acima de K: ÿ I1 = ÿ K g(x)f(x)dx, e Seja I2 o impacto em K multiplicado pela probabilidade de exceder K: ÿ I2 = g(K) ÿ K f(x)dx = g(K)pK. A substituição vem da fusão de I1 e I2, que se torna uma identidade se e somente se g(.) for constante acima de K (digamos g(x) = ÿK(x), a função teta de Heaviside). Para g(.) uma função variável com primeira derivada positiva, I1 pode estar próximo de I2 apenas sob distribuições de cauda fina, e não sob distribuições de cauda gorda. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 2.2 catálogo raisonné de conceitos gerais e idiossincráticos 15 2.2.23 Inseparabilidade da Probabilidade (outro erro comum) Seja F : A ÿ [0, 1] uma distribuição de probabilidade (com derivada f) e g : R ÿ R uma função mensurável, o "recompensa"". Claramente, para Aÿ um subconjunto de A: ÿA' g(x)dF(x) = ÿ f(x)g(x)dx A' ÿ= ÿA' f(x)dx g (ÿ Aÿ dx ) Em termos discretos, com ÿ(.) uma função de massa de probabilidade: ÿ ÿ(x)g(x) ÿ= ÿ x ÿAÿ xÿAÿ ÿ(x)g( 1 n ÿ xÿAÿ (2.8) x) = probabilidade do evento × recompensa do evento médio A ideia geral é que a probabilidade é o núcleo de uma equação e não um produto final por si só, fora das apostas explícitas. 2.2.24 A Régua de Wittgenstein A “régua de Wittgenstein” é o seguinte enigma: você está usando a régua para medir a mesa ou usando a mesa para medir a régua? Bem, depende dos resultados. Suponha que existam apenas duas alternativas: uma distribuição gaussiana e uma distribuição de lei de potência. Mostramos que um grande desvio, digamos um "seis sigma", indica que a distribuição é uma lei de potência. 2.2.25 Cisnes Negros Os Cisnes Negros resultam da incompletude do conhecimento com efeitos que podem ter muitas consequências em domínios de cauda gorda. Basicamente, são coisas que estão fora do que você pode esperar e modelar, e trazem grandes consequências. A ideia é não prevê-los, mas ser convexo (ou pelo menos não côncavo) em relação ao seu impacto: a fragilidade a uma determinada classe de eventos é detectável, e até mesmo mensurável (através da aferição de efeitos de segunda ordem e da assimetria de respostas), enquanto os atributos estatísticos desses eventos pode permanecer indefinido. É difícil explicar aos modeladores que precisamos aprender a trabalhar com coisas que nunca vimos (ou imaginamos) antes, mas é o que é1 . Observe a dimensão epistêmica: os cisnes negros dependem do observador: um cisne negro para o peru é um cisne branco para o açougueiro. 11 de setembro foi um negro 1 Como Paul Portesi gosta de repetir (atribuindo ou talvez atribuindo erroneamente a este autor): “Você não viu o outro lado da distribuição". Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16 glossário, definições e notações Cisne para as vítimas, mas não para os terroristas. Esta dependência do observador é uma propriedade central. Um modelo probabilístico “objetivo” do Cisne Negro não é apenas impossível, mas anula o propósito, devido ao caráter incompleto da informação e de sua disseminação. Cisnes Cinzentos: Grandes desvios que são consequenciais e têm uma frequência muito baixa, mas permanecem consistentes com as propriedades estatísticas, são chamados de "Cisnes Cinzentos". Mas é claro que o "acinzentamento" depende do observador: um Cisne Cinzento para alguém que utiliza uma distribuição de lei de potência será um Cisne Negro para estatísticos ingénuos irremediavelmente presos e entrando em estruturas e representações de cauda fina. Repitamos: não, não se trata de caudas gordas; acontece que caudas gordas os tornam piores. A conexão entre caudas gordas e Cisnes Negros reside no impacto exagerado de grandes desvios nos domínios de cauda gorda. 2.2.26 A distribuição empírica não é empírica A distribuição empírica, ou função de sobrevivência F(t) é a seguinte: Seja X1 , . . . Xn sejam variáveis aleatórias reais independentes e distribuídas de forma idêntica com a função de distribuição cumulativa comum F(t). Fn(t) = 1 n n ÿ 1xiÿt , eu=1 onde 1A é a função do indicador. Pelo teorema de Glivenko-Cantelli, temos convergência uniforme da norma máxima para uma distribuição específica – a Kolmogorov-Smirnoff – independentemente da distribuição inicial. Nós temos: como. sup tÿR Fn(t) ÿ F(t) ÿÿ 0; (2.9) esta convergência independente da distribuição diz respeito a probabilidades, claro, e não a momentos – um resultado que este autor trabalhou e generalizou para o "momento oculto" acima do máximo. Notamos o resultado principal (generalizado por Donsker em uma ponte browniana, uma vez que sabemos que os extremos são 0 e 1) ÿ n ( Fn(t) ÿ F(t) ) Dÿ N (0, F(t)(1 ÿ F(t))) (2.10) “A distribuição empírica não é empírica” significa que, uma vez que as distribuições empíricas são necessariamente censuradas no intervalo [xmin, xmax], para caudas gordas isto pode trazer enormes consequências porque não podemos analisar caudas gordas no espaço de probabilidade, mas no espaço de retorno. Veja ainda a entrada na cauda oculta (próxima). Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 2.2 catálogo raisonné de conceitos gerais e idiossincráticos 17 2.2.27 A cauda oculta Considere Kn o máximo de uma amostra de n variáveis independentes distribuídas de forma idêntica; Kn = máx (X1 , X2, ..., Xn). Seja ÿ(.) a densidade da distribuição subjacente. Podemos decompor os momentos em duas partes, sendo o momento “oculto” acima de K0. Kn E(X p ) = ÿ ÿ xpÿ (x)dx eu + ÿ Kn µL,p xpÿ (x)dx ÿK, p onde µL é a parte observada da distribuição e µK a oculta (acima de K). Por Glivenko-Cantelli, a distribuição de µK,0 deveria ser independente da distribuição inicial de X, mas os momentos mais elevados não, portanto, há um pequeno problema com os testes do estilo Kolmogorov-Smirnoff. 2.2.28 Momento de Sombra Isso é chamado neste livro de estimativa de “plug-in”. Isso não é feito medindo a média da amostra diretamente observável, que é tendenciosa sob distribuições de cauda gorda, mas usando parâmetros de máxima verossimilhança, digamos, o expoente da cauda ÿ, e derivando a média da sombra ou momentos mais elevados. 2.2.29 Dependência da Cauda Sejam X1 e X2 duas variáveis aleatórias não necessariamente na mesma classe de distribuição. Seja Fÿ(q) o CDF inverso para a probabilidade q, ou seja, Fÿ(q) = inf{x ÿ R : F(x) ÿ q}, ÿu a dependência da cauda superior é definida como lim qÿ1 ÿ ÿ P (X2 > F 2 (q)|X1 > F 1 (q)) ÿu = (2.11) O mesmo acontece com o índice de dependência da cauda inferior. 2.2.30 Metaprobabilidade Comparar duas distribuições de probabilidade por meio de alguns truques que incluem parâmetros de estochasticização. Ou estocasticize um parâmetro para obter a distribuição de um preço de compra, uma métrica de risco como VaR (ver entrada), CVaR, etc., e verifique a robustez ou convexidade da distribuição resultante. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 18 glossário, definições e notações 2.2.31 Cobertura Dinâmica O pagamento de uma opção de compra europeia C sobre um S subjacente com prazo de vencimento indexado em T deve ser replicado com o seguinte fluxo de hedges dinâmicos, cujo limite pode ser visto aqui, entre o tempo presente t e T: ÿC limão ÿtÿ0 (n=T/ÿt ÿeu=1 ÿS (2.12) |S=St+(iÿ1)ÿt ,t=t+(iÿ1)ÿt, ( St+iÿt ÿ St+(iÿ1)ÿt ) ) ÿC ÿS é calculado a Dividimos o período em n incrementos ÿt. Aqui o índice de hedge partir do momento t +(i-1) ÿt, mas obtemos a diferença não antecipada entre o preço no momento em que o hedge foi iniciado e o preço resultante em t+ i ÿt. Supõe-se que isso torne o resultado determinístico no limite de ÿt ÿ 0. No mundo gaussiano, isso seria uma integral Ito-McKean. Mostramos onde esta replicação nunca é possível em um ambiente de cauda gorda, devido às propriedades pré-samptóticas especiais. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Parte I GORDURA TA ILS E SEUS EFEITOS , UMA INTRODUÇÃO Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3 ANON -TECHNICALOVERVI EW - THE POR RW INCOLLEGELECTURA ÿ,‡ Abyssus abyssum invocat maravilha, não se pergunte, leitor Salmos T Este capítulo apresenta uma apresentação não técnica, porém abrangente, de todas as consequências estatísticas do projeto de caudas grossas. Ele comprime as ideias principais em um só lugar. Principalmente, ele fornece uma lista de mais de uma dúzia de consequências de caudas grossas na inferência estatística. 3.1 sobre a diferença entre caudas finas e grossas Começamos com a noção de caudas grossas e como ela se relaciona com os extremos usando os dois domínios imaginários do Mediocristão (caudas finas) e do Extremistão (caudas grossas). Capítulo de pesquisa e discussão. Uma versão mais curta deste capítulo foi apresentada no Darwin College, Cambridge (Reino Unido) em 27 de janeiro de 2017, como parte da Série de Palestras sobre Extremos do Darwin College. O autor estende os mais calorosos agradecimentos ao DJ Needham e Julius Weitzdörfer, bem como aos seus assistentes invisíveis que transcreveram a palestra com paciência e precisão em um texto coerente. O autor também agradece a Susan Pfannenschmidt e Ole Peters que corrigiram alguns erros. Jamil Baz me convenceu a acrescentar mais comentários ao capítulo para acomodar economistas e econometristas que, nunca se sabe, poderão eventualmente se identificar com alguns deles. 21 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 22 uma visão geral não técnica – a palestra da Darwin College ÿ,‡ • No Mediocristão, quando uma amostra em consideração se torna grande, nenhuma observação isolada pode realmente modificar as propriedades estatísticas. • No Extremistão, as caudas (os eventos raros) desempenham um papel desproporcionalmente grande na determinação das propriedades. Outra forma de visualizar: Suponha um grande desvio X. • No Mediocristão, a probabilidade de amostragem superior a X duas vezes em um linha é maior que a amostragem superior a 2X uma vez. • No Extremistão, a probabilidade de amostragem superior a 2X uma vez é maior do que a probabilidade de amostragem superior a X duas vezes consecutivas. Vamos selecionar aleatoriamente duas pessoas no Mediocristão; suponhamos que obtemos uma altura combinada (muito improvável) de 4,1 metros – um evento de cauda. De acordo com a distribuição gaussiana (ou melhor, seus irmãos unicaudais), a combinação mais provável das duas alturas é 2,05 metros e 2,05 metros. Não 10 centímetros e 4 metros. Simplesmente, a probabilidade de exceder 3 sigmas é 0,00135. A probabilidade de exceder 6 sigmas, o dobro, é 9,86 × 10ÿ10. A probabilidade de ocorrência de dois eventos 3-sigma é 1,8 × 10ÿ6 . Portanto, a probabilidade de ocorrência de dois eventos 3-sigma é consideravelmente maior do que a probabilidade de um único evento 6-sigma. Isso está usando uma classe de distribuição que não tem cauda gorda. A Figura 3.1 mostra que à medida que estendemos a razão da probabilidade de dois eventos 3-sigma dividida pela probabilidade de um evento 6-sigma, para a probabilidade de dois eventos 4-sigma dividida pela probabilidade de um evento 8-sigma, ou seja , quanto mais avançamos na cauda, vemos que um grande desvio só pode ocorrer através de uma combinação (uma soma) de um grande número de desvios intermediários: o lado direito da Figura 3.1. Em outras palavras, para que algo ruim aconteça, é necessário que venha de uma série de eventos muito improváveis, e não de um único. Esta é a lógica do Mediocristão. Vamos agora passar para o Extremistão e selecionar aleatoriamente duas pessoas com uma riqueza combinada de 36 milhões de dólares. A combinação mais provável não é US$ 18 milhões e US$ 18 milhões. Deve ser aproximadamente US$ 35.999.000 e US$ 1.000. Isto realça a nítida distinção entre os dois domínios; para a classe de distribuições subexponenciais, é mais provável que a ruína venha de um único evento extremo do que de uma série de episódios ruins. Esta lógica sustenta a teoria clássica do risco, tal como delineada pelo atuário Filip Lundberg no início do século XX [155] e formalizada na década de 1930 por Harald Cramer [51], mas esquecida pelos economistas nos últimos tempos. Para a segurabilidade, as perdas devem ser mais prováveis de resultar de muitos eventos do que de um único evento, permitindo assim a diversificação, Isto indica que o seguro só pode funcionar no Mediocristão; você nunca deve assinar um contrato de seguro ilimitado se houver risco de catástrofe. O ponto é chamado de princípio da catástrofe. Como vimos anteriormente, com distribuições de cauda grossa, os eventos extremos afastados do centro da distribuição desempenham um papel muito importante. Os Cisnes Negros não são “mais livres” Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.2 cães abanando o rabo: uma intuição 23 "quente" (como é comumente mal interpretado), eles têm mais consequências. A distribuição de cauda mais gorda tem apenas um desvio extremo muito grande, em vez de muitos desvios da norma. A Figura 4.4 mostra que se tomarmos uma distribuição como a Gaussiana e começar a engordar suas caudas, então o número de desvios de um desvio padrão cai. A probabilidade de um evento permanecer dentro de um desvio padrão da média é de 68 por cento. À medida que as caudas engordam, para imitar o que acontece nos mercados financeiros, por exemplo, a probabilidade de um evento permanecer dentro de um desvio padrão da média aumenta para entre 75 e 95 por cento. Portanto, observe que à medida que engordamos as caudas, obtemos picos mais altos, ombros menores e uma maior incidência de um desvio muito grande. as probabilidades precisam somar 1 (mesmo na França). O aumento da massa em uma área leva à diminuição em outra. S (K) Figura 3.1: Razão de funções de sobrevivência S(.) para duas ocorrências de tamanho K por uma de 2K para uma distribuição gaussianaÿ . Quanto maior o K, isto é, 2 S (2K ) 25.000 20.000 15.000 10.000 5.000 1 2 3 4 K (em ÿ) quanto mais estamos na cauda, maior a probabilidade de o evento vir de duas 2 , realizações independentes de K (portanto, P(K) e menor a probabilidade de um único evento de magnitude 2K. ÿIsto é uma falsificação da simplicidade pedagógica. A abordagem mais rigorosa seria comparar 2 ocorrências de tamanho K com 1 ocorrência de tamanho 2K mais 1 desvio regular – mas o gráfico final nã 3.2 cães abanando o rabo: uma intuição O rabo abana o efeito de cachorro Centralmente, quanto mais grossas as caudas da distribuição, mais o rabo abana o cachorro, ou seja, a informação reside nas caudas e menos no “corpo” (a parte central) da distribuição. Efetivamente, para fenômenos de cauda muito grossa, todos os desvios tornam-se informacionalmente estéreis, exceto os grandes. O centro torna-se apenas ruído. Embora a ciência “baseada em evidências” possa ainda não entender isso, sob tais condições, não há evidências no corpo. Esta propriedade também explica o funcionamento lento da lei dos grandes números em certos domínios, uma vez que os desvios da cauda, onde reside a informação, são –por definição– cru. A propriedade explica por que, por exemplo, um milhão de observações de cisnes brancos não confirmam a inexistência de cisnes negros, ou por que um milhão de observações confirmatórias Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 24 uma visão geral não técnica - a palestra da Darwin College 2.4 2.2 2,0 Figura 3.2: Isodensidades para dois gaussianos independentes distribuições. A linha mostra x + y = 4,1. Visivelmente a probabilidade máxima é para x = y = 2,05. 1,8 1.6 1.4 1.4 1.6 1,8 2,0 2.2 2.4 50 40 Figura 3.3: Isodensidades para duas caudas grossas independentes distribuições (no poder aula de direito). A linha mostra 30 x + y = 36. Visivelmente, a probabilidade máxima é para x = 36 ÿ ÿ ou y = 36 ÿ ÿ, com ÿ indo para 0 como a soma x + y torna-se maior. += 20 10 0 0 10 20 30 40 50 observações contam menos do que uma única observação desconfirmatória. Vamos vinculá-lo ao Assimetrias ao estilo Popper mais adiante neste capítulo. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.3 uma categorização (mais avançada) e suas consequências 25 x+y=36 40 Figura 3.4: Mesma representação da Figura 3.1, mas referente a distribuições de leis de potência com apoio na reta real; podemos ver as isodensidades parecendo cada vez mais uma cruz para probabilidades cada vez mais baixas. Mais tecnicamente, há uma perda de elipticalidade. 20 0 -20 -20 0 20 40 Também explica por que nunca se deve comparar variáveis aleatórias impulsionadas pelas caudas (por exemplo, pandemias) com aquelas impulsionadas pelo corpo (por exemplo, o número de pessoas que se afogam na piscina). Ver Cirillo e Taleb (2020) [48] para as implicações políticas dos riscos sistémicos. 3.3 uma categorização (mais avançada) e suas consequências Vamos agora considerar os graus de cauda espessa de uma forma casual (vamos nos aprofundar cada vez mais neste livro). A classificação é por gravidade. Distribuições: Cauda Grossa ÿ Subexponencial ÿ Lei de Potência (Paretiana) Primeiro, existem caudas grossas de nível básico. Esta é qualquer distribuição com caudas mais grossas que a Gaussiana, ou seja, com mais observações dentro de ±1 desvio padrão do que 1 ÿ 2 ) ÿ 68,2%3 e com curtose (função do quarto momento central) . superior a 3 4 herdar ( Em segundo lugar, existem distribuições subexponenciais que satisfazem a nossa experiência mental anterior (aquela que ilustra o princípio da catástrofe). A menos que entrem na classe das leis de potência, as distribuições não são realmente de cauda grossa porque não têm dte-t 2 . 0 3 A função de erro erf é a integral da distribuição gaussiana erf(z) = ÿ2 ÿ ÿ 4 O momento de ordem p para uma variável aleatória X é a expectativa de uma potência ap de X, E(X p ). Com Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 26 uma visão geral não técnica - a palestra da Darwin College Figura 3.5: A lei dos grandes números, é quanto tempo leva leva para a média amostral estabilizar, funciona muito mais lentamente no Extremistão (aqui uma distribuição de Pareto com 1,13 expoente de cauda, cor- respondendo ao "Pareto 80-20". Ambos têm o mesmo desvio médio absoluto. Observe que o mesmo se aplica a outras formas de amostragem, como a teoria do portfólio. impactos monstruosos de eventos raros. Em outras palavras, eles podem ter todos os momentos . Nível três, o que é chamado por uma variedade de nomes, lei de potência ou membro da classe regular variável, ou classe "Caudas de Pareto"; estes correspondem a caudas realmente grossas mas a fattailedness depende da parametrização do seu índice de cauda. Sem entrando em um índice de cauda por enquanto, considere que haverá algum momento que será infinito, e momentos superiores a esse também serão infinitos. Vamos agora trabalhar de baixo para cima no quadro central em Figura 3.7. No canto inferior esquerdo temos a distribuição degenerada onde existe é apenas um resultado possível, ou seja, sem aleatoriedade e sem variação. Então, acima nisso, existe a distribuição de Bernoulli que tem dois resultados possíveis, não mais. Então, acima dele estão os dois gaussianos. Existe o Gaussiano natural (com suporte em menos e mais infinito) e gaussianas que são alcançadas adicionando Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.3 uma categorização (mais avançada) e suas consequências 27 LLN de cauda gorda LLN Gaussiano 2,0 2,0 1,5 1,5 n=1 n=1 1,0 n=30 0,5 -4 -2 n=30 1,0 0,5 2 4 -4 -2 0 2 4 Figura 3.6: O que acontece com a distribuição de uma média à medida que o número de observações n aumenta? Esta é a mesma representação da Figura 3.5 vista no espaço de distribuição/probabilidade. A distribuição de cauda gorda não se comprime tão facilmente quanto a gaussiana. Você precisa de uma amostra muito, muito maior. É o que é. LIMITE CENTRAL - PARA O ENSAIO DE BERRY ÿÿ1 Fuhgetabaudit Lévy-Estável ÿ<2 ÿ1 ÿ supercúbico ÿ 3 Subexponencial CRAMER DOENÇA Gaussiano da aproximação da rede Fino - Cauda de Convergência para Gaussiana COMPACTAR Bernoulli APOIAR Degenerar LEI DOS GRANDES NÚMEROS (FRACA) QUESTÕES DE CONVERGÊNCIA Figura 3.7: O quadro de caudas grossas, ao longo das diversas classificações para fins de convergência (ou seja, convergência para a lei dos grandes números, etc.) e gravidade dos problemas inferenciais. As Leis de Potência estão em branco, o restante em amarelo. Ver Embrechts et al [82]. passeios aleatórios (com suporte compacto, mais ou menos, a menos que tenhamos somas infinitas)5 . São animais completamente diferentes, pois um pode entregar o infinito e o outro 5 Suporte compacto significa que a variável aleatória de valor real X realiza realizações em um intervalo limitado, 2 ÿx digamos [a, b],(a, b], [a, b), etc. A gaussiana tem um declínio exponencial e que acelera com desvios , então algumas pessoas como Adrien Douady consideram-no efetivamente um suporte compacto. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 28 uma visão geral não técnica – a palestra da Darwin College ÿ,‡ não pode (exceto assintoticamente). Então, acima dos gaussianos estão as distribuições na classe subexponencial que não são membros da classe da lei de potência. Esses membros têm todos os momentos. A classe subexponencial inclui o lognormal, que é uma das coisas mais estranhas nas estatísticas porque às vezes nos engana. Em baixa variação, tem cauda fina; em alta variação, ele se comporta como uma cauda muito grossa. Algumas pessoas consideram uma boa notícia o fato de os dados não serem paretianos, mas lognormais; não é necessariamente assim. O Capítulo 8 aborda as propriedades estranhas do lognormal. Ser membro da classe subexponencial não satisfaz a chamada condição de Cramer, permitindo a segurabilidade, como ilustramos na Figura 3.1, lembre-se do experimento mental no início do capítulo. Mais tecnicamente, a condição de Cramer significa que existe a expectativa do exponencial da variável aleatória.6 Uma vez que saímos da zona amarela, onde a lei dos grandes números (LLN) em grande parte , eentão funciona7, o teorema encontramos do limiteproblemas central (CLT) de convergência. eventualmenteEntão acabam aquifuncionando8 temos o que ,chamamos de leis de potência. Nós os classificamos pelo índice de cauda ÿ, que veremos mais adiante; por enquanto, quanto menor o índice da cauda, mais gordas serão as caudas. Quando o índice da cauda é ÿ ÿ 3, chamamos-o de supercúbico (ÿ = 3 é cúbico). Essa é uma fronteira informal: a distribuição não tem outro momento além do primeiro e do segundo, o que significa que tanto as leis dos grandes números quanto o teorema do limite central se aplicam em teoria. Depois, há uma classe com ÿ ÿ 2 que chamamos de Levy-Stable para simplificar (embora inclua distribuições de leis de potência semelhantes com ÿ menor que 2 não explicitamente nessa classe; mas em teoria, à medida que somamos variáveis, a soma termina subiu nessa classe, e não na gaussiana, graças a algo chamado teorema generalizado do limite central, GCLT). A partir daqui estamos cada vez mais em apuros porque não há variação. Para 1 ÿ ÿ ÿ 2 não há variância, mas existe desvio médio absoluto (ou seja, as variações médias tomadas em valor absoluto). Mais acima, no segmento superior, não há média. Nós o chamamos de Fuhgetaboudit. Se você vir algo nessa categoria, você vai para casa e não fala sobre isso. A abordagem tradicional dos estatísticos às caudas grossas tem sido afirmar que assumem uma distribuição diferente, mas continuam a fazer negócios como de costume, usando as mesmas métricas, testes e declarações de significância. Quando saímos da zona amarela, para a qual foram desenhadas técnicas estatísticas (já então), as coisas já não funcionam como planeado. A próxima seção apresenta uma dúzia de problemas, quase todos terminais. Seremos um pouco mais técnicos e usaremos alguns jargões. 6 Ponto técnico: Seja X uma variável aleatória. A condição de Cramer: para todo r > 0, E(e rX) < +ÿ, onde E é o operador de expectativa. 7 Tomemos por enquanto a seguinte definição para a lei dos grandes números: ela afirma aproximadamente que se uma distribuição tem uma média finita, e você adiciona variáveis aleatórias independentes extraídas dela — isto é, sua amostra fica maior — você eventualmente converge para a média . Com que rapidez? essa é a questão e o tema deste livro. 8 Abordaremos ad nauseam o teorema central do limite, mas aqui está a intuição inicial. Ele afirma que variáveis aleatórias independentes somadas com n com segundo momento finito acabam parecendo uma distribuição gaussiana. Bela história, mas quão rápido? As leis de potência no papel precisam de uma infinidade de tais somas, o que significa que elas nunca chegam realmente ao Gaussiano. O Capítulo 7 trata das distribuições limitantes e responde à questão central: “quão rápido?” tanto para CLT quanto para LLN. Quão rápido é importante porque no mundo real temos algo diferente de n igual ao infinito. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.3 uma categorização (mais avançada) e suas consequências 29 Resumo do problema com estatísticas excessivamente padronizadas S A estimativa estatística é baseada em dois elementos: o teorema do limite central (que se presume funcionar para somas "grandes", tornando assim tudo convenientemente normal) e o da lei dos grandes números, que reduz a variância da estimativa como um aumenta o tamanho da amostra. Contudo, as coisas não são tão simples; existem advertências. No Capítulo 8, mostramos como a amostragem depende da distribuição e varia muito dentro da mesma classe. Como mostrado por Bouchaud e Potters em [27] e Sornette em [214], as caudas para alguma variância finita, mas momentos infinitos mais elevados podem, sob soma, convergir para o Gaussiano dentro de ± ÿ n log n, ou seja, o centro do a distribuição dentro dessa banda torna-se gaussiana, mas as partes remotas, essas caudas, não - e as partes remotas determinam muitas das propriedades. A vida acontece nos pré-sintóticos. Infelizmente, na entrada sobre estimadores na monumental Encyclopedia of Statistical Science [147], W. Hoeffding escreve: "A distribuição exata de uma estatística é geralmente altamente complicada e difícil de trabalhar. Daí a necessidade de aproximar a distribuição exata por uma distribuição de uma forma mais simples, cujas propriedades sejam mais transparentes. Os teoremas do limite da teoria das probabilidades fornecem uma ferramenta importante para tais aproximações. Em particular, os teoremas clássicos do limite central afirmam que a soma de um grande número de variáveis aleatórias independentes é distribuída aproximadamente normalmente sob condições gerais. Na verdade, a distribuição normal desempenha um papel dominante entre os limites possíveis. Para citar o texto de Gnedenko e Kolmogorov [[111], Cap. 5]: "Considerando que para a convergência de funções de distribuição de somas de variáveis independentes para a lei normal apenas restrições de um tipo muito geral, além daquela de sendo infinitesimais (ou assintoticamente constantes), devem ser impostas às somas, para a convergência para outra lei limite algumas propriedades muito especiais são exigidas das somas". Além disso, muitas estatísticas comportam-se assintoticamente como somas de variáveis aleatórias independentes. Tudo isso ajuda a explicar a importância da distribuição normal como uma distribuição assintótica”. Agora, e se não atingirmos a distribuição normal, já que a vida acontece antes da assíntota? É disso que trata este livro.a a O leitor é convidado a consultar uma entrada de “estimativa estatística” em qualquer livro didático ou enciclopédia online. As probabilidades são de que a noção de “o que acontece se não atingirmos a assíntota” nunca será discutida – como nas 9.500 páginas da monumental Enciclopédia de Estatística. Além disso, pergunte a um usuário regular de estatísticas sobre quantos dados são necessários para tal ou qual distribuição e não se surpreenda com a resposta. O problema é que as pessoas têm muitas ferramentas estatísticas predefinidas em suas cabeças, ferramentas que elas nunca tiveram que redesenhar. O lema aqui é: “as estatísticas nunca são padrão”. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 30 uma visão geral não técnica – a palestra da Darwin College sim sim 15 15 10 10 5 5 x 20 x 20 40 60 80 100 40 60 80 100 5 5 10 Figura 3.8: Na presença de caudas grossas, podemos ajustar linhas de regressão marcadamente diferentes ao mesmo história (o teorema de Gauss-Markov - necessário para permitir métodos de regressão linear - não se aplica não mais). Esquerda: uma regressão regular (ingênua). À direita: uma linha de regressão que tenta acomodar o grande desvio - um "rácio de cobertura", por assim dizer, que protege o agente de um grande desvio, mas desvia os pequenos. Perder o maior desvio pode ser fatal. Observe que a amostra não inclui a observação crítica, mas foi adivinhada usando métodos de "média sombra". 3.4 as principais consequências e como elas se vinculam ao livro Figura 3.9: Medidas de desigualdade como o Gini coeficiente requer métodos completamente diferentes de estimativa sob caudas grossas, como veremos em Parte III. A ciência é difícil. Aqui estão algumas consequências de sair da zona amarela, a estatística zona de conforto: Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.4 as principais consequências e como elas se relacionam com o livro 31 Consequência 1 A lei dos grandes números, quando funciona, funciona muito lentamente no mundo real. Isso é mais chocante do que você pensa, pois cancela a maioria dos estimadores estatísticos. Consulte a Figura 3.5 neste capítulo para obter uma ilustração. O assunto é tratado no Capítulo 8 e as distribuições são classificadas de acordo.9 Consequência 2 A média da distribuição raramente corresponderá à média da amostra; terá um efeito persistente de pequena amostra (para baixo ou para cima), especialmente quando a distribuição for distorcida (ou unilateral). Este é outro problema de insuficiência de amostra. Na verdade, não existe uma distribuição unicaudal muito grossa em que a média da população possa ser adequadamente estimada diretamente a partir da média da amostra – eventos raros determinam a média, e estes, sendo raros, exigem muitos dados para aparecer10 . Considere que algumas leis de potência (como aquela descrita como “80/20” na linguagem comum têm 92% das observações abaixo da média verdadeira). Para que a média da amostra seja informativa, precisamos de muito mais dados do que necessitamos (os especialistas em economia ainda não compreendem isto, embora os traders tenham uma compreensão intuitiva do ponto). O problema é discutido brevemente mais adiante em 3.8, e mais formalmente nos capítulos “sombra média”, Capítulos 15 e 16. Além disso, introduziremos a noção de propriedades ocultas em 3.8. É claro que, da mesma forma, a variância provavelmente será subestimada. Consequência 3 Métricas como desvio padrão e variância não são utilizáveis. Eles falham fora da amostra – mesmo quando existem; mesmo quando todos os momentos existem. Discutido em detalhes no Capítulo 4. É um erro científico que a noção de desvio padrão (muitas vezes confundido com desvio médio por seus usuários) tenha encontrado seu caminho como uma medida de variação, pois é muito estreitamente precisa no que pretende ser. fazer, na melhor das circunstâncias. Consequence 4 Beta, Sharpe Ratio e outras métricas financeiras banais comuns não são informativas. 9 O que chamamos de pré-sintóticos é o comportamento de uma soma ou sequência quando n é grande, mas não infinito. Isso é (mais ou menos) o foco deste livro. 10 A média da população é a média se amostrarmos toda a população. A média amostral é, obviamente, o que temos diante de nós. Às vezes, como acontece com a riqueza ou com as baixas de guerra, podemos ter toda a população, mas a média da população não é a da amostra. Nessas situações utilizamos o conceito de “média sombra”, que é a expectativa determinada pelo processo ou mecanismo de geração de dados. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 32 uma visão geral não técnica – a palestra da Darwin College ÿ,‡ Figura 3.10: Representamos graficamente o rácio de Sharpe dos fundos de cobertura no eixo horizontal, calculado até à crise de 2008 e as suas perdas subsequentes expressas em desvio padrão durante a crise. O índice de Sharpe não apenas falha completamente em prever o desempenho fora da amostra, mas também pode ser visto como um preditor fraco de fracasso. Cortesia de Raphael Douady. Isto é uma simples consequência do ponto anterior.11 Ou requerem muito mais dados, muito mais ordens de grandeza, ou algum modelo diferente daquele que está a ser utilizado, do qual ainda não temos conhecimento. A Figura 3.4 mostra que o índice de Sharpe, que deveria prever o desempenho, falha fora da amostra – ele age exatamente ao contrário da intenção. No entanto, ainda é usado porque as pessoas podem ser loucas por números. Praticamente todas as variáveis económicas e seguranças financeiras são de cauda grossa. Dos 40 mil títulos examinados, nenhum parecia ser de cauda fina. Esta é a principal fonte de fracasso nas finanças e na economia. Os teóricos financeiros afirmam algo altamente pouco rigoroso como “se os dois primeiros momentos existirem, então a teoria da carteira de média-variância funciona, mesmo que a distribuição tenha caudas grossas” (eles acrescentam algumas condições de elipticalidade que discutiremos mais tarde). O principal problema é que mesmo que exista variância, não sabemos o que ela pode ser com uma precisão aceitável; obedece a uma lei lenta de grandes números porque o segundo momento de uma variável aleatória é necessariamente mais grosso do que a própria variável. Além disso, as correlações ou covariâncias estocásticas também representam uma forma de caudas grossas (ou perda de elipticalidade), o que invalida essas métricas. Praticamente qualquer artigo de economia que utilize matrizes de covariância é suspeito. Os detalhes estão no Capítulo 4 para o caso univariado e no Capítulo 6 para situações multivariadas. Consequência 5 Estatísticas robustas não são robustas e a distribuição empírica não é empírica. 11 Grosso modo, Beta é uma métrica que mostra quanto se espera que um ativo A se mova em resposta a um movimento no mercado geral (ou em um determinado benchmark ou índice), expressa como a razão entre a covariância entre A e o mercado sobre a variância do mercado. O índice de Sharpe expressa o retorno médio (ou retorno excedente) de um ativo ou estratégia dividido pelo seu desvio padrão. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.4 as principais consequências e como elas se relacionam com o livro 33 A história da minha vida. Assim como o jornal oficial soviético se chamava Pravda, que significa “verdade” em russo, quase como uma piada, estatísticas robustas são como uma espécie de pegadinha, exceto que a maioria dos profissionais não tem conhecimento disso. Primeiro, estatísticas robustas buscam medidas que possam lidar com eventos de cauda – grandes observações – sem mudar muita coisa. Esta é uma ideia errada de robustez: uma métrica que não muda em resposta a um evento final pode estar a mudar precisamente porque não é informativa. Além disso, estas medidas não ajudam nos retornos esperados. Em segundo lugar, as estatísticas robustas são geralmente associadas a um ramo denominado estatística “não paramétrica”, sob a impressão de que a ausência de parâmetros tornará a análise menos dependente da distribuição. Este livro mostra por toda parte que faz as coisas pior. A Winsorização dos dados, ao remover valores discrepantes, distorce a operação de expectativa e na verdade reduz a informação – embora fosse uma boa ideia verificar se o valor discrepante é real ou um valor discrepante falso do tipo que chamamos em finanças de “impressão ruim”. " (algum erro administrativo ou falha no computador). A chamada “distribuição empírica” (não paramétrica) não é nada empírica (pois representa erroneamente os retornos esperados nas caudas), como mostraremos no Capítulo 10 – este é pelo menos o caso da forma como é usada em finanças. e gerenciamento de riscos. Tomemos por enquanto a seguinte explicação: os máximos futuros são mal monitorados pelos dados passados sem alguma extrapolação inteligente. Considere alguém pensando em construir um sistema de proteção contra inundações com diques. A distribuição “empírica” obtida ingenuamente mostrará o pior nível de inundação do passado, os máximos do passado. Qualquer nível pior terá probabilidade zero (ou mais). Mas, por definição, se fosse um máximo passado, teria de ter excedido o que era um máximo passado antes de se tornar um, e a distribuição empírica o teria perdido. Para caudas grossas, a diferença entre os máximos passados e os máximos esperados no futuro é muito maior do que para caudas finas. Consequência 6 A regressão linear de mínimos quadrados não funciona (falha do teorema de Gauss-Markov). Veja a Figura 3.8 e o comentário. A lógica por trás do método de minimização de mínimos quadrados é o teorema de Gauss-Markov, que requer explicitamente uma distribuição de cauda fina para permitir que a linha que atravessa os pontos de dados seja única. Portanto, ou precisamos de muitos, muitos dados para minimizar os desvios quadráticos (em outras palavras, o teorema de Gauss-Markov se aplica, mas não para nossas situações pré-sintóticas, pois o mundo real tem dados finitos, não infinitos), ou podemos ' t porque o segundo momento não existe. Neste último caso, se minimizarmos os desvios médios absolutos (MAD), como vemos em 4.1, não só poderemos ainda estar a enfrentar uma insuficiência de dados para uma convergência adequada, como a inclinação do desvio pode não ser única. Discutimos o ponto com alguns detalhes em 6.7 e mostramos como caudas grossas produzem 2 coeficiente de determinação mais alto na amostra (R efeito an ) que a real porque deveria ser 0. 2 Mas de amostra pequena de caudas grossas. Quando a variância é infinita, R porque as amostras são necessariamente finitas, ela mostrará, enganosamente, números mais altos Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 34 uma visão geral não técnica – a palestra da Darwin College do que 0. Efetivamente, para concluir, sob caudas grossas, R muitas 2 é inútil, pouco informativo e vezes (como acontece com os estudos de QI) é totalmente fraudulento. Consequência 7 Os métodos de máxima verossimilhança podem funcionar bem para alguns parâmetros da distribuição (boas notícias). Tome uma lei de potência. Podemos estimar um parâmetro para sua forma, o expoente final (para o qual usamos o símbolo ÿ neste livro12), que, adicionando algum outro parâmetro (a escala), nos conecta de volta à sua média consideravelmente melhor do que fazê-lo diretamente por amostragem. O significativo. Exemplo: A média de uma distribuição de Pareto simples com valor mínimo L e expoente final ÿ e PDF ÿL ÿx ÿÿÿ1 a uma função de ÿ. Então podemos obter que é L ÿÿ1 , conhecido. a partir desses dois parâmetros, um dos quais já pode ser Isso é o que chamamos de estimador "plug-in". Pode-se estimar ÿ com um erro baixo com auxílio visual (ou usando métodos de máxima verossimilhança com baixa variância - é distribuído inversamente gama) e, em seguida, obter a média. É melhor que a observação direta da média. Vale a pena enfatizar a lógica: O expoente final ÿ captura, por extrapolação, o desvio de baixa probabilidade não observado nos dados, mas que desempenha uma participação desproporcionalmente grande na determinação da média. Esta abordagem generalizada aos estimadores também é aplicada a Gini e outros estimadores de desigualdade. Assim, podemos produzir estimadores mais confiáveis (ou pelo menos menos confiáveis) para, digamos, uma função do expoente final em algumas situações. Mas, claro, nem todos. Agora, uma questão do mundo real se justifica: o que fazemos quando não temos um estimador confiável? Melhor ficar em casa. Não devemos expor-nos a danos na presença de fragilidade, mas ainda podemos tomar decisões arriscadas se estivermos fadados a perdas máximas (Figura 3.4). Consequência 8 A lacuna entre o empirismo desconfirmatório e confirmatório é maior do que em situações cobertas por estatísticas comuns, ou seja, a diferença entre ausência de evidência e evidência de ausência torna-se maior. (O que é chamado de ciência “baseada em evidências”, a menos que seja rigorosamente contestador, é geralmente interpolativo, livre de evidências e não científico.) A partir de uma polêmica que o autor teve com o linguista cognitivo e escritor científico Steven Pinker: fazer pronunciamentos (e gerar teorias) a partir de variações recentes nos dados não é aceitável, a menos que se cumpram alguns padrões de significância, 12 Para esclarecer a terminologia: neste livro, o expoente da cauda, comumente escrito ÿ , é o limite do quociente do log da função de sobrevivência em excesso de K sobre log K, que seria 1 para Cauchy. Alguns pesquisadores usam ÿ ÿ 1 da função de densidade correspondente. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.4 as principais consequências e como elas se relacionam com o livro 35 que requer mais dados sob caudas grossas (a mesma lógica do LLN lento). Afirmar que “a violência diminuiu” porque o número de pessoas mortas em guerras diminuiu em relação ao ano ou década anterior não é uma afirmação científica: uma afirmação científica distinguese de uma anedota porque visa afectar o que acontece fora da amostra, daí o conceito de significância estatística. Repitamos que afirmações não estatisticamente significativas não são do domínio da ciência. No entanto, dizer que a violência aumentou após uma única observação pode ser uma afirmação rigorosamente científica. A prática de leitura em estatística descritiva pode ser aceitável sob caudas finas (já que os tamanhos das amostras não precisam ser grandes), mas nunca o é sob caudas grossas, exceto, para repetir, na presença de um grande desvio. Consequência 9 A análise de componentes principais (PCA) e a análise fatorial provavelmente produzirão fatores e cargas espúrios. Este ponto é um pouco técnico; adapta a noção de insuficiência amostral a grandes vetores aleatórios vistos através da técnica de redução de dimensão chamada análise de componentes principais (PCA). A questão é uma versão dimensionalmente superior da nossa lei do grande número de complicações. A história é melhor explicada na Figura 3.26, que mostra a acentuação do que se chama de “Efeito Wigner”, a partir da insuficiência de dados para o PCA. Além disso, para ser técnico, observe que a distribuição de Marchenko-Pastur não é aplicável na ausência de um quarto momento finito (ou, como foi mostrado em [ 23], para o expoente da cauda superior a 4).13 Figura 3.11: Sob caudas grossas (à esquerda), os erros são terminais. Sob caudas finas (à esquerda) podem ser ótimas experiências de aprendizado. Fonte: Você teve um emprego. Consequência 10 O método dos momentos (MoM) não funciona. Momentos superiores não são informativos ou não existem. O mesmo se aplica ao GMM, o método generalizado do momento, coroado com um Prémio do Banco da Suécia conhecido como Nobel. Esta é uma longa história, mas consideremos por enquanto que a estimativa de uma determinada distribuição por correspondência de momentos falha se os momentos mais altos não forem finitos, então cada amostra fornece um momento diferente – como veremos em breve com o 4 momento do SP500. 13 Para ser ainda mais técnico, os componentes principais são independentes quando as correlações são 0. No entanto, para distribuições de cauda gorda, como veremos mais tecnicamente em 6.3.1, a ausência de correlação não implica independência. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 36 uma visão geral não técnica - a palestra da Darwin College ÿ,‡ Simplesmente, momentos mais elevados para distribuições de cauda grossa são explosivos. Particularmente em economia. Consequência 11 Não existe um grande desvio típico. Condicionada a ter um movimento “grande”, a magnitude de tal movimento não é convergente, especialmente sob caudas grossas sérias (a classe de caudas da Lei de Potência). Isto está associado ao princípio da catástrofe que vimos anteriormente. No mundo gaussiano, a expectativa de um movimento, desde que o movimento exceda 4 desvios padrão, é de cerca de 4 desvios padrão. Para uma Lei de Potência será um múltiplo disso. Chamamos isso de propriedade de Lindy e é discutida no Capítulo 5 e particularmente no Capítulo 11. Consequência 12 O coeficiente de Gini deixa de ser aditivo. Os métodos de medição de dados amostrais para Gini são interpolativos – na verdade, eles têm o mesmo problema que vimos anteriormente com a média amostral subestimando ou superestimando a média verdadeira. Aqui surge uma complexidade adicional à medida que o Gini se torna superaditivo sob caudas grossas. À medida que o espaço amostral cresce, as medições convencionais de Gini dão a ilusão de grandes concentrações de riqueza. (Por outras palavras, a desigualdade num continente, digamos na Europa, pode ser superior à desigualdade média ponderada dos seus membros). O mesmo se aplica a outras medidas de concentração, tais como o 1% mais rico tem x por cento da riqueza total, etc. Não se trata apenas de Gini, mas de outras medidas de concentração, como o facto de 1% do topo possuir x% da riqueza total, etc. As derivações estão nos Capítulos 13 e 14. Consequência 13 A teoria dos grandes desvios não se aplica a caudas grossas. Quero dizer, isso realmente não se aplica. Eu realmente quero dizer que isso não se aplica14. Os métodos por trás do princípio do grande desvio (Varadan [260] , Dembo e Zeituni [59], etc.) serão muito úteis no mundo de cauda fina. E só lá. Veja a discussão e derivações no Apêndice C , bem como os capítulos do teorema do limite, particularmente o Capítulo 7. Consequência 14 Os riscos das opções financeiras nunca são mitigados pela cobertura dinâmica. Isto pode ser técnico e desinteressante para pessoas não financeiras, mas toda a base da cobertura financeira por detrás do Black-Scholes assenta na possibilidade e necessidade de 14 Não confunda a teoria dos grandes desvios LDT, com a teoria dos valores extremos, EVT, que abrange todas as classes principais de distribuições Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.4 as principais consequências e como elas se relacionam com o livro 37 hedge dinâmico, ambos os quais serão mostrados como errôneos nos Capítulos 20 , 21 e 22. O declínio exponencial necessário dos desvios em relação ao centro exige que a distribuição de probabilidade esteja fora da classe subexponencial. Novamente, estamos falando de algo relacionado à condição de Cramer – tudo se resume a esse momento exponencial. Lembre-se de que o autor tem sido um negociante de opções e, para os negociadores de opções, a cobertura dinâmica não é a forma como os preços são derivados – e tem sido assim, como demonstrado por Haug e pelo autor, durante séculos. Consequência 15 A previsão no espaço de frequência diverge do retorno esperado. E também: Consequência 16 Muitas das afirmações na literatura sobre psicologia e tomada de decisão relativas à "superestimação da probabilidade da cauda" e ao comportamento irracional em relação a eventos raros vêm do malentendido por parte dos pesquisadores sobre o risco da cauda, confusão de probabilidade e recompensas esperadas, uso indevido de probabilidade distribuições e ignorância da teoria dos valores extremos (EVT). Esse ponto é explorado na próxima seção aqui e em um capítulo inteiro (Capítulo ??): a noção tola de foco na frequência em vez de na expectativa pode ter um efeito moderado sob caudas finas; não sob caudas grossas. As Figuras 3.12 e 3.13 mostram o efeito. Consequência 17 Os problemas de ruína são mais agudos e a ergodicidade é necessária sob caudas grossas. Isso é um pouco técnico, mas explicado no final deste capítulo. Vamos discutir alguns dos pontos. 3.4.1 Previsão Em Fooled by Randomness (2001/2005), pergunta-se ao personagem qual era mais provável que um determinado mercado subisse ou descesse até o final do mês. Maior, disse ele, muito mais provável. Mas então foi revelado que ele estava fazendo negociações que beneficiariam se aquele mercado específico caísse. Isto, claro, parece ser paradoxal para os não-probabilistas, mas muito comum para os comerciantes, particularmente sob distribuições não padronizadas (sim, é mais provável que o mercado suba, mas se cair, cairá muito mais). Isto ilustra a confusão comum entre uma previsão e uma exposição (uma previsão é um resultado binário, uma exposição tem resultados mais matizados e depende da distribuição completa). Este exemplo mostra um dos erros extremamente elementares de falar sobre probabilidade apresentada como Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 38 uma visão geral não técnica - a palestra da Darwin College Frequência Correta 1,0 0,8 0,6 0,4 Calibração perfeita sobre 0,2 sob Previsão 0,2 0,4 0,6 0,8 1,0 Figura 3.12: Calibração probabilística conforme vista na literatura psicológica. O eixo x mostra o probabilidade estimada produzida pelo previsor, o eixo y das realizações reais, portanto, se um clima previsor prevê 30% de chance de chuva, e a chuva ocorre 30% das vezes, eles são considerados "calibrados". Acreditamos que a calibração no espaço de frequência (probabilidade) é um exercício acadêmico (no mau sentido de a palavra) que desvia os resultados da vida real fora das apostas binárias restritas. É particularmente falacioso sob caudas grossas. O ponto é discutido detalhadamente no Capítulo 11. MisCalibration correspondente em probabilidade 1,0 0,8 0,6 0,4 0,2 0,2 0,4 0,6 0,8 1,0 Calibração incorreta na recompensa 4000 3.000 2000 1000 0 0 1000 2000 3.000 4000 Figura 3.13: Como o erro de calibração na probabilidade corresponde ao erro de calibração no retorno sob potência leis. A distribuição em consideração é Pareto com índice de cauda ÿ = 1,15. Novamente, a questão é discutido detalhadamente no Capítulo 11. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.4 as principais consequências e como elas se relacionam com o livro 39 números únicos, não distribuições de resultados, mas quando nos aprofundamos no assunto, ocorrem muitos problemas menos óbvios ou menos conhecidos do tipo paradoxal. Simplesmente, é opinião do autor, que não é rigoroso falar em “probabilidade” como produto final, ou mesmo como “fundamento” de decisões. No mundo real não se paga em probabilidade, mas em dólares (ou em sobrevivência, etc.). Quanto mais gordas as caudas, mais precisamos nos preocupar com o espaço de retorno – diz o ditado: “probabilidade de pântano de retorno” (ver quadro). Pode-se estar errado com muita frequência se o custo for baixo, desde que se seja convexo em relação ao retorno (ou seja, obtenha grandes ganhos quando se está certo). Além disso, pode-se fazer previsões com 99,99% de precisão e mesmo assim falir (na verdade, é mais provável que falam: os fundos com registos impecáveis foram aqueles que faliram durante a derrota de 2008-2009 15). Um ponto que pode ser técnico para quem está fora das finanças quantitativas: é a diferença entre uma opção vanilla e um binário correspondente do mesmo strike, conforme discutido em Dynamic Hedging [225]: contra-intuitivamente, a cauda espessa reduz o valor do binário e aumenta o da baunilha. Isto é expresso pelo ditado do autor: “Nunca vi um previsor rico”. Examinaremos em profundidade em 4.3.1 , onde mostramos que engordar as caudas faz com que a probabilidade de eventos superiores a 1 desvio padrão diminua - mas as consequências aumentem (em termos de contribuição para os momentos, digamos, efeito na média ou outras métricas). ). A Figura 3.12 mostra a extensão do problema. Observação 1 Os erros de previsão probabilística ("calibração") estão em uma classe de probabilidade diferente daquelas verdadeiras variações de P/L do mundo real (ou retornos verdadeiros). A "calibração", que é uma medida de quão precisas são as previsões de alguém, está no espaço de probabilidade - entre 0 e 1. Qualquer medida padrão de tal calibração será necessariamente de cauda fina (e, no mínimo, de cauda extrafina, uma vez que é é limitado) – se a variável aleatória sob tal previsão é de cauda grossa ou não. Por outro lado, os retornos no mundo real podem ser grossos, portanto a distribuição de tal “calibração” seguirá a propriedade da variável aleatória. Mostramos derivações completas e provas no Capítulo 11. 3.4.2 A Lei dos Grandes Números Vamos agora discutir a lei dos grandes números, que é a base de muitas estatísticas. A lei dos grandes números diz-nos que à medida que adicionamos observações a média torna-se mais estável, sendo a taxa em torno de ÿ n. A Figura 3.5 mostra que são necessárias muito mais observações sob uma distribuição de cauda gorda (no lado direito) para que a média se estabilize. A “equivalência” não é simples. 15 R. Douady, dados de Risk Data sobre fundos que ruíram na crise de 2008, comunicação pessoal Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 40 uma visão geral não técnica - a palestra da Darwin College P ÿ,‡ Probabilidade de pântanos de Ayoff no Extremistão: Para ver a principal diferença entre o Mediocristão e o Extremistão, considere o evento de um acidente de avião. Muita gente vai perder a vida, algo muito triste, digamos entre 100 e 400 pessoas, então o acontecimento é contabilizado como um episódio ruim, único. Para previsão e gestão de riscos, trabalhamos para minimizar essa probabilidade para torná-la insignificante. Agora, considere um tipo de acidente de avião que matará todas as pessoas que já viajaram no avião, até mesmo todos os passageiros que já viajaram de avião no passado. Todos. É o mesmo tipo de evento? O último evento ocorre no Extremistão e, para estes, não falamos sobre probabilidade, mas focamos na magnitude do evento. • Para o primeiro tipo, a gestão consiste em reduzir a probabilidade – a frequência – de tais eventos. Lembre-se de que contamos eventos e pretendemos reduzir a sua contagem. • Para o segundo tipo, consiste em reduzir o efeito caso tal evento ocorra. Não contamos eventos, medimos impacto. Se você acha que o experimento mental é um pouco estranho, considere que os bancos dos centros monetários perderam em 1982 mais dinheiro do que jamais ganharam em sua história, a indústria de poupança e empréstimos (agora desaparecida) o fez em 1991, e todo o sistema bancário perdeu. cada centavo já ganho em 2008-9. Pode-se testemunhar rotineiramente que as pessoas perdem tudo o que ganharam cumulativamente num único evento de mercado. O mesmo se aplica a muitos setores (por exemplo, montadoras e companhias aéreas). Mas os bancos tratam apenas de dinheiro; consideremos que, para as guerras, não podemos nos permitir o foco ingênuo na frequência dos eventos sem levar em conta a magnitude, como fez o escritor científico Steven Pinker em [194], discutido no Capítulo 16. Isso sem sequer examinar os problemas de ruína (e não ergodicidade). apresentado no final desta seção. Mais tecnicamente, é necessário satisfazer a condição de Cramer de não subexponencialidade para uma contagem de eventos (considerados pelo valor nominal) para que a probabilidade bruta tenha algum significado. A analogia do avião foi proposta pelo perspicaz Russ Robert durante um de seus podcasts Econtalk com o autor. Um dos fenómenos estatísticos mais conhecidos é o 80/20 de Pareto, por exemplo, vinte por cento dos italianos possuem 80 por cento das terras. A Tabela 3.1 mostra que, embora sejam necessárias 30 observações no Gaussiano para estabilizar a média até um determinado nível, são necessárias 1.011 observações no Pareto para reduzir o erro amostral na mesma quantidade (assumindo que a média existe). Apesar de ser trivial de calcular, poucas pessoas o computam. Você não pode fazer afirmações sobre a estabilidade da média da amostra com uma distribuição de cauda grossa. Existem outras maneiras de fazer isso, mas não a partir de observações da média amostral. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.5 epistemologia e assimetria inferencial 41 Figura 3.14: A vida é uma questão de recompensas e não de previsões, e a diferença aumenta no Extremistão. (Por que "Gabish" em vez de "capisce"? Gabish é a pronúncia recriada de Siculo-Galabrez (Cal-abrese); o "p" costumava soar como um "b" e o "g" como um kof semítico, um duro K, de Púnico. Muito como capicoli é "gabagool".) Tabela 3.1: Nÿ correspondente , ou quantas observações para obter uma queda no erro em torno da média para uma distribuição ÿ-estável equivalente (a medida é discutida com mais detalhes no Capítulo 8). O O caso gaussiano é o ÿ = 2. Para o caso com caudas equivalentes a 80/20 é necessário pelo menos mais 1011 dados do que o gaussiano. a n/D Simétrico 1Fughedabudit ÿ=± na 1 2 n aÿ=±1 Unicaudal enviesado - - 9 8 6,09 × 1012 5 4 574.634 895.952 1,88 × 106 11 8 5.027 6.002 8.632 3 2 567 613 737 13 8 165 171 186 7 4 75 77 79 15 8 44 44 44 2 30. 30 30 2,8 × 1013 1,86 × 1014 3.5 epistemologia e assimetria inferencial Definição 3.1 (Assimetria nas distribuições) É muito mais fácil para um criminoso fingir ser uma pessoa honesta do que para uma pessoa honesta fingir ser um criminoso. Da mesma forma, é mais fácil para uma distribuição de cauda gorda fingir ser magra distribuição de cauda fina para fingir ser de cauda grossa. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 42 uma visão geral não técnica - a palestra da Darwin College efeitos efeitos Mais dados mostram Caso não degenerescência aparentemente degenerado Variação Adicional x 1 2 3 4 x 10 20 30 40 Figura 3.15: O Problema da Máscara (ou Assimetria Central na Inferência). À esquerda, um variável aleatória degenerada assumindo valores aparentemente constantes, com um histograma produzindo um Dirac grudar. Não se pode descartar a não degenerescência. Mas o enredo certo exibe mais de uma realização. Aqui pode-se descartar a degeneração. Esta assimetria central pode ser generalizada e colocar algum rigor declarações como “não rejeitar”, pois a noção do que é rejeitado precisa ser refinada. Podemos usar o assimetria para produzir regras rigorosas. Princípio 3.1 (Epistemologia: a invisibilidade do gerador.) • Não observamos distribuições de probabilidade, apenas realizações. • Uma distribuição de probabilidade não pode dizer se a realização pertence a ela. • Você precisa de uma distribuição de metaprobabilidade para discutir eventos finais (isto é, a probabilidade condicional da variável pertencer a uma determinada distribuição versus outras). Examinemos agora as consequências epistemológicas. A Figura 3.15 ilustra o Problema da Máscara (ou Assimetria Central na Inferência). À esquerda está um variável aleatória degenerada assumindo valores aparentemente constantes com um histograma produzindo um bastão de Dirac. Sabemos, pelo menos desde Sexto Empírico, que não podemos descartar a degenerescência, mas há situações em que podemos excluir a não-degeneração. Se eu ver uma distribuição que não tem aleatoriedade, não posso dizer que não seja aleatória. Ou seja, nós não posso dizer que não existem Cisnes Negros. Vamos agora adicionar uma observação. Eu posso agora veja que é aleatório e posso descartar a degeneração. Posso dizer que não é "não aleatório". No lado direito, vimos um Cisne Negro, portanto, a afirmação de que, não existem Cisnes Negros está errado. Este é o empirismo negativo que sustenta Ciência ocidental. À medida que coletamos informações, podemos descartar coisas. A distribuição à direita pode ocultar-se como a distribuição à esquerda, mas a distribuição à direita não pode ser ocultada como a distribuição à esquerda (marque). Isso nos dá uma maneira muito fácil maneira de lidar com a aleatoriedade. A Figura 3.16 generaliza o problema para como podemos eliminar distribuições. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.5 epistemologia e assimetria inferencial 43 dist 1 "Verdadeiro" dist 2 distribuição dist 3 dist 4 dist 5 Distribuições Aquilo não pode ser distância 6 descartado distância 7 distância 8 dist 9 dist 10 dist 11 dist 12 Distribuições descartado distância 13 dist 14 Observado Gerando Distribuição Distribuições Observável O VÉU Inobservável Figura 3.16: “O véu probabilístico”. Taleb e Pilpel [245] abordam a questão do ponto de vista epistemológico com o experimento mental do "véu", pelo qual um observador recebe dados (gerados por alguém com "informação estatística perfeita", isto é, produzindo-os a partir de um gerador de séries temporais ). O observador, não conhecendo o processo de geração, e baseando a sua informação apenas em dados e dados, teria que apresentar uma estimativa das propriedades estatísticas (probabilidades, média, variância, valor em risco, etc.). É claro que o observador que tem informações incompletas sobre o gerador e não tem uma teoria confiável sobre a que os dados correspondem sempre cometerá erros, mas esses erros têm um certo padrão. Este é o problema central da gestão de riscos. Se observarmos um evento de 20 sigma, podemos descartar que a distribuição seja de cauda fina. Se não observarmos um grande desvio, não podemos descartar que não seja de cauda grossa, a menos que entendamos muito bem o processo. É assim que podemos classificar as distribuições. Se reconsiderarmos a Figura 3.7 , podemos começar a ver desvios e a excluir progressivamente a partir do fundo. Essas classificações são baseadas em como as distribuições podem entregar eventos finais. Classificar distribuições (por ordem ou prioridade para fins de inferência) torna-se muito simples. Considere a lógica: se alguém lhe disser que existe um evento dez sigma, é muito mais provável que essa pessoa tenha a distribuição errada do que que você realmente tenha um evento dez sigma (refinaremos o argumento mais adiante neste capítulo). Da mesma forma, como vimos, as distribuições de cauda grossa não apresentam muitos desvios da média. Mas de vez em quando você obtém um grande desvio. Portanto, podemos agora descartar o que não é mediocristão. Podemos descartar onde não estamos; podemos descartar o Mediocristão. Posso dizer que esta distribuição é densa por eliminação. Mas não posso garantir que seja de cauda fina. Este é o problema do Cisne Negro. Aplicação do problema Maquerade: o mercado de ações da Argentina antes e depois de 12 de agosto de 2019 Para uma ilustração da assimetria de inferência aplicada Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 44 uma visão geral não técnica - a palestra da Darwin College ÿ,‡ Figura 3.17: A solução de Popper para o problema da indução é a assimetria: baseando-se no empirismo confirmatório, ou seja, o foco em “descartar” o que não funciona, através do estilo negativa. Estendemos esta abordagem à inferência estatística com o véu probabilístico, excluindo progressivamente classes inteiras de distribuições. Rigor Científico e Assimetrias pela Escola Russa de Probabilidade probabilidade sem cair na armadilha de fornecer informações ingênuas cálculos sujeitos a erro de modelo. Há um maravilhoso consciência da assimetria ao longo das obras do russo Não se pode escola acreditar no rigor das afirmações sobre asiática de probabilidade – e matemáticas a assimetria aqui é análoga à ideia de Popper no espaço matemático. Membros de três gerações: PL Chebyshev, AA Markov, AM Lya-punov, SN Bernshtein (ou seja, Bernstein), EE Slutskii, NV Smirnov, LN Bol'shev, VI Romanovskii, AN Kolmogorov, Yu.V. Linnik e a nova geração: V. Petrov, AN Nagaev, A. Shyrayev e mais alguns. Eles tinham algo bastante potente na história do pensamento científico: pensavam em desigualdades, não em igualdades (os mais famosos: Markov, Chebyshev, Bernstein, Lyapunov). Eles usaram limites, não estimativas. Até mesmo a sua versão central do limite era uma questão de limites, que exploraremos mais tarde, vendo o que acontece fora dos limites. Eles estavam totalmente à parte da nova geração de usuários que pensam em termos de probabilidade precisa – ou pior, cientistas sociais mecanicistas. Seu método acomoda o ceticismo e o pensamento unilateral: "A é > x, AO(x) [Big-O: "de ordem" x], em vez de A = x. Para aqueles que trabalham na integração do rigor matemático na assunção de riscos, eles fornecem uma excelente fonte. Sempre conhecemos um lado, não o outro. Conhecemos o valor mais baixo que estamos dispostos a pagar pelo seguro, não necessariamente o limite superior (ou vice-versa).a a A maneira como isso conecta a assimetria à robustez é a seguinte. É robusto o que não produz variabilidade através da perturbação dos parâmetros da distribuição de probabilidade. Se houver mudança, mas com assimetria, ou seja, uma resposta côncava ou convexa a tais perturbações, a classificação é fragilidade e antifragilidade, respectivamente, ver [223]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.5 epistemologia e assimetria inferencial 45 Figura 3.18: O Problema da Indução. O problema filosófico da indução enumerativa, expresso no pergunta: "Quantos cisnes brancos você precisa contar antes de descartar o ocorrência futura de um negro?" mapeia surpreendentemente perfeitamente para o nosso problema do funcionamento da lei de grandes números: "De quantos dados você precisa antes de fazer uma determinada afirmação com uma taxa de erro aceitável?" Acontece que a própria natureza da inferência estatística repousa sobre uma definição clara e uma medida quantitativa do mecanismo indutivo. Acontece que, sob caudas grossas, precisamos consideravelmente mais dados; como veremos nos capítulos 7 e 8 existe uma maneira de avaliar o velocidade relativa do mecanismo indutivo, mesmo que em última análise o problema de a indução não pode ser perfeitamente resolvida. O problema da indução é geralmente atribuído erroneamente a Hume, [227] . Figura 3.19: Um discurso para mostrar que a Filosofia Cética é de Grande Uso na Ciência por François de La Mothe Le Vayer (1588-1672), aparentemente fonte do Bispo Huet. Cada vez que encontro um pensador original que descobri a solução cética para o problema do Cisne Negro, acontece que ele pode estar apenas criticando um antecessor – não de forma maliciosa, mas esquecemos de cavar até as raízes. Como insistimos, o “problema de Hume” tem pouco a ver fazer com Hume, que carregou o pesado Dicionário de vários volumes de Pierre Bayle (seus antecessores) em toda a Europa. Eu pensei que era Huet quem estava à medida que se escava, novos antecessores surgem . aos parâmetros de uma distribuição, ou como uma distribuição pode se disfarçar como tendo caudas mais finas do que realmente tem, considere o que sabíamos sobre o argentino mercado antes e depois da grande queda de 12 de agosto de 2019 (mostrado na Figura 3.21). Usando esse raciocínio, qualquer incerteza futura nos parâmetros deveria tornar as caudas mais gordas, Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 46 uma visão geral não técnica - a palestra da Darwin College ÿ ÿ ÿÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿÿ ÿÿÿ ÿÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿÿÿ ÿÿÿ ÿÿÿÿÿ ÿÿÿÿ ÿÿÿÿÿ ÿÿÿÿ ÿÿÿÿÿ ÿÿÿ ÿÿÿ ÿÿÿÿ Figura 3.20: Não é possível “aceitar” caudas finas, é muito fácil rejeitar caudas finas. Uma distribuição podem produzir saltos e dias tranquilos não ajudam a descartar sua ocorrência. P> 0,100 ANTES 0,050 0,010 ÿ = 4,3556 0,005 Figura 3.21: Um único dia 0,001 revela as verdadeiras caudas de 5.×10-4 uma distribuição. Ações da Argentina mercado antes e depois de agosto x 0,05 0,10 0,20 0,50 12, 2019. Você pode de repente revise as caudas como mais grossas (parâmetro inferior ÿ), nunca o inverso – seria necessário P> DEPOIS 0,100 muito, muito tempo para isso Surpresa acontecer. Dados obtidos 0,050 obrigado a Diego Zviovich. 0,010 0,005 ÿ = 2,48323 0,001 5.×10-4 x 0,05 0,10 0,20 0,50 não mais fino. Rafal Weron, em [264], mostrou como temos maior probabilidade de superestimar o índice de cauda ao ajustar uma distribuição estável (menor significa caudas mais gordas). 3.6 empirismo ingênuo: o ebola não deve ser comparado às quedas de escadas Vamos ilustrar um dos problemas do pensamento de cauda fina no domínio de cauda gorda com um exemplo do mundo real. As pessoas citam os chamados dados “empíricos” para nos dizer que estamos Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.6 empirismo ingênuo: o ebola não deve ser comparado a quedas de escadas 47 Figura 3.22: Empirismo ingênuo: nunca compare variáveis de cauda grossa com variáveis de cauda fina, uma vez que as médias não pertencem à mesma classe de distribuições. Este é um erro generalizado cometido pela The Economist, mas muito comum no chamado discurso erudito. Até a Royal Statistical Society caiu nessa quando contratou uma pessoa de “comunicação de risco” com formação em sociologia ou jornalismo para administrá-la. É tolice preocupar-se com o Ébola quando apenas dois americanos morreram de Ébola em 2016. Dizem-nos que deveríamos preocupar-nos mais com as mortes por diabetes ou com as pessoas enroladas nos lençóis. Vamos pensar nisso em termos de cauda. Se lemos no jornal que 2 mil milhões de pessoas morreram subitamente, é muito mais provável que tenham morrido de ébola do que de fumar, de diabetes ou de se enroscarem nos lençóis? Princípio 3.2 Não compararás um processo multiplicativo de cauda gorda no Extremistão na classe subexponencial com um processo de cauda fina do Mediocristão, particularmente um que tenha limites de Chernoff. Esta é uma simples consequência do princípio da catástrofe que vimos anteriormente, conforme ilustrado na Figura 3.1. Infelizmente, poucas pessoas "baseadas em evidências" conseguem (no momento em que este artigo foi escrito) o efeito de abanar o rabo e o cachorro. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 48 uma visão geral não técnica - a palestra da Darwin College ÿ,‡ Figura 3.23: Empirismo Ingênuo (Não Estatístico) de Bill Gates: o fundador da Microsoft1 está promovendo e financiando o desenvolvimento do gráfico acima, mas ao mesmo tempo afirma que o clima está causando um risco existencial, sem perceber que seus argumentos são conflitantes, uma vez que os riscos existenciais estão necessariamente ausentes nos dados passados. Além disso, uma leitura mais atenta dos gráficos mostra que o cancro, as doenças cardíacas e o Alzheimer, sendo doenças da idade, não requerem a atenção por parte dos jovens adultos e das pessoas de meia-idade, algo que o terrorismo e as epidemias justificam. Outra falha lógica é que o terrorismo é precisamente baixo devido à atenção que merece. Relaxe sua vigilância e ela poderá ficar fora de controle. O mesmo se aplica ao homicídio: os medos levam à segurança. Se este mapa mostra alguma coisa, é a racionalidade das pessoas comuns com um bom detector de risco de cauda, em comparação com a ignorância dos “especialistas”. As pessoas estão mais calibradas com as consequências e propriedades das distribuições do que afirmam os psicólogos. 1 A Microsoft é uma empresa de tecnologia que ainda existia no momento em que este artigo foi escrito. Figura 3.24: Devido à lentidão da lei dos grandes números, sob caudas grossas, o passado do passado não se parece com o futuro do passado; consequentemente, o passado de hoje não se assemelhará ao futuro de hoje. As coisas são mais fáceis sob caudas finas. Crédito Stefan Gasic. É um empirismo ingénuo comparar estes processos, sugerir que nos preocupamos demasiado com o ébola (epidemias ou pandemias) e muito pouco com a diabetes. Na verdade Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.6 empirismo ingênuo: o ebola não deve ser comparado a quedas de escadas 49 Figura 3.25: Cuidado com o lobista que usa argumentos pseudo-empíricos. "Comunicações de risco" shills como o sujeito aqui, com um jornalismo histórico, são contratados por empresas como a Monsanto (e empresas de automóveis e tabaco) para envolver em campanhas difamatórias em seu nome usando “ciência”, “argumentos empíricos” e “evidências”, e minimizam os “medos públicos” que consideram irracionais. Organizações de lobby penetram em tais centros como "Harvard Center for Risk Analysis" com um nome acadêmico sofisticado que ajuda a convencer o leigo. A linha de argumentação dos shills, comumente, gira em torno de “nenhuma evidência de dano” e "racionalidade". Outros jornalistas, por sua vez, defendem tais argumentos devido à sua capacidade de influenciar os estatisticamente ingênuos. Probabilístico e a alfabetização sobre riscos, o conhecimento estatístico e o jornalismo sofreram muito com a disseminação de equívocos de não-cientistas ou, pior, de não-estatísticos. é o contrário. Preocupamo-nos demasiado com a diabetes e muito pouco com ebola e outras doenças com efeitos multiplicativos. Isso é um erro de raciocínio isso vem de não entender caudas grossas – infelizmente é cada vez mais comum. O que é pior, tais erros de raciocínio são promovidos pela psicologia empírica o que não parece ser empírico. Também é usado por shills para passagem da indústria para "comunicadores de risco" que nos vendem pesticidas e nos dizem para não nos preocuparmos porque os danos parecem ser mínimos nos dados anteriores (ver Figura ). O raciocínio correto geralmente está ausente na teoria da decisão e nos círculos de risco fora dos ramos da teoria dos valores extremos e dos trabalhos do grupo ABC em Max Planck de Berlim, dirigido por Gerd Gigerenzer [108] , que diz que os instintos e ensinamentos de sua avó não devem ser ignorados e, quando ela recomendações entram em conflito com psicólogos e teóricos da decisão, geralmente é o psicólogos e teóricos da decisão que não são rigorosos. Uma simples olhada no resumo do “autor mais citado” Baruch Fishhoff em Risk: a Very Short Introduction [93] não mostra nenhum esforço para separar as duas classes de distribuição. O problema ligado à “calibração de risco” e “calibração probabilística” mal compreendida pelos psicólogos e discutida mais tecnicamente no Capítulo 11 , que discute a calibração especializada sob caudas grossas.16 3.6.1 Como alguns riscos multiplicativos são dimensionados A abordagem “baseada em evidências” ainda é muito primitiva para lidar com efeitos (e gestão de risco) e certamente causou muitos danos com a pandemia de COVID-19 para permanecer utilizável fora de um único paciente problemas. Um dos problemas é a tradução entre indivíduos e colectivos. 16 A escola Gigerenzer não está imune a erros, como evidenciado pela sua má compreensão dos riscos de COVID-19 no início de 2020 – a diferença entre o Mediocristão e o Extremistão ainda não os atingiu. Mas este autor está otimista de que isso acontecerá. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 50 uma visão geral não técnica - a palestra da Darwin College risco activo (outro é a descaracterização das provas e a associação com a ausência de provas). No início da pandemia de COVID-19, muitos epidemiologistas, inocentes da probabilidade, compararam o risco de morte provocado pela pandemia com o de afogamento numa piscina. Para um único indivíduo, isto pode ter sido verdade (embora a COVID-19 tenha rapidamente se revelado a principal fonte de mortalidade em muitas partes, e mais tarde tenha causado 80% das mortes na cidade de Nova Iorque). Mas, dependendo da ocorrência de 1.000 mortes, as chances de a causa ser afogamento em piscinas são mínimas. Isso ocorre porque o seu vizinho ter COVID aumenta as chances de você contraí-lo, enquanto o seu vizinho se afogar na piscina dele ou dele não aumenta a sua probabilidade de se afogar (na verdade, como acidentes de avião, diminui a chance de outras pessoas se afogarem). Este problema de agregação é discutido em termos mais técnicos com elipticidade, ver Secção 6.8 – as distribuições conjuntas já não são elípticas, fazendo com que a soma tenha cauda gorda mesmo quando as variáveis individuais são de cauda fina. Também é discutido como um problema de ética [247]: ao contrair a doença você causa mais mortes do que as suas. Embora o risco de morte por uma doença contagiosa possa ser menor do que, digamos, por um acidente de carro, torna-se psicopático seguir a "racionalidade" (isto é, modelos de racionalidade de primeira ordem), pois você acabará por causar danos sistêmicos e até mesmo, eventualmente , certa automutilação. 3.7 cartilha sobre leis de potência (quase sem matemática) Vamos agora discutir a intuição por trás da Lei de Pareto. É simplesmente definido como: digamos que X é uma variável aleatória. Para uma realização x de X suficientemente grande, a probabilidade de exceder 2x dividida pela probabilidade de exceder x "não é muito diferente" da probabilidade de exceder 4x dividida pela probabilidade de exceder 2x, e assim por diante. Esta propriedade é chamada de "escalabilidade".17 Portanto, se tivermos uma distribuição de Pareto (ou estilo Pareto), a proporção de pessoas com US$ 16 milhões em comparação com US$ 8 milhões é a mesma que a proporção de pessoas com US$ 2 milhões e US$ 8 milhões. 1 milhão. Existe uma desigualdade constante. Esta distribuição não possui escala característica o que a torna muito fácil de entender. Embora esta distribuição muitas vezes não tenha média nem desvio padrão, ainda podemos entendê-la – na verdade podemos entendê-lo muito melhor do que com distribuições estatísticas mais padronizadas. mas. Mas porque isso não significa que temos que abandonar os livros de estatística e fazer algo mais sólido, mais rigoroso, mesmo que pareça menos matemático. 17 Para colocar um pouco de matemática mínima: seja X uma variável aleatória pertencente à classe de distribuições com cauda direita de "lei de potência": P(X > x) = L(x) x -a onde L : [xmin, +ÿ) ÿ (0, +ÿ) é uma função de variação lenta, definida como limxÿ+ÿ Podemos transformar e aplicar ao domínio negativo. (3.1) L(kx) eu(x) = 1 para qualquer k > 0. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.7 cartilha sobre leis de potência (quase sem matemática) 51 Tabela 3.2: Um exemplo de lei de potência Mais rico que 1 milhão 1 em 62,5 Mais rico que 2 milhões 1 em 250 1 em 1.000 Mais rico que 4 milhões Mais rico que 8 milhões 1 em 4.000 1 em 16.000 1 em? Mais rico que 16 milhões Mais rico que 32 milhões 4 Tabela 3.3: Curtose de uma única observação para dados financeiros Segurança Silver Máx. ( Xtÿÿti ÿ n eu=0 n ) eu=0 X4tÿÿti Máx. Q anos. 0,94 SP500 0,79 CrudeOil 0,79 Short Sterling 0,75 Óleo de aquecimento 46. 56. 26. 0,74 Nikkei 0,72 FTSE 0,54 JGB 0,48 17. Eurodollar Depo 1M 0,31 Açúcar 0,3 ienes 31. 23. 25. 24. 19. 48. Bovespa 0,27 0,27 38. 16. Eurodollar Depo 3M 0,25 CT 0,25 28. DAX 0,2 48. 18. Uma distribuição de Pareto não tem momentos superiores: os momentos ou não existem ou tornar-se estatisticamente cada vez mais instável. Então, a seguir, passamos para um problema com economia e econometria. Em 2009, peguei 55 anos de dados e analisei quanto da curtose (uma função do quarto momento) veio do maior observação –ver Tabela 3.3. Para um gaussiano, a contribuição máxima sobre o mesmo intervalo de tempo deve ser em torno de 0,008 ± 0,0028. Para o S&P 500 foi cerca de 80 por cento. Isso nos diz que não sabemos nada sobre a curtose desses títulos. Seu erro amostral é enorme; ou pode não existir, então a medição é fortemente dependente da amostra. Se não sabemos nada sobre o quarto momento, não sabemos nada sobre a estabilidade do segundo momento. Isso significa que não estamos em uma classe de distribuição que nos permite trabalhar com a variância, mesmo que ela exista. A ciência é difícil; o financiamento quantitativo também é difícil. Para a prata, em 46 anos, 94% da curtose veio de uma única observação. Não podemos utilizar métodos estatísticos padrão com dados financeiros. GARCH (um método popular na academia) não funciona porque estamos lidando com quadrados. O Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 52 uma visão geral não técnica - a palestra da Darwin College ÿ,‡ a variância dos quadrados é análoga ao quarto momento. Não sabemos a variação. Mas podemos trabalhar facilmente com distribuições de Pareto. Eles nos fornecem menos informações, mas, mesmo assim, são mais rigorosos se os dados não forem limitados ou se houver alguma variável aberta. A Tabela 3.3, para dados financeiros, desmascara todos os livros didáticos universitários que usamos atualmente. Muita econometria que trata de quadrados sai pela janela. Isto explica por que razão os economistas não conseguem prever o que está a acontecer – estão a utilizar métodos errados e a construir intervalos de confiança errados. Funcionará dentro da amostra, mas não funcionará fora dela – e as amostras são, por definição, finitas e sempre terão momentos finitos. Se dissermos que a variância (ou curtose) é infinita, não observaremos nada que seja infinito dentro de uma amostra. A análise de componentes principais, PCA (ver Figura 3.26) é um método de redução de dimensão para big data e funciona perfeitamente com caudas finas (pelo menos às vezes). Mas se não houver dados suficientes, existe uma ilusão de qual é a estrutura. À medida que aumentamos os dados (as n variáveis), a estrutura torna-se plana (algo chamado em alguns círculos de "efeito Wigner" para matrizes aleatórias, em homenagem a Eugene Wigner - não confunda com as descobertas de Wigner sobre o deslocamento de átomos sob radiação). Na simulação, os dados que não possuem absolutamente nenhuma estrutura: os componentes principais (PCs) devem ser todos iguais (assintoticamente, à medida que os dados se tornam grandes); mas o efeito de amostra pequena faz com que os PCs ordenados mostrem uma inclinação decrescente. Temos correlação zero na matriz. Para uma distribuição de cauda espessa (a seção inferior), precisamos de muito mais dados para que a correlação espúria seja eliminada, ou seja, a redução de dimensão não funciona com caudas grossas. 3.8 onde estão as propriedades ocultas? O texto a seguir resume tudo o que escrevi em O Cisne Negro (uma mensagem que de alguma forma levou mais de uma década para ser transmitida sem distorção). As distribuições podem ser unicaudais (esquerda ou direita) ou bicaudais. Se a distribuição tiver uma cauda grossa, ela pode ter uma cauda grossa ou duas caudas. E se houver uma cauda de cauda grossa, pode ser cauda esquerda de cauda grossa ou cauda direita de cauda grossa. Veja a Figura 3.28 para a intuição: se for de cauda grossa e olharmos para a média amostral, observaremos menos eventos de cauda. O erro comum é pensar que podemos ingenuamente derivar a média na presença de distribuições unicaudais. Mas existem eventos raros e invisíveis que, com o tempo, serão preenchidos. Mas, por definição, são eventos de baixa probabilidade. É mais fácil ser enganado pela aleatoriedade sobre a qualidade do desempenho com uma série temporal de volatilidade curta (inclinada à esquerda, exposta a perdas acentuadas) do que com uma volatilidade de cauda longa (inclinada à direita, exposta a ganhos acentuados). A volatilidade simplesmente curta superestima o desempenho (enquanto a outra o subestima (ver Figura 3.28). Esta é outra versão da assimetria atribuída a Popper que vimos anteriormente neste capítulo. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.8 onde estão as propriedades ocultas? 53 0,20 0,15 0,10 0,05 0,00 10.000 8.000 6.000 4000 2000 0 Figura 3.26: PCAs espúrias sob caudas grossas: um experimento de Monte Carlo que mostra como correlações e covariâncias espúrias são mais agudas sob caudas grossas. Componentes principais classificados por variância para 30 variáveis gaussianas não correlacionadas (acima), n = 100 (sombreado) e 1000 pontos de dados (transparentes), e componentes principais classificados por variância para 30 variáveis estáveis distribuídas (abaixo, com cauda 2 , simetria ÿ = 1, centralidade µ = 0, escala ÿ = 1), com mesmo n = 100 (sombreado) 3 uma = en = 1000 (transparente). Ambas são variáveis "não correlacionadas" distribuídas de forma idêntica. Podemos ver a estrutura do PCA "mais plana" com o Gaussiano à medida que n aumenta (a diferença entre os PCAs diminui). Tal achatamento não ocorre em tempo razoável sob caudas mais grossas. O truque é estimar a distribuição e depois derivar a média (o que implica extrapolação). Isso é chamado neste livro de estimativa de “plug-in”, consulte a Tabela 3.4. Isso não é feito medindo a média da amostra diretamente observável, que é tendenciosa sob distribuições de cauda gorda. É por isso que, fora de uma crise, os bancos parecem obter grandes lucros. Depois, de vez em quando, perdem tudo e mais e têm de ser socorridos pelo contribuinte. A maneira como lidamos com isso é diferenciando a média verdadeira (que chamo de “sombra”) da média realizada, como no Tableau da Tabela 3.4. Também podemos fazer isso para que o coeficiente de Gini estime o coeficiente "sombra" em vez de do que aquele ingenuamente observado. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 54 uma visão geral não técnica - a palestra da Darwin College Figura 3.27: Uma assimetria central: a diferença entre ausência de evidência e evidência de a ausência é agravada por caudas grossas. Requer uma compreensão mais elaborada de eventos aleatórios -ou um mais naturalista. (Por favor, não atribua aqui pontos de QI como equivalentes aos usados em psicometria comum: a suspeita é que pessoas com pontuações altas em testes de QI não conseguem obter a assimetria. O QI aqui deve ser interpretado como inteligência “real”, não aquela daquele teste. ) Cortesia Stefan Gásico. Isto é o que queremos dizer quando dizemos que a distribuição “empírica” não é “empírica”. Em outras palavras: 1) existe uma divisão entre população e amostra atributos e, 2) mesmo dados históricos exaustivos devem ser vistos como mera amostragem de um fenômeno mais amplo (o passado está na amostra; a inferência é o que funciona a partir 13 amostra). Tabela 3.4: Média sombra vs. média amostral e sua relação para diferentes limiares mínimos. O a média sombra é obtida por meio de máxima verossimilhança, ML (a partir de estimadores de plug-in). Em negrito os valores para o limite de 145k . Dados redimensionados. De Cirillo e Taleb [46]. Os detalhes são explicados nos capítulos 16 e 13. L Média da Amostra ML Razão Média 9,82 9,079 × 106 3,11 × 107 10K 3,43 25 mil × 3,69 106 3,62 × 107 1,12 × 107 4,11 × 50 mil 107 1,34 × 107 4,74 × 107 1,66 3,67 100 mil × 107 6,31 × 107 2,48 × 107 3,53 200 mil 8,26 × 10 7 3,79 500 mil 3.31 Depois de descobrirmos a distribuição, podemos estimar a média estatística. Isso funciona muito melhor do que medir diretamente a média amostral. Para um Pareto distribuição, por exemplo, 98% das observações estão abaixo da média. Há um preconceito na média observada. Mas uma vez que sabemos que temos uma distribuição de Pareto, deve ignorar a média amostral e procurar outro lugar. Os capítulos 13 e 15 discutem as técnicas. Observe que o campo da Teoria dos Valores Extremos [115] [82] [116] concentra-se nas propriedades da cauda, não na média ou na inferência estatística. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.8 onde estão as propriedades ocultas? 55 A RÉGUA DE WITTGENSTEIN: FOI REALMENTE UM “EVENTO 10 SIGMA”? Ital Management" (LTCM) provou ter uma vida muito curta; faliu devido a alguns desvios nos mercados - aqueles "de uma natureza inesperada". A perda foi um grande negócio porque dois dos sócios No verão de 1998, o fundo de hedge denominado "Longcomercializado Term Capreceberam o Prêmio Riksbank sueco, como o "Nobel" em economia. Mais significativamente, o fundo abrigava um grande número de professores de finanças; o LTCM tinha imitadores entre os professores (em pelo menos sessenta PhDs em finanças explodiram durante esse período em negociações semelhantes às do LTCM e devido a métodos de gerenciamento de risco idênticos. Pelo menos dois dos sócios afirmaram que se tratava de um evento "10 sigma" (10 desvios padrão), portanto, deveriam ser absolvidos de todas as acusações de incompetência (fui testemunha em primeira mão de duas dessas declarações). Apliquemos o que o autor chama de “régua de Wittgenstein”: você está usando a régua para medir a mesa ou usando a mesa para medir a régua? Suponha, para simplificar, que existam apenas duas alternativas: uma distribuição gaussiana e uma distribuição de lei de potência. Para o Gaussiano, o "evento" que definimos como a função de sobrevivência de 10 desvios padrão é 1 em 1,31 × 10ÿ23. Para a lei de potência da mesma escala, uma distribuição T de Student com expoente final 2, a função de sobrevivência é 1 em 203. Qual é a probabilidade dos dados serem gaussianos condicionais a um evento 10 sigma, em comparação com essa alternativa? P(A)P(B|A) Começamos com a regra de Bayes. P(A|B) = . Substitua P(B) = P(A)P(B|A) + P(B) P(A)P(B|A) e aplique ao nosso caso. P(Gaussiano|Evento) = P(Gaussiano)P(Evento|Gaussiano) (1 ÿ P(Gaussiano))P(Evento|NãoGaussiano) + P(Gaussiano)P(Evento|Gaussiano) P (Gaussiano) P (Gaussiano | Evento) 2 0,5 × 10ÿ21 0,999 2 × 10ÿ18 2 × 10ÿ17 2 × 10ÿ16 0,9999 2 × 10ÿ15 0,99999 0,999999 1 1 Moral: Se houver uma pequena probabilidade, < 10ÿ10, de que os dados possam não ser gaussianos, pode-se rejeitar firmemente a gaussianidade em favor da distribuição de cauda grossa. A heurística é rejeitar a gaussianidade na presença de qualquer evento > 4 ou > 5 STDs – veremos ao longo do livro por que patches como a variância condicional são inadequados e podem ser totalmente fraudulentos.a a O grande Benoit Mandelbrot costumava ser extremamente crítico em relação aos métodos que dependiam de uma Gaussiana e adicionavam saltos ou outros truques ad hoc para explicar o que acontecia nos dados (digamos, o processo de difusão de saltos de Merton [173]) – sempre é possível ajustar saltos ex publicar. Ele costumava citar o ditado atribuído a John von Neumann: “Com quatro parâmetros posso ajustar um elefante, e com cinco posso fazê-lo mexer a tromba”. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 56 uma visão geral não técnica - a palestra da Darwin College ÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿ ÿÿÿÿ ÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿ -ÿÿÿ -ÿÿÿ -ÿÿÿ -ÿÿ -ÿÿ -ÿÿ -ÿÿ ÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿ ÿÿÿÿ ÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿÿ ÿÿÿ ÿÿÿ Figura 3.28: Shadow Mean em ação: Abaixo: Problema Inverso do Peru – O evento raro invisível é positivo. Quando você olha para uma série temporal positivamente distorcida (antifrágil) e faz (não paramétrica) inferências sobre o invisível, você perde as coisas boas e subestima os benefícios. Acima de problema oposto. A área preenchida corresponde ao que não costumamos ver em amostras pequenas, desde insuficiência de pontos de dados. Curiosamente, a área sombreada aumenta com o erro do modelo (devido ao convexidade das probabilidades da cauda em relação à incerteza). 3,9 schmayesiano bayesiano Na ausência de informações confiáveis, os métodos Bayesianos podem ser de pouca ajuda. Esse O autor tem enfrentado, desde a publicação de O Cisne Negro, inúmeras questões relativas ao uso de algo vagamente bayesiano para resolver problemas sobre o desconhecido sob caudas grossas. Como não se pode fabricar informações além do que é disponível, nenhuma técnica, Bayesiana ou Schmayesiana pode ajudar. A chave é aquela precisa de um anterior confiável, algo que não é facilmente observável (ver Diaconis e Fried-man [66] para a dificuldade de um agente em formular um anterior). Um problema é a velocidade de atualização, como abordaremos no Capítulo 7, que é altamente dependente da distribuição. O erro na literatura da expectativa racional é acredito que dois observadores fornecidos com a mesma informação necessariamente Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.10 x vs f(x): exposições a x confundidas com conhecimento sobre x convergem para a mesma visão. Infelizmente, as condições para que isso aconteça em tempo real ou aconteça são bastante específicas. É claro que se pode usar métodos bayesianos (sob antecedentes adequados) para a estimativa de parâmetros se 1) se tiver uma ideia clara sobre a faixa de valores (digamos, de classes de universalidade ou outras bacias estáveis) e 2) esses parâmetros seguirem um padrão tratável. distribuição com baixa variância, como, digamos, o expoente final de uma distribuição de Pareto (que é distribuída inversamente gama), [11]. risco oral e busca de renda na educação financeira: um dos M A experiência mais deprimente que esse autor teve foi quando ministrou um curso sobre Fat Tails na Universidade de Massachusetts Amherst, na escola de negócios, durante uma breve passagem por lá. Um estudante de doutorado em finanças disse sem rodeios que gostou das ideias, mas que uma carreira em educação financeira exigia “o salário mais alto do país” (isto é, entre todas as outras especialidades da educação). Ele preferiu usar métodos de Markowitz (mesmo que eles falhassem em domínios de cauda gorda), pois estes eram usados por outros professores, o que lhe permitiu publicar seus artigos e conseguir um emprego bem remunerado. Fiquei enojado, mas previ que ele teria posteriormente uma carreira de muito sucesso escrevendo artigos não-artigos. Ele fez. 3.10 x vs f(x): exposições a x confundidas com conhecimento sobre x Considere X uma variável aleatória ou não aleatória e F(X) a exposição, o retorno, o efeito de X sobre você, o resultado final. (X geralmente tem dimensões superiores, mas vamos supor, para simplificar, que seja uma variável unidimensional simples). Os profissionais e os que assumem riscos observam frequentemente a seguinte desconexão: as pessoas (não-praticantes) falam X (com a implicação de que os profissionais devem preocupar-se com X na gestão dos seus negócios) enquanto os profissionais pensam em F(X), nada mais que F(X). E a confusão direta desde Aristóteles entre X e F(X) tem sido crônica, conforme discutido em Antifrágil [230] , que é escrito em torno desse tema. Às vezes as pessoas mencionam F(X) como utilidade, mas perdem o retorno total. E a confusão está em dois níveis: um, confusão simples; segundo, na literatura sobre ciência da decisão, ver a diferença e não perceber que agir em F(X) é mais fácil do que agir em X. • A variável X pode ser o desemprego no Senegal, F1 (X) é o efeito sobre os resultados financeiros do FMI e F2(X) é o efeito sobre a sua avó (que presumo ser mínimo). • X pode ser o preço de uma ação, mas você possui uma opção sobre ela, então F(X) é a sua exposição um valor de opção para X, ou, ainda mais complicado, a utilidade da exposição ao valor da opção. 57 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 58 uma visão geral não técnica - a palestra da Darwin College ÿ,‡ • X pode ser mudanças na riqueza, F(X) a maneira convexa-côncava como isso afeta o seu bem-estar. Pode-se ver que F(X) é muito mais estável ou robusto que X (possui caudas mais finas). Funções convexas vs. lineares de uma variável X Considere a Fig. 3.30; confundir F(X) (na vertical) e X (na horizontal) é cada vez mais significativo quando F(X) é não linear. Quanto mais convexo F(X), mais as propriedades estatísticas e outras de F(X) serão divorciadas daquelas de X. Por exemplo, a média de F(X) será diferente de F(Média deX), pelo método de Jensen desigualdade. Mas, para além da desigualdade de Jensen, a diferença de riscos entre os dois será cada vez mais considerável. Quando se trata de probabilidade, quanto mais não-linear F, menos as probabilidades de X importam em comparação com as de F. Moral da história: concentre-se em F, que podemos alterar, em vez de na medição das propriedades indescritíveis de X. Distribuição de probabilidade de X Distribuição de probabilidade de F(X) Figura 3.29: O Problema da Conflação X (variável aleatória) e F(X) uma função dela (ou payoff). Se F(X) for convexo não precisamos saber muito sobre isso – torna-se um problema acadêmico. E é mais seguro focar na transformação de F(X) do que de X. Figura 3.30: O Problema da Conflação: uma transformação convexo-côncava de um X de cauda grossa produz uma distribuição de cauda fina (acima). Uma transformação sigmoidal (abaixo) que é limitada por uma distribuição em (ÿÿ, ÿ) produz uma distribuição ArcSine, com suporte compacto. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 59 3.10 x vs f(x): exposições a x confundidas com conhecimento sobre x Limitações do conhecimento O que é crucial, as nossas limitações de conhecimento aplicam-se a X e não necessariamente a F(X). Não temos controle sobre X, temos algum controle sobre F(X). Em alguns casos, um controle muito, muito grande sobre F(X). Transformação Côncavo-Convexa Distribuição de x Distribuição de f(x) Figura 3.31: Uma transformação côncavo-convexa (do estilo de um probit –um CDF inverso para o gaussiano– ou de um logit) torna as caudas da distribuição de f(x) mais espessas O perigo do tratamento do problema do Cisne Negro é o seguinte: as pessoas se concentram em X ("prever X"). O que quero dizer é que, embora não compreendamos X, podemos lidar com isso trabalhando em F que podemos compreender, enquanto outros trabalham na previsão de X, o que não podemos porque pequenas probabilidades são incomputáveis, particularmente em domínios de cauda grossa. F(x) é como o resultado final afeta você. A distribuição de probabilidade de F(X) é marcadamente diferente daquela de X, particularmente quando F(X) é não linear. Precisamos de uma transformação não linear da distribuição de X para obter F(X). Tivemos que esperar até 1964 para iniciar uma discussão sobre “transformações convexas de variáveis aleatórias”, Van Zwet (1964)[259] –já que o tema não parecia importante antes. Onipresença das curvas S F é quase sempre não-linear (na verdade não conheço nenhuma exceção à não-linearidade), muitas vezes “curva em S”, ou seja, convexa-côncava (para uma função crescente). Veja a discussão mais longa em F. Fragilidade e Antifragilidade Quando F(X) é côncavo (frágil), erros sobre X podem se traduzir em valores negativos extremos para F(X). Quando F(X) é convexo, fica-se amplamente imune a variações negativas severas. Em situações de tentativa e erro, ou com opção, não precisamos entender tanto de X quanto da nossa exposição aos riscos. Simplesmente as propriedades estatísticas de X são inundadas pelas de H. O ponto principal do Antifrágil é que a exposição é mais importante do que a noção ingénua de “conhecimento”, isto é, a compreensão de X. Quanto mais não linear F, menos as probabilidades de X importam na distribuição de probabilidade do pacote final F. Muitas pessoas confundem as probabilidades de X com as de F. Estou falando sério: toda a literatura repousa em grande parte neste erro. Pelo amor de Baal, concentre-se em F, não em X. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 60 uma visão geral não técnica - a palestra da Darwin College B é melhor ser convexo do que certo: no outono de 2017, uma empresa faliu apostando contra a volatilidade – eles estavam prevendo uma volatilidade real do mercado menor (em vez de variância) do que a “esperada” pelo mercado. Eles estavam corretos na previsão, mas faliram mesmo assim. Eles eram muito côncavos na função de recompensa. Lembre-se de que x é não f(x) e que no mundo real quase não há f(x) linear. O exemplo a seguir pode nos mostrar como. Considere o seguinte resultado na figura abaixo. A 2 função de recompensa é f(x) = 1 ÿ x diário, ou seja, se x se mover em até 1 unidade (digamos, desvio padrão), há um lucro, perdas além. Este é um contrato típico denominado “swap de variância”. f(x)=1-x2 4 2 x -3 -2 -1 1 2 3 -2 -4 Agora considere os dois tipos de sucessões de desvios de x para 7 dias (expressos em desvios padrão). Sucessão 1 (caudas finas): {1, 1, 1, 1, 1, 0, 0}. Variação média= 0,71. P/L = 2. Sucessão 2 (caudas grossas): {0, 0, 0, 0, 0, 0, 5}. Variação média= 0,71 (igual). P/L=ÿ18 (quebra, realmente faliu). Em ambos os casos, eles previram corretamente, mas a concentração da volatilidade – a gordura de coroas – fez uma enorme diferença. Isto explica, em poucas palavras, por que, no mundo real, os “maus” previsores podem fazer grandes traders e tomadores de decisão e vice-versa – algo que todo operador sabe apenas que a literatura de "previsão" matematicamente e praticamente pouco sofisticada, séculos atrás da prática, erra. 3.11 ruína e dependência do caminho Terminemos com a dependência da trajetória e a probabilidade temporal. Nossas bisavós entendi caudas grossas. Estes não são tão assustadores; descobrimos como sobreviver tomando decisões racionais baseadas em propriedades estatísticas profundas. A dependência do caminho é a seguinte. Se eu passar minhas camisas e depois lavá-las, recebo resultados muito diferentes em comparação com quando lavo minhas camisas e depois as passo. Meu primeiro trabalho, Dynamic Hedging [225], foi sobre como os traders evitam a "absorção Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.11 ruína e dependência do caminho 61 barreira", uma vez que uma vez que você está falido, você não pode mais continuar: qualquer coisa que acabe falindo perderá todos os lucros passados. Os físicos Ole Peters e Murray Gell-Mann [186] lançaram uma nova luz sobre este ponto e revolucionaram a teoria da decisão, mostrando que uma crença fundamental desde o desenvolvimento da teoria da probabilidade aplicada na economia estava errada. Eles salientaram que todos os manuais de economia cometem este erro; a única exceção são os teóricos da informação como Kelly e Thorp. Vamos explicar as probabilidades do conjunto. Suponha que 100 de nós, selecionados aleatoriamente, vamos a um cassino e jogamos. Se a 28ª pessoa estiver arruinada, isso não terá impacto no 29º jogador. Assim, podemos calcular o retorno do casino utilizando a lei dos grandes números, tomando os retornos das 100 pessoas que jogaram. Se fizermos isso duas ou três vezes, obteremos uma boa estimativa de qual é a “vantagem” do cassino. O problema surge quando a probabilidade de conjunto é aplicada a nós como indivíduos. Não funciona porque se um de nós vai ao cassino e no dia 28 está arruinado, não existe dia 29. É por isso que Cramer mostrou que o seguro não poderia funcionar fora do que ele chamou de "condição de Cramer", que exclui possível ruína de choques únicos. Da mesma forma, nenhum investidor individual alcançará o retorno alfa no mercado porque nenhum investidor tem bolsos infinitos (ou, como observou Ole Peters, está a viver a sua vida através de universos paralelos ramificados). Só podemos obter o retorno no mercado sob condições estritas. A probabilidade de tempo e a probabilidade de conjunto não são iguais. Isso só funciona se os tomadores de risco tiverem uma política de alocação compatível com o critério Kelly Figura 3.32: Probabilidade de conjunto versus probabilidade de tempo. O tratamento pelos traders de opções é feito através da barreira absorvente. Tradicionalmente, tratei isso em Dynamic Hedging [225] e Antifragile [223] como a fusão entre X (uma variável aleatória) e f(X) uma função do referido rv, que pode incluir um estado absorvente. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,‡ 62 uma visão geral não técnica - a palestra da Darwin College Figura 3.33: Uma hierarquia para sobrevivência. As entidades de nível superior têm uma expectativa de vida mais longa, portanto o risco de cauda é mais importante para elas. Entidades inferiores como você e eu somos renováveis. [142],[250] usando registros. Peters escreveu três artigos sobre probabilidade temporal (um com Murray GellMann) e mostrou que muitos paradoxos desapareceram. Vejamos como podemos trabalhar com isso e o que há de errado com a literatura. Se incorrermos visivelmente num pequeno risco de ruína, mas tivermos uma exposição frequente, a probabilidade irá para um ao longo do tempo. Se andarmos de moto corremos um pequeno risco de ruína, mas se andarmos muito nessa moto reduziremos a nossa esperança de vida. A maneira de medir isso é: Princípio 3.3 (Repetição de exposições) Concentre-se apenas na redução da expectativa de vida da unidade, assumindo exposição repetida a uma determinada densidade ou frequência. Até agora, as finanças comportamentais tiram conclusões da estática e não da dinâmica, e portanto perdem o panorama. Aplica compensações fora do contexto e desenvolve o consenso de que as pessoas superestimam irracionalmente o risco de cauda (portanto, precisam ser “incentivadas” a assumir mais dessas exposições). Mas o evento catastrófico é uma barreira absorvente. Nenhuma exposição de risco pode ser analisada isoladamente: os riscos acumulam-se. Se andarmos de moto, fumarmos, pilotarmos o nosso próprio avião a hélice e nos juntarmos à máfia, estes riscos somam-se a uma morte prematura quase certa. Os riscos de cauda não são um recurso renovável. Todo tomador de risco que conseguiu sobreviver entende isso. Warren Buffett entende isso. A Goldman Sachs entende isso. Eles não querem riscos pequenos, querem risco zero, porque essa é a diferença entre a empresa sobreviver e não sobreviver durante vinte, trinta, cem anos. Esta atitude face ao risco de cauda pode explicar que a Goldman Sachs tem 149 anos – funcionou como sociedade de responsabilidade ilimitada durante aproximadamente os primeiros 130 anos, mas foi resgatada uma vez em 2009, depois de se ter tornado um banco. Isto não está na literatura da teoria da decisão, mas nós (pessoas com Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 3.12 o que fazer? 63 pele no jogo) pratique todos os dias. Pegamos numa unidade, olhamos quanto tempo de vida desejamos que ela tenha e vemos até que ponto a esperança de vida é reduzida por repetidas exposição. Observação 2: Psicologia da tomada de decisão A literatura psicológica concentra-se em exposições de um único episódio e em análises de custobenefício estritamente definidas. Algumas análises rotulam as pessoas como paranóicas por superestimarem pequenos riscos, mas não entendem que se tivéssemos a menor tolerância para riscos coletivos de cauda, não teríamos sobrevivido nos últimos milhões de anos. A seguir, consideremos a estratificação, a razão pela qual os riscos sistémicos estão numa categoria diferente dos riscos individuais e idiossincráticos. Observe a pirâmide (invertida) na Figura 3.33: o pior cenário não é a morte de um indivíduo. É pior se sua família, amigos e animais de estimação morrerem. É pior se você morrer e seu arquiinimigo sobreviver. Coletivamente, eles têm mais expectativa de vida perdida devido a um evento terminal. Portanto, existem camadas. O maior risco é que todo o ecossistema morra. O princípio da precaução estrutura a ideia de risco para as unidades que se espera que sobrevivam. Ergodicidade, neste contexto, significa que sua análise para probabilidade de conjunto se traduz em probabilidade de tempo. Caso contrário, ignore completamente a probabilidade do conjunto. 3.12 o que fazer? Para resumir, primeiro precisamos de fazer uma distinção entre o Mediocristão e o Ex-tremistão, dois domínios separados que quase nunca se sobrepõem. Se não conseguirmos fazer essa distinção, não teremos nenhuma análise válida. Em segundo lugar, se não fizermos a distinção entre probabilidade temporal (dependente do caminho) e probabilidade de conjunto (independente do caminho), não teremos uma análise válida. A próxima fase do projeto Incerto é compreender a fragilidade, a robustez e, eventualmente, a antifragilidade. Uma vez que sabemos que algo tem cauda gorda, podemos usar a heurística para ver como uma exposição ali reage a eventos aleatórios: quanto uma determinada unidade é prejudicada por eles. É muito mais eficaz focar em estar isolado dos danos de eventos aleatórios do que tentar descobri-los nos detalhes necessários (como vimos, os erros inferenciais sob caudas grossas são enormes). Portanto, é mais sólido, muito mais sábio, mais ético e mais eficaz concentrar-se em heurísticas e políticas de detecção, em vez de fabricar propriedades estatísticas. A coisa bonita que descobrimos é que tudo o que é frágil tem de apresentar uma exposição côncava [223] semelhante – se não idêntica – ao retorno de uma opção curta, ou seja, uma exposição negativa à volatilidade. É não linear, necessariamente. Tem que ter danos que acelerem com intensidade, até quebrar. Se eu pular 10 metros, me machucarei mais de 10 vezes do que se pular um metro. Essa é uma propriedade necessária da fragilidade. Precisamos apenas observar a aceleração nas caudas. Construímos heurísticas eficazes de testes de estresse com base em uma propriedade semelhante a uma opção [240]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 64 uma visão geral não técnica - a palestra da Darwin College ÿ,‡ No mundo real, queremos coisas simples que funcionem [109]; queremos impressionar nosso contador e não nossos colegas. (Meu argumento na última edição do Incerto, Skin in the Game é que os sistemas julgados pelos pares e não pela evolução apodrecem devido à supercomplicação). Para sobreviver, precisamos ter técnicas claras que correspondam às nossas intuições processuais. O novo foco é como detectar e medir a convexidade e a concavidade. Isso é muito, muito mais simples que a probabilidade. próximo Os próximos três capítulos examinarão as intuições técnicas por trás das caudas grossas em forma de discussão, numa linguagem não muito formal. Derivações e provas formais vêm posteriormente com as adaptações dos artigos da revista. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4 UNI VA RI AT E FAT TA ILS , NÍVEL 1 , FINITEM OM ENT S† els de caudas gordas com mais ênfase nas intuições e heurísticas Os próximos dois capítulos são organizados da seguinte forma. Nós olhamos para três níveis do que diferenças matemáticas formais, que serão apontadas mais tarde nas discussões dos teoremas do limite. Os três níveis são: • Caudas gordas, nível de entrada (mais ou menos), ou seja, momentos finitos • Classe subexponencial • Aula de Lei de Potência O nível um será o mais longo, pois o usaremos para construir intuições. Enquanto esta abordagem é a menos usada em trabalhos de matemática (caudas gordas geralmente são associado a leis de potência e comportamento limite), é confiável analiticamente e praticamente. Podemos obter as consequências imediatas da cauda gorda com pouco esforço, o equivalente a uma derivada funcional que fornece uma boa compreensão das sensibilidades locais. Por exemplo, como comerciante, o autor foi capaz de obter a maior parte do efeito da cauda gorda com uma heurística simples de calcular a média dos preços das opções entre duas volatilidades, o que se mostrou suficiente, apesar da sua simplicidade. 4.1 uma heurística simples para criar caudas levemente gordas Alguns lembretes sobre a convexidade e a desigualdade de Jensen: Seja A um conjunto convexo em um espaço vetorial em R, e seja ÿ : A ÿ R uma função; ÿ , ÿt ÿ [0, 1] : é chamado convexo se ÿx1 , x2 ÿ A ÿ (tx1 + (1 ÿ t)x2) ÿ tÿ (x1) + (1 ÿ t)ÿ (x2) Capítulo de discussão. 65 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 66 caudas gordas univariadas, nível 1, momentos finitos† Figura 4.1: Como a volatilidade aleatória cria caudas mais grossas devido à convexidade de algumas partes da densidade em relação à escala da distribuição. Para uma variável aleatória X e ÿ(.) uma função convexa, pela desigualdade de Jensen[135]: ÿ(E[X]) ÿ E[ÿ(X)]. Observação 3: Caudas gordas e desigualdade de Jensen Para uma distribuição gaussiana (e, membros da família de distribuições em escala de localização), as probabilidades da cauda são convexas para a escala da distribuição, aqui o desvio padrão ÿ 2 ). Isto nos permite engordar as caudas por meio de "stochas(e para a variância ÿ ticando" o desvio padrão ou a variância, verificando assim o efeito da desigualdade de Jensen na distribuição de probabilidade. Heterocedasticidade é o termo técnico geral frequentemente usado em análises de séries temporais para caracterizar um processo com escala flutuante. Nosso método “estocástica”, isto é, perturba a variância ou o desvio padrão2 da distribuição sob a restrição de conservação da média. 2 “Volatilidade” na linguagem quântica significa desvio padrão, mas “volatilidade estocástica” geralmente é estocástica variação. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.1 uma heurística simples para criar caudas levemente gordas 67 Mas observe que qualquer processo de cauda pesada, mesmo uma lei de potência, pode ser descrito em uma amostra (isto é, um número finito de observações necessariamente discretizadas) por um processo gaussiano simples com variação de variância, um processo de mudança de regime ou uma combinação de mais gaussiana. uma série de saltos variáveis (embora não seja aquele em que os saltos sejam de tamanho igual, veja o resumo em [174]).3 Este método também nos permitirá responder à grande questão: "onde estão as caudas?" começar?" em 4.3. Seja f( ÿ a, x) a densidade da distribuição normal (com média 0) em função da variância para um determinado ponto x da distribuição. 1 Compare f ( 1 2 (ÿ 1 ÿ a + ÿ a + 1) , x ) com 2 ( f (ÿ 1 ÿ a, x ) + f (ÿ a + 1, x )); a difiA diferença entre os dois será devida à desigualdade de Jensen. Assumimos a constante média, mas a 2 idade p discussão funciona tão bem se apenas assumimos a constante ÿ - é um longo debate se devemos colocar uma restrição na variância média ou no desvio padrão, mas 1) não importa muito, desde que permaneçamos consistentes; 2) para nossos propósitos ilustrativos, aqui não há nenhuma diferença fundamental real. Como os momentos mais altos aumentam sob caudas gordas, embora não necessariamente nas mais baixas, deveria ser possível simplesmente aumentar a cauda gorda (através do quarto momento), mantendo os momentos mais baixos (os dois ou três primeiros) invariantes. 4 4.1.1 Uma heurística de preservação de variância 2 4 Mantenha E ( X ) constante e aumente a distribuição) , "estocásticando" a variância de ) medida em 4 E ( X , já que E ( X amostras – E (X 2 ) é em si análogo à variância de E (X 4 2 ÿE (X 2 ))2 ) então vamos ) é o equivalente não central de E (( X focam na versão mais simples fora das situações em que isso importa. Além disso, faremos a "estocástica" de uma forma mais envolvente nas seções posteriores do capítulo. Uma heurística eficaz para obter alguma intuição sobre o efeito da engorda das caudas consiste em simular uma variável aleatória definida com média 0, mas com o seguinte truque de engorda da cauda com preservação da variância: a variável aleatória segue uma distribuição N( 0, ÿ ÿ 1 ÿ a) com probabilidade p = probabilidade restante 12 ,com 12 e N( 0, ÿ ÿ 1 + a ) com o 0 ÿ a < 1. A função característica5 é 1ÿ (t, a) = e 2 - 12 (1+uma)t 2ÿ 2 ( 1 + e em2ÿ 2 ) (4.1) 3 Os saltos para tal processo podem ser simplesmente modelados como um regime caracterizado por uma Gaussiana com baixa variância e média extremamente grande (e baixa probabilidade de ocorrência), portanto, tecnicamente, os saltos de Poisson são Gaussianos mistos. 4 Para repetir o que afirmamos no capítulo anterior, a literatura às vezes separa “caudas gordas” de “caudas pesadas”, sendo o primeiro termo reservado para leis de potência, o segundo para distribuição subexponencial (sobre a qual, mais tarde). Fugiu disso. Simplesmente chamamos de "Fat Tails" algo com uma curtose maior que a Gaussiana, mesmo quando a curtose não está definida. A definição é funcional conforme utilizada pelos praticantes de fat tails, ou seja, traders de opções e se presta à operação de “engordar as caudas”, como veremos nesta seção. 5 Observe que não há diferença entre funções características e geradoras de momento quando a média é 0, uma propriedade que será útil em capítulos posteriores e mais técnicos. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 68 caudas gordas univariadas, nível 1, momentos finitos† Momentos estranhos são nulos. O segundo momento é preservado desde M(2) = (ÿeu) 2 2 ÿt ,2ÿ(t)|0 = p (4.2) e o quarto momento M(4) = (ÿeu) 4 2 4 ÿt ,4ÿ|0= 3 (uma + 1) p (4.3) 2 o que coloca a curtose tradicional em 3 (a + 1) (assumindo que não removemos 3 para comparar com a gaussiana). Isso significa que podemos obter um “a implícito da curtose”. O valor de a é aproximadamente o desvio médio do parâmetro de volatilidade estocástica "volatilidade da volatilidade" ou Vvol em uma forma mais completamente parametrizada. Limitações da heurística simples Esta heurística, embora útil para a construção da intuição, tem poderes limitados, pois só pode aumentar a curtose para duas vezes a de uma Gaussiana, por isso deve ser usada apenas pedagogicamente, para obter alguma intuição sobre os efeitos da heurística simples. convexidade. A Seção 4.1.2 apresentará uma técnica mais envolvente. Observação 4: Picos Como mostra a Figura 4.4 : as caudas gordas manifestam-se com picos mais elevados, uma concentração de observações em torno do centro da distribuição. Isso geralmente é mal compreendido. 4.1.2 Engorda de caudas com variação distorcida Podemos melhorar a heurística de cauda gorda em 4.1 (que limitou a curtose ao dobro da Gaussiana) da seguinte maneira. Alternamos entre Gaussianos com variância: 2 (1 + a), com probabilidade p 2p . (1 {p (4.4) + b), com probabilidade 1 ÿ p p com p ÿ [0, 1) e b = ÿa 1ÿp , dando uma função característica: ÿ(t, uma) = peÿ com curtose 3((1ÿa 2 )pÿ1) 1 2 2 t 2 (a+1)p - ÿ (p ÿ 1) e p 2t 2(ap+pÿ1) 2(pÿ1) permitindo assim estados polarizados e alta curtose, preservando toda a variância pÿ1 . Assim, com, digamos, p = 1/1000, e o correspondente máximo possível a = 999, a curtose pode atingir um nível tão alto quanto 3.000. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.1 uma heurística simples para criar caudas levemente gordas 69 Esta heurística aproxima muito bem o efeito nas probabilidades de um lognormal ponderação para a função característica ÿ ÿ(t, V) = ÿ 2v - e Vv2 (log(v)ÿv0+ 2)2 2Vv2 - 2 dv (4.5) ÿ 2ÿvVv 0 onde v é a variância e Vv é a variância de segunda ordem, muitas vezes chamada de volatilidade da volatilidade. Graças à integração por partes podemos usar a transformada de Fourier para obter todas as variedades de resultados (ver Gatheral [102]). Mas a ausência de uma distribuição de forma fechada pode ser remediada da seguinte forma, com a utilização de distribuições para a variância que sejam analiticamente mais tratáveis. 1 Pr. Gama4, 4 Gama 1,1 vs. Variância Estocástica Lognormal 1,0 vs. Variância Estocástica Lognormal, ÿ4 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 EM 1 2 4 3 1 5 2 4 3 5 Figura 4.2: Variância Estocástica: Distribuição gama e Lognormal de mesma média e variância. Variância Gama A distribuição gama aplicada à variância de uma Gaussiana é um atalho útil para uma distribuição completa da variância, o que nos permite ir além do escopo restrito da heurística [36]. É mais fácil de manipular analiticamente do que o Lognormal. Suponha que a variância do Gaussiano siga uma distribuição gama. - em ÿa(v) = V com média V e variância ÿ a aÿ1 ( V a )ÿa e de EM C(a) . A Figura 4.2 mostra a correspondência com um lognormal com mesmos dois primeiros momentos em que calibramos o lognormal para significar 1 2log ( aV3 aV+1) e desvio padrão ÿ ÿ log ( aV aV+1) . A distribuição final torna-se (uma vez novamente, assumindo a mesma média de uma situação de volatilidade fixa: ÿ então, V(x) = ÿ0 e - (xÿµ) 2v 2 ÿa(v)dv, ÿ 2ÿ ÿ v (4.6) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 70 caudas gordas univariadas, nível 1, momentos finitos† Gaussiano com variação gama Figura 4.3: Variância Estocástica usando distribuição Gama perturbando ÿ na equação 4.7. 4 2 2 0 4 Naquela hora: 3 24 - a 2a2 a 1+ 4V- a 2 1 - 4 |x ÿ µ| 1a- _ 2 Ka ÿ 1 2 ( ÿ 2 xÿµ| ÿ a| ÿ V .) fÿ,V(x) = ÿÿ (uma) (4.7) onde Kn(z) é a função Bessel K, que satisfaz a equação diferencial ÿy ( n Vamos agora nos 22+z ) + z 2y “ + zyÿ = 0. aprofundar nas diferentes formas de volatilidade estocástica. 4.2 a volatilidade estocástica gera leis de potência? Ainda não definimos leis de potência; tome por enquanto a condição de que pelo menos um dos momentos seja infinito. E a resposta: depende se estamos estocastizando ÿ ou ÿ do outro. ou 1 ou 1 p 2 por um lado, 2 p. Suponha que a distribuição base seja a Gaussiana, a variável aleatória X ÿ N (µ, ÿ). Agora, existem diferentes maneiras de tornar ÿ, a escala, estocástica. Observe que, como ÿ não é negativo, precisamos que ele siga alguma distribuição unicaudal. 2 • Podemos fazer ÿ (ou, possivelmente ÿ) seguem uma distribuição Lognormal. Não produz soluções de forma fechada, mas podemos obter os momentos e verificar que não é uma lei de potência. 2 • Podemos fazer ÿ (ou ÿ) seguem uma distribuição gama. Ele rende fechado formar soluções, como vimos no exemplo acima, na Eq. 4.7. • Podemos fazer 1 2 p. • Podemos fazer 1 2p . —o parâmetro de precisão—segue uma distribuição gama. segue uma distribuição lognormal. Os resultados mostrados na Tabela 4.1 provêm das seguintes propriedades simples de funções de densidade e operadores de expectativa. Seja X qualquer variável aleatória com Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.3 o corpo, os ombros e as caudas 71 Tabela 4.1: Transformações para volatilidade estocástica. Podemos ver pela densidade das transformações 1 se tivermos uma lei de potência em mãos. LN, N , G e P que são Lognormal, Normal, Gamma e x ou ÿ1 x distribuições de Pareto, respectivamente. distribuição 1 p(x) (mÿlog(x))2 2s - e LN (m,s) p ( 1x ) p( (m+log(x))2 2s - e 2 ÿ 2ÿsx ÿ x) (m+2log(x))2 2s 2 - ÿ2 e- p sexo 2 ÿ 2ÿsx 2 2 - e N (m,s) (mÿx) 2s 2 aÿ1 b ÿax e ÿ(a) ÿ2 Pi 2s 2 e sx3 2 ÿ 2ÿsx2 - ÿaÿ1 b ÿax e xb 1 1 - ÿ2aÿ1 2b ÿax e ÿ(a) 2ÿÿ1 bx2 caixa ÿ(a) 1ÿxÿÿ ÿÿÿ1 ÿx P(1, uma) - 2s e 2 ÿ 2ÿs G(a,b) (mÿ 1 x2 ) (m ÿ 1x ) - 2ÿx Tabela 4.2: Os momentos p das possíveis distribuições de variância distribuição E (X p ) LN (m,s) emp + 2p 2 E(( P(1, uma) bp ( a)p ÿ ÿÿp E(( )p) 1 2s G(a, b) 1 X 1ÿ X _ )p) 1 e 2p (ps2ÿ2m) e 8p (ps2ÿ4m) (ÿ1)p b ÿp (1ÿa)p , p < a fughedabaudit 2ÿ , p < uma 2ÿ+p um a + p PDF f(.) na família de escala de localização, e ÿ qualquer variável aleatória com PDF g(.); X e ÿ são considerados independentes. Visto que pelos resultados padrão, os momentos de ordem p para o produto X e a razão eu são: E ( (Xÿ) p ) = E (X p ) E (ÿ p ) e E (( ÿ )p) = E (( 1 ÿ )p) E(X p ). (através da transformada de Mellin). Observe que como propriedade da família em escala de x 1l fx x_ _ eu eu ) = fx( x eu ) então, por exemplo, se ( ÿ N (0, p). localização, x ÿ N (0, 1) (ou seja, normalmente distribuída), então p 4.3 o corpo, os ombros e as caudas Onde começam as caudas? Assumimos que as caudas começam no nível de convexidade do segmento da distribuição de probabilidade até a escala da distribuição – em outras palavras, afetadas pelo efeito da volatilidade estocástica. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 72 caudas gordas univariadas, nível 1, momentos finitos† 4.3.1 Os Crossovers e o Efeito Túnel. Observe na Figura 4.4 uma série de zonas de cruzamento, invariantes a a. As distribuições chamadas de "formato de sino" têm uma forma convexa-côncava-convexa (ou quase côncava). Seja X uma variável aleatória com distribuição com PDF p(x) de uma classe geral de todas as PDFs contínuas unimodais de um parâmetro pÿ com suporte D ÿ R e parâmetro de escala ÿ. Seja p(.) quase côncavo no domínio, mas nem convexo nem côncavo. A função de densidade p(x) satisfaz: p(x) ÿ p(x + ÿ) para todo ÿ > 0, e ÿ com x ÿ = argmaxx p(x) x > x ÿ e p(x) ÿ p(x ÿ ÿ) para todo x < x p (ÿ x + (1 ÿ ÿ) y) ÿ min (p(x), p(y)). A- Se a variável for “bicaudal”, ou seja, seu domínio de suporte D= (-ÿ,ÿ), e onde p d (x) ÿ p(x,ÿ+ÿ)+p(x,ÿÿÿ) , 2 1. Existe um túnel interno de "pico alto", AT= ( a2, a3) para o qual o ÿ -perturbado ÿ da distribuição de probabilidade p d (x)ÿp(x) se x ÿ ( a2, a3) 2. Existem túneis externos, as “caudas”, para as quais p d (x)ÿp(x) se x ÿ (ÿÿ, a1 ) ou x ÿ (a4 , ÿ) 3. Existem túneis intermediários, os "ombros", onde p (a1 , a2 ) ou x ÿ (a3, a4 ) d (x)ÿ p(x) se x ÿ 0,6 “Pico” (a2, a3 0,5 “Ombros” 0,4 a1, a2, a3, a4 0,3 a Cauda direita Cauda esquerda 0,2 0,1 a1 4 2 a2 a3 a4 2 4 Figura 4.4: Onde começam as caudas? Mais e mais gordo falham através da perturbação do parâmetro de escala ÿ para um Gaussiano, tornado mais estocástico (em vez de ser fixo). Algumas partes da distribuição de probabilidade ganham densidade, outras perdem. Eventos intermediários são menos prováveis, eventos de cauda e desvios moderados são mais prováveis. Podemos identificar os cruzamentos de a1 a a4. As "caudas" propriamente ditas começam em a4 à direita e a1 à esquerda. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.3 o corpo, os ombros e as caudas 73 O Problema do Cisne Negro: Como vimos, não se trata apenas de que os eventos nas caudas das distribuições sejam importantes, aconteçam, desempenhem um papel importante, etc. computável, não confiável para qualquer uso eficaz. A implicação é que os Cisnes Negros não vêm necessariamente de caudas gordas; O problema pode resultar de uma avaliação incompleta dos eventos finais. ÿ 2p (x) Seja A = {ai} o conjunto de soluções { x : ÿÿ 2 |a= 0} . Para o Gaussiano (µ, ÿ), as soluções obtidas definindo a segunda derivada em relação a ÿ como 0 são: - e 2 (xÿµ) 2s 2 ( 2s 4 2 - 5p 2 (x ÿ µ) + (x ÿ µ) 4 ) = 0, ÿ 2ÿÿ7 que produz os seguintes cruzamentos: 2 2 (4.8) {a1 , a2, a3, a4} = { µ ÿ ÿ 1 ( 5 ÿ ÿ 17) ÿ, µ ÿ ÿ 1 ( 5 + ÿ 17) ÿ, µ + ÿ 1 2 2 ( 5 ÿ ÿ 17) ÿ, µ + ÿ 1 ( 5 + ÿ 17) p } Na figura 4.4, os cruzamentos para os intervalos são numericamente {ÿ2,13ÿ, ÿ0,66ÿ, 0,66ÿ, 2,13ÿ}. Quanto a uma lei de potência simétrica(como veremos mais adiante) a Distribuição T de Student masção com escala s e expoente final ÿ: uma+1 2 x2 p(x) ÿ ( aum+ é2 ) 1 2, 2 ) ÿ ÿsB ( uma ÿ 5ÿÿ ÿ (ÿ+1)(17ÿ+1)+1 a-1 {a1 , a2, a3, a4} = { - é , - ÿ 5a+ ÿ (a+1)(17a+1)+1 a-1 ÿ2 , ÿ2 ÿ 5aÿ ÿ (a+1)(17a+1)+1 a-1 é , ÿ 5a+ ÿ (a+1)(17a+1)+1 a-1 ÿ2 onde B(.) é a função Beta B(a, b) = ÿ(a+b) é ÿ(a)ÿ(b) ÿ2 1 = ÿ 0 dttaÿ1 (1 ÿ t) b-1 . Quando o Aluno é “cúbico”, ou seja, ÿ = 3: {a1 , a2, a3, a4} = { ÿ ÿ 4 ÿ ÿ 13s, ÿ ÿ 4 + ÿ 13s, ÿ 4 ÿ ÿ 13s, ÿ 4 + ÿ 13s } é } Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 74 caudas gordas univariadas, nível 1, momentos finitos† Em resumo, onde começa a cauda? Para uma classe geral de distribuições simétricas com leis de potência, a cauda começa ÿ 5ÿ+ ÿ (ÿ+1) é a-1 em: ± (17ÿ+1)+1 ÿ2 , com ÿ infinito no caso gaussiano de volatilidade estocástica onde s é o desvio padrão. A "cauda" está localizada entre cerca de 2 e 3 desvios padrão. Isto decorre da nossa definição: qual parte da distribuição é convexa aos erros na estimativa da escala. Mas, na prática, como as medições históricas de DST serão tendenciosas para baixo devido aos pequenos efeitos amostrais (à medida que repetimos caudas grossas acentuando os efeitos de pequenas amostras), os desvios serão > 2-3 DSTs. 3,0 2 11 ÿxÿ Pi +2 Figura 4.5: Comparamos o comportamento de ÿ K + x 2 e K + |x|. A diferença entre as duas funções de ponderação aumenta para valores grandes da variável aleatória x, o que explica a divergência das duas (e, mais geralmente, dos momentos mais elevados) sob caudas gordas 1 + x2 2,5 2,0 1,5 x -3 -2 -1 1 2 3 Podemos verificar que quando ÿ ÿ ÿ, os cruzamentos passam a ser gaussianos. Por exemplo, para a1 : é ÿ 5ÿÿ ÿ (ÿ+1)(17ÿ+1)+1 limÿÿÿ ÿ a-1 = ÿ ÿ 1 2 (5 ÿ ÿ 17)s ÿ2 B- Para alguma distribuição unicaudal que possui um "formato de sino" de formato convexocôncavo-convexo, sob algumas condições, os mesmos 4 pontos de cruzamento são válidos. O Log-normal é um caso especial. 1 2 ( 2µÿ ÿ 2 ÿ 5ÿ 2ÿ ÿ 17ÿ 2 ) {a1 , a2, a3, a4} = { e 2 e (1 2µÿ ÿ 2 ÿÿ 17ÿ 2+5ÿ 2 ) ,e , 1 2 ( 2µ+ ÿ 2 ÿ 5ÿ 2ÿ ÿ 17ÿ 2 ) 1 ,e 2 ( 2µ+ ÿ 2 ÿÿ 17ÿ 2+5ÿ 2 )} Parâmetros Estocásticos O problema das distribuições elípticas é que elas não mapeiam o retorno dos títulos, devido à ausência de uma única variância em qualquer momento, ver Bouchaud e Chicheportiche (2010) [42]. Quando a balança do dis- Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4,4 caudas gordas, desvio médio e normas crescentes 75 as atribuições dos indivíduos se movem, mas não em conjunto, a distribuição deixa de ser elíptica. A Figura 6.2 mostra o efeito da aplicação do equivalente aos métodos de volatilidade estocástica: a correlação estocástica mais incômoda. Em vez de perturbar a matriz de correlação ÿ como uma unidade como na seção 6, perturbamos as correlações com efeito surpreendente. 4.4 caudas gordas, desvio médio e normas crescentes A seguir discutiremos o uso brutal do desvio padrão e sua interpretação. 4.4.1 Os Erros Comuns Começamos observando o desvio padrão e a variância como propriedades de momentos mais elevados. Agora, o que é desvio padrão? Parece que a mesma confusão sobre caudas gordas poluiu a nossa compreensão do desvio padrão. A diferença entre o desvio padrão (assumindo média e mediana de 2 e desvio médio absoluto MAD = 1n ÿ|xi | 0 para simplificar) ÿ = ÿ 1 n ÿx aumenta sob caudas gordas, como pode ser visto na Figura 4.5 . Isso pode fornecer uma abordagem conceitual para a noção. eu Dan Goldstein e o autor [113] colocam a seguinte questão aos profissionais de investimento e estudantes de pós-graduação em engenharia financeira – pessoas que trabalham com riscos e desvios o dia todo. Uma ação (ou fundo) tem um retorno médio de 0%. Movimenta em média 1% ao dia em valor absoluto; o movimento médio para cima é de 1% e o movimento médio para baixo é de 1%. Isso não significa que todos os movimentos ascendentes sejam de 1% – alguns são de 0,6%, outros de 1,45% e assim por diante. Suponha que vivamos no mundo gaussiano, no qual os retornos (ou movimentos percentuais diários) podem ser modelados com segurança usando uma distribuição normal. Suponha que um ano tenha 256 dias úteis. Qual é o seu desvio padrão dos retornos (que STDMAD 1.7 Figura 4.6: A relação STD/ MAD para os retornos diários do SP500 nos últimos 47 anos, visto com uma janela móvel mensal. Podemos considerar ÿ 1,253 (como 1.6 1,5 1.4 2 o nível ÿ ÿ aproximadamente o valor dos desvios gaussianos), como 1.3 1.2 ponto de corte para cauda gorda. 1.1 Tempo Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 76 caudas gordas univariadas, nível 1, momentos finitos† ÿ é, dos movimentos percentuais), o AIJsigma que é usado para volatilidade em aplicações financeiras? Qual é o desvio padrão diário? Qual é o desvio padrão anual? Como o leitor pode ver, a questão descreve o desvio médio. E as respostas estavam esmagadoramente erradas. Para a pergunta diária, quase todos responderam 1%. No entanto, uma variável aleatória gaussiana que tem um movimento percentual diário em termos absolutos de 1% tem um desvio padrão superior a isso, cerca de 1,25%. Deve chegar a 1,7% nas distribuições empíricas. A resposta mais comum para a pergunta anual foi cerca de 16%, o que representa cerca de 80% do que seria a resposta verdadeira. Os profissionais estavam dimensionando a volatilidade diária para a volatilidade anual multiplicando por ÿ 256, o que é correto, desde que se tenha a volatilidade diária correta. Portanto, os sujeitos tendiam a fornecer MAD como intuição para DST. Quando profissionais envolvidos nos mercados financeiros e continuamente expostos a noções de volatilidade falam sobre desvio padrão, eles usam a medida errada, o desvio médio absoluto (MAD) em vez do desvio padrão (STD), causando uma subestimação média entre 20 e 40%. Em alguns mercados, pode chegar a 90%. Além disso, os respondentes raramente pareciam compreender imediatamente o erro quando este lhes era apontado. No entanto, quando solicitados a apresentar a equação do desvio padrão, eles efetivamente a expressaram como a raiz média do desvio quadrático médio. Alguns ficaram intrigados porque não sabiam da existência do MAD. Porque é que isto é relevante: Aqui temos decisores a andar por aí a falar sobre “volatilidade” e sem saberem bem o que isso significa. Notamos alguns trechos na imprensa financeira nesse sentido em que o jornalista, ao tentar explicar o “VIX”, ou seja, o índice de volatilidade, comete o mesmo erro. Até o site do departamento de comércio definiu mal a volatilidade. Além disso, há uma subestimação, uma vez que o MAD é, pela desigualdade de Jensen, inferior (ou igual) ao STD. Como a proporção aumenta Para um gaussiano a proporção é ÿ 1,25, e aumenta a partir daí com caudas grossas. Exemplo: pegue uma distribuição de cauda extremamente grossa, com , observações são , n = 106 todos -1, exceto um único de 106 X = { ÿ1, ÿ1, ..., ÿ1, 106 } . O desvio médio absoluto, MAD (X) = 2. O desvio padrão STD (X)=1000. A razão entre o desvio padrão e o desvio médio é 500. 4.4.2 Algumas análises A proporção para caudas finas Como uma heurística útil, considere a proporção h: Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.4 caudas gordas, desvio médio e normas crescentes 77 h = ÿ E (X2) , E(|X|) onde E é o operador de expectativa (sob a medida de probabilidade de preocupação e X é uma variável centrada tal E(x) = 0); a proporção aumenta com a cauda gorda 1 p. p )) da distribuição; (O caso geral corresponde a E(|x|) , p > 1, sob(E(x a condição de que a distribuição tenha momentos finitos até n, e o caso especial aqui n = 2).6 Simplesmente, x p é um operador de ponderação que atribui um peso, pÿ1 , que é grande para x valores grandes de X e pequeno para valores menores. O efeito é devido ao diferencial de convexidade entre ambas as funções, |X| é peçalinear sábio e perde o efeito de convexidade, exceto por uma zona ao redor da origem. Desvio Médio versus Desvio Padrão, mais técnico Por que [REDIGIDO] a ciência estatística escolheu STD em vez de Desvio Médio? Aqui está a história, com derivações analíticas aparentemente não disponíveis na literatura. Em Huber [131]: Houve uma disputa entre Eddington e Fisher, por volta de 1920, sobre os méritos relativos de dn (desvio médio) e Sn (desvio padrão). Fisher então apontou que para observações exatamente normais , Sn é 12% mais eficiente que dn, e isso pareceu resolver a questão. (Minha ênfase) Vamos derivar novamente e ver o que Fisher quis dizer. Seja n o número de somas: Eficiência Relativa Assintótica (ARE) = limnÿÿ (V(Std)E(Padrão)2 / V E(Comida) (louco) 2 ) Suponha que temos certeza de que Xi , os componentes da amostra, seguem uma distribuição gaussiana, normalizada para média = 0 e desvio padrão de 1. Erro de Desvio Padrão Relativo A função característica ÿ1 (t) da distribuição 2 ÿ 2 butão de x : ÿ1 (t) = ÿ - e x 2 +fechar2 ÿ 2ÿ f , a pdf para n somas torna-se: 1 fZ(z) = ÿÿ ÿÿ . Com o desvio quadrático z = x 1 ÿ 1ÿ2isto 1 ÿ 2ÿÿ _ dx = exp(ÿitz) ( ÿ 1 ÿ 2it )n dt = n 2ÿ2e - zn 2 de 2 ÿ1 , z > 0. C ( n2 ) 6 A palavra momento “infinito” é muito ambígua, é melhor apresentar o problema como momento “indefinido” no sentido de que depende da amostra e não se replica externamente. Digamos que, para uma distribuição bicaudal (ou seja, com suporte na linha real), a designação de variância “infinita” pode ser aplicada ao quarto momento, mas não ao terceiro. 2 , Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 78 caudas gordas univariadas, nível 1, momentos finitos† 21ÿ Agora pegue y = ÿ z, fY(y) = n 2e 2 2 z n-1 Com - , z > 0, que corresponde ao Chi C( n2 ) Distribuição com n graus de liberdade. Integrando para obter a variância: Vstd(n) = V(Std) 2 2 ) ÿ 2ÿ( n+1 2 ) n- _ 2ÿ( n+1 2 . E, com a média igualando ÿ( n 2 ) ÿ( n , 2) Nós temos 2 = E(Padrão)2 nÿ( n 2 ÿ 1. 2 ) 2ÿ( n+1 2 ) Função característica de erro de desvio médio relativo novamente para |x| é o de uma distribuição Normal dobrada, mas vamos refazê-la: ÿ ÿ2(t) = ÿ - 0ÿ2 e- p x2 2 + t 2 itx = e toneladas - 2 ( 1 + eu erfi ( 2 )), onde erfi é o erro imaginário ÿ função é f(iz)/i. O primeiro momento: M1 = ÿi M2 1 Pi 2n 2 ( 1 + i erfi 2 - . ÿ 2n )))n t=0 = ÿ 2 t ( ÿt 2 ( e 2n 2 ( 1 + eu erfi ( ÿ 2n )))n t=0 2ÿ2 O segundo momento, M2 = (ÿi) E(Comida) toneladas - ÿt 1 ( e Por isso, V (louco)2 = M2-M21 = t 2 ÿ toneladas = 2n+ÿÿ 2ÿn . ÿÿ2 2n . Finalmente, a eficiência relativa assintótica para um gaussiano 2 2) 2 SÃO = limnÿÿ n ( nÿ( n2 ) ÿ2 ) C( n+1 ÿ ÿ 2 = 1 ÿÿ2 ÿ 0,875 o que significa que o desvio padrão é 12,5% mais “eficiente” do que o desvio médio, condicionado aos dados serem gaussianos e esses caras acreditaram no argumento. Exceto que a menor contaminação aumenta a proporção. Mostraremos mais tarde por que a Norma ÿ 2 não é apropriada para quase nada; mas por enquanto vamos dar uma olhada no quão frágil é a DST. 4.4.3 Efeito das caudas mais gordas na "eficiência" do STD vs MD Considere um modelo de mistura padrão para volatilidade com um salto ocasional com probabilidade p. Alternamos entre gaussianas (mantendo a média constante e central em 0) com: 2 V(x) = { p (1 + uma) 2p . com probabilidade p com probabilidade (1 ÿ p) Para facilitar, uma simples simulação de Monte Carlo serviria. Usando p = 0,01 e n = 1000... A Figura 4.8 mostra como a=2 causa degradação. Uma presença mínima de valores discrepantes torna o MAD mais “eficiente” que o STD. Pequenos “outliers” de 5 desvios padrão fazem com que o MAD seja cinco vezes mais eficiente.7 7 A maneira natural é centralizar o MAD em torno da mediana; achamos mais informativo para muitos de nossos propósitos aqui (e para a teoria da decisão) centralizá-lo em torno da média. Notaremos quando a centralização estiver em torno da média. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.4 caudas gordas, desvio médio e normas crescentes 79 Figura 4.7: Harald Cramér, da condição Cramer, e o problema da ruína. RÉ 8 Figura 4.8: Uma simulação do índice de eficiência relativa do desvio padrão sobre o desvio médio ao injetar um tamanho de salto ÿ (1 + a) × ÿ, como um múltiplo de ÿ o desvio padrão. 6 4 2 a 5 10 15 4.4.4 Momentos e a desigualdade da média de poder Seja X ÿ (xi)n eu=1, n i=1|xi | p ÿXÿpÿ ( ÿ n )1/p 20 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 80 caudas gordas univariadas, nível 1, momentos finitos† Figura 4.9: Desvio médio (azul) versus desvio padrão (amarelo) para uma lei de potência de variância finita. O resultado é esperado (MD é a distribuição mais fina), complicado pelo fato de que o desvio padrão tem uma 0,15 0,10 0,05 0,00 1 2 4 3 5 variância infinita, uma vez que o quadrado de uma variável aleatória Paretiana com expoente ÿ é Paretiano com1 2um expoente de ÿ. Neste exemplo, o desvio médio do desvio padrão é 5 vezes maior. 0,035 0,030 0,025 Figura 4.10: Para um Gaussiano, há uma pequena diferença na distribuição 0,020 entre MD e STD (ajustando para a média para fins de visualização). 0,015 0,010 0,005 0,000 0,6 0,7 0,8 0,9 1.1 1,0 Para qualquer 1 ÿ p < q a seguinte desigualdade é válida: ÿ p ÿeu=1 n (4.9) ÿ wi |xi | q eu=1 wi |xi | p ÿ q ÿ n onde os pesos positivos somarão a unidade. (Observe que evitamos p < 1 porque não satisfaz a desigualdade triangular). Prova. A prova para p e q positivos é a seguinte: Defina a seguinte função: f: q R + ÿ R + ; f(x) = x p . f é uma função potência, então tem uma segunda derivada: p ) ( q ÿp 1 ) x f ”(x)=(q q ÿ2p _ que é estritamente positivo dentro do domínio de f , já que q > p, f é convexo. Por isso, n p pela desigualdade de Jensen: f ( ÿeu=1 wix e ) ÿ ÿ n eu=1 com f(x p ), então eu p ÿ q ÿeu=1 n p wix eu n ÿ ÿ i=1 wix depois de elevar ambos os lados à potência de 1/q (uma função crescente, já que 1/q é positivo), obtemos a desigualdade. q eu Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.4 caudas gordas, desvio médio e normas crescentes 81 O que é crítico para o nosso exercício e para o estudo dos efeitos das caudas gordas é que, para uma determinada norma, a dispersão dos resultados aumenta os valores. Por exemplo, considere uma distribuição plana, X= {1, 1}. ÿXÿ1 =ÿXÿ2 =... =ÿXÿn = 1. Perturbar enquanto preserva ÿXÿ1 , X = { 1 3 2 , 2 } produz normas mais elevadas crescentes: {ÿXÿn } 5 n=1 ÿ5 = {1, ÿ5 61 ÿ4 41 ÿ3 , 2 , (4.10) , 2 7 2 2/3 2 4/5 }. Tentando novamente, com uma difusão mais ampla, obtemos valores ainda mais elevados das normas, X = 7 { 14 , 4 } , ÿ ÿ {||X||n} 5 n=1 2 3 ÿ 43 5 = 1, ÿÿÿ 4 , 2 ÿ4 1201 , ÿ5 2101 , 4 2 × 2 3/5 ÿÿÿ . (4.11) ÿÿÿ ÿÿÿ Assim, podemos ver (removendo restrições e/ou permitindo valores negativos) como os momentos mais elevados se tornam rapidamente explosivos. Uma propriedade bastante útil com leis de potência com momento infinito: n ÿXÿÿ = sup (|xi |) (4.12) eu=1 Caso Gaussiano Para um Gaussiano, onde x ÿ N(0, ÿ), como assumimos que a média é 0 sem perda de generalidade, Seja E(X) o operador de expectativa para X, E ( X 1/p ) E(|X|) pÿ3 = 2 2 ((ÿ1)p + 1) ÿ pÿ1ÿ ( p + 1 2 ) ou alternativamente E (X p ) E(|X|) página 2 1 = 22 2 (pÿ3) (1 + (ÿ1)p ) ( 1 p 2 )1 ÿ onde ÿ(z) é a função gama de Euler; ÿ(z) = ÿ a razão é 0. Para 0 momentos pares: E (X 2 ) = ÿp 2 E (|X|) p por isso ÿ E (X2) E (|X|) = DST Médico = ÿp 2 C ( p +21) zÿ 1t (4.13) e -tdt. Para momentos estranhos, Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 82 caudas gordas univariadas, nível 1, momentos finitos† 3p . Quanto ao quarto momento, é igual a 3 ÿÿ 2 . Para uma distribuição da Lei de Potência com expoente final ÿ=3, digamos um Estudante T ÿ E (X2) E (|X|) = DST = Pi 2 Médico Voltaremos a outras métricas e definições de caudas gordas com distribuições da Lei de Potência quando os momentos são ditos “infinitos”, ou seja, não existem. Nossa heurística de usar a razão entre os momentos e o desvio médio funciona apenas na amostra, não fora dela. Caso Pareto Para uma distribuição Pareto padrão com valor mínimo (e escala) ÿ ÿ euÿ ÿ2 L, PDF f(x) = ÿL ÿx ÿÿÿ1 e desvio padrão DST Médico umaÿ1 , 1 = 2 ÿ ÿ ÿ 2(ÿ ÿ 1)ÿÿ1ÿ 1 - um Nós temos , (4.14) 2 centralizando em torno da média. Momentos "infinitos" Momentos infinitos, digamos variância infinita, sempre se manifestam como números computáveis na amostra observada, produzindo momentos finitos de todas as ordens, simplesmente porque a amostra é finita. Uma distribuição, digamos, Cauchy, com médias indefinidas sempre fornecerá uma média mensurável em amostras finitas; mas amostras diferentes fornecerão meios completamente diferentes. As Figuras 4.11 e 4.12 ilustram o efeito “deriva” dos momentos com o aumento da informação. X MT UMA, x 4 3 Figura 4.11: Média de uma série com média indefinida (Cauchy). 2 1 T 2000 4000 6.000 8.000 10.000 1 2 4.4.5 Comentário: Por que deveríamos retirar o desvio padrão agora! A noção de desvio padrão confundiu hordas de cientistas; é hora de retirá-lo do uso comum e substituí-lo pelo mais eficaz, de desvio médio. O desvio padrão, STD, deveria ser deixado para matemáticos, físicos e Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.4 caudas gordas, desvio médio e normas crescentes 83 X MT 2 UMA, x 4,0 Figura 4.12: A raiz quadrada do segundo momento de uma série com variância infinita. Observamos pseudoconvergência antes de um salto. 3.5 3,0 T 2000 4000 6.000 8.000 10.000 estatísticos matemáticos derivando teoremas de limite. Não há razão científica para utilizálo em investigações estatísticas na era do computador, pois faz mais mal do que bem especialmente com a crescente classe de pessoas nas ciências sociais que aplicam mecanicamente ferramentas estatísticas a problemas científicos. Digamos que alguém acabou de lhe pedir para medir as “variações médias diárias” da temperatura da sua cidade (ou do preço das ações de uma empresa, ou da pressão arterial do seu tio) nos últimos cinco dias. As cinco alterações são: (-23, 7, -3, 20, -1). Como você faz isso? Você faz todas as observações: eleva ao quadrado, calcula a média do total e depois tira a raiz quadrada? Ou você remove o sinal e calcula a média? Pois existem sérias diferenças entre os dois métodos. O primeiro produz uma média de 15,7, o segundo 10,8. O primeiro é tecnicamente chamado de desvio quadrático médio. O segundo é o desvio médio absoluto, MAD. Corresponde à “vida real” muito melhor que a primeira – e à realidade. Na verdade, sempre que as pessoas tomam decisões depois de receberem o número do desvio padrão, elas agem como se fosse o desvio médio esperado. Tudo se deve a um acidente histórico: em 1893, o grande Karl Pearson introduziu o termo “desvio padrão” para o que era conhecido como “raiz do erro quadrático médio”. A confusão começou então: as pessoas pensavam que isso significava um desvio médio. A ideia pegou: sempre que um jornal tentava clarificar o conceito de “volatilidade” do mercado, definia-o verbalmente como desvio médio, mas produzia a medida numérica do desvio padrão (maior). Mas não são apenas os jornalistas que caem no erro: lembro-me de ter visto documentos oficiais do Departamento de Comércio e da Reserva Federal participando na fusão, até mesmo reguladores em declarações sobre a volatilidade do mercado. O que é pior, Goldstein e eu descobrimos que um grande número de cientistas de dados (muitos com PhDs) também ficam confusos na vida real. Tudo vem de uma terminologia ruim para algo não intuitivo. Por um fenômeno psicológico chamado substituição de atributos, algumas pessoas confundem MAD com DST Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 84 caudas gordas univariadas, nível 1, momentos finitos† porque o primeiro é mais fácil de lembrar – este é "Lindy"8, como é bem conhecido pelos trapaceiros e ilusionistas. 1) MAD é mais preciso em medições de amostras e menos volátil que STD, pois é um peso natural, enquanto o desvio padrão usa a própria observação como seu próprio peso, conferindo grandes pesos a grandes observações, superando assim os eventos de cauda. 2) Freqüentemente usamos STD em equações, mas na verdade acabamos reconvertendo-o dentro do processo em MAD (digamos, em finanças, para precificação de opções). No mundo gaussiano, DST é cerca de 1,25 vez MAD, ou seja, ÿÿ 2 . Mas nos ajustamos com a volatilidade estocástica onde o DST costuma chegar a 1,6 vezes o MAD. 3) Muitos fenômenos e processos estatísticos têm "variância infinita" (como a popular regra de Pareto 80/20), mas têm desvios médios finitos e, às vezes, muito bem comportados. Sempre que existe a média, existe MAD. O inverso (MAD infinito e STD finito) nunca é verdadeiro. 4) Muitos economistas rejeitaram modelos de “variância infinita”, pensando que estes significavam “desvio médio infinito”. Triste mas verdadeiro. Quando o grande Benoit Mandel-brot propôs os seus modelos de variância infinita há cinquenta anos, os economistas surtaram por causa da fusão. É triste que um ponto tão insignificante possa levar a tanta confusão: as nossas ferramentas científicas estão muito à frente das nossas intuições casuais, o que começa a ser um problema para a ciência. Assim, termino com uma declaração de Sir Ronald A. Fisher: “O estatístico não pode fugir à responsabilidade de compreender o processo que aplica ou recomenda”. Nota A teoria usual é que se variáveis aleatórias X1 , . . . , Xn são independentes, então V(X1 + · · · + Xn) = V(X1 ) + · · · + V(Xn). pela linearidade da variância. Mas então assume que não se pode usar outra métrica e então, por simples transformação, torná-la aditiva9 . Como veremos, para o Gaussiano md(X) = ÿ 2 é 2 , etc. Pi ÿ —para o Student T com 3 graus de liberdade, o fator pág. 8 Ver uma definição de "Lindy" em 5.0.2 9 Por exemplo, a precificação de opções na fórmula Black-Scholes é feita usando variância, mas o preço é mapeado diretamente para MAD; um straddle no dinheiro é apenas um desvio médio condicional. Então, traduzimos MAD em desvio padrão e depois de volta para MAD Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.4 caudas gordas, desvio médio e normas crescentes 85 1,0 p=1 0,5 Figura 4.13: Normas crescentes e círculo/ quadrado unitário: valores da iso-norma p=3 2 0,0 p x2| dentro p )1/p = 1. Notamos a área ( |x1| + | da norma (ou seja, satisfazendo a norma ÿ 1), p=2 p=4 -0,5 =ÿ 4ÿ p )2 ( p+1 com v(1) = 2 e v(ÿ) = 4. v(p) ( p+2 p ) , p=ÿ -1,0 -1,0 -0,5 0,0 0,5 1,0 Figura 4.14: Normas ascendentes e cubo unitário: valores da iso-norma ( | p + |x2| p + |x3| p )1/p = 3 x1| 1 para p = 1, 2 , 2, 3, 4 e ÿ. O volume que satisfaz a norma da desigualdade ÿ 1 aumenta para 43 para p = 1, 4p3 _ para p = 2 (a esfera 3 unitária), para 2 para p = ÿ (o cubo unitário), um aumento muito maior do que na Figura 4.13 . Podemos ver a operação da maldição da dimensionalidade no volume cada vez menor para p = 1, em relação ao máximo quando p Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 86 caudas gordas univariadas, nível 1, momentos finitos† ÿ Normas e Dimensionalidade CEO Registro 1 CEO Figura 4.15: A maldição da dimensionalidade, com aplicações yuuuuge em áreas estatísticas, particularmente erro de modelo em dimensões superiores. À medida que d aumenta, a proporção de 1 V sobre V ÿ 10142 1092 aumenta. Se para d = 2 for 2 já são seis algarismos para d = 9. 1042 Registro 5 10 50 d 100 4.5 visualizando o efeito do aumento de p nas iso-normas Considere a região R (n) a (P) definido como X = (x1, . . . , xn) :ÿ ( ÿ n x eu = 1 eu p )1/p ÿ 1, com fronteira definida pela identidade. À medida que a norma aumenta, calculamos a seguinte medida da bola: 1 EMp n =ÿ...ÿ XÿR (n) (n) 1dX = ( 4ÿ ( 1 + p ))n ÿ ( np+ 1 ) As Figuras 4.13 e 4.14 mostram dois efeitos. A primeira é como as normas emergentes ocupam uma parcela maior do espaço. A segunda nos dá uma dica da maldição da dimensionalidade, útil em muitas circunstâncias (e, principalmente, para erros de modelo). Compare as figuras 4.13 e 4.14: você notará que no primeiro caso, para d = 2, p = 1, m ocupa metade da área do quadrado, com p = ÿ tudo isso. A proporção das normas é 2 . Mas1 para d = 3, p = 1 ocupa 2 3 do espaço 4/3 = (novamente, p = ÿ ocupa todo ele). A proporção de momentos mais altos para momentos mais baixos aumenta com a dimensionalidade, como pode ser visto na Figura 4.15. 16 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 4.5 visualizando o efeito do aumento de p nas iso-normas 87 em geral. Para uma intuição mais geral sobre probabilidade, o indispensável Borel [85]. Kolmogorov [145], Loeve [154], Feller [92],[91]. Para a teoria da medida, Billingsley [20]. Leitura Adicional : Paramos aqui e apresentamos livros de probabilidade Para subexponencialidade Pitman [196], Embrechts e Goldie (1982) [83], Embrechts (1979, que parece estar próximo de sua tese de doutorado) [84], Chistyakov (1964) [43], Goldie (1978) [ 112] e Teugels [248]. Para distribuições de valores extremos Embrechts et al [82], De Haan e Ferreira [116]. Para distribuições estáveis Uchaikin e Zolotarev [257], Zolotarev [271], Samorindsky e Taqqu [209]. Processos estocásticos Karatsas e Shreve [141], Oksendal [182], Varadhan [261]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 5NÍVEL 2: SUBEXPONENCIAISAND P OW ERL AW S Este capítulo apresenta brevemente as classes subexponencial versus lei de potência como "verdadeiras caudas gordas" (já definidas no Capítulo 3) e apresenta algumas rugas associadas a elas. Subexponencialidade (sem escalabilidade), isto é, pertencer à classe subexponencial, mas não à lei de potência, é uma categoria pequena (das distribuições comuns, apenas a exponencial limítrofe - e distribuições associadas ao gama, como a de Laplace - e a queda lognormal nessa classe) . T 5.0.1 Revisitando as classificações A Tabela 5.1 analisa as classificações do Capítulo 3. Lembre-se de que as distribuições de probabilidade variam entre cauda extremamente fina (Bernoulli) e cauda extremamente gorda. Entre as categorias de distribuições que muitas vezes se distinguem devido às propriedades de convergência dos momentos estão: 1. Ter um suporte compacto (mas não degenerado) 2. Subgaussiana 3. Subexponencial 4. Lei de Potência com expoente maior que 2 5. Lei de Potência com expoente menor ou igual a 2. Em particular, as distribuições da Lei de Potência têm uma média finita apenas se o expoente for maior que 1, e têm um variância finita somente se o expoente exceder 2 6. Lei de Potência com expoente menor que 1 O nosso interesse é distinguir entre casos em que os eventos de cauda dominam os impactos, como uma definição formal da fronteira entre as categorias de distribuições a serem consideradas como Mediocristão e Extremistão. Centralmente, uma distribuição subexponencial é o corte entre caudas “finas” e “gordas”. É definido da seguinte forma. 89 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 90 nível 2: subexponenciais e leis de potência Tabela 5.1: Distribuições de classificação Aula Descrição Verdadeiras caudas finas Suporte compacto (por exemplo: Bernouilli, Binomial) Caudas finas Gaussiana alcançada organicamente através da soma das caudas finas verdadeiras, pelo Limite Central; suporte compacto, exceto no limite n ÿ ÿ Aproximação gaussiana de um Convencional Fino fenômeno natural Maior curtose que a caudas gaussiana, mas Caudas gordas iniciais convergência rápida para a gaussiana sob soma (por exemplo, lognormal) Subexponencial ÿ supercúbico As condições de Cramer não são válidas para Variância infinita t > 3, ÿ ed(Fx) = +ÿ , ÿ e Alíquota Estável ÿ < 2 ÿtxdF(x) = ÿtx +ÿ Primeiro mês indefinido Fuhgetaboutdit mento A matemática é nítida: a probabilidade de excedência ou função de sobrevivência precisa ser exponencial em um e não no outro. Onde fica a fronteira? A fronteira natural entre o Mediocristão e o Extremistão ocorre na classe subexponencial que possui a seguinte propriedade: Seja X = X1 , . . . , Xn será uma sequência de variáveis aleatórias independentes e distribuídas de forma idêntica com suporte em (R+ ), com função de distribuição cumulativa F. A classe subexponencial de distribuições é definida por (ver [248], [196]): 1-F *2 limão xÿ+ÿ ÿ2 onde F =F (x) =2 1 ÿ F(x) (5.1) ' ÿ F é a distribuição cumulativa de X1 + X2, a soma de duas cópias independentes de X. Isto implica que a probabilidade de a soma X1 + X2 exceder um valor x é duas vezes a probabilidade de qualquer uma delas separadamente exceder x. Assim, sempre que a soma excede x, para valores suficientemente grandes de x, o valor da soma é devido a um ou outro exceder x – o máximo sobre as duas variáveis – e a outra contribui de forma insignificante. De forma mais geral, pode-se mostrar que a soma de n variáveis é dominada pelo máximo dos valores sobre essas variáveis da mesma forma. Formalmente, as duas propriedades a seguir são equivalentes à condição subexponencial [43],[84]. n Para um dado n ÿ 2, seja Sn = ÿ i=1xi e Mn = max1ÿiÿn xi P(Sn>x) a) P(X>x) limxÿÿ =n, Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 nível 2: subexponenciais e leis de potência 91 b) limxÿÿ P(Sn>x) P(Mn>x) = 1. Assim, a soma Sn tem a mesma magnitude que a maior amostra Mn, o que é outra forma de dizer que as caudas desempenham o papel mais importante. Intuitivamente, os eventos de cauda em distribuições subexponenciais deveriam declinar mais lentamente do que uma distribuição exponencial para a qual grandes eventos de cauda deveriam ser irrelevantes. Na verdade, pode-se mostrar que as distribuições subexponenciais não têm nenhum movimento exponencial. comentários: ÿ0 ÿ e ÿx dF(x) = +ÿ (5.2) para todos os valores de ÿ maiores que zero. No entanto, o inverso não é verdadeiro, uma vez que as distribuições não podem ter momentos exponenciais, mas não satisfazem a condição subexponencial. Notamos que se optarmos por indicar desvios como valores negativos da variável x, o mesmo resultado vale por simetria para valores negativos extremos, substituindo x ÿ +ÿ por x ÿ ÿÿ. Para variáveis bicaudais, podemos considerar separadamente os domínios positivos e negativos. 5.0.2 O que é uma distribuição de probabilidade limítrofe? A melhor maneira de descobrir uma distribuição de probabilidade é... inventar uma. Na verdade, na próxima seção, 5.0.3, construiremos uma que seja a fronteira exata entre caudas finas e grossas por construção. Considere por enquanto que as propriedades são as seguintes: Seja F a função de sobrevivência. Temos F : R ÿ [0, 1] que satisfaz lim xÿ+ÿ F(x) n = 1, F(nx) (5.3) e lim xÿ+ÿ limão F(x) = 0 F(x) = 1 xÿÿÿ Nota: outra propriedade da demarcação é a ausência da falácia de Lucrécio no Cisne Negro, mencionada anteriormente (ou seja, os extremos futuros não serão semelhantes aos extremos passados sob caudas gordas, e tal dissimilaridade aumenta com caudas gordas): Vejamos as propriedades de demarcação por enquanto. Seja X uma variável aleatória que vive em (0, ÿ) ou (ÿÿ, ÿ) e E o operador de expectativa na distribuição (física) do "mundo real". Por resultados clássicos [82]: Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 92 nível 2: subexponenciais e leis de potência 1 limão Kÿÿ (5.4) E(X|X>K) = ÿ K • Se ÿ = 1 , Diz-se que X pertence à classe D1 de cauda fina e possui uma escala característica • Se ÿ > 1 , Diz-se que X está na classe de variação regular de cauda gorda D2 e não possui escala característica • Se limão E(X|X>K) ÿ K = µ Kÿÿ onde µ > 0, então X está na classe exponencial limítrofe O primeiro caso é chamado de “efeito Lindy” quando a variável aleatória X é sobrevivida pelo tempo. O assunto é examinado fora deste projeto de cauda gorda. Veja a exposição de Iddo Eliazar [77]. PDF 0,5 0,4 Figura 5.1: Comparando a distribuição inventada (no limite 0,3 da subexponencialidade) com a Gaussiana da mesma variância (k = 1). Não é preciso Inventado Gaussiano 0,2 muito para mudar de propriedades gaussianas para propriedades subexponenciais. 0,1 x 1 2 4 3 5.0.3 Vamos inventar uma distribuição Embora a distribuição exponencial esteja no limite da classe subexponencial, mas com suporte em [0, ÿ), podemos construir uma distribuição limítrofe com suporte em (ÿÿ, ÿ), como segue 1 . Encontre funções de sobrevivência F : R ÿ [0, 1] que satisfaçam: F(x) ÿx ÿ 0, limite xÿ+ÿ 2 = 1, F ' (x) ÿ 0 F(2x) e limão F = 0. xÿ+ÿ lim xÿÿÿ F = 1. 1 A distribuição de Laplace, que duplica a exponencial em ambos os lados, não se ajusta à propriedade, pois a razão entre o quadrado e o dobro é 12 . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 5.1 nível 3: escalabilidade e leis de potência 93 Vamos supor uma função candidata como sigmóide, usando a tangente hiperbólica F K 1 (x) =2 (1 ÿ tanh(kx)) , ÿ > 0. Podemos usar isso como uma distribuição de kernel (misturamos mais tarde para modificar a curtose). Seja f(.) a função densidade: ÿF(x) f(x) = ÿ ÿx = 1 2 ksech2 (kx). (5.5) A função característica: ( ÿ(t) = ÿtcsch 2k ÿt 2k ) . (5.6) Dado que tudo é real, podemos adivinhar que a média é 0 – assim como todos os momentos ímpares. O segundo momento será lim (ÿi) ÿt 2 tÿ0 2ÿ2 ÿtcsch( ÿt2k ) = 14h _ E o quarto mês- 12k 2 2k 4 mento: lim (ÿi) ÿt 4 ÿ 4 tÿ0 ÿtcsch( ÿt 2k ) 2k = 7ÿ 4 portanto a curtose será 240k 4 , 21 5 . A distribuição ção que inventamos tem caudas ligeiramente mais grossas que a gaussiana. 5.1 nível 3: escalabilidade e leis de potência Agora entramos no assunto sério. Por que leis de poder? Existem muitas teorias sobre por que as coisas deveriam ser leis de potência, como uma espécie de exceção à forma como as coisas funcionam probabilisticamente. Mas parece que a ideia oposta nunca é apresentada: as leis de potência deveriam ser a norma, e o Gaussiano um caso especial ([223]), efetivamente o tópico do Antifrágil e o próximo volume do Incerto Técnico), devido ao côncavo-convexo respostas (uma espécie de amortecimento da fragilidade e da antifragilidade, trazendo robustez e, portanto, afinando as caudas). 5.1.1 Escalável e não escalável, uma visão mais profunda das caudas gordas Até agora, para a discussão sobre caudas gordas, permanecemos no caso dos momentos finitos. Para um PX>nK determinada classe de distribuições, aquelas com momentos finitos, depende de n e PX>K PX>nK PX>K K. Para uma distribuição sem escala, com K "nas caudas", ou seja, grande o suficiente, depende de n e não de K. Estas últimas distribuições carecem de escala característica e acabarão tendo uma cauda paretiana, ou seja, para x grande suficiente, PX>x = Cxÿÿ onde ÿ é a cauda e C é uma constante de escala. Nota: Podemos ver pela diferença de escala entre Student e Pareto que a definição convencional de uma distribuição caudal da Lei de Potência é expressa mais Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 94 nível 2: subexponenciais e leis de potência registrar Px Estudante (3) 0,1 104 107 Gaussiano 1010 LogNormal-2 1013 registro x 2 5 10 20 Figura 5.2: Três Tipos de Distribuições. À medida que atingimos o resultado, o Student permanece escalável enquanto o O Lognormal padrão mostra uma posição intermediária antes de acabar obtendo um infinito inclinação em um gráfico log-log. Mas cuidado com o lognormal, pois ele pode trazer algumas surpresas (Capítulo 8) . Tabela 5.2: Escalabilidade, comparando funções/leis de potência que variam regularmente com outras distribuições ÿ1 k P(X > k) P(X>k) P(X>2k ) P(X > k) ÿ1 P(X>k) P(X>2k ) ÿ1 P(X > k) P(X>k) P(X>2k ) (Gaussiano) (Gaussiano) Aluno(3) Aluno (3) Pareto(2) 2 44 720 14.4 4.9 8 4 4 31600. 5,1 × 1010 71,4 6.8 64 4 6 1,01 × 109 5,5 × 1023 216 7.4 216 4 8 1,61 × 1015 9 × 1041 491 7.6 512 4 9 × 1065 940 7.7 1000 4 fughedabaudit 1610 7,8 1730 4 fugidobaudit 2530 7,8 2740 4 fughedabaudit 3770 7,9 4100 4 fugidobaudit 5350 7,9 5830 4 fughedabaudit 7320 7,9 8.000 4 10 1,31 × 1023 12 5,63 × 1032 14 1,28 × 1044 16 1,57 × 1057 18 1,03 × 1072 20 3,63 × 1088 formalmente como P(X > x) = L(x)x satisfaz o seguinte: -a Pareto (2) onde L(x) é uma "função de variação lenta", que L(tx) limxÿÿ eu(x) =1 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 5.1 nível 3: escalabilidade e leis de potência 95 para todas as constantes t > 0. logP>x Para x grande o suficiente, converge para uma constante, ou seja, o expoente final logx -ÿ. Um escalável deve produzir a inclinação ÿ nas caudas em um gráfico log-log, como x ÿ ÿ. Compare com o Gaussiano (com STD ÿ e média µ), pegando o PDF desta vez em vez do log de probabilidade de excedência (f(x)) = que vai para ÿÿ mais rápido que ÿ log(x) para ±x ÿ ÿ. (xÿµ) 2ÿ 2 2 ÿ log(ÿ ÿ 2ÿ) ÿ ÿ 2s122 x Até agora, isso nos dá a intuição da diferença entre classes de distribuições. Apenas os escaláveis têm caudas gordas "verdadeiras", já que outros se transformam em gaussianos sob soma. E o expoente da cauda é assintótico; talvez nunca cheguemos lá e o que veremos será uma versão intermediária disso. A figura acima foi extraída de distribuições platônicas prontas para uso; na realidade, os processos são muito mais confusos, com alternâncias entre expoentes à medida que os desvios aumentam. Definição 5.1 (a classe P) A classe P de leis de potência (variação regular) é definida para rv X da seguinte forma: P = {X : P(X > x) ÿ L(x) x -a } (5.7) 5.1.2 Cisnes Cinzentos Figura 5.3: O gráfico representa o log log da GBP, a moeda britânica. Podemos ver o “Cisne Cinzento” do Brexit (ou seja, o salto da moeda quando foram divulgados os inesperados resultados do referendo); quando visto usando uma lei de potência, o grande desvio é bastante consistente com a propriedade estatística laços. Por que usamos o Student T para simular leis de potência simétricas? Por conveniência, apenas por conveniência. Não é que acreditemos que o processo gerador seja o Estudante T. Simplesmente, o centro da distribuição não importa muito para as propriedades envolvidas em certas classes de tomada de decisão. Quanto menor o expoente, menos o centro desempenha um papel. Quanto maior o expoente, mais o estudante T se assemelha ao Gaussiano e mais justificado será seu uso. Métodos mais avançados envolvendo o uso de leis de Levy podem ajudar no caso de assimetria, mas o uso de duas distribuições de Pareto diferentes com duas distribuições diferentes Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 96 nível 2: subexponenciais e leis de potência ÿ>ÿ ÿ Figura 5.4: Vendas de livros: o ÿÿÿ near tail pode ser robusto para estimativa de vendas a partir da classificação e vice-versa – funciona bem e mostra robustez ÿÿÿÿ contanto que não se calculem expectativas gerais ou momentos superiores não truncados. a=ÿÿÿ ÿÿÿÿÿ ÿÿ-ÿ ÿ ÿÿÿ ÿÿÿ ÿÿÿ ÿ 10 200 400 600 10 20 30 800 1000 Figura 5.5: A Turquia Problema, onde nada em as propriedades passadas parecem indicar a possibilidade de o pulo. 40 50 expoentes, um para a cauda esquerda e outro para a direita fariam o trabalho (sem complicações desnecessárias). Questões de estimativa Observe que existem muitos métodos para estimar o expoente de cauda ÿ a partir de dados, o que é chamado de "calibração. No entanto, veremos, o expoente de cauda ÿ expoente é bastante difícil de adivinhar, e sua calibração está marcada por erros, devido a a insuficiência de dados nas caudas. Em geral, os dados mostrarão uma cauda mais fina do que deveria. Voltaremos ao assunto com mais profundidade em capítulos posteriores. 5.2 algumas propriedades das leis de potência Duas propriedades centrais. 5.2.1 Somas de variáveis Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 5.2 algumas propriedades das leis de potência 97 Propriedade 1: Expoente final de uma soma Seja X1 , X2, . . . Xn serão variáveis aleatórias nem independentes nem distribuídas de forma idêntica, cada Xi seguindo uma distribuição com um expoente de cauda assintótico diferente ÿi (assumimos que variáveis aleatórias fora da classe da lei de potência terão um alfa assintótico = +ÿ). Suponhamos ainda que estamos preocupados com a cauda direita da distribuição (o argumento permanece idêntico quando o aplicamos à cauda esquerda). Veja [99] para mais detalhes. n Considere a soma ponderada Sn = ÿ eu=1 wiXi , com todos os pesos wi estritamente positivos. Considere ÿs o expoente final da soma. Para todo wi > 0, ÿs = min(ÿi ). Claramente, se ÿ2 ÿ ÿ1 e w2 > 0, log ( w1x ÿÿ2limxÿÿ ) ÿÿ1 log(x) + w2x = a2. A implicação é que adicionar uma única soma com média, variância ou momentos superiores indefinidos (ou infinitos) faz com que a soma total tenha média, variância ou momentos superiores indefinidos (ou infinitos). Princípio 5.1 (Leis de Potência + Caudas Finas = Leis de Potência) A mistura de leis de potência distribuídas e variáveis de cauda fina resulta em leis de potência, independentemente da composição. 5.2.2 Transformações A segunda propriedade, embora pareça benigna, pode ser muito mais irritante: Propriedade 2 Seja X uma variável aleatória com expoente final ÿ. O expoente final de X p é a. p Isso nos diz que a variância de uma variável aleatória de variância finita com expoente final < 4 será infinita. Na verdade, veremos que isso causa problemas para modelos de volatilidade estocástica, quando o processo real pode, na verdade, ter variância infinita. Isto nos dá uma dica, sem muito esforço técnico, de como uma transformação convexa de uma variável aleatória engrossa a cauda. Prova. A abordagem geral é a seguinte. Seja p(.) uma função de densidade de probabilidade e ÿ(.) uma transformação (com algumas restrições). Temos a distribuição da variável transformada (assumindo que o suporte é conservado – permanece o mesmo): (ÿ (x)) = ÿÿ p ( ÿ (ÿ1) (x) ) p ( ÿ (ÿ1) (x) ) . (5.8) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 98 nível 2: subexponenciais e leis de potência Suponha que x > l e l sejam grandes (ou seja, um ponto onde a função de variação lenta "deixa de variar" dentro de alguma ordem de x). A PDF para esses valores de x pode ser escrita como p(x) ÿ Kxÿÿÿ1 . Considere y = ÿ(x) = x p : a função inversa de y = x p é 1 x=y p. . Aplicando ao denominador na Eq. 5,8, obtemos 1xp _ 1-p p . _ - Integrando acima de l, a função de sobrevivência será: P(Y > y) ÿ y a p . 5.3 leis de potência em forma de sino versus leis de potência sem forma de sino O efeito da função de variação lenta, um estudo de caso Quanto mais gordas as caudas, menos o “corpo” importa para os momentos (que eventualmente se tornam infinitos). Mas para leis de potência com caudas mais finas, a zona que não é lei de potência (a parte que se move lentamente) desempenha um papel - "variando lentamente" é definida mais ou menos formalmente em 5.1.1,18.2.2 e 5.1.1. Esta seção mostrará como distribuições aparentemente iguais podem ter formatos diferentes. Vamos comparar uma distribuição de Pareto duplo com o seguinte PDF: ÿÿ (1 + x) fP(x) = ÿÿÿ1 xÿ0 ÿÿ ÿÿÿ1 ÿÿ ÿ(1 ÿ x) x<0 para um Student T com mesmo parâmetro de centralidade 0, parâmetro de escala s e PDF a fS(x) = 1 (ÿÿÿ1) 2 x2 ÿ/2 ( ÿ+ 2é ) 1 ÿ = (C(a))(C(b)) C(a+b) onde B(.) é a função beta de Euler, B(a, b) = sB( ÿ22, ) 1aÿ1t 0 ÿt ) bÿ1 dt. (1 Temos duas maneiras de comparar distribuições. fp(x) • Equalizando pela proporção da cauda: definindo limxÿÿ =fs(x) 1 para obter a mesma proporção da cauda, nós 1ÿ a obtenha a distribuição "cauda" equivalente com s = ( ÿ 1 2, 2B ( uma 2 ))1/a . 2 ) P • Equalizando por desvios padrão (quando finito): temos, com ÿ > 2, E(X 1ÿ a 2a 2ÿ3a +2 e E(X 2 uma S ( uma ) = = 1 2, 2B ( uma a-2 2 ) )2/a . P ) = ÿ k ÿ E(X2 S Então poderíamos definir ÿ E(X2 2ÿ ÿ2/ ÿB( ÿ ) k 2ÿ , a-1 1 ) 2 ÿ2/uma }. Por fim, temos a comparação semi-côncavo em formato de sino versus o duplo-convexo angular como visto na Figura 5.6. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 5.4 poderes interpolativos de leis de potência: um exemplo 99 PDF 3,0 2,5 2,0 fp(.) 1,5 fs (.) Figura 5.6: Comparando dois leis de potência simétrica de mesmo expoente, um com um função breve de variação lenta, o outro com função estendida. Todos os momentos eventualmente se tornar o mesmo apesar das diferenças centrais em sua forma para 1,0 pequenos desvios. 0,5 x -4 -2 2 4 5.4 poderes interpolativos de leis de potência: um exemplo Considere os pedidos de subsídio de desemprego durante a pandemia da COVID-19: o desemprego aumentou muitos dos chamados desvios padrão em março de 2020. Mas será que o salto foi uma exceção? Talvez se você olhar para 5.7 e pensar como alguém treinado em caudas finas. Mas não realmente. Como mostra a Figura 5.8 , o expoente da cauda praticamente não muda. A escala de a distribuição talvez possa variar, mas o expoente é evidentemente robusto para observações fora da amostra. Registrar alterações em pedidos de seguro-desemprego 2,5 2,0 Figura 5.7: Pedidos de subsídio de desemprego: 1,5 parece que o salto é uma surpresa... mas apenas para economistas não treinados. Como a Fig. 5,8 mostra, não deveria ser. 1,0 E para os olhos treinados (um la Benoit Mandelbrot), as variações foram suaves, mas 0,5 certamente nunca gaussianas. 0,0 5,5 caudas supergordas: a distribuição log-pareto A mãe de todas as caudas gordas, a distribuição log-Pareto, não está presente em comum listas de distribuições, mas podemos redirecioná-las aqui. O log-Pareto é o Paretiano análogo da distribuição lognormal. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 100 nível 2: subexponenciais e leis de potência P> 0,100 0,050 Figura 5.8: Gráfico de Zipf para pedidos de subsídio de desemprego: 0,010 não precisámos do salto abrupto 0,005 durante a pandemia da COVID-19 (último ponto à direita) para perceber que se tratava de uma lei de potência. 0,001 5.×10-4 x 0,1 0,2 0,5 Observação 5: Redescobrindo a distribuição log-Pareto Se X ÿ P(L, ÿ) a distribuição de Pareto com PDF f (P) (x) = ÿL ÿx ÿÿÿ1 função , x ÿ L e de sobrevivência S (P) (x) = L ÿx ÿÿ ÿ , então: e X LP(L, ÿ) o distribuição log-Pareto com PDF ÿL ÿlog ÿÿÿ1 (x) (x) = (LP) f x ,xÿe eu e função de sobrevivência S (LP) (x) = Lÿ log ÿÿ (x) Enquanto para uma lei de potência regular, temos uma inclinação linear assintótica no gráfico loglog, ou seja, log (L ÿx ÿÿ ) = ÿuma, limxÿÿ log(x) a inclinação de um log-Pareto vai para 0: log (L a log(x) ÿa ) = 0, limxÿÿ log(x) e claramente nenhum momento pode existir independentemente do valor do parâmetro final ÿ. A diferença entre comportamentos assintóticos é visível na Figura 5.9. 5.6 Volatilidade pseudo-estocástica: uma investigação Mencionamos anteriormente no Capítulo 3 que uma afirmação “10 sigma” significa que não estamos no mundo gaussiano. Também discutimos o problema da não observabilidade das distribuições de probabilidade: observamos dados, não geramos processos. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 5.6 volatilidade pseudo-estocástica: uma investigação 101 Registro S(x) 10 Pareto 5 Log-Pareto Figura 5.9: Comparando gráficos log-log para as funções de sobrevivência do Pareto e log-Pareto 1 0,50 0,10 0,05 Registro x 5 10 50 100 Portanto, é fácil ser enganado por uma lei de potência, confundindo-a com um processo heterocedástico. Em retrospectiva, podemos sempre dizer: "a volatilidade condicional foi elevada, pelo menos tal desvio padrão não é mais um 10 sigma, mas um mero desvio de 3 sigma". A maneira de desmascarar essas afirmações é raciocinar com a ajuda de um problema inverso: como uma lei de potência com escala constante pode se disfarçar como um processo heterocedástico. Veremos no Apêndice como a dependência da econometria na heterocedasticidade (ou seja, variância móvel) tem defeitos graves, uma vez que a variância dessa variância não tem uma estrutura. pág.22 100 80 60 40 20 t 500 1000 1500 2000 2500 Figura 5.10: Volatilidade realizada de 22 dias (ou seja, correspondente a mensal) (desvio padrão) para retornos distribuídos de Student T amostrados diariamente. Dá a impressão de volatilidade estocástica quando na verdade, a escala da distribuição é constante. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 102 nível 2: subexponenciais e leis de potência A Figura 5.10 mostra a volatilidade dos retornos de um mercado que se assemelha muito àqueles que deveriam ser usados um processo padrão de volatilidade estocástica simples. Por volatilidade 2. estocástica, assumimos que a variância é distribuída aleatoriamente Sejam X os retornos com média 0 e escala ÿ, com PDF ÿ(.): uma+1 2 2 ( ax a +p 2 ) ÿ(x) = Transformando para obter Y = X 2 1 2, 2) ÿ asB ( uma ,x ÿ (ÿÿ, ÿ). (para obter a distribuição do segundo momento), ÿ, o PDF para Y torna-se, uma+1 2 ÿ(y) = ( ÿÿ2 ÿÿ2+y ) , e ÿ (ÿÿ, ÿ), 1 2 , 2 ) ÿÿy ÿB ( uma que podemos ver se transforma em uma lei de potência com expoente de cauda assintótico A'2 . _ A função característica ÿy(ÿ) = E(exp(iÿY)) pode ser escrita como 1 2 1 xy(ÿ) = 1 2, 2B ( uma 2 ) ( ÿ ÿ comoÿ 1 as2 a ; ÿias2o ) 2a +1 ((pa) csc) ( ÿ ÿ 1F˜ 1 ( C( 2) (5.9) um + 2 A'2 _ (ÿiÿ) ÿ/2 1F˜ 1 ( ÿ + 12 ÿ ( 1 as2 )ÿ ;1- ; 2 ; -ias2o ))) A partir do qual obtemos o desvio médio do segundo momento da seguinte forma3 : a 5 2 MD do segundo momento 7 5 5 ; ;ÿ 4 , 44 4 ÿ3 5 2 3/4 ( 2 2F1( 1 2 5 73/4 (7 2F1( 3 9777 ; ;ÿ 4 , 44 18h Pi 6 )ÿ3 2F1( 7 6 9 11 7 ; ;ÿ 4 , 44 6 ))s 2C( 5 4 ) 63/4 ÿ ÿÿ( 7 4 ) 1 4 2 7 ( 3 ÿ 21 ÿ 7 ) p 3 9 2 ) p 2C( 74 ) ÿÿ ( 5 4 ) 3 7 2 3/4 6 )+3( 6 11 ) 4 ÿ2 3 5 ( 6( 25 ) 3/4 ÿ6 2F1( 5 11 9 3 ; ;ÿ 4 , 44 2 ) ) p 2C( 11 4) 5 ÿ ÿÿ( 9 4 ) p 2 ( 7 ÿ 15ÿ16 tanÿ1 (ÿ 5 3 )) 18h 2 Pode-se ter modelos com variância estocástica ou desvio padrão estocástico. Os dois têm expectativas diferentes. 3 Como é habitual, não utilizamos o desvio padrão como métrica devido à sua instabilidade e falta de informação, mas preferimos o desvio médio. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 5.6 volatilidade pseudo-estocástica: uma investigação 103 próximo O próximo capítulo se aventurará em dimensões superiores. Algumas consequências são óbvias, outras nem tanto – digamos que existem correlações mesmo quando as covariâncias não existem. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 6 TA ILSINHIGHERDIMENSION S† T sua discussão é o mais simplificado possível no manuseio de dimensões superiores. Veremos 1) o efeito simples da cauda gorda para múltiplas variáveis aleatórias, 2) Elipticalidade e distribuições, 3) matrizes aleatórias e a distribuição associada de autovalores, 4) Como podemos observar a covariância e correlações quando os momentos não existem (digamos, como no caso de Cauchy). 2 2 0 -2 0 -4 -2 4 2 2 0 0 -2 -2 -4 -4 -2 0 2 -2 0 2 4 Figura 6.1: Caudas grossas em dimensões superiores: Para um vetor tridimensional , caudas finas (esquerda) e caudas grossas (direita) da mesma variância. No lugar de uma curva em sino com pico mais alto (o "túnel") do caso univariado, vemos um aumento na densidade de pontos em direção ao centro. Capítulo de discussão. 105 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 106 caudas grossas em dimensões superiores† 6.1 caudas grossas em dimensões superiores, momentos finitos Construiremos as intuições de caudas grossas desde a convexidade até a escala, como fizemos no capítulo anterior, mas usando dimensões mais altas. ÿ X = (X1 , X2, . . . , Xm) é um vetor aleatório ap × 1 com as variáveis assumidas como extraídas de uma Gaussiana multivariada. Considere a distribuição de probabilidade conjunta f (x1 ,..., xm). Denotamos a distribuição normal multivariada mvariada N ( vetor médio µ, matriz de variância-covariância ÿ e pdf conjunta, µ, ÿ),por com Deixar ÿ ÿ 1 f (ÿ x ) = (2ÿ) ÿm/2 |ÿ| ÿ1/2 onde ÿ ÿ exp ( ÿ 2 ( ÿx- _ µ )T ÿ ÿ1 (ÿ x ÿ ÿ )) (6.1) ÿ x = (x1 , . . . , xm) ÿ Rm, e ÿ é uma matriz simétrica definida positiva (m × m). Podemos aplicar a mesma heurística simplificada de preservação de variância como em 4.1 para engordar as caudas: 1 faz (ÿ x) = 1 ÿ ÿ 2 (2ÿ) ÿm/2 |ÿ1 | ÿ1/2 exp ( - 2 ( ÿx- _ µ )T ÿ1 ÿ1 (ÿ x ÿ + 1 1 ÿ )) ÿ ÿ 2 (2ÿ) ÿm/2 |ÿ2| ÿ1/2 exp ( - 2 ( ÿx- _ µ )T ÿ2 ÿ1 (ÿ x ÿ µ )) (6.2) onde a é um escalar que determina a intensidade da volatilidade estocástica, ÿ1 = ÿ(1 2 + a) e ÿ2 = ÿ(1 ÿ a). Figura 6.2: Retornos conjuntos de Powerlaw com contorno elíptico (Aluno T). 2 Podemos simplificar assumindo, como fizemos no caso unidimensional, sem qualquer perda de generalidade, que ÿ µ = (0, . . . , 0). Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 6.1 caudas grossas em dimensões superiores, momentos finitos 107 Figura 6.3: Retornos Conjuntos NãoElípticos, a partir de correlações estocásticas. Observe na Figura 6.1, como no caso unidimensional, uma concentração na parte intermediária da distribuição.3 Figura 6.4: Retornos conjuntos com contorno elíptico para uma distribuição multivariada (x, y, z) resolvendo para a mesma densidade. 3 Criamos caudas grossas tornando as variâncias estocásticas enquanto mantemos as correlações constantes; isso é para preservar o caráter definido positivo da matriz. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 108 caudas grossas em dimensões superiores† Figura 6.5: Conjunto não elíptico rv, a partir de correlações estocásticas, para uma distribuição multivariada (x, y, z), resolvendo para a mesma densidade. 6.2 cauda gorda conjunta e elipticidade das distribuições Há outro aspecto, além de nossa(s) definição(ões) anterior(es) de cauda gorda, uma vez que aumentamos a dimensionalidade em vetores aleatórios: Figura 6.6: A história se move por saltos: Um processo histórico de cauda grossa, no qual os eventos são distribuídos de acordo com uma lei de potência que corresponde ao "80/20", com ÿ ÿ 1,13, representado como um processo de Levy 3-D. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 6.2 cauda gorda conjunta e elipticidade das distribuições 109 Figura 6.7: O que os proponentes da “grande moderação” ou da “paz prolongada” têm em mente: a história como um processo de cauda fina. O que é uma distribuição com contorno elíptico? A partir da definição padrão, [88], dizse que X, um vetor aleatório ap × 1 tem uma distribuição elíptica (ou com contorno elíptico) com parâmetros de localização µ, uma matriz não negativa ÿ e alguma função escalar ÿ se sua função característica ÿ é da forma ÿ(t) = exp(itÿµ)ÿ(tÿt ÿ ). (6.3) Existem definições equivalentes com foco na densidade; considere por enquanto que o atributo principal é que ÿ é uma função de uma única matriz de covariância ÿ. Intuitivamente, uma distribuição elíptica deve mostrar uma elipse para gráficos de isodensidade; veja como representamos em 2-D (para uma bivariada) e 3-D (para uma trivariada) nas Figuras 6.2 e 6.4. Uma distribuição não-líptica violaria a forma mostrada nas Figuras 6.3 e 6.5. A principal propriedade da classe de distribuição elíptica é que ela é fechada sob transformação linear. Intuitivamente, como vimos no Capítulo 3 com o exemplo de altura versus riqueza, isso significa (numa situação bivariada) que é menos provável que as caudas venham de um do que de dois desvios marginais. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 110 caudas grossas em dimensões superiores† Elipticalidade e Falhas Centrais na Teoria Financeira Este fechamento sob transformação linear leva a propriedades atraentes na construção de carteiras e nos resultados da teoria de carteiras (na verdade não se pode ter teoria de carteiras sem eliticalidade das distribuições). Na elipticidade, todas as carteiras podem ser completamente caracterizadas pela sua localização e escala e quaisquer duas carteiras com localização e escala idênticas (no espaço de retorno) têm distribuições de retornos idênticas. Observe que (ironicamente) as distribuições Lévy-Stable são elípticas – mas apenas na forma como são definidas. Assim, a elipticalidade (sob a condição de variância finita) permite a extensão dos resultados da moderna teoria de portfólio (TMP) sob a chamada “não normalidade”, descoberta inicialmente por[183], ver também [121]. No entanto, parece (daqueles de nós que trabalham com covariâncias estocásticas) que os retornos não são elípticos por qualquer medida concebível, ver Chicheportiche e Bouchaud [42] e gráficos visuais simples de estabilidade de correlação como em E.8. Um exemplo pedagógico simples usando a heurística 1 ± a que apresentamos em 4.1. Vigaristaÿÿt2t1ÿ considere a normal bivariada com função característica ÿ(t1 , t2) = e 2 2t1 - 2t 22 Agora vamos estocasticizar o parâmetro ÿ , com p probabilidade de ÿ1 e (1 ÿ p) probabilidade de rho2: ÿ(t1 , t2) = peÿÿ1t2t1ÿ A Figura 6.8 mostra o resultado com p = 2t 12- 2t2 2 + (1 ÿ p)peÿÿ2t2t1ÿ 12 2t 12- 2t 22 (6.4) e ÿ1 = ÿ2. Podemos ser mais formais e mostrar a diferença, quando ÿ é estocástico, entre ÿ (tE(ÿ)t ' ) e E (ÿ(tÿt ' )) na Eq. 6.3. Diversificação Lembre-se de que a teoria financeira falha sob caudas grossas (e nenhuma correção resolveu o problema, exceto o “overfitting” que discutimos nos capítulos anteriores). A ausência de elipticalidade encerra o assunto. A implicação é que todos os métodos baseados na construção de carteiras ao estilo de Markowitz, isto é, baseados na ideia de diversificação, não conseguem reduzir o risco, ao mesmo tempo que conseguem suavizar enganosamente a volatilidade diária. Adicionar alavancagem torna as explosões certas no longo prazo a. a Isto inclui uma abordagem repugnante chamada “paridade de risco” amplamente utilizada para angariar dinheiro através de fumo pseudoteórico e pseudoacadémico, um método chamado “recolha de activos”. 6.3 estudante multivariado t O T de Student multivariado é uma forma conveniente de modelar, pois colapsa para Cauchy para ÿ = 1. A alternativa seria o estável multivariado, que, veremos, é desprovido de densidade. . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 111 6.3 estudante multivariado t 2 2 2 1 1 1 0 0 0,2 -1 -1 -2 -2 -2 -1 0 1 2 0 0,3 -1 -2 -2 -1 0 1 2 -2 2 2 2 1 1 1 0 0 0,5 -2 -1 0 1 2 1 0 2 Figura 6.8: Estocástico correlação para uma distribuição binormal padrão: isodensidades para combinações diferentes. 0,7 Usamos um método muito simples técnica da Eq. 6.4, com alternância entre -1 -2 -2 -2 -1 0 0,6 -1 -1 0,4 -2 -1 0 1 2 -2 -1 1 0 ÿ1 = ÿ e ÿ2 = ÿÿ ao longo do vão com 2 1 probabilidade p = 2 . 3 2 2 1 1 2 0 1 0 0,8 -1 -1 -2 -2 0 0,9 0,99 -1 -2 -3 -2 -1 0 1 2 -2 -1 0 1 2 -3 -2 -1 0 1 2 3 Seja X um vetor (p × 1) seguindo uma distribuição multivariada de Student T, X ÿ St (M, ÿ, ÿ), onde ÿ é uma matriz (p × p), M um vetor de comprimento e ÿ uma cauda paretiana expoente com PDF ÿ1 f(X) = ( (X ÿ M).S 1 2 (n+p) .(X ÿ M) n . página 1), No caso mais simplificado, com p = 2, M = (0, 0) e ÿ = = ( 1 ÿ f(x1 , x2) = ÿÿ1ÿp 2( (6.5) + 1)ÿ ÿÿÿ2+ÿÿ2ÿx1 x2+x 21+x22 nÿnr2 )- 2p (n ÿ nr2) n ÿ1 2 . (6.6) 6.3.1 Elipticalidade e Independência sob Caudas Grossas Pegue o produto de duas densidades de Cauchy para x e y (o que usamos na Figura 3.1): 1 f(x)f(y) = ÿ2 (x 2 + 1) (e2 +1 ) (6.7) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 112 caudas grossas em dimensões superiores† o que, evidentemente, como vimos no Capítulo 3 (com o exemplo das duas pessoas selecionadas aleatoriamente com um património líquido total de 36 milhões de dólares), não é elíptico. Compare com a distribuição conjunta fÿ(x, y): 1 , fÿ(x, y) = 2 ( y ( y 2ÿ ÿ 1 ÿ ÿ 1-p 2 - ÿx 1-p 2 ) +x( x 1-p 2 - ÿy 1ÿÿ (6.8) 2 ) + 1)3/2 e definindo ÿ = 0 para não obter correlação, 1 f0(x, y) = 2ÿ (x 2 + e2 + 1) 3/2 (6.9) que é elíptico. Isso ilustra como a ausência de correlação não é independência como: A independência entre duas variáveis X e Y é definida pela identidade: f(x, y) = 1, f(x)f(y) independentemente do coeficiente de correlação. Na classe das distribuições elípticas, a Gaussiana bivariada com coeficiente 0 é independente e não correlacionada. Isto não se aplica ao Student T ou ao Cauchy. A razão pela qual a distribuição estável multivariada com coeficiente de correlação definido como 0 não é independente é o seguinte. ' Um vetor aleatório X = (X1 , . . ., Xk ) diz-se que tem distribuição estável multivariada se toda combinação linear de seus componentes Y = a1X1 + · · · + akXk tem uma , a variável aleatória distribuição estável. Ou seja, para qualquer vetor constante a ÿ Rk Y = a TX deve ter uma distribuição estável univariada. E fazer com que uma combinação linear permaneça dentro da mesma classe requer elipticidade. Portanto, por construção, f0(x, y) não é necessariamente igual a f(x)f(y). Considere o caso Cauchy que possui uma função densidade explícita. O denominador do produto das densidades inclui um termo adicional, x 2y 2 , que empurra as isodensidades em uma direção ou outra, como vimos nos exemplos introdutórios do Capítulo 3. 6.4 caudas gordas e informações mútuas Notamos que devido à artificialidade na construção de distribuições multivariadas, a informação mútua não é 0 na presença de independência, uma vez que a razão densidades conjuntas/produto de densidades ÿ= 1 sob 0 "correlação" ÿ. Qual é a informação mútua de um Aluno T (que inclui o Cauchy)? Eu(X, Y) = E log (f(x, y) f(x)f(y) ) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 6.4 caudas gordas e informação mútua 113 Gaussiano -100 p=10-4 a=9998 0 100 200 -200 (a) Gaussiano 0 200 400 (b) Estoque Vol. 3 Distribuição Estudantilÿ -100.000 -50.000 0 2ÿ 50.000 100.000 Distribuição de Alunos[1] -6×108-4×108-2×108 0 2×108 4×108 6×108 (c) Aluno 3/2 (d) Cauchy Figura 6.9: As diversas formas de distribuição dos autovalores para matrizes aleatórias, que no caso gaussiano seguem a distribuição em semicírculo de Wigner. O caso Cauchy corresponde ao Student parametrizado para ter 1 grau de liberdade. onde a expectativa é tomada sob a distribuição conjunta para X e Y. A informação mútua graças ao log é aditiva (observe que pode-se usar qualquer base logarítmica e traduzir dividindo por log(2)). Então I(X, Y) = E (log f(x, y)) ÿ Elog (f(x)) ÿ Elog (f(y)) ou H(X)+H(Y) -H(X, Y ) onde H é a entropia e H(X, Y) a entropia conjunta. Notamos que ÿ1 log(1 ÿÿ 2 2 ) é a informação mútua de um gaussiano independentemente da parametrização. Portanto, para X, Y ÿ Estudante Multivariado T (ÿ, ÿ), a informação mútua Iÿ(X, Y): Euÿ(X, Y) = ÿ 1 2 log ( 1 ÿ ÿ 2 ) + la (6.10) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 114 caudas grossas em dimensões superiores† onde 2 la = - a + log(ÿ) + 2ÿ(ÿ + 1) csc(ÿ) + 2 log ( B ( ÿ 2 )) ÿ 2 , (6.11) 1 2 (ÿ + 1)Hÿ ÿ + (uma + 1)Hÿ uma 2 - 12 ÿ 1 ÿ log(2ÿ) onde csc(.) é a cossecante do argumento, B(., .) é a função beta e H(.) (r) é o número harmônico Hr n (1) com Hn = H =ÿ n n . Notamos que ÿÿ ÿÿÿÿ 1 0. eu = 1 eu r Para concluir esta breve seção, as métricas ligadas à entropia, como a informação mútua, são muito mais potentes do que a correlação; informações mútuas podem detectar não linearidades. 6,5 caudas gordas e matrizes aleatórias, um interlúdio rápido Os próprios valores das matrizes têm um análogo da convergência gaussiana: a distribuição em semicírculo, conforme mostrado na Figura 6.9. Seja M uma matriz simétrica (n, n). Temos os autovalores ÿi , 1 ÿ i, ÿ n tais º autovetor. que M.Vi = ÿiVi onde Vi é o i A distribuição semicírculo de Wigner com suporte [ÿR, R] tem para PDF f apresentando um semicírculo de raio R centrado em (0, 0) e então adequadamente normalizado: 2 f(ÿ) = ÿR2 ÿ R2 ÿ ÿ2 para ÿ R ÿ ÿ ÿ R. (6.12) Esta distribuição surge como a distribuição limite de autovalores de (n, n) matrizes simétricas com momentos finitos à medida que o tamanho n da matriz se aproxima do infinito. Faremos um tour pela "cauda gorda" da matriz aleatória a seguir, bem como a convergência. Isto é o equivalente a caudas grossas para matrizes. Considere por enquanto que o 4º momento atingindo os níveis gaussianos (ou seja, 3) para uma situação univariada é equivalente aos autovalores atingindo o semicírculo de Wigner. º 6.6 correlação e variância indefinida A seguir examinamos um paradoxo: embora as covariâncias possam ser infinitas, a correlação é finita. No entanto, terá um enorme erro de amostragem para ser informativo – o mesmo problema que discutimos com o PCA no Capítulo 3. Pergunta: Por que uma distribuição de cauda gorda na classe P da lei de potência com média infinita ou indefinida (e momentos mais altos) teria, em dimensões mais altas, covariância indefinida (ou infinita), mas correlação finita? Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 6.6 correlação e variância indefinida 115 Considere uma distribuição com suporte em (ÿÿ, ÿ). Não tem momentos: E(X) é ) = ÿ, 2 não tem covariância, E(XY) é indeterminado. Mas o (nãoindeterminada, a correlação E(X central) para n variáveis é limitada por ÿ1 e 1. R ÿ ÿ ÿ ÿ n = 1 xiyi i n eu = 1 x , n = 2, 3, ... n 2 2 eu ÿ ÿ eu = 1 e eu Pela propriedade da subexponencialidade, temos P (X1 + . . . + Xnÿ x) ÿ P (max (X1 , . . . Xn) > x) como x ÿ ÿ. Notamos que a classe da lei de potência está incluída na classe subexponencial S. Ordene as variáveis em valores absolutos de modo que |x1| ÿ |x2| ÿ . . . ÿ |xn| n-1 Seja ÿ1 = ÿ i=1 xiyi , ÿ2 = ÿ n-1 nÿ1 2 x eu=1 eu , eu . xnyn + ÿ1 limxnÿÿ lim ynÿÿ ÿx 2 n + ÿ2 ÿy = n + k3 2 xnyn + ÿ1 ÿx lim xnÿ+ÿ ynÿ+ÿ lim xnÿ+ÿ ynÿÿÿ 2 e ÿ3 = ÿ i=1 y 2 n + ÿ2 ÿy 2 n em 2ÿ3 + y n ÿ 2k2 + x n xn = + k3 xnyn + ÿ1 ÿx 2 n + ÿ2 ÿy =1 2 n + k3 xnyn + ÿ1 ÿx 2 n ÿx 2 n + ÿ2 ÿy 2 n , ÿ = ÿ1 + k3 e lim xnÿÿÿ ynÿ+ÿ xnyn + ÿ1 + ÿ2 ÿy 2 n = ÿ1 + k3 para todos os valores de n ÿ 2. frequência 10 8 Figura 6.10: Distribuição amostral de correlação para uma amostra 6 de 103 . A correlação existe para uma distribuição T bivariada (correlação de expoente), 3 mas... não pode ser usada. 4 23 , 4 2 0 -0,5 0,0 0,5 1,0 R Um exemplo da distribuição de correlação é mostrado na Figura 6.10. Correlação finita não significa baixa variância: ela existe, mas pode não ser útil para fins estatísticos devido ao ruído e à convergência lenta. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 116 caudas grossas em dimensões superiores† 6,7 resíduos de cauda gorda em modelos de regressão linear Figura 6.11: Gráfico log-log da função de sobrevivência dos resíduos quadrados P> 0,100 2 ÿ para o QI-renda linear regressão usando dados padrão do Winsconsin Longitudinal Studies (WLS). Nós observe que as variáveis de 0,010 renda são Winsorizadas. Cortar as caudas cria o efeito 2 . Atualilusão de um R alto 0,001 aliado, mesmo sem recorte cauda, o coeficiente de determinação mostrará muito valores mais elevados devido ÿ^2 2x106 5×106 1x107 pequenas propriedades de amostra para a variância de uma lei de potência. R2 2,0 Figura 6.12: Um infinito caso de variância que mostra um 2 alto R na amostra; mas no final das contas tem o valor 0. membro que R Re-é 2 1,5 estocástico. O problema muito assemelha-se ao dos valores P no Capítulo 19 devido ao complicação de uma metadistribuição em [0, 1]. 1,0 0,5 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 Mencionamos no Capítulo 3 que a regressão linear não informa sob caudas grossas. No entanto, é praticado. Por exemplo, é patente que as variáveis do rendimento e da riqueza são lei de potência distribuída (com uma série de problemas, veja nossas discussões de Gini em 13). No entanto, as pontuações de QI são gaussianas (aparentemente intencionalmente). No entanto, as pessoas regridem uma a uma o outro não consegue ver que é impróprio. Considere a seguinte regressão linear em que os independentes e independentes são de classes diferentes: Y = aX + b + ÿ, onde X é Gaussiano padrão (N (0, 1)) e ÿ é lei de potência distribuída, com E(ÿ) = 2 0 e E(ÿ ) < +ÿ. Não há restrições nos parâmetros. Claramente podemos calcular o coeficiente de determinação R 2 como 1 menos a proporção da expectativa da soma dos resíduos sobre as variações quadradas totais, então obtemos a resposta mais geral ao nosso modelo idiossincrático. Como X ÿ N (0, 1), aX + b ÿ N (b, |a|), temos Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 6,7 resíduos de cauda gorda em modelos de regressão linear 117 n R = 1 ÿ = 1 ÿSSres ÿ 2 eu=1 (yi - (eixo + b + ÿi )) ÿ SStot n eu=1 (yi - y) 2 2 . Podemos mostrar que, para n grande 2 uma R2 = (6.13) 2). + E(ÿ 2 ) + O ( 1 n 2 uma eu E, claro, para variação infinita: limão E(R 2 ) = 0. E(ÿ2 )ÿ+ÿ 2 seguirá um Quando ÿ é distribuído em T com ÿ graus de liberdade, claramente ÿ Distribuição FRácio (1, ÿ) –uma lei de potência com expoente A'2 . _ E 4000 2000 Figura 6.13: Uma regressão de Cauchy com um esperado 2 R = 0, falsificando, mas mostrando valores mais altos em amostras X -4 -3 -2 -1 1 2 3 pequenas (aqui 0,985). -2000 . Observe que também podemos calcular a mesma "expectativa" tomando, simplesmente, o quadrado da correlação entre X e Y. Por exemplo, suponha que a distribuição para ÿ seja a distribuição T de Student com média zero, escala ÿ e expoente final ÿ > 2 (como vimos anteriormente, obtemos resultados idênticos aos outros, desde que restrinjamos a média a 0). Vamos começar calculando a correlação: o numerador é a covariância Cov(X, Y) = E ((aX + b + ÿ)X) = a. O denominador (desvio padrão . Então para Y) torna-se ÿ E (((aX + ÿ) ÿ a) 2) = ÿ 2ÿa 2ÿ4a 2+ÿÿ2 a-2 E(R 2 2 uma )= (ÿ ÿ 2) 2(uma - 2)uma 2 + ÿ2 (6.14) E o limite de cima: limite ÿÿ2+ Temos o cuidado aqui de usar E(R 2 E(R 2 ) = 0. ) em vez do R aparentemente determinístico porque é uma variável estocástica que será extremamente dependente da amostra e só se estabilizará para n grande, talvez até n astronomicamente grande. Na verdade, lembre-se que 2 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 118 caudas grossas em dimensões superiores† na amostra a expectativa será sempre finita, mesmo que os ÿ sejam Cauchy! O ponto é ilustrado nas Figuras 6.12 e 6.13. Na verdade, quando se utiliza o máximo 2 ) usando ÿ, (o método da "média sombra" na notamos que no exemplo de QI 2 via E ( ÿde verossimilhança do R Capítulos 13 e 14, entre outros) estimativa usado no gráfico, a média dos resíduos amostrais são cerca de metade da probabilidade máxima um, tornando R 2 ainda mais baixo (isto é, virtualmente 0) 4 . Este ponto invalida muitos estudos sobre as relações QI-riqueza e QI-renda do tipo [268]; podemos ver o efeito impressionante na Figura 6.11. Dado que R está limitado em [0, 1], ele atingirá seu valor verdadeiro muito lentamente – veja o problema do valor P no Capítulo 19. Propriedade 3 Quando uma variável aleatória de cauda gorda é regredida em relação a uma variável de cauda fina, o maior de determinação do coeficiente 2 será tendencioso para mais alto e requer uma amostra muito tamanho R para convergir (se é que isso acontece). Observe que às vezes as pessoas tentam resolver o problema por meio de alguma transformação não linear de uma variável aleatória (digamos, o logaritmo) para tentar estabelecer uma relação linear. Se a transformação necessária for exata, tudo ficará bem – mas apenas se for exato. Erros podem surgir da discrepância. Pois a correlação é extremamente delicada e, diferentemente da informação mútua, não é aditiva e muitas vezes pouco informativa. O ponto foi explorado por este autor em [238]. próximo Examinaremos no capítulo 8 a lenta convergência das variáveis distribuídas das leis de potência sob a lei dos grandes números (LLN): pode ser até 1013 vezes mais lento que o gaussiano. 4 2,2 109 versus 1,24 109 . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 UM CASO ESPECIAL DE TA ILS ESPECIAIS doença 0 tempo Figura A.1: Uma xícara de café tem menos probabilidade de causar 20 danos “pequenos” do que grandes. Ele se estilhaça e fica exposto a Baixa probabilidade 40 Região (quase) tudo ou nada. O mesmo tipo de recompensa prevalece em mercados com, por exemplo, desvalorizações (reavaliadas), onde 60 pequenos movimentos para além de uma barreira são menos 80 prováveis do que movimentos maiores. 100 F ou distribuições unimodais, as caudas grossas são a norma: pode-se olhar para dezenas de milhares de séries temporais das variáveis socioeconómicas sem encontrar um único episódio de distribuições "platicúrticas". Mas para distribuições multimodais, algumas surpresas podem ocorrer. a.1 multimodalidade e caudas grossas, ou o modelo de guerra e paz Observamos anteriormente em 4.1 que estocasticizando (ou seja, tornando uma variável determinística estocástica), ainda que moderadamente, as variâncias, a distribuição ganha em cauda espessa (conforme expresso pela curtose). Mas mantivemos a mesma média. Mas se também estocastizássemos a média (ao mesmo tempo que preservamos a média inicial) e separássemos suficientemente os resultados potenciais, de modo a obtermos muitas modas, a “curtose” (medida pelo quarto momento) diminuiria. E se associarmos diferentes variâncias a diferentes meios, obtemos uma variedade de “regimes”, cada um com o seu conjunto de probabilidades. 119 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 120 casos especiais de caudas grossas Pr. S2 S1 Figura A.2: O modelo de guerra e paz. Curtose =1,7, muito inferior à Gaussiana. Curtose 3,0 2,5 Figura A.3: Curtose negativa (relativa) e bimodalidade (3 é o Gaussiano). 2,0 1,5 -10 -5 5 m1-m2 10 Ou o próprio significado de “caudas grossas” perde seu significado sob a multimodalidade, ou assume um novo significado onde o “meio”, em torno da expectativa, deixa de ter importância.[7, 156]. Ora, existem muitas situações na vida real em que somos confrontados com muitos regimes ou estados possíveis. Assumindo momentos finitos para todos os estados, considere a seguinte estrutura: s1 um regime calmo, com média esperada m1 e desvio padrão ÿ1 , s2 um regime violento, com média esperada m2 e desvio padrão ÿ2, ou mais desses estados. Cada estado tem sua probabilidade pi . Agora tomemos o caso simples de uma Gaussiana com médias de comutação e variância: com será 12 ,X ÿ N (µ1 , ÿ1 ) e com probabilidade X ÿ N (µ2, 12 , ÿ2). A probabilidade de curtose 4 Curtose = 3 ÿ 2 ( (µ1 ÿ µ2) 2 ( (µ1 ÿ µ2) 22ÿp ÿ 6 ( pág.1 (A.1) 22+p2 + 2 ( p1 2 )2 ) ) )2 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 a.1 multimodalidade e caudas grossas, ou o modelo de guerra e paz 121 Como vemos, a curtose é uma função de d = µ1 ÿ µ2. Para situações onde ÿ1 = ÿ2, µ1 ÿ= µ2 , a curtose será inferior à da Gaussiana regular e nossa medida será naturalmente negativa. Na verdade, para que a curtose permaneça em 3, 2 ÿ min(ÿ1 , ÿ2) 2, |d|= ÿ4 6 ÿ máx(ÿ1 , ÿ2) a estocasticidade da média compensa a estocasticidade da volatilidade. Suponhamos, para simplificar um modelo de período único, como se estivéssemos diante de uma fatia discreta da história, olhando para o futuro, para os resultados. (Adicionar complicações (matrizes de transição entre diferentes regimes) não altera o resultado principal.) A função característica ÿ(t) para a distribuição mista torna-se: N (t) = ÿÿ pi e - 1 2 t 2ÿ 2 +itmi eu eu=1 Para N = 2, os momentos são simplificados da seguinte forma: M1 = p1m1 + (1 ÿ p1) m2 22+p M2 = p1 (m M3 = p1m M4 = p1 (6m 1 22+p 1 ) + (1 ÿ p1) ( m + 2 3 1 (1 ÿ p1) m2 ( m 1 ) 2) 2 2 + 3p 2 2 ) + 3m1 p1s 2 1 2 2 4 4 + 3ÿ ÿ + m 1 1 2 2 4 4 + 3ÿ ÿ + m 2 2 1 2 + (1 ÿ p1) ( 6m 2) Consideremos as diferentes variedades, todas caracterizadas pela condição p1 < (1 ÿ p1 ), m1 < m2, preferencialmente m1 < 0 e m2 > 0, e, no fundo, pela propriedade central: ÿ1 > ÿ2. Variedade 1: Guerra e Paz. Período calmo com média positiva e volatilidade muito baixa, turbulência com média negativa e volatilidade extremamente baixa. Variedade 2: Estado determinístico condicional Considere um título B, pagando juros r no final de um único período. Na rescisão, há uma grande probabilidade de obter B(1 + r), uma possibilidade de inadimplência. Obter exatamente B é muito improvável. Pense que não existem etapas intermediárias entre a guerra e a paz: estes são estados separáveis e distintos. Os títulos não ficam inadimplentes apenas “um pouquinho”. Observe a divergência, a probabilidade de a realização estar na média ou próxima dela é quase nula. Normalmente, p(E(x)) a PDF da expectativa é menor do que nas diferentes médias de regimes, então P(x = E(x)) < P (x = m1) e < P (x = m2), mas no caso extremo (títulos), P(x = E(x)) torna-se cada vez mais pequeno. O evento de cauda é a realização em torno da média. A mesma ideia aplica-se às paridades cambiais, uma vez que as desvalorizações não podem ser “moderadas”, com volatilidade do tipo tudo ou nada e baixa densidade no “vale” entre os dois regimes distintos. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 122 casos especiais de caudas grossas Pr. S1 S2 Figura A.4: O modelo de pagamento de títulos/pegamento de moeda. Ausência de volatilidade estagnada em a paridade, recompensa determinística no regime 2, caos em regime 1. Aqui a curtose K=2,5. Observe que o café xícara é um caso especial de ambos regimes 1 e 2 sendo degenerados erar. Figura A.5: Pressão sobre a estaca que pode dar um Dirac PDF no "não regime de desvalorização" (ou, equivalentemente, baixa volatilidade). É típico de fi- financiar imbecis para mistome o regime S2 para baixo volatilidade. Com os retornos das opções, esta bimodalidade tem o efeito de aumentar o valor das opções no dinheiro e diminuir o valor das opções fora do dinheiro, fazendo com que o valor exato oposto do chamado “sorriso de volatilidade”. Observe que a xícara de café não está entre quebrada e saudável. E o estado de sendo quebrado pode ser considerado um estado absorvente (usando cadeias de Markov para probabilidades de transição), já que copos quebrados não acabam se consertando sozinhos. Nem é provável que as xícaras de café estejam “levemente quebradas”, como vemos na figura A.1. Uma breve lista de outras situações em que a bimodalidade é encontrada: 1. Fixações cambiais 2. Fusões 3. Escolhas e resultados profissionais 4. Conflitos: interpessoais, gerais, marciais, qualquer situação em que não haja intermediário entre relações harmoniosas e hostilidade. 5. Cascatas condicionais Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 a.2 probabilidades de transição: o que pode quebrar, quebrará 123 a.2 probabilidades de transição: o que pode quebrar, quebrará Até agora, olhámos para um modelo de período único, que é a forma realista, uma vez que novas informações podem mudar a bimodalidade no futuro: temos clareza sobre uma etapa, mas não mais. Mas façamos um exercício que nos dará uma ideia sobre a fragilidade. Assumindo que a estrutura do modelo permanece a mesma, podemos observar o comportamento a longo prazo sob transição de estados. Seja P a matriz de probabilidades de transição, onde pi,j é a transição do estado i para o estado j sobre ÿt, (que é, onde S(t) é o regime prevalecente no período t, P ( S(t + ÿt) = sj S(t) = si )) P = ( p1,1 p1,2 p2,1 p2,2) Após n períodos, ou seja, n etapas, Pn = ( bn dncn ) Onde um = (p1,1 ÿ 1) (p1,1 + p2,2 ÿ 1) n + p2,2 ÿ 1 p1,1 + p2,2 ÿ 2 bn (1 ÿ p1,1) ((p1,1 + p2,2 ÿ 1) n ÿ 1) = p1,1 + p2,2 ÿ 2 (1 ÿ p2,2) cn = ((p1,1 + p2,2 ÿ 1) n ÿ 1) p1,1 + p2,2 ÿ2 dn = (p2,2 ÿ 1) (p1,1 + p2,2 ÿ 1) n + p1,1 ÿ 1 p1,1 + p2,2 ÿ 2 O caso extremo a considerar é aquele com o estado absorvente, onde p1,1 = 1, portanto (substituindo pi,ÿ=i|i=1,2 = 1 ÿ pi,i ). Pn 0 N N = (1 1 - p 2,2 p 2,2 ) e as probabilidades "ergódicas": n limnÿÿ P = (1 0 1 0) A implicação é que o regime de estado absorvente 1, S(1) acabará dominando com probabilidade 1: o que pode quebrar e é irreversível acabará quebrando. Com a matriz "ergódica", Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 124 casos especiais de caudas grossas n limnÿÿ P onde 1 T = p.1 T é a transposta do vetor unitário {1,1}, ÿ a matriz dos autovetores. 1 Os autovalores tornam-se ÿ = ( p1,1 + p2,2 ÿ 1 ) e autovetores associados ÿ 1 = 1ÿp1,1 ( 1ÿp2,2 11) . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 parte II O AW DOS NÚMEROS MÉDIOS Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 7 LIMITES DISTRIBUIÇÕES , A CONSOLIDAÇÃO ÿ,† estrutura em distribuições limite vista do nosso propósito, com algumas N este capítulo expositivo procedemos à consolidação da literatura atalhos onde indicado. Depois de introduzir a lei das grandes números, mostramos a intuição por trás da teoria do limite central rem e ilustrar como varia pré-assintoticamente entre as distribuições. Em seguida, discutiremos a lei dos grandes números aplicada a números superiores. momentos. Uma abordagem mais formal e mais profunda será apresentada no próximo capítulo. Tanto a lei dos grandes números quanto o teorema do limite central são respostas parciais para um problema geral: "Qual é o comportamento limitante de uma soma (ou média) de variáveis aleatórias à medida que o número de somas se aproxima do infinito?". E nosso lei dos números médios (ou pré-assiptóticos) é: e agora, quando o número de summands não chega ao infinito? 7.1 atualização: o ln fraco e o forte A apresentação padrão é a seguinte. Seja X1 , X2 ,. . . seja uma sequência infinita de variáveis aleatórias independentes e distribuídas de forma idêntica (Lebesgue integráveis) com valor esperado E(Xn) = µ (veremos mais abaixo pode-se um pouco 1 (X1 + · · · + Xn) relaxe as suposições do iid). Para todo n, a média amostral Xn = n converge para o valor esperado, Xn ÿ µ ,para n ÿ ÿ. A finitude da variância não é necessária (embora, é claro, os momentos superiores finitos acelerem a convergência). P Existem dois modos de convergência: convergência em probabilidade ÿ (que implica convergência na distribuição, embora nem sempre o inverso), e o mais forte como ÿ convergência quase certa (semelhante à convergência pontual) (ou quase toda Capítulo de discussão (com alguma pesquisa). 127 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 128 distribuições limite, uma consolidaçãoÿ,† onde ou quase sempre). Aplicada aqui, a distinção corresponde ao LLN fraco e forte, respectivamente. O LLN fraco A lei fraca dos grandes números (ou lei de Kinchin, ou às vezes chamada de lei de Bernouilli) pode ser resumida da seguinte forma: a probabilidade de uma variação que exceda algum limite da média torna-se progressivamente menor à medida que a sequência avança. Na teoria da estimativa, um estimador é chamado de consistente se convergir em probabilidade para a quantidade que está sendo estimada. P Xn ÿÿ µ quando n ÿ ÿ. Ou seja, para qualquer número positivo ÿ, limnÿÿ P ( |Xn ÿ µ|> ÿ ) = 0. Observe que as provas padrão são baseadas na desigualdade de Chebyshev: se X tem um valor finito 2 variância diferente de zero ÿ . Então, para qualquer número real k > 0, 1 Pr(|X ÿ µ|ÿ kÿ) ÿ k 2 . O LLN forte A lei forte dos grandes números afirma que, à medida que o número de somas n vai para o infinito, a probabilidade de a média convergir para a expectativa é igual a 1. como Xn ÿÿ µ quando n ÿ ÿ. Aquilo é, P ( limnÿÿ Xn = µ ) = 1. Relaxações de iid Agora pode-se relaxar a suposição de distribuição idêntica sob algumas condições: Kolmogorov provou que distribuições não idênticas para as somas Xi requerem para cada soma a existência de um segundo momento finito. Quanto à independência, é permitida alguma dependência fraca. Tradicionalmente, as condições são, novamente, a variância finita usual 1) V(Xi ) ÿ c e alguma estrutura na matriz de covariância, 2) lim Cov(Xi , Xj ) = 0. |iÿj|ÿ+ÿ n No entanto, acontece que 1) pode ser enfraquecido para ÿ V[Xi ] = o(n 2 ) e 2) |Cov(Xi , Xj )|ÿ eu=1 ÿ(|i ÿ j|), onde n 1n ÿ ÿ(i) ÿ 0. Ver Bernstein [19] e Kozlov [148] (em russo).2 eu=1 2 Agradecendo a "romanoved", um misterioso ajudante que fala russo no Mathematics Stack Exchange. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 7.2 limite central na ação 129 Nosso Interesse Nossa preocupação neste capítulo e no próximo é claramente observar a “velocidade” dessa convergência. Observe que, sob a suposição mais forte de iid, não precisamos que a variância seja finita, portanto, podemos focar no desvio médio absoluto como uma métrica para divergência. 7.2 limite central em ação ÿ1 ÿ2 1,0 0,5 0,8 0,4 0,6 0,3 0,4 0,2 0,2 0,1 x x 1 0,2 0,4 0,6 0,8 1,0 2 4 3 ÿ4 ÿ3 0,25 0,15 0,20 0,15 0,10 0,10 0,05 0,05 x 2 x 468 5 10 15 Figura 7.1: O CLT mais rápido: o Uniforme torna-se Gaussiano em poucos passos. Temos, sucessivamente, 1, 2, 3 e 4 somas. Com 3 somas vemos um formato de sino bem formado. Começaremos com uma simplificação do teorema generalizado do limite central (GCLT), conforme formulado por Paul Lévy (as abordagens tradicionais do CLT, bem como a espinha dorsal técnica serão apresentadas posteriormente): 7.2.1 A Distribuição Estável Usando a mesma notação acima, seja X1 , . . . , Xn sejam variáveis aleatórias independentes e distribuídas de forma idêntica. Considere sua soma Sn. Nós temos Sn ÿ an ÿ D Xs, bn (7.1) onde Xs segue uma distribuição estável S, an e bn são constantes normativas, e, to ÿ denota D serão convergência na distribuição (a distribuição de X como n ÿ ÿ). repito, as propriedades de S definidas e exploradas mais adequadamente no próximo capítulo. Consideremos por enquanto que uma variável aleatória Xs segue uma distribuição estável (ou ÿ-estável), Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 130 distribuições limite, uma consolidaçãoÿ,† Figura 7.2: Paul Lévy, 1886-1971, formulou o teorema generalizado do limite central. simbolicamente Xs ÿ S(ÿs, ÿ, ÿ, ÿ), se sua função característica ÿ(t) = E(e itXs ) for do tipo forma: 2 )sgn(t))) quando ÿs ÿ= 1. ÿ(t) = e (iµtÿ|tÿ| ÿs (1ÿiÿ tan( ÿÿÿs (7.2) As restrições são ÿ1 ÿ ÿ ÿ 1 e 0 < ÿs ÿ 2. 3 A designação distribuição estável implica que a distribuição (ou classe) é estável sob soma: você soma variáveis aleatórias seguindo qualquer uma das várias distribuições que são membros de a classe S explicada no próximo capítulo (na verdade a mesma distribuição com diferentes parametrizações da função característica), e você permanece dentro da mesma distribuição. Intuitivamente, ÿ(t) n tem a mesma forma que ÿ(t) , com µ ÿ nµ, e ÿ ÿ n algumas pessoas chamam de "bacia") são: o 1 Gaussiano, o Cauchy e o Lévy com ÿ ÿÿ . As distribuições bem conhecidas na classe (ou = 2, 1 e 2 , respectivamente. Outras distribuições não têm densidade de forma fechada.4 1 7.2.2 A Lei dos Grandes Números para a Distribuição Estável Voltemos à lei dos grandes números. 3 Tentaremos usar ÿs ÿ (0, 2] para denotar o expoente da distribuição limitante e estável platônica e ÿp ÿ (0, ÿ) o equivalente paretiano (pré-sintótico) correspondente, mas apenas em situações onde possa haver alguma ambiguidade. ÿ simples deve ser entendido no contexto. 4 Na verdade, existem formas de utilizar funções especiais; por exemplo, um descoberto acidentalmente pelo 2 , ÿ = 3 , PDF(x) = autor: para o Stable S com parâmetros padrão ÿ = 1, µ = 0, ÿ = 1 3x ÿ3 2e 2 2x 27 ( ÿ3 3xAi( x 3 22/3 ÿ3 ) +3 ÿ3 2Aiÿ ( 3 22/3 ÿ3 3 )) 33 32/3 atribuição para somas de Pareto. usado mais abaixo no exemplo sobre o limite dis- Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 7.3 velocidade de convergência do clt: explorações visuais 131 pdf2.5 2,0 Dirac Figura 7.3: A lei dos grandes números mostra uma distribuição estreita em torno da média, levando à degeneração convergindo para uma vara de Dirac na média exata. 1,5 1,0 0,5 significar -4 -2 0 2 4 Pelos resultados padrão, podemos observar a lei dos grandes números em ação para a distribuição estável, conforme ilustrado na Figura 7.3: lim nÿ+ÿ eu não x (tn )n = e , 1 < ÿs ÿ 2 (7.3) que é a função característica de um delta de Dirac em µ, uma distribuição degenerada, uma vez que a transformada de Fourier F (aqui parametrizada para ser o inverso da função característica) é: 1 (7.4) ÿ 2p Ft ( e iµt ) (x) = ÿ(µ + x). Além disso, podemos observar a operação em "tempo real" para todo 1 < n < +ÿ das seguintes maneiras, como exploraremos nas próximas seções. 7.3 velocidade de convergência do clt: explorações visuais Notamos que se X tiver uma variância finita, a variável aleatória Xs com distribuição estável será gaussiana. Mas observe que Xs é uma construção limitante quando n ÿ ÿ e há muitas, muitas complicações com "quão rápido" chegamos lá. Consideremos 4 casos que ilustram tanto a ideia da CLT quanto a velocidade dela. 7.3.1 Convergência Rápida: a Dist. Uniforme. Considere uma distribuição uniforme – a mais simples de todas. Se seu suporte estiver em [0, 1], ele simplesmente terá uma densidade de ÿ(x1 ) = 1 para 0 ÿ x1 ÿ 1 e integra-se a 1. Agora adicione outra variável, x2, distribuída de forma idêntica e independente. A soma x1 + x2 mudou imediatamente de forma! Observe ÿ2(.), a densidade da soma na Figura 7.1. Agora é um triângulo. Adicione uma variável e agora considere a densidade ÿ3 da distribuição de X1 + X2 + X3. Já está quase em forma de sino, com n = 3 somas. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 132 distribuições limite, uma consolidaçãoÿ,† A distribuição uniforme da soma n ÿÿn (x) = k=0 (ÿ1)k ( nk () x ÿ L H ÿ eu ÿ k )nÿ1 sgn ( x ÿHLÿ eu ÿ1 ÿ k) para nL ÿ x ÿ nH ÿ2 1,0 0,8 0,3 0,6 0,2 0,4 0,1 0,2 x 1 2 3 x 4 2 4 6 8 ÿ4 ÿ3 0,25 0,20 0,15 0,10 0,05 0,20 0,15 0,10 0,05 x 2 4 x 68 2 4 6 8 10 12 ÿ9 ÿ10 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,12 0,10 0,08 0,06 0,04 0,02 x x 5 10 15 20 25 5 10 15 20 25 30 Figura 7.4: A distribuição exponencial,ÿ indexada pelo número de somas. Mais lento que o uniforme, mas bom o suficiente. 7.3.2 Convergência semilenta: a exponencial Vamos considerar uma soma de variáveis aleatórias exponenciais. Temos para densidade inicial ÿ1 (x) = ÿe ÿÿx , x ÿ 0, Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 7.3 velocidade de convergência do clt: explorações visuais 133 Figura 7.5: A distribuição de Pareto. Não quer perder sua assimetria, embora neste caso deva convergir para a Gaussiana... eventualmente. e para n somas5 nÿ1 ÿÿx e . C(n) ÿn(x) = ( 1 ÿ )ÿn x Temos, substituindo x por n/ÿ (e mais tarde nas ilustrações da Fig. 7.4 ÿ = 1), nÿ 1e 2 ÿ(ÿx) (xÿ n ) ( 1ÿ )ÿn x C(n) 2ÿÿe ÿ _ _ ÿnÿÿ ÿ2n _ , ÿ 2ÿ ÿ n que é a densidade da distribuição normal com média n e variância ÿ n l2 . Podemos ver como chegamos mais lentamente ao Gaussiano, como mostrado na Figura 7.4, principalmente devido à sua assimetria. Chegar ao Gaussiano requer simetria. 7.3.3 O lento Pareto Considere a distribuição de Pareto mais simples em [1, ÿ): ÿ1 (x) = 2x ÿ3 5 Derivamos a densidade das somas por convolução, fácil neste caso, ou como veremos com o Pareto, através de funções características. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 134 distribuições limite, uma consolidaçãoÿ,† Figura 7.6: A distribuição de Pareto, ÿ100 e ÿ1000, não melhora muito em direção à gaussianidade, mas um ÿ = 2 acabará por levá-lo até lá se você for paciente e tiver uma vida longa, muito longa. e invertendo a função característica, 1 ÿn(x) = ÿ 2ÿÿ _ exp(ÿitx)(2E3(ÿit))n dt, x ÿ n ÿÿ ÿ dtet(ÿz) Onde E(.) (.) é a integral exponencial En(z) = ÿ t n . Claramente, a integração é feita 1 numericamente (até agora ninguém conseguiu extrair a distribuição de uma soma de Pareto). Pode ser exponencialmente lento (até 24 horas para n = 50 vs. 45 segundos para n = 2), por isso usamos simulações de Monte Carlo para as Figs. 7.3.1. Lembre-se da Eq. 7.1 que a convergência requer constantes normativas an e bn. De Uchaikin e Zolotarev [257], temos (estreitando a situação para 1 < ÿp ÿ 2): P(X > x) = cxÿÿp como x ÿ ÿ (suponha aqui que c é uma constante, apresentaremos mais formalmente a "função de variação lenta" no próximo capítulo, e P(X < x) = d|x| ÿÿp Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 7.4 cumulantes e convergência 135 como x ÿ ÿ. As constantes normativas tornam-se an = n E(X) para ÿp > 1 (para outros casos, consulte [257] , pois é improvável que ocorram na prática), e ÿ bilhões = ÿ ÿ pn 1 p. 2) 1/ ÿp ( 2 pecado ( pap ÿ(ÿp) ) ÿ ÿ (c + d) 1/ ÿp para 1 < ÿp < 2 c + d ÿ n log(n) . (7,5) para ÿp = 2 c-d E o parâmetro de simetria ÿ = parâmetro c+d . Claramente, a situação em que o Paretian ÿp é maior que 2 leva ao Gaussiano. 7.3.4 O Pareto meio cúbico e sua bacia de convergência De interesse é o caso de ÿ = 3 2 . Ao contrário das situações em que, como na Figura 7.3.1, a distribuição acaba lentamente sendo simétrica. Mas, como abordaremos no próximo capítulo, é errado confundir as suas propriedades com as de um estábulo. É, em certo sentido, mais cauda gorda. ÿ10.000 Figura 7.7: A distribuição de Pareto semicúbica nunca se torna simétrica na vida real. Aqui n = 104 25.000 30.000 40.000 35.000 x 45.000 7.4 cumulantes e convergência Como a Gaussiana (como uma bacia de convergência) tem assimetria de 0 e curtose (bruta) de 3, podemos examinar heuristicamente a convergência desses momentos para estabelecer a velocidade de funcionamento no CLT. Definição 7.1 (Excesso de p-cumulantes) Seja ÿ(ÿ) uma função característica de uma dada distribuição, n o número de somas (para variáveis aleatórias independentes), p a ordem do momento. Definimos a proporção de º cumulantes para o p correspondente momento: Kk p _ ÿ (ÿi) pÿ p log(ÿ(ÿ) (ÿÿ 2 log(x(ÿ) n)) n ) 2 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 136 distribuições limite, uma consolidaçãoÿ,† Cobre Ouro Depósito de Eurodólares 3M Kurt Kurt Kurt 25 20 6 5 20 15 4 15 10 3 10 2 5 5 1 10 20 30 40 Equipe n 10 Gado vivo 20 30 40 Equipe n 10 RTSI da Rússia Kurt 20 30 40 30 40 30 40 Equipe n Refeição de soja Kurt Kurt 14 14 8 12 12 10 10 6 8 4 8 6 6 4 4 2 2 10 20 30 40 Equipe n 2 10 Notas TY10Y 20 30 40 Equipe n 10 Austrália TB 10 anos Kurt 20 Equipe n Café NY Kurt Kurt 10 6 6 5 8 4 6 4 3 4 2 2 2 1 10 20 30 40 Equipe n 10 20 30 40 Equipe n 10 20 Equipe n º Figura 7.8: Comportamento do 4º momento sob agregação para alguns títulos financeiros considerados convergentes para a Gaussiana, mas na verdade não convergem (dados de backup para [228]). Não há nenhuma maneira concebível de reivindicar convergência para Gaussiana para dados amostrados em uma frequência mais baixa. K(n) é uma métrica de excesso p º momento sobre o de um gaussiano, p > 2; em outras palavras, = 0 K 4 denota gaussianidade para n somas independentes. n Observação 6 Nós notamos que p =0 limnÿÿ KN para todas as distribuições de probabilidade fora da classe Power Law. p Notamos também que limpÿÿ K enfrenta n é finito para a classe de cauda fina. Em outras palavras, nós uma bacia bem definida de momentos convergentes versus momentos divergentes. Para distribuições fora da bacia da Lei de Potência, ÿp ÿ N>2, K n decai a uma taxapNpÿ2 . Um esboço da prova pode ser feito usando a distribuição estável como bacia limitante e a não derivabilidade na ordem p maior que seu índice de cauda, usando a Eq. 8.4. A Tabela 7.1 mostra o que acontece com os cumulantes K(.) para variáveis somadas com n. Esperaríamos uma queda a uma taxa 1 N2 para volatilidade estocástica (wlog de variância gama). Contudo, a figura 10.2 mostra que a queda não ocorre nessa velocidade. Visivelmente não estamos na bacia. Como visto em [228], há uma ausência de convergência da curtose no somatório das variáveis econômicas. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 7.5 atualização técnica: versões tradicionais do clt 137 Tabela 7.1: Tabela de cumulantes normalizados para distribuições de cauda fina Velocidade de convergência para N somas independentes - Distr. Exposição de Poisson. Vol de 2 estados simétrico gama (eu) (eu) (a,b) (ÿ1 , ÿ2) 1 1 1 1 K(2) 1 2ÿn 0 _ n.m. 2 anos K(3) K(4) 1nl2 _ 3(1ÿp)p 2 3!eu 3! n a 2b 2n _ _ n (ÿ 21 × C-variância (a, b) 1 0 2 2 - p. 3b n 2) 2 3 (pÿ 212 ) ÿ(pÿ1)ÿ 7.5 atualização técnica: versões tradicionais do clt Esta é uma atualização das diversas abordagens agrupadas sob a designação CLT. A versão padrão (Lindeberg-Lévy) do CLT Suponha como2antes uma sequência de variáveis aleatórias iid com E(Xi ) = µ e V(Xi ) = ÿ < +ÿ, e Xn a média amostral para n. Então, à medida que n se aproxima do infinito, a soma das variáveis aleatórias ÿ n(Xnµ) converge em distribuição para uma Gaussiana [20] [21]: d ÿ n ( Xn ÿ µ ) ÿÿ N ( 0, ÿ 2 ) . Convergência na distribuição significa que o CDF (função de distribuição cumulativa) de ÿ n converge pontualmente para o CDF de N (0, ÿ) para cada z real, ÿ n(Xn ÿ µ) ÿ p limnÿÿ P (ÿ n(Xn ÿ µ) ÿ z ) = limnÿÿ P [ Com Com ÿ]=ÿ( p ), ÿ>0 onde ÿ(z) é o cdf normal padrão avaliado como z. Observe que a convergência é uniforme em z no sentido de que Com limnÿÿzÿR sup P (ÿ n(Xn ÿ µ) ÿ z ) ÿ ÿ ( p ) = 0, onde sup denota o menor limite superior, ou seja, o supremo do conjunto. CLT de Lyapunov Na derivação de Lyapunov, os somandos têm que ser independentes, mas não necessariamente distribuídos de forma idêntica. O teorema também exige que variáveis aleatórias | 'Xi | têm momentos de alguma ordem (2 + ÿ, e que a taxa de crescimento desses momentos é limitada pela condição de Lyapunov dada abaixo. A condição é a seguinte. Definir n 2s n _ = ÿ eu=1 2p eu _ Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 138 distribuições limite, uma consolidaçãoÿ,† Se para algum ÿ > 0, n 1 2+ limnÿÿ ds E ( |Xi ÿ µi | 2+ÿ ) = 0, ÿ n eu=1 então uma soma de Xiÿµi converge na distribuição para uma variável aleatória normal padrão, à e medida que n vai para o infinito: 1 sn n ÿ D ÿÿ N(0, 1). (Xi ÿ µi) eu=1 Se uma sequência de variáveis aleatórias satisfaz a condição de Lyapunov, então também satisfaz a condição de Lindeberg que abordamos a seguir. A implicação inversa, no entanto, não se sustenta. Condição de Lindeberg Lindeberg permite chegar à CLT sob premissas mais fracas. Com as mesmas notações anteriores: 1 limnÿÿ 2s _ n n ÿ 2 E ( (Xi ÿ µi ) · 1{|Xiÿµi |>ÿsn} ) = 0 eu=1 para todo ÿ > 0 , onde 1 função indicadora, então a variável aleatória Zn = ÿ ni=1(Xiÿµi) sn converge na distribuição] para um Gaussiano como n ÿ ÿ. A condição de Lindeberg é suficiente, mas em geral não é necessária, exceto se a sequência em consideração satisfizer: ÿ 2 ÿ 0, como n ÿ ÿ, eu máximo 1ÿkÿn 2sn então a condição de Lindeberg é suficiente e necessária, ou seja, é válida se e somente se o resultado do teorema do limite central for válido. 7.6 a lei dos grandes números para momentos superiores 7.6.1 Momentos Superiores Um teste de cauda gorda pode ser visto aplicando a lei dos grandes números a momentos mais elevados e vendo como eles convergem. Um exame visual do comportamento da média cumulativa do momento pode ser feito de maneira semelhante aos testes visuais padrão do LLN que vimos no Capítulo 3 – exceto que se aplica a X p (bruto ou centrado) em vez de X. Nós verifique o funcionamento da lei dos grandes números, verificando se a adição de observações causa uma redução da variabilidade da média (ou da sua variância, se existir). Momentos que não existem apresentarão saltos ocasionais – ou, equivalentemente, grandes subamostras produzirão médias diferentes. Quando existem momentos, adicionar observações eventualmente evita novos saltos. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 7.6 a lei dos grandes números para momentos superiores 139 Outra técnica visual é considerar a contribuição da observação máxima para o total e ver como ela se comporta à medida que n aumenta. É chamado de MS gráfico [115], "máximo para soma", e mostrado na Figura 7.9. Tabela 7.2: Curtose K(t) para t janelas diárias, de 10 dias e de 66 dias para as variáveis aleatórias Máx. K(1) K(10) K(66) Anos Quartico Dólar Australiano/USD 6.3 2.9 0,12 22. Austrália TB 10 anos 7,5 3,8 6,2 3.5 0,08 Austrália TB 3 anos 7,5 5.4 4.2 0,06 25. 21. Óleo de Feijão 5.5 7,0 4.9 0,11 47. Títulos 30 anos 5.6 4.7 3.9 0,02 Bovespa 24,9 5,0 2.3 0,27 32. 16. Libra Esterlina/USD 6,9 7.4 5,3 0,05 38. CAC40 Dólar canadense 6,5 4.7 3,6 20. 7,4 4.1 3,9 0,05 0,06 38. Coco NY 4.9 4,0 5.2 0,04 47. Café NY 10,7 5.2 5.3 0,13 37. Cobre Milho 6,4 4,5 5,0 0,05 0,18 48. 9,4 5,5 8,0 Óleo cru 29,0 4.7 5.1 0,79 TC 7,8 8,0 4,8 3.7 0,25 6,5 3.7 0,20 48. 18. 4.9 3,2 3.3 0,06 18. 5.5 3.8 2.8 0,06 38. 41,5 21.1 28,0 6,0 0,31 8.1 7,0 0,25 19. 28. DAX Governo federal europeu Moeda Euro/DEM 49. 26. anteriormente Depósito de eurodólar 1 milhão Depósito de Eurodólares 3M FTSE 15.2 27,4 25. 11.9 14,5 6,5 16,6 0,54 Ouro 0,04 35. Óleo de aquecimento 20,0 4.1 4.4 0,74 31. Porcos 4,5 4.8 0,05 Índice de ações de Jacarta 40,5 4,6 6,2 4.2 0,19 43. 16. Títulos Governamentais Japoneses 17.2 16,9 4,3 0,48 24. Gado vivo 4.2 4.9 5,6 0,04 Índice Nasdaq Gás natural 11,4 6,0 9.3 5,0 3.9 3,8 0,13 0,06 44. 21. Nikkeis 52,6 4,0 2,9 Notas 5A RTSI da Rússia 5.1 3,2 6,0 2,5 0,72 0,06 7.3 0,13 17. Libra esterlina curta Prata 851,8 93,0 22,6 3,0 10.2 0,75 17. 0,94 0,06 46. 6.8 6,7 0,17 47. 48. 13,3 19. 23. 21. Pequena capitalização 160,3 6,1 Soja 7,1 5,7 8,8 Refeição de soja 8,9 9,8 8,5 0,09 Sp500 38,2 7,7 5,1 0,79 56. Açúcar #11 9.4 6,4 3,8 0h30 48. 17. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 140 distribuições limite, uma consolidaçãoÿ,† Tabela 7.2: (continuação da página anterior) Máx. K(1) K(10) K(66) Anos Quartico Franco suíço 5.1 3,8 2.6 0,05 Notas TY10Y 5,9 4,9 0,10 27. Trigo 5,6 5,5 6,0 6,9 0,02 49. Iene/USD 9,7 6.1 2,5 0,27 38. 38. Máx. Soma 1,0 0,8 Figura 7.9: MS Plot mostrando o comportamento dos momentos cumulativos p = 1, 2, 3, 4 para o SP500 acima dos 60 anos que terminam em 2018. O Gráfico MS (máximo para soma) será apresentado em 10.2.6. 0,6 0,4 0,2 5.000 10.000 15.000 Máx. Soma 1,0 0,8 Figura 7.10: Controle Gaussiano para os dados da Figura 7.9. 0,6 0,4 0,2 5.000 10.000 15.000 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 7,7 desvio médio para distribuições estáveis 141 7,7 desvio médio para distribuições estáveis 1 para situações de finito Vamos preparar um resultado para o próximo capítulo usando a norma L média, mas com variância infinita.6 É claro que não temos como medir a compressão . 2 da distribuição em torno da média dentro da norma L 1 O erro de uma soma na norma L é o seguinte. Seja ÿ(x) a função de Heaviside (cujo valor é zero para argumentos negativos e um para argumentos positivos). Como sgn(x) = 2ÿ(x) ÿ 1, sua função característica será: 2i h sinal(x) (t) = Seja t . (7.6) d (.) ser a função característica de qualquer distribuição não degenerada. Convod n ÿ sgn(x) ) , obtemos a função característica para as variações positivas resolvendo ÿ ÿ (ÿ para n somas independentes ÿ mx =ÿ d h sgn(x) (t)ÿ (você ÿ t) ndt. ÿÿ No nosso caso de desvio médio absoluto sendo duas vezes maior que os valores positivos de X: ÿ ÿ(|Sn|) = (2i) ÿ x(t ÿ você) t ÿÿ n de, que é a transformada de Hilbert de ÿ quando ÿ é tomado no sentido pv (Pinelis, 2015)[193]. Na nossa situação, dado que todas as somas independentes são cópias da mesma distribuição, podemos substituir o produto ÿ(t) n por ÿs(t) que é a mesma função característica com ÿs = n 1/ ÿÿ, ÿ permanecendo o mesmo: ÿs(t ÿ você) dt|t=0. t ÿ E(|X|) = 2i ÿu ÿ pv ÿ (7.7) ÿÿ Agora, [193] a transformada de Hilbert H, 2 (Hf)(t) = ÿÿ ÿi ÿ 0 ÿs(u + t) ÿ ÿs(u ÿ t) dt pode ser reescrito como 1 ÿ (Hf)(t) = ÿeu ÿvocê ( 1+ÿs(u)+ ÿi ÿ dt ÿÿ 0 ÿs(u+t)ÿÿs(uÿt)ÿÿs(t)+ÿs(ÿt) t). (7.8) Considere a distribuição estável definida em 7.2.1. Derivando primeiro dentro da integral e usando uma mudança de variável, z = log(t), E|X| (a˜s,b,ÿs,0) = ÿ ÿ ÿÿ 2iÿse ÿ(ÿse + cos ( ÿ tan ( Com )ÿs ÿz ( ÿse z )ÿs ( ÿ tan ( vá vá 2 ) pecado ( ÿ tan ( 2 ) ( ÿse z )ÿs ) vá 2 ) ( ÿse z )ÿs )) dz 2 6 Dizemos, novamente por convenção, infinito para a situação em que a variável aleatória, digamos X (ou a variância de qualquer variável aleatória), é unicaudal –limitada de um lado– e indefinida em situações onde a variável é bicaudal, por exemplo, o infame Cauchy. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 142 distribuições limite, uma consolidaçãoÿ,† que então se integra perfeitamente a: E|X| (a˜s,b,ÿs,0) = ÿs 2ÿ ÿ ( ÿs ÿs ÿ 1) (( 1 + iÿ tan ( vá vá 2 ))1/ÿs + ( 1 ÿ iÿ bronzeado ( 2 ))1/ÿs ) . (7,9) próximo O próximo capítulo apresenta um conceito central: como trabalhar com a lei dos números médios? Como podemos traduzir entre distribuições? Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8 QUANTO ATA VOCÊ PRECISA? UM OPERAÇÃO EM IONALMETRICFOR FAT-TA ILEDNES S‡ bers. Apresentamos uma métrica operacional para distribuições de Neste capítulo (de pesquisa), discutimos as leis da momento numeração média probabilidade univariadas unimodais com primeiro finito, em [0, 1] onde 0 é maximamente de cauda fina (Gaussiana) e 1 é maximamente de cauda gorda. Baseia-se em "quantos dados são necessários para fazer declarações significativas sobre um determinado conjunto de dados?" Aplicações: Entre outras, • ajuda a avaliar o tamanho da amostra necessário para significância estatística fora o gaussiano, • ajuda a medir a velocidade de convergência para o Gaussiano (ou estável bacia), • permite comparações práticas entre classes de distribuições de cauda gorda, • permite a avaliação do número de títulos necessários na construção da carteira para atingir um certo nível de estabilidade a partir da diversificação, • ajuda a compreender alguns atributos inconsistentes do lognormal, pendbaseando-se na parametrização de sua variância. A literatura é rica no que diz respeito ao comportamento assintótico, mas há um grande vazio para valores finitos de n, aqueles necessários para fins operacionais. Antecedentes: As medidas convencionais de cauda gorda, nomeadamente 1) o índice de cauda para a classe Power Law e 2) Curtose para distribuições de momentos finitos não se aplicam a algumas distribuições e não permitem comparações entre classes e Capítulo de pesquisa. O autor deve muito aos comentários focados de Michail Loulakis que, além disso, forneceu as derivações rigorosas para os limites do ÿ para as distribuições T de Student e lognormal, bem como à paciência e sabedoria de Spyros Makridakis. O artigo foi inicialmente apresentado em Extremes and Risks in Higher Dimensions, de 12 a 16 de setembro de 2016, no Lorentz Center, Leiden e no Jim Gatheral's Festschrift no Courant Institute, em outubro de 2017. O autor agradece a Jean-Philippe Bouchaud, John Einmahl, Pasquale Cirillo e outros. Laurens de Haan sugeriu mudar o nome da métrica de “gama” para “kappa” para evitar confusão. Agradecimentos adicionais a Colman Humphrey, Michael Lawler, Daniel Dufresne e outros pelas discussões e insights com derivações. 143 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 144 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ parametrização, isto é, entre leis de potência fora da bacia Levy-Stable, ou leis de potência para distribuições em outras classes, ou leis de potência para diferentes números de convocações. Como comparar uma soma de 100 Student T distribuídos aleatoriamente variáveis com 3 graus de liberdade para uma em uma classe Levy-Stable ou Lognormal? Como comparar uma soma de 100 Student T com 3 graus de liberdade com um único aluno T com 2 graus de liberdade? Propomos uma métrica operacional e heurística que nos permite comparar variáveis independentes somadas com n sob todas as distribuições com primeiro momento finito. O método é baseado na taxa de convergência da lei dos grandes números para somas finitas, n-somas especificamente. Obtemos expressões explícitas ou resultados de simulação e limites para as distribuições log-normal, exponencial, Pareto e T de Student em suas várias calibrações - além das classes gerais de Pearson. |Sn=X1+X2+...+Xn | 10 Figura 8.1: A intuição de o que ÿ está medindo: como o desvio médio do soma de cópias idênticas de uma rv Sn = X1 + X2 + . . . Xn cresce à medida que a amostra aumenta e como pode comparar distribuições pré-assintoticamente de diferentes classes. Cauchy (=1) 8 Pareto 1.14 Estudante Cúbico T 6 Gaussiano (=0) Graus de Cauda Gorda 4 2 n 2 4 6 8 10 8.1 introdução e definições Como comparar uma distribuição de Pareto com cauda ÿ = 2,1, ou seja, com cauda finita variância, para um gaussiano? Assintoticamente, essas distribuições na classe de variação regular com segundo momento finito, sob soma, tornam-se gaussianas, mas pré-assintoticamente, não temos uma forma padrão de compará-los, uma vez que métricas que dependem de momentos mais elevados, como a curtose, não podem ajudar. Nem pode comparamos facilmente uma distribuição de Pareto de variância infinita com seu limite ÿ-estável distribuição (quando ambos têm o mesmo índice de cauda ou expoente de cauda). Da mesma forma, como pode-se comparar a "cauda gorda" de, digamos, um aluno T com 3 graus de liberdade ao de um Levy-Stable com expoente de cauda de 1,95? Ambas as distribuições têm um valor finito significar; dos dois, apenas o primeiro tem uma variância finita, mas, para um pequeno número de em suma, comporta-se de forma mais “cauda gorda” de acordo com alguns critérios operacionais. Critério para "cauda gorda" Existem várias maneiras de "definir" caudas gordas e classificar distribuições de acordo com cada definição. Na classe estreita de distribuições tendo todos os momentos finitos, é a curtose, que permite comparações simples e Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8.1 introdução e definições 145 Figura 8.2: Observando o efeito do Teorema Generalizado do Limite Central: Pareto e distribuição T do aluno, na classe P, com ex-poente ÿ , ÿ converge para 2 (1ÿ<2ÿ +1ÿÿ22), ou a classe Stable S. Nós observamos quão lenta é a convergência, mesmo depois de 1000 solicitações. Isto desconta a opinião de Mandelbrot afirmação de que um infinito a variância Pareto pode ser subsumida em uma distribuição estável. medir desvios do Gaussiano, que é usado como norma. Para o poder Aula de direito, pode ser o expoente da cauda. Também se pode usar valores extremos, tomando a probabilidade de ultrapassar um valor máximo, ajustado pela escala (conforme praticado na teoria dos valores extremos). Para usos operacionais, a cauda gorda dos profissionais é uma grau de concentração, como "quanto das propriedades estatísticas serão atribuível a uma única observação?", ou, adequadamente ajustado pela escala (ou a dispersão média), "quanto é a riqueza total de um país nas mãos de o indivíduo mais rico?" Aqui usamos o seguinte critério para o nosso propósito, que mapeia para a medida de concentração no parágrafo anterior: "Quanto serão os dados adicionais (sob tal distribuição de probabilidade) ajudam a aumentar a estabilidade da média observada". O objectivo não é inteiramente estatístico: pode igualmente significar: "Quanto irá adicionar uma segurança adicional na alocação do meu portfólio (ou seja, mantendo o total constante) aumentar sua estabilidade?" Nossa métrica difere das medidas assintóticas (particularmente aquelas usadas na teoria dos valores extremos) pelo fato de ser fundamentalmente pré-sintótica. A vida real e as realizações do mundo real estão fora da assíntota. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 146 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ O que a métrica faz? A métrica que propomos, ÿ faz o seguinte: • Permite a comparação de variáveis somadas com n de diferentes distribuições para um determinado número de somas e , ou mesma distribuição para diferentes n, e avaliar as propriedades pré-sintóticas de uma determinada distribuição. • Fornece uma medida da distância da distribuição limite, ou seja, o Bacia Lévy ÿ-Estável (da qual a Gaussiana é um caso especial). • Para inferência estatística, permite avaliar a “velocidade” da lei dos grandes números, expressa na variação do erro médio absoluto em torno da média graças ao aumento do tamanho da amostra n. • Permite avaliar comparativamente a “cauda gorda” de duas distribuições univariadas diferentes, quando ambas têm primeiro momento finito. • Permite-nos saber antecipadamente quantas corridas precisamos para um Monte Carlo simulação. O estado da inferência estatística O último ponto, a “velocidade”, parece ter foram ignorados (ver comentários anteriores no Capítulo 3 sobre as 9.400 páginas do Enciclopédia de Ciência Estatística [147]). É muito raro encontrar uma discussão sobre quanto tempo leva para chegar à assíntota, ou como lidar com n somas que são grandes, mas talvez não o suficiente para a chamada "aproximação normal". Para repetir o nosso lema, “as estatísticas nunca são padrão”. Esta métrica tem como objetivo mostrar como o padrão é padrão e medir o desvio exato do padrão em relação ponto de vista da significância estatística. 8.2 a métrica 1 1,0 0,8 Figura 8.3: A distribuição lognormal se comporta como uma Gaussiana para baixas valores de ÿ, mas torna-se rapidamente equivalente a uma lei de potência. Isso ilustra por que, operacionalmente, o debate sobre se a distribuição da riqueza era lognormal (Gibrat) ou Pareto (Zipf) não tem muito significado operacional Estável =1,2 0,6 0,4 Aluno T (3) ou Estável =1,7 0,2 câncer. Gaussiano 0,5 1,0 1,5 2,0 2,5 3,0 Definição 8.1 (a métrica ÿ ) Seja X1 , . . . , Xn são variáveis aleatórias iid com média finita, ou seja E(X) < +ÿ. Deixar . . . + Xn seja uma soma parcial. Seja M(n) = E(|Sn ÿ E(Sn)|) o esperado Sn = X1 + X2 + desvio médio absoluto da média para n somas. Defina a "taxa" de convergência para n somas adicionais começando com n0: Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8.2 a métrica 147 Tabela 8.1: Kappa para 2 somas, ÿ1. k1 Distribuição 2 registros(2) 2- Aluno T 2) (a) C( uma 2 log( 2 2ÿÿÿ(ÿÿ 12 2ÿ Exponencial/Gama log(2) 2 log(2)ÿ1 2 a-1 ÿ2ÿ log( (ÿÿ1)2ÿÿÿ ÿÿ1 Normal ÿ0 3 2 2(y+2)ÿ2ÿÿ1( 1 (ÿÿ,1ÿÿ)ÿB y+1 (ÿÿ,1ÿÿ) ) que) y+2 y+2 ÿÿ1 ÿy) ( B registro(2) 2- (µ, ÿ) com comutação 2 variância ÿ a 4 wp p . ÿ 0,21 registro(2) 2- Pareto (ÿ) )2 ) +log(ÿ) ÿ 2 (ÿ app-1 ÿ registro +p p-1 +ÿ 2+p (ÿ app-1 +ÿ 2+p ( ÿ2 ÿ ap 2ÿ ÿ 2a ( 1 2 ) + 2ÿ(pÿ1) ÿ 2a ( 1 ÿap pÿ1 +2) +4ÿ 2 )) ÿ pÿ1 +2)+4ÿ 2+ ÿ a+ÿ ÿ a+ ÿ 2 +p p p-1 ÿÿÿ ÿÿÿ registro(2) ÿ2ÿ Lognormal (ÿ, ÿ) 2 ÿ 2 jardas ÿ 2ÿ (e log( p1 . ÿ +1)) ÿ 2ÿ2 ÿÿÿ registro ÿÿÿ erf( ÿ 2 ÿ2) ÿÿÿÿÿÿ ÿÿÿÿÿÿ Tabela 8.2: Resumo dos principais resultados Distribuição ÿn Exponencial/Gama Explícito Lognormal (ÿ, ÿ) Não há ÿn explícito , mas limites inferiores e superiores explícitos ( ÿ ou n baixo ou alto). Aproximado com Pearson IV para ÿ no meio. Pareto (ÿ) (Constante) Explícito para ÿ2 (limite inferior para todos os ÿ). Aluno T(ÿ) (função de variação lenta) Explícito para ÿ1 , ÿ = 3. 1 2ÿÿn0 ,n M(n) ÿn0,n = min { ÿn0,n : M(n0) = ( nn0 ) , n0 = 1, 2, ...} , Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 148 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ Tabela 8.3: Comparando Pareto com Student T (Mesmo expoente de cauda ÿ) a Pareto Pareto Pareto Aluno Aluno Aluno k1 1,25 0,829 1,5 0,724 1,75 0,65 2. ÿ1,30 0,787 k1 ÿ1.100 0,771 0,792 ÿ1,30 0,765 0,756 0,587 mil 1.100 0,65 0,631 0,647 0,609 0,556 0,53 0,543 0,483 0,451 0,484 0,449 0,465 0,387 2,25 0,551 0,431 0,388 0,406 0,316 0,352 0,282 2,5 0,517 2,75 0,386 0,341 0,359 0,256 0,227 0,488 0,465 3, 0,356 0,307 0,3246 0,321 0,224 0,189 0,281 0,258 0,305 0,29 0,191 0,159 0,235 0,265 0,167 0,138 0,263 0,222 0,2532 0,243 0,149 0,121 0,211 0,225 0,13 0,126 0,093 0,594 3,25 0,445 0,428 3,5 3,75 0,413 4, 0,284 0,209 0,4 0,10 n > n0 ÿ 1, portanto ÿ(n0, n) = 2 ÿ log(n) ÿ log(n0) . (8.1) registro M(n0) ( M(n) ) Além disso, para os valores da linha de base n = n0 + 1, usamos a abreviatura ÿn0 . Também podemos decompor ÿ(n0, n) em termos de intermediários "locais" semelhantes a taxas de juros "locais", sob restrição. ÿ(n0, n) = 2 ÿ log(n) ÿ log(n0) ÿ n . log(i+1)ÿlog(i) eu=0 (8.2) 2ÿk(eu,eu+1) Uso do desvio médio Observe que usamos para medida de dispersão em torno do 1 na ausência de variância finita – significa o desvio médio absoluto, para permanecer na norma L na verdade, mesmo na presença de variância finita, sob regimes de Lei de Potência, distribuições proporcionam um segundo momento instável e pouco informativo. O desvio médio mostrase muito mais robusto aí. (O desvio absoluto médio pode ser mostrado como sendo mais "eficiente", exceto no caso restrito de curtose igual a 3 (o gaussiano), consulte uma discussão mais longa em [237]; para outras vantagens, consulte [187].) 8.3 bacia de convergência estável como referência Definição 8.2 (a classe P) A classe P de leis de potência (variação regular) é definida para rv X da seguinte forma: P = {X : P(X > x) ÿ L(x) x -a } (8.3) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8.3 bacia de convergência estável como referência 149 onde ÿ significa que o limite da razão ou rhs para lhs vai para 1 quando x ÿ ÿ. L : L(kx) [xmin, +ÿ) ÿ (0, +ÿ) é uma = função de variação lenta, definida como limxÿ+ÿ L(x) 1 para qualquer k > 0. A constante ÿ > 0. A seguir definimos o domínio de atração da soma de distribuídos de forma idêntica variáveis, no nosso caso com parâmetros idênticos. Definição 8.3 (classe S estável) Uma variável aleatória X segue uma distribuição estável (ou ÿ-estável), simbolicamente X ÿ S(ÿ˜, ÿ, µ, ÿ), se sua função característicaÿ(t) = E(e itX) tem a forma: ÿe (iµtÿ|tÿ| ÿ˜ (1ÿiÿ tan( ÿÿ˜ 2 )sgn(t))) ÿ˜ ÿ= 1 , x(t) = 2iÿsgn(t) log(|tÿ|) ÿÿÿÿ e isto( 2ÿÿPi log(ÿ) +µ ) ÿ|tÿ| ( 1+ Pi ) (8.4) ÿ˜ = 1 ÿÿÿÿ A seguir, definimos o ÿ˜ estável correspondente: 2 de outra forma. ÿ˜ ÿ { ÿ 1ÿ<2 + 2 1ÿÿ2 se X estiver em P (8.5) Discussões adicionais sobre a classe S são as seguintes. 8.3.1 Equivalência para distribuições estáveis Para todos n0 e n ÿ 1 na classe Stable S com ÿ˜ ÿ 1: ÿ(n0,n) = 2 ÿ ÿ˜, simplesmente da propriedade que 1 M(n) = n umM (1) (8.6) Isto simplesmente mostra que ÿn0,n = 0 para o Gaussiano. O problema dos pré-sintóticos para n somas se reduz a: • Qual é a propriedade da distribuição para n0 = 1 (ou começando com uma distribuição padrão, pronta para uso)? • Qual é a propriedade da distribuição para n0 somas? • Como ÿn ÿ 2 ÿ ÿ˜ e com que taxa? 8.3.2 Significado prático para suficiência amostral Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 150 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ Intervalos de confiança: Como uma heurística simples, quanto maior ÿ, mais desproporcionalmente insuficiente é o intervalo de confiança. Qualquer valor de ÿ acima de 0,15 indica efetivamente um alto grau de falta de confiabilidade da “aproximação normal”. Pode-se duvidar imediatamente dos resultados de numerosos trabalhos de pesquisa em domínios de cauda gorda. Cálculos do tipo feitos na Tabela 8.2 , por exemplo, nos permitem comparar várias distribuições sob diversas parametrias. (comparando várias distribuições de Pareto com Student T simétrico e, claro, o Gaussiano que tem um kappa plano de 0) Como mencionamos na introdução, o tamanho da amostra necessário para inferência estatística é determinado por n, o número de somas. No entanto, a lei dos grandes números é frequentemente invocada em condições erradas; precisamos de uma métrica rigorosa de tamanho de amostra. Muitos artigos, ao discutir questões financeiras, dizem [99] que usam a variância finita como uma classificação binária para cauda gorda: leis de potência com um expoente de cauda maior que 2 são, portanto, classificadas como parte da "bacia gaussiana", permitindo assim o uso de variância e outras métricas para aplicações financeiras. Um limite muito mais natural é a finitude das expectativas para aplicações financeiras [229]. Nossa métrica pode, portanto, ser útil da seguinte forma: Seja Xg,1 , Xg,2, . . . , Xg,ng seja uma sequência de variáveis gaussianas com média µ e escala ÿ. Seja Xÿ,1 , Xÿ,2, . . . , Xÿ,nÿ seja uma sequência de algumas outras variáveis dimensionadas para serem do mesmo M(1), nomeadamente Mÿ (1) = Mg (1) = ÿ 2 Pi ÿ. Estaríamos procurando valores de nÿ correspondente a um determinado ng. ÿn é indicativo tanto da taxa de convergência sob a lei dos grandes números, quanto para ÿn ÿ 0, da taxa de convergência de somas para a Gaussiana sob o limite central, conforme ilustrado na Figura 8.2. Xÿ,i ÿ mp ÿ nmin = inf { nÿ : E ( nÿ eu=1 Xg,i ÿ mg ÿ de nÿ ) ÿ E ( de eu=1 (8.7) ), nÿ > 0 } que pode ser calculado usando ÿn = 0 para o Gaussiano e apoiando nosso de ÿn para a distribuição alvo com a aproximação simples: 1 - de nÿ = n g ÿ1, ÿ1 - ÿng 1 ÿ1ÿ1 , de > 1 (8.8) A aproximação se deve à lentidão da convergência. Assim, por exemplo, um Student T com 3 graus de liberdade (ÿ = 3) requer 120 observações para obter a mesma queda na variância da média (portanto, nível de confiança) que o Gaussiano com 30, ou seja, 4 vezes mais. O Pareto unicaudal com o mesmo expoente de cauda ÿ = 3 requer 543 observações para corresponder a uma amostra gaussiana de 30, 4,5 vezes mais do que o Student, o que mostra 1) a finitude da variância não é uma indicação de cauda gorda (em nosso sentido estatístico ), 2) nem os expoentes da cauda são bons indicadores 3) como a distribuição simétrica de Student e a distribuição de Pareto não são equivalentes por causa do "formato de sino" do Student (da função de variação lenta) que amortece as variações no centro do distribuição. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8.4 consequências técnicas 151 Também podemos obter resultados bastante contra-intuitivos. Da Eq. 8.8, o "Pareto 80/20" na mente popular, que mapeia para um expoente de cauda em torno de ÿ ÿ 1,14, requer > 109 observações a mais do que o Gaussiano. 8.4 consequências técnicas 8.4.1 Algumas curiosidades com distribuições assimétricas A distribuição estável, quando assimétrica, tem o mesmo índice ÿ que uma distribuição simétrica (em outras palavras, ÿ é invariante ao parâmetro ÿ na Eq. 8.4, que conserva sob soma). Mas uma distribuição de Pareto simples unicaudal tem cauda mais grossa (para o nosso propósito aqui) do que uma distribuição simétrica equivalente. Isto é relevante porque o estável nunca é realmente observado na prática e usado como algum objeto matemático limitante, enquanto o Pareto é mais comumente visto. O ponto não é bem compreendido na literatura. Considere o seguinte uso da substituição de um Pareto por um estábulo. Em Uchaikin e Zolotarev [257]: Mandelbrot chamou a atenção para o fato de que a utilização da distribuição extremamente estável As alternativas (correspondentes a ÿ = 1) para descrever princípios empíricos eram preferíveis ao uso das distribuições Zipf-Pareto por uma série de razões. Pode-se verificar em muitas publicações, tanto teóricas quanto aplicadas, que as ideias de Mandelbrot recebem cada vez mais amplo reconhecimento dos especialistas. Desta forma, surge a esperança de confirmar princípios empiricamente estabelecidos no quadro de modelos matemáticos e, ao mesmo tempo, de esclarecer o mecanismo de formação desses princípios. Estes não são os mesmos animais, mesmo para um grande número de espécies. 8.4.2 Taxa de Convergência de uma Distribuição T de Student para a Bacia Gaussiana Mostramos no apêndice – graças à derivação explícita de ÿ para a soma de estudantes com ÿ = 3, o “cúbico” comumente observado em finanças – que a taxa de convergência de ÿ para 0 1 sob soma é log(n) . Isto (e a forma semifechada para a densidade de uma cúbica de soma n de Student) complementa o resultado em Bouchaud e Potters [28] (ver também [214]), que é o seguinte. A abordagem deles é separar a "zona Gaussiana", onde a densidade é aproximada pela de uma Gaussiana, e uma "zona da Lei de Potência" nas caudas que mantém a distribuição original com o declínio da Lei de Potência. O "cruzamento" entre os dois se move para a direita e para a esquerda do centro a uma taxa de ÿ n log (n) desvios padrão), o que é terrivelmente lento. Na verdade, pode-se notar que mais somas caem no centro da distribuição, e menos fora dela, portanto a velocidade de convergência de acordo com o teorema do limite central será diferente dependendo se a densidade diz respeito ao centro ou às caudas. Investigações posteriores diriam respeito à convergência do Pareto para um Levy-Stable, que até agora só obtivemos numericamente. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 152 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ 8.4.3 O Lognormal não tem cauda fina nem cauda gorda Ingenuamente, como podemos ver na Figura 8.2, em valores baixos do parâmetro ÿ, o lognormal se comporta como um Gaussiano, e, em ÿ alto, parece ter o comportamento de uma espécie de Cauchy (um Cauchy unilateral). , em vez disso, uma distribuição estável com ÿ = 1, ÿ = 1), à medida que ÿ se aproxima cada vez mais de 1. Isso nos dá uma ideia sobre alguns aspectos dos debates sobre se alguma variável é Pareto ou lognormalmente distribuída, como, digamos , os debates sobre riqueza [162], [53], [54]. Na verdade, tais debates podem ser irrelevantes para o mundo real. Como observou P. Cirillo [44] , muitos casos de paretianidade são efetivamente situações lognormais com alta variância; as consequências estatísticas práticas, contudo, são menores do que se imaginava. 8.4.4 O Kappa pode ser negativo? Assim como a curtose para uma Gaussiana mista (ou seja, com média estocástica, em vez de volatilidade estocástica) pode cair abaixo de 3 (ou tornar-se "negativa" quando se usa a convenção de medir a curtose como excesso sobre a Gaussiana adicionando 3 à média claro), a métrica kappa pode se tornar negativa quando a curtose é "negativa". Estas situações requerem bimodalidade (isto é, um processo de mudança entre médias sob variância fixa, com modos distantes entre si em termos de desvio padrão). Eles não parecem ocorrer com distribuições unimodais. Detalhes e derivações são apresentados no apêndice. 8.5 conclusão e consequências Para resumir, enquanto os teoremas do limite (a lei dos grandes números e o limite central) se preocupam com o comportamento como n ÿ +ÿ, estamos interessados em n finitos e exatos, tanto pequenos como grandes. Podemos tirar algumas consequências operacionais: Variabilidade 0,6 Markowitz 0,5 Figura 8.4: Em resumo, por que razão a heurística 1/n Títulos 0,4 estabelecidos 0,3 Títulos especulativos funciona: são necessários muitos, muitos mais títulos para obter a mesma redução de risco que através da alocação de carteiras de acordo com o Markowitz. Assumimos, para simplificar, que os títulos são independentes, o que não são, algo que agrava 0,2 0,1 0 200 400 600 800 n 1000 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8.5 conclusão e consequências 153 8.5.1 Pseudoestabilização de Portfólio Nosso método também pode ser aplicado natural e imediatamente à construção de portfólio e ao efeito de diversificação, uma vez que adicionar um título a um portfólio tem o mesmo efeito “estabilizador” que adicionar uma observação adicional para fins de significância estatística. "De quantos dados você precisa?" se traduz em "Quantos títulos você precisa?". Claramente, o método de alocação de Markowicz nas finanças modernas [166] (que parece não ser usado pelo próprio Markowitz para a sua própria carteira [178]) aplica-se apenas para ÿ próximo de 0; as pessoas usam heurísticas convexas, caso contrário subestimarão os riscos de cauda e “explodirão” da mesma forma que o famoso fundo de hedge Long Term Management, orientado pela teoria do portfólio, fez em 1998 [236] [250].) Mencionamos anteriormente que uma distribuição de Pareto próxima de “80/20” requer até 109 observações a mais do que uma distribuição gaussiana; consideram que o risco de uma carteira sob tal distribuição seria subestimado em pelo menos 8 ordens de grandeza se fossem utilizados critérios de carteira modernos. Seguindo esse raciocínio, bastam-se portfólios mais amplos. Observou-se também que praticamente não existe segurança financeira que não seja mais gorda do que a gaussiana, a partir do simples critério da curtose [228], o que significa que a alocação de carteira de Markowitz nunca é a melhor solução. Acontece que os agentes aplicam 1 sabiamente uma aproximação ruidosa à heurística que n foi classificada como um desses preconceitos pelos cientistas comportamentais, mas que na verdade foi desmascarada como falsa (um preconceito falso é aquele em que, enquanto o fenómeno observado está presente, ele não existe). não constituem um "preconceito" no mau sentido da palavra; pelo contrário, é o investigador que se engana por utilizar as ferramentas erradas em vez do decisor). Esta tendência de "diversificação excessiva" foi considerada um desvio do comportamento de investimento ideal por Benartzi e Thaler [18], explicado em [16] "quando confrontado com n opções, divida os ativos igualmente entre as opções. Chamamos esta heurística de "1 /n regra."" No entanto, ampliar a diversificação é efetivamente pelo menos tão ideal quanto a alocação padrão (ver crítica de Windcliff e Boyle [265] e [62]). Resumindo, um portfólio igualmente ponderado supera o SP500 em uma ampla gama de métricas. Mas mesmo os dois últimos artigos não conceberam todos os efeitos e propriedades das caudas gordas, que podemos ver aqui com alguma precisão. A Figura 8.5 mostra o efeito para títulos em comparação com Markowitz. Este falso preconceito é um entre muitos exemplos de decisores políticos que “empurram” as pessoas para a racionalidade errada [236] e as levam a aumentar muitas vezes o risco da sua carteira. Mais alguns comentários sobre os riscos do portfólio financeiro. O SP500 tem um ÿ em torno de 0,2, mas é preciso levar em conta que ele próprio é uma cesta de n = 500 títulos, embora não ponderados e consistindo de membros correlacionados, com maior peso sobre os estoques estáveis. As ações individuais têm kappas entre 0,3 e 0,7, o que significa que uma política de “excessiva diversificação” é obrigatória. Da mesma forma, a métrica dá-nos alguma orientação no tratamento de dados para previsão, estabelecendo a suficiência da amostra, para declarar questões como quantos anos de dados precisamos antes de afirmar se as condições climáticas “mudaram”, ver [ 160]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 154 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ 8.5.2 Outros Aspectos da Inferência Estatística Até agora consideramos apenas distribuições univariadas. Para dimensões superiores, uma área potencial de investigação é uma abordagem equivalente à distribuição multivariada de variáveis extremas de cauda gorda, cuja amostragem não é capturada pelas distribuições de MarchenkoPastur (ou Wishhart). Como em nossa situação, adicionar variáveis não remove facilmente o ruído de matrizes aleatórias. 8.5.3 Comentário final Como sempre dizemos, “as estatísticas nunca são padrão”; no entanto, existem métodos heurísticos para descobrir onde e em que medida nos afastamos do padrão. 8.6 apêndice, derivações e provas Mostramos aqui algumas derivações 8.6.1 Student Cúbico T (Bacia Gaussiana) O Student T com 3 graus de liberdade é de especial interesse na literatura devido à sua prevalência em finanças [99]. Muitas vezes é erroneamente aproximado como gaussiano devido à finitude de sua variância. Assintoticamente, obtemos uma Gaussiana, mas isso não nos diz nada sobre a taxa de convergência. Mandelbrot e Taleb [165] observam que a cúbica atua mais como uma lei de potência na distribuição dos extremos, que iremos elaborar aqui graças a um PDF explícito para a soma. Seja X uma variável aleatória distribuída com densidade p(x): 6ÿ3 p(x) = ÿ (x 2 2 , x ÿ (ÿÿ, ÿ) (8.9) +3 ) Proposição 8.1 Seja Y uma soma de X1 , . . . , Xn, n cópias idênticas de X. Seja M(n) o desvio absoluto médio 1 M(n) =n M(1) 2ÿk } ção da média para n somas. A "taxa" de convergência ÿ1,n = { ÿ : é: log(n) ÿ1,n = 2 ÿ log (e nnÿnÿ(n + 1, n) ÿ 1) (8.10) ÿ onde ÿ(., .) é a função gama incompleta ÿ(a, z) = ÿ Desde o desvio Com dttaÿ1 e -t . médio M(n): Pi para n = 1 (8.11) 2ÿ3 _ _ M(n) = { 2 ÿ 3 Pi ( e nn ÿnÿ(n + 1, n) ÿ 1 ) para n > 1 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8.6 apêndice, derivações e provas 155 As derivações são as seguintes. Para o pdf e o MAD seguimos caminhos diferentes. Temos a função característica para n somas: ÿ(ÿ) = (1 + ÿ3 |ÿ|) ÿn ÿ 3 |ÿ| nenhum _ A pdf de Y é dada por: 1 p(y) = ÿ ÿÿ _0 (1 + ÿ 3ÿ ) nenhum _ ÿn ÿ 3 ÿ cos(ÿy) dÿ Após árdua integração, obtemos o resultado em 8.11. Além disso, como o seguinte resultado não parece ser encontrado na literatura, temos um resultado útil: a PDF de Y pode ser escrita como nÿ 2 anos cheiro p(y) = cheiro cheiro e ÿ 3 ( e ÿ 3 Eÿn ( n + ÿ 3 ) + Eÿn ( n ÿ ÿ 3 )) 2 ÿ 3p ÿ onde E(.) (.) é a integral exponencial Enz = ÿ e 1 (8.12) t(ÿz) dt. não _ Observe as seguintes identidades (da atualização de Abramowitz e Stegun) [69] ÿn n ÿnÿ1ÿ(n + 1, n) = Eÿn(n) = e (n ÿ 1)! ÿ nn n n eu m! m=0 Quanto aos assintóticos, temos o seguinte resultado (proposto por Michail Loulakis): Reexpressando a Eq. 8.11: 2ÿ3n ! _ M(n) = pn n n-1 m n ÿ m=0 m! Avançar, ne ÿn ÿ 1n m=0 eu = 1 2 + O ( 1 nÿ ) m! (Do comportamento da soma das variáveis de Poisson à medida que convergem para uma ÿn n-1 m n Gaussiana pelo teorema do limite central:ÿ em=0 m! = P(Xn < n) onde Xn é uma corrida de Poissonvariável dom com parâmetro n. Como a soma de n variáveis aleatórias de Poisson independentes com parâmetro 1 é Poisson com parâmetro n, o Teorema do Limite Central diz que a distribuição de probabilidade de Zn = (Xn ÿ n)/ ÿ n se aproxima de uma distribuição normal padrão. Assim P(Xn < n) = P(Zn < 0) ÿ 1/2 como n ÿ ÿ. 5 Para outra abordagem, veja [179] para prova de que 1 + nn e + 2 + · · · + 1n .) nº 1! Usando a propriedade que limnÿÿ toticos: n!exp(n) nn ÿ n ÿ e 2! (nÿ1)! = ÿ 2ÿ, obtemos a seguinte assimp- 14h _ limnÿÿ log(n)ÿ1,n = 5Robert Israel no Math Stack Exchange 2 4 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 156 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ assim, ÿ vai para 0 (ou seja, a média se torna gaussiana) a uma velocidade 1 que é excrulog (n) , significativamente lenta. Em outras palavras, mesmo com 106 somas, o comportamento não pode ser resumido como o de um Gaussiano, uma intuição frequentemente expressa por B. Mandelbrot [165]. 8.6.2 Somas Lognormais A partir do comportamento de seus cumulantes para n somas, podemos observar que uma soma se comporta como uma gaussiana quando ÿ é baixo, e como um lognormal quando ÿ é alto – e em ambos os casos conhecemos explicitamente ÿn. O lognormal (parametrizado com µ e ÿ) não possui uma função característica explícita. Mas podemos obter cumulantes Ki de todas as ordens i por recursão e para o nosso n caso de cópias idênticas somadas de rv Xi , K= iKi (ÿn Xi ) = nKi (X1 ). Cumulantes: n = neµ+ K1 n K2 K3 2 por 2 2p . =n(e n ÿ1)e 2µ+s2 2p . 2p . _ =n(e K 4n = . . . + 2) e ÿ 1 )2 (e ÿe O que nos permite calcular: Assimetria = 2 (e 3+ e 2s p 2(e 2 3s 3µ+ 2 p ÿ 2ÿ1 ( e 2 +2) e 1 2 2 (2µ+s )ÿµÿ p 2 2 e curtose = ÿn _ p 2 +2) +3) ÿ6 n Podemos provar imediatamente a partir dos cumulantes/momentos que: lim nÿ+ÿ ÿ1,n = 0, limite ÿ1,n = 0 ÿÿ0 e nosso limite em ÿ torna-se explícito: Seja ÿ ÿ seja a situação sob a qual as somas do lognormal conservam a densidade lognormal, com os mesmos dois primeiros momentos. Nós temos 1,n 0 ÿ ÿ ÿÿ 1, 1,n ÿ Sr. 1,n registro(n) =2ÿ ÿ ÿ enfraquecer p 2 ÿ1 log(n+en) ÿ ÿ 2ÿ2 ÿÿÿ ÿÿÿ registro erf( ÿ 2 ÿ 2 ) ÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿ Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8.6 apêndice, derivações e provas 157 Tentativa heurística Entre outras abordagens heurísticas, podemos ver em duas etapas como ÿ 1) sob altos valores de ÿ, ÿ1,n ÿ ÿ já que a lei dos grandes números desacelera 1,n , ÿÿÿÿ 1. ÿ para baixo e 2) ÿ 1,n Prova de Loulakis Provando o limite superior, que para alta variância ÿ1,n se aproxima de 1 foi mostrado formalmente por meu Michail Loulakis6 , que resumimos a seguir. ÿ ÿ Começamos com a identificação E (|X ÿ m|) = 2 ÿ F¯X(t)dt, onde f(.)=é2aÿdensidade, m é a média eu (x ÿ m)f(x)dx eu e F¯X(.) é a função de sobrevivência. Além disso, M(n) = ÿ 2ÿ _nm F¯(x)dx. Suponha que µ = 12p 2 variar. Seja Sn a soma X1 + , 2p . ou X = exp ( ÿZ ÿ 2 ) onde Z é um normal padrão ÿ . . . + Xn; obtemos M(n) = 2 ÿ P(Sn > t)dt. Usando n a propriedade de subexponencialidade ([196]), P(Sn > t) ÿ P(max0<iÿn(Xi ) > t) ÿ . Agora P (X1 2 n > t) ÿÿÿÿ 1 e o segundo termo para 0 nP(X1 > t) ÿ 2 )P (X1 > t) ( (usando a desigualdade de Hölder). M(n) Pulando etapas, obtemos lim inf ÿ n,M(1) enquanto ao mesmo tempo precisamos satisfazer ÿÿÿ o limite M(n) ÿ n. Então para ÿ ÿ ÿ M(1) , M(n) M(1) n, portanto ÿ1,n ÿÿÿÿ 1. = Abordagem da Família Pearson para Computação Para fins computacionais, para o parâmetro ÿ não muito grande (abaixo de ÿ 0,3, podemos usar a família Pearson por conveniência computacional - embora o lognormal não pertença à classe Pearson (o normal pertence, mas estamos perto o suficiente para cálculo).Intuitivamente, em ÿ baixo, os primeiros quatro momentos podem ser suficientes devido à ausência de grandes desvios; não em ÿ mais alto para o qual conservar o lognormal seria o método correto. O uso da classe de Pearson é praticado em alguns campos, como a teoria da informação/ comunicação, onde há uma literatura rica: para somatório de variáveis lognormais, ver Nie e Chen, [180], e para Pearson IV, [41], [65] . A família Pearson é definida para uma densidade f adequadamente dimensionada que satisfaz a seguinte equação diferencial. f ' (x) = ÿ (a0 + a1x) b0 + b1x + b2x 2 f(x) (8.13) Notamos que nossa parametrização de a0, b2, etc. determina a distribuição dentro da classe Pearson – que parece ser a Pearson IV. Finalmente obtemos uma expressão do desvio médio em função de n, ÿ e µ. Deixe-me ser o meio. Diaconis et al [67] a partir de um antigo truque de De Moivre, Suzuki [221] mostram que podemos obter o desvio absoluto médio explícito. Usando, novamente, a ÿ identidade E(|X ÿ m|) = 2 ÿ eu (x ÿ m)f(x)dx e integração por partes, 2 ( b0 + b1m + b2m2 ) E(|X ÿ m|) = f(m) a1 ÿ 2b2 6 Revisão da versão em papel; Loulakis propôs uma prova formal no lugar da derivação heurística. (8.14) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 158 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ Usamos cumulantes do lognormal somado em n para corresponder aos parâmetros. Definindo b1ÿa0 1ÿ2b2 ,obtemos a1 = 1 e m = ÿ ÿ e 2 +6(nÿ1)e p 2 ( ÿ12n 2+(3ÿ10n)e 2(6(nÿ1)+e a0 = 2 2 4p µ+ +12(nÿ1)e 2 2p ÿ(8n+1)e 2 3s +3e2 5s 6s +e 2 +12) 2 e 2ÿ 2 (e ÿ 2 ( e ÿ1 )(2e ÿ 2 +3) 2s 2 (5e pág. +4)ÿ3)) 2p . b2 = 2(6(nÿ1) +e 2ÿ 2 +4)ÿ3)) 2 2 (e p 2p . ÿÿÿÿÿÿÿÿÿÿÿÿÿ b1 = (e ÿ1 ) e (5e pág. p 2p µ + 2(e p p p p 2 ( e 2 ( e 2 ( ÿ4n+e 2 (e 2 +4) +7) ÿ6n+6) +6(nÿ1)) +12(nÿ1)) 2 p nenhum b0 = ÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿ 2 2 ÿ1 ) e (e p 2(6(nÿ1)+e 2ÿ 2 2 2 p 2(µ+s )(e +4)ÿ3)) 3h 2 +3) +6(nÿ1)) 2 +4)ÿ3)) ( ÿ2(nÿ1)e ÿ (5e ÿ 2 (e p 2(6(nÿ1)+e 2ÿ 2 2 (5e pág. ÿ3n+e Expansões Polinomiais Outros métodos, como expansões de Gram-Charlier, como Schleher [210], Beaulieu,[14], mostraram-se menos úteis para obter ÿn. Em valores elevados de ÿ, as aproximações tornam-se instáveis à medida que incluímos polinômios Lhermite de ordem superior. Veja a revisão em Dufresne [70] e [71]. 8.6.3 Exponencial O exponencial são as caudas gordas do “nível de entrada”, logo na fronteira. ÿÿx f(x) = ÿe , x ÿ 0. Por convolução, a soma Z = X1 , X2 ,. . . Xn obtemos, por recursão, já que f(y) = ÿ e 0 f(x)f(y ÿ x) dx = ÿ 2yeÿÿy : nÿ1 ÿÿz n ze ÿfn (z) = (8.15) (n ÿ 1)! qual é a distribuição gama; obtemos o desvio médio para n somas: 2e ÿnn n M(n) = ÿÿ(n) , (8.16) por isso: ÿ1,n = 2 ÿ log(n) n log(n) ÿ n ÿ log(ÿ(n)) + 1 (8.17) Podemos ver que o comportamento assintótico é igualmente lento (semelhante ao do aluno), embora a distribuição exponencial esteja no limite da subexponencialidade: limnÿÿ log(n)ÿ1,n = 4 ÿ 2 log(2ÿ) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 8.6 apêndice, derivações e provas 159 Curtose capa 3,0 -10 -5 5 m1-m2 10 -1 2,5 -2 -3 2,0 -4 -5 1,5 -6 -10 -5 5 m1-m2 10 -7 Figura 8.5: Curtose negativa de A.3 e kappa correspondente. 8.6.4 Kappa negativo, curtose negativa Considere o caso simples de um Gaussiano com médias e variância de comutação: com probabilidade 12 ,X ÿ N (µ1 , ÿ1 ) e com probabilidade 12 ,X ÿ N (µ2, ÿ2). Estas situações com caudas mais finas que a gaussiana são encontradas em situações bimodais onde µ1 e µ2 estão separados; o efeito torna-se agudo quando eles são separados por vários desvios padrão. Seja d= µ1 ÿ µ2 e ÿ = ÿ1 = ÿ2 (para atingir a curtose mínima), registro(4) k1 = +2 d2 log (ÿ) - 2 log ÿ ÿ ÿde 4ÿ 2 erf( d2ÿ )+2ÿ ÿ 2e d 2 4s 2 +2s d2 ÿ de 4ÿ 2 erf( d 2 ÿ2ÿ ) +2ÿ 2 (8.18) ÿ d p em 2 8s 2 ÿ que vemos é negativo para valores amplos de µ1 ÿ µ2. próximo A seguir consideramos alguns diagnósticos simples para leis de potência com aplicação ao SP500. Mostramos as diferenças entre métodos ingênuos e aqueles baseados em estimadores de ML que permitem extrapolação para as caudas. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 9 VALORES EXTREMOS E TA ILS ESCONDIDOS ÿ,† mas não mostrado em amostras anteriores. Os extremos passados (máximo ou Quando os dados sãosãogrossos, há uma partefuturos oculta mínimo) não um bom preditor de extremos – vis-da distribuição registros acontecem e ultrapassar a marca d'água mais alta é uma atitude ingênua estimativa, o que é referido no Capítulo 3 como a falácia de Lucrécio, que, como vimos, pode ser parafraseada como: o tolo acredita que o rio mais alto e a montanha mais alta que existe são iguais aos mais altos que ele viu pessoalmente. Este capítulo, após uma breve introdução à teoria dos valores extremos, concentra-se na sua aplicação às caudas grossas. Quando os dados são distribuídos por lei de potência, o máximo de n observações segue uma distribuição fácil de construir do zero. Mostramos na prática como a distribuição de Fréchet é, assintoticamente, o domínio máximo de atração MDA de variáveis distribuídas pela lei de potência. De forma mais geral, a teoria dos valores extremos permite uma abordagem rigorosa para lidar com extremos e a extrapolação além do máximo da amostra. Apresentamos alguns resultados sobre a “média oculta”, no que se refere a uma variedade de falácias na literatura de gestão de risco. 9.1 introdução preliminar ao evt Seja X1 , . . . Xn sejam variáveis aleatórias de Pareto independentes e distribuídas com CDF F(.) Capítulo de exposição com algumas pesquisas. Lucrécio em Sobre a Natureza das Coisas: É claro que o rio foi a maior visão para ele, que nunca tinha visto nada maior antes; e uma árvore enorme, e um homem parece, e tudo de todo tipo é o maior que todos já viram, imaginam essas figuras enormes. 161 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 162 valores extremos e caudas ocultas ÿ,† Figura 9.1: O poeta filosófico romano Lucrécio. Podemos obter uma distribuição exata do máximo (ou mínimo). A CDF do máximo das n variáveis será P (Xmáx ÿ x) =P (X1 ÿ x, . . . , Xn ÿ x) = P (X1 ÿ x) n · · · P (Xn ÿ x) = F(x) (9.1) isto é, a probabilidade de todos os valores de x caírem em ou abaixo de Xmax. A PDF é a primeira derivada de ÿF(x) n : ÿ(x) = ÿx . ÿ A distribuição de valores extremos diz respeito à do rv máximo, quando x ÿ x onde x domínio ÿ = sup{x : F(x) < 1} (o "ponto final" direito da distribuição) está no , máximo de atração, MDA [116]. Em outras palavras, máx(X1 ,... Xn) P ÿx ÿ , P onde ÿ denota convergência em probabilidade. A questão central passa a ser: o quê? é a distribuição de x ÿ Dissemos que temos a distribuição exata, portanto, como engenheiros, poderíamos ficar satisfeitos com a PDF da Eq. 9.1. Na verdade, poderíamos obter todas as estatísticas de teste a partir daí, desde que tivéssemos paciência, poder computacional e vontade de investigar - é a única maneira de lidar com pré-sintóticos, isto ÿ . é exatamente x é, "o que acontece quando n é pequeno o suficiente para que x não Mas é bastante útil para o trabalho estatístico geral compreender a assimetria geral. estrutura tótica. O teorema de Fisher-Tippett-Gnedenko (Embrech et al. [82], de Haan e Ferreira [116]) afirma o seguinte. Se existirem sequências de constantes "normativas" an > 0 e bn ÿ R tais que P ( Mn ÿum bn ÿ x ) ÿnÿÿ G(x), então G(x) ÿ exp ( ÿ(1 + ÿx) ÿ1/ÿ ) (9.2) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 9.1 introdução preliminar ao evt 163 onde ÿ é o índice de valor extremo e governa o comportamento da cauda da distribuição. G é chamada de distribuição de valores extremos (generalizada), GED. As subfamílias definidas por ÿ = 0, ÿ > 0 e ÿ < 0 correspondem, respectivamente, às famílias Gumbel, Fréchet e Weibull: Distribuição Gumbel (Tipo 1) Aqui ÿ = 0; bastante exp ( ÿ(ÿx + 1)ÿ lim ÿÿ0 1 X ): G(x) = exp ( ÿ exp ( ÿ ( x ÿ bn an para ))) x ÿ R. quando a distribuição de Mn tem cauda exponencial. Distribuição Fréchet (Tipo 2) Aqui ÿ = 1: um ÿ0 G(x) = x ÿ bilhões ÿ ÿ exp ( ÿ ( xÿbnan )ÿÿ ) x > bn. quando a distribuição de Mn tem lei de potência cauda direita, como vimos anteriormente. Observe que ÿ > 0. 1 a Distribuição Weibull (Tipo 3) Aqui ÿ = ÿ G(x) = exp ( ÿ ( ÿ ( xÿbnan ))ÿ) x < bn ÿ 1 xÿb ÿ quando a distribuição de Mn tem um suporte finito à direita (isto é, máximo limitado). Observe aqui novamente que ÿ > 0. 9.1.1 Como qualquer cauda da lei de potência leva a Fréchet Domínio Máximo de Atração para um Fréchet Razão 1,0 0,8 0,6 n=100 n=1000 0,4 0,2 x 0,0 10 20 30 40 50 Figura 9.2: Mostra a proporção das distribuições do CDF da distribuição exata sobre a de um Fréchet. Podemos visualizar o nível aceitável de aproximação e ver como x atinge o Domínio Máximo de Atração, MDA. Aqui ÿ = 2, L = 1. Notamos que a razão para a PDF mostra a mesma imagem, ao contrário da Gaussiana, como veremos mais adiante. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,† 164 valores extremos e caudas ocultas Procedamos agora como engenheiros e não como matemáticos, e consideremos duas distribuições existentes, a Pareto e a Fréchet, e vejamos como uma pode ser feita para convergir para a outra, por outras palavras, derivar novamente a Fréchet das propriedades assintóticas das leis de potência. O raciocínio que seguiremos a seguir pode ser generalizado para qualquer variável com cauda de Pareto considerada acima do ponto onde a função de variação lenta se aproxima satisfatoriamente de uma constante – o "ponto Karamata". O CDF do Pareto com valor mínimo (e escala) L e expoente final ÿ: F(x) = 1 ÿ (eu x ) uma , então o PDF do máximo de n observações: ( 1 ÿ ( L ÿn ( L ÿ(x) = x )ÿ)nÿ1 x )ÿ . x (9.3) O PDF do Frechét: ÿÿÿ 1e ÿ(x) = aba x ÿ ÿ (ÿx ÿÿ ) . (9.4) ÿ )ÿ Vamos agora procurar por x "muito grande" onde as duas funções se igualam, ou ÿ(x ÿ(x ÿ ). a ÿ(x) limxÿÿ ÿ(x) = n (1 b )um eu . (9,5) Assim, para x considerado "grande", podemos usar ÿ = Ln1/ÿ . A Equação 9.5 nos mostra como a cauda ÿ se conserva através das transformações de distribuição: Propriedade 4 O expoente final do máximo das variáveis aleatórias iid é o mesmo das próprias variáveis aleatórias. Agora, na prática, “onde” nos aproximamos é mostrado na figura 9.2. Propriedade 5 Obtemos um ajuste assintótico exato para os extremos da lei de potência. 9.1.2 Caso Gaussiano O caso Fréchet é bastante simples – as leis de potência são geralmente mais simples analiticamente e podemos obter parametrizações limitantes. Para as distribuições gaussianas e outras, são necessárias derivações e aproximações mais complexas para ajustar as constantes normativas an e bn, geralmente envolvendo funções quantílicas. O artigo seminal de Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 9.1 introdução preliminar ao evt 165 Fisher e Tippet [94] alertam-nos que “a partir da distribuição normal, a distribuição limite é abordada com extrema lentidão” (citado por Gasull et al. [101]). A seguir procuramos constantes normativas para uma Gaussiana, com base em [120] e desenvolvimentos posteriores. Domínio Máximo de Atração para um Gaussiano Razão CDF 1,0 Figura 9.3: O comportamento do Gaussiano; é difícil obter uma boa parametrização, ao contrário das leis de potência. O eixo y mostra a razão para o CDF da distribuição máxima exata para n variáveis sobre aquela do EVT parametrizado. 0,8 proporção = 1 0,6 n=102 n=103 0,4 n=104 0,2 x 1 2 3 4 5 Domínio Máximo de Atração para um Gaussiano Proporção PDF 2,5 2,0 proporção = 1 n=102 Figura 9.4: Igual à figura 9.3 , mas usando PDF. Não é possível obter uma boa aproximação nas caudas. n=103 1,5 n=104 1,0 0,5 x 1 2 3 4 5 Considere Mn = anx + bn na Eq. 9.2. Assumimos então que Mn segue o Extremo da ÿe x , distribuição espelhada do Gumbel para Distribuição de Valor EVT (o CDF é e segue mínimo, obtido pela transformação da distribuição de ÿMn onde Mnÿbn um Gumbel com CDF 1 ÿ e ÿe x ÿe .) 3 O CDF parametrizado para Mn é e Um atalho fácil vem da seguinte aproximação4 : an = e b 2 n+1 - um x-bn um . bn 3 A convenção que seguimos considera o Gumbel apenas para mínimos, com o EVT devidamente parametrizado para os máximos. 4 Embrechts et al [82] propõe an = ÿ 2 1 log(n) , bn = ÿ 2 log (n) - necessário para valores grandes de n. A aproximação é de ordem ÿ log(n). log(log(n))+log(4ÿ) 2 ÿ 2 log(n) , o segundo mandato apenas para bn Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,† 166 valores extremos e caudas ocultas bn = ÿ ÿ 2erfcÿ1 ( 2 ( 1 ÿ função. 1 n )) , onde erfcÿ1 é o erro complementar inverso Figura 9.5: O limite máximo: o nível das inundações em Paris em 1910 como máximo. É evidente que temos de considerar que esse registo será superado algum dia no futuro e que a gestão adequada do risco consiste em “quanto” mais do que esse nível se deve procurar protecção. Temos repetido a falácia de Lucrécio desde sempre. Propriedade 6 Para risco e propriedades de cauda, é amplamente preferível trabalhar com a distribuição exata para o Gaussiano, ou seja, para n variáveis, temos a distribuição exata do máximo do CDF do Gaussiano Padrão F( g) : K2 ÿF (g) (K) = ÿK e - K 122 2 ÿnn erfc ( ÿ ÿ 2 )nÿ1 , ÿp _ (9.6) onde erfc é a função de erro complementar. 9.1.3 Teorema de Picklands-Balkema-de Haan A função de distribuição de excesso condicional é equivalente em densidade à expectativa condicional de desvio excessivo de "Lindy" [116, 190], -faremos uso dela no Capítulo 16. Considere uma função de distribuição desconhecida F de uma variável aleatória X; estamos interessados em estimar a função de distribuição condicional Fu da variável X acima de um certo limite u, definido como Fu(y) = P(X ÿ você ÿ y|X > você) = F(você + y) ÿ F(você) 1 ÿ F(você) (9.7) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 9.2 a cauda invisível para uma lei de potência 167 ÿ você, onde x ou infinito à direita da distribuição subjacente F. Então existe para 0 ÿ y ÿ x é o ponto final finito ÿ ÿ uma função mensurável ÿ(u) tal que limão ÿ vocêÿx sup 0ÿx<x ÿÿu (9.8) Fu(x) ÿ Gÿ,ÿ(u) (x) = 0 e vice-versa onde Gÿ,ÿ(u) (x) é a distribuição de Pareto generalizada (GPD) : (9,9) Gÿ,ÿ(x) = { 1 ÿ (1 1 + ÿx/ÿ) ÿ1/ÿ se ÿ ÿ= 0 se ÿ = 0 ÿ exp(ÿx/s) Se ÿ > 0, G.,. é uma distribuição de Pareto. Se ÿ = 0, G.,. (como vimos acima) é uma distribuição exponencial. Se ÿ = ÿ1, G.,. é uniforme. O teorema nos permite fazer algumas inferências de dados isolando as excedências. Mais sobre isso em nossa discussão sobre guerras e tendências de violência no Capítulo 16. 9.2 a cauda invisível para uma lei de potência Considere Kn o máximo de uma amostra de n variáveis independentes distribuídas de forma idêntica na classe da lei de potência; Kn = máx (X1 , X2, ..., Xn). Seja ÿ(.) a densidade da distribuição subjacente. Podemos decompor os momentos em duas partes, com o momento “oculto” acima de K0, conforme mostra a Figura 9.6: 0,05 0,04 0,03 Figura 9.6: O p mento acima de K 0,02 º para- ÿxp ÿ(x) ÿx µK,p = ÿK 0,01 K 2 4 6 8 12 10 ÿ Kn E(X p ) = ÿ 14 xpÿ (x)dx eu + ÿ Kn xpÿ (x)dx ÿ0, p ÿK, p onde µ0 é a parte visível da distribuição e µn a oculta. Também podemos considerar o uso de ÿe como distribuição empírica por normalização. Desde: ÿ Kn (ÿ eu ÿe(x)dx ÿ ÿ Corrigido Kn ÿ ÿ(x)dx) + ÿ ÿ(x)dx = 1, Kn (9.10) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,† 168 valores extremos e caudas ocultas podemos usar o derivado Radon-Nikodym Kn E(X p ) = ÿeu ÿ x p ÿµ(x) xpÿ (x)dx. ÿµe(x) ÿe(x)dx + ÿ Kn (9.11) Razão da média oculta ÿ (ÿ1) ÿ (ÿ) 0,6 0,5 9 5 11 3 8 4 8 2 2 0,4 Figura 9.7: Proporção da média oculta em relação à 0,3 média total, para diferentes parametrizações do expoente de cauda ÿ. 0,2 0,1 n 2000 4000 6.000 8.000 10.000 Cauda Oculta ÿ (ÿ1) ÿ (m) 0,8 0,6 100 1000 0,4 10.000 Figura 9.8: Proporção da média oculta em relação à média total, para diferentes tamanhos de amostra n. 0,2 a 1.1 1.2 1.4 1.3 1,5 Proposição 9.1 ÿ Seja K seja o ponto onde a função de sobrevivência da variável aleatória X pode ser satisfatoriamente aproximada por uma constante, ou seja, P(X . ÿ > x) ÿ L ÿÿx ÿÿ Sob as suposições de , a distribuição para o momento oculto, µK,p, para que K > K n a observação tem para a densidade g(.,. ,.) (.): p gn,p,ÿ(z) = nL para z ÿ 0, p > ÿ e L > 0. pz pÿÿ(zÿ a ) pÿ ÿp p exp ( n ( ÿL pÿÿ ) (z ÿ pz a ÿ a pÿÿ ) ) (9.12) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 9.2 a cauda invisível para uma lei de potência 169 o A expectativa do p momento acima de K, com K > L > 0 pode ser derivado como ÿ (L p ÿ L ÿK pÿÿ ) E(µK,p) = . (9.13) uma - p Notamos que a distribuição da função de sobrevivência da amostra (ou seja, p = 0) é uma distribuição exponencial com PDF: (9.14) gn,0,ÿ(z) = neÿnz que podemos ver depende apenas de n. A probabilidade de excedência para uma distribuição empírica não depende da espessura das caudas. Para obter a média, precisamos apenas obter a integral com um limite inferior estocástico K > Kmin: ÿ ÿ ÿ ÿ ÿ xpÿ (x)dx Kn kmmin ÿÿÿÿ ÿ ÿÿÿÿ fK(K)dK. ÿK, p Para a distribuição completa gn,p,ÿ(z), vamos decompor a média de um Pareto com escala L, então Kmin = L. 1 Pela transformação padrão, uma mudança de variável, K ÿ F(ÿ, Ln, a e masção com PDF: fK(K) = ÿnKÿÿÿ1L a n(-( euK ) ) ÿ ) no distrito de Fréchet , obtemos o resultado desejado. Cauda oculta para o gaussiano (média) ÿ (ÿ1) p 0,030 0,025 Figura 9.9: Proporção da média oculta em relação ao desvio padrão, para diferentes valores de n. 0,020 0,015 0,010 0,005 n 200 400 600 800 1000 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÿ,† 170 valores extremos e caudas ocultas 9.2.1 Comparação com a Distribuição Normal p ÿ1 22 ÿ Para uma Gaussiana com PDF ÿ (g) (.) indexada por (g), µ K (g) = ÿ K ÿ (g) (x)dx = 2, C ( p+1 K2 2) . ÿp _ Como vimos anteriormente, sem passar pelo Gumbel (e sim EVT ou "espelho-Gumbel"), é preferível à distribuição exata do máximo do CDF do Gaussiano Padrão F (g) : - ÿF (g) (K) = ÿK e K2 22 K 1 2 ÿnn erfc ( ÿ ÿ 2 )nÿ1 , ÿp _ onde ertc é a função de erro complementar Para p = 0, a expectativa da “cauda invisível” ÿ ÿ ÿ0 e K2 22 1 ÿnÿ 1 n . 2 K 2 nÿ ( 1K2 , 2 ) (herdar ( ÿ 2 ) + 1)nÿ1 Pi dK = 1ÿ2 ÿn n+1 . 9.3 apêndice: a distribuição empírica não é empírica Figura 9.10: A falácia da taxa básica, revisitada – ou melhor, na outra direção. A "taxa básica" é uma avaliação empírica que se baseia nas piores observações passadas, um erro identificado em [227] como a falácia identificada pelo poeta romano Lucrécio em De rerum natura de pensar que a montanha mais alta do futuro é igual à mais alta do passado. v Citado sem permissão após aviso ao autor. Existe uma confusão predominante sobre a distribuição empírica não paramétrica baseada na seguinte propriedade poderosa: à medida que n cresce, os erros em torno do histograma empírico para frequências cumulativas são gaussianos, independentemente da distribuição de base, mesmo que a distribuição verdadeira seja gorda. cauda (assumindo suporte infinito). Pois o CDF (ou funções de sobrevivência) são ambos uniformes em [0, 1] e, ainda, pelo Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 9.3 apêndice: a distribuição empírica não é empírica 171 Teorema de Donsker, a sequência ÿ n (Fn(x) - F(x)) (Fn é o CDF observado ou função de sobrevivência para n somas, F o verdadeiro CDF ou função de sobrevivência) converge na distribuição para uma distribuição normal com média 0 e variância F(x)(1 ÿ F(x)) (podem-se encontrar formas de convergência ainda mais fortes através do teorema de GlivenkoCantelli). Devido a esta propriedade notável, pode-se assumir erroneamente que o efeito de as caudas da distribuição convergem da mesma maneira independentemente da distribuição. Além disso, e o que contribui para a confusão, a variância, F(x)(1 ÿ F(x)) tanto para CDF empírico quanto para função de sobrevivência, cai nos extremos - embora não seu retorno correspondente. Na verdade, e isso é uma propriedade dos extremos, o erro aumenta efectivamente no coroa se multiplicarmos pelo desvio que corresponde à probabilidade. Para os índices do mercado de ações dos EUA, embora o primeiro método seja considerado ridículo, a utilização do segundo método leva a uma subestimação do retorno no caudas entre 5 e 70 vezes, como pode ser mostrado na Figura 9.11. O tópico é revisitado novamente no Capítulo 11 com nossa discussão sobre a diferença entre binário e recompensas contínuas e a combinação entre probabilidade e recompensas do mundo real quando essas recompensas provêm de uma distribuição de cauda gorda. _ ÿK ÿÿ é ÿx _ ÿK ÿÿ e (x) ÿx 70 Figura 9.11: Esta figura mostra o valor relativo 60 medida estilo CVar da cauda comparado com o do distribuição empírica (suavizada). A cauda profunda é subestimada até 70 vezes pelos métodos atuais, mesmo 50 40 30 aqueles considerados "empíricos". 20 10 K 0,05 0,10 0,15 0,20 0,25 0h30 0,35 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 B CRESCER EM EANDOU TC OMEARE NÃO ESTÁ NA SAMEDISTRIBUIÇÃO AULA demics seguem leis de potência com um expoente de cauda patentemente mais baixo O autor e Pasquale mostraram que as mortes por pando que 1. IssoCirillo significa que todas as informações residem na cauda. Então, a menos que alguém tenha algum motivo real para ignorar questões gerais e não estatísticas condicionais (do estilo “este é diferente”), não se deve basear as decisões de gestão de risco no comportamento da média esperada ou em alguma estimativa pontual. Surgiu o seguinte paradoxo: Xt o número de fatalidades entre os períodos t0 e t é Paretiano com média indefinida. No entanto, a sua taxa de crescimento exponencial não é! Será de cauda fina, distribuído exponencialmente ou algo assim. Cirillo e Taleb (2020) [48] (CT) mostraram por meio da teoria dos valores extremos que as pandemias têm cauda ÿ < 1 quando parecem em XT, o número de fatalidades em alguma -a data T no futuro, com função de sobrevivência P(X > . Suponha que simplifique isso, com x ) = L(x)xa valor mínimo L, L(x) ÿ L então obtemos a função de sobrevivência P(X > x) = Lxÿÿ . (B.1) b.1 o quebra-cabeça Considere o modelo usual, Xt = X0e r(tÿt0) onde r= 1 (t ÿ ÿ , (B.2) rsrs (B.3) t t0 t0) e rs é a taxa instantânea. Normalize a distribuição para L = 1. Podemos assim provar o seguinte (sob a suposição acima de que Xt tem função de sobrevivência na Eq. 13.13): 173 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 174 taxa de crescimento e resultado não estão na mesma classe de distribuição 0,5 0,4 0,3 0,2 0,1 0,0 2 0 4 6 8 10 12 1,0 0,8 0,6 0,4 0,2 0,0 0 5,0×1011 1,0×1012 1,5 × 1012 2,0×1012 2,5×1012 Figura B.1: Acima, um histograma de 106 realizações de r, de uma distribuição exponencial com param-. éter ÿ = 1 2 . Abaixo, o histograma de X = e R Podemos ver a diferença entre as duas distribuições. A curtose da amostra é 9 e 106 respectivamente (na verdade é teoricamente infinita para o segundo); todos os valores para este último são dominados por um único grande desvio. Teorema 1 Se r tem suporte em (ÿÿ, ÿ), então sua PDF ÿ para a taxa escalonada ÿ = r(t ÿ t0) pode ser parametrizada como ÿ ÿ(ÿ) = onde b = - pb _ e ÿÿ0 2b ÿ ÿ - ÿÿ b de outra forma e 2b 1. a Se r tem suporte em (0, ÿ), então seu PDF ÿ uma(ÿp) 0 ÿ(ÿ) = { ae ÿÿ0 caso contrário O que temos aqui são versões da distribuição exponencial ou dupla exponencial (Laplace). Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 b.1 o quebra-cabeça 175 P> P> P> 1 1 1 0,50 0,50 0,50 0,18 0,24 0,10 0,19 0,10 0,05 0,10 0,05 0,05 x x 104 105 106 107 108 109 x 104 105 106 107 108 104 105 106 107 108 109 P> P> P> 1 1 1 0,50 0,50 0,50 0,17 0,21 0,10 0,21 0,10 0,10 0,05 0,05 0,05 x x 104 105 106 107 108 109 x 104 105 106 107 108 109 104 105 106 107 108 109 P> P> P> 1 1 1 0,50 0,50 0,50 0,21 0,22 0,10 0,18 0,10 0,05 0,10 0,05 0,05 x x 105 106 107 108 109 105 106 107 108 109 x 104 105 106 107 108 109 Figura B.2: Pegamos as 60 maiores pandemias e subselecionamos metade aleatoriamente. Normalizamos os dados pela população atual. As propriedades paretianas (e parametrização) são robustas a essas perturbações. EVT fornece um expoente de cauda ligeiramente mais alto, mas firmemente abaixo de um. Trata-se do menor expoente de cauda que os autores já viram em suas carreiras. Observação 7 Implicação: Não se pode traduzir ingenuamente as propriedades entre a taxa de crescimento r e XT porque os erros em r podem ser pequenos (mas diferentes de zero) para r, mas explosivos na tradução devido à exponenciação. O inverso também é verdadeiro: se r segue uma distribuição exponencial então XT deve ter distribuição de Pareto como na Eq. 13.13. O esboço da derivação é o seguinte, via mudança de variáveis. Seja r uma distribuição com densidade ÿ, com suporte (a, b); sob algumas condições padrão, u = g(r) segue uma nova distribuição com densidade ÿ ( g (ÿ1) (u) ) ÿ(você) = g ÿ ( g (ÿ1) (u) ) e suporte [g(a), g(b)]. , Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 176 taxa de crescimento e resultado não estão na mesma classe de distribuição b.2 pandemias são realmente de cauda gorda A Figura B.2 mostra como obtemos uma lei de potência com um ÿ baixo , independentemente da subamostra aleatória dos dados que selecionamos. Usamos em [48] a teoria dos valores extremos, mas os gráficos mostram a análise preliminar (não no papel). Este é o expoente de cauda mais baixo que já vimos em qualquer lugar. A implicação é que os estudos epidemiológicos precisam de ser usados para investigação, mas a elaboração de políticas deve ser feita utilizando EVT ou simplesmente confiando em princípios de precaução – isto é, para reduzir o cancro quando for barato fazê-lo.1 1 Um erro grosseiro é confiar na previsão de um único ponto para a política – na verdade, como mostramos no capítulo 11, é sempre errado usar a previsão da função de sobrevivência – para avaliar a capacidade de previsão pensando “como a ciência é feita” – fora apostas binárias. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 PRINCÍPIO C THELARGEDEVI AT ION , INFORMAÇÃO a literatura circundante. A ideia por trás dos valores discrepantes altos Voltemos versus ao Cramer rápida ricos em 3.1 écom que, sobuma algumas condições,exposição seus problemas dede cauda habilidades decaem exponencialmente. Uma propriedade que é central na gestão do risco – como mencionámos anteriormente, o princípio da catástrofe explica que, para que a diversificação seja eficaz, é necessária uma tal decadência exponencial. O princípio do grande desvio nos ajuda a entender esse comportamento de cauda. Também nos ajuda a descobrir por que as coisas não explodem sob cauda fina - mas, mais significativamente, por que isso poderia acontecer sob caudas gordas, ou onde a condição de Cramèr não é satisfeita [118]. Seja MN a média de uma sequência de realizações (distribuídas de forma idêntica) de N variáveis aleatórias. Para N grande, considere a probabilidade da cauda: P(MN > x) ÿ e ÿNI(x) , onde I(.) é a função de Cramer (ou taxa) (Varadhan [260], Denbo e Zeitouni [59]). Se conhecermos a distribuição de X, então, pela transformação de Legendre, I(x) = supÿ>0 (ÿx ÿ ÿ(ÿ)), onde ÿ(ÿ) = log E ( e ÿ(X) ) é a função geradora do cumulante ção. O comportamento da função ÿ(x) nos informa sobre a contribuição de um único evento para o retorno global. (Isso nos conecta à condição de Cramer que requer a existência de momentos exponenciais). Um caso especial para variáveis de Bernoulli é o Limite de Chernoff, que fornece limites rígidos para essa classe de variáveis discretas. 177 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 178 o princípio do grande desvio, em resumo caso simples: limite de Chernoff Um pagamento binário está sujeito a limites muito rígidos. Seja ( Xi)1<iÿn uma sequência de ensaios de Bernouilli independentes tomando valores em {0, 1}, com P(X = 1) = p e P(X = 0) = 1 ÿ p. Considere a soma Sn = ÿ1<iÿn Xi . com expectativa E(Sn)= np = µ. Tomando ÿ como uma "distância da média", os limites de Chernoff fornecem: Para qualquer ÿ > 0 d P (S ÿ (1 + ÿ)µ) ÿ ( e (1 + d)1+d )m e para 0 < ÿ ÿ 1 ÿd2 3 P (S ÿ (1 + ÿ)µ) ÿ 2e - Vamos calcular a probabilidade de lançamentos de moeda n serem 50% maiores que o verdadeiro quer dizer, com p = 12 n 2 eµ= md2 : P ( S ÿ ( 3 2 ) n 2 ) ÿ 2e - 3 = e ÿn/24, que para n = 1000 acontece a cada 1 em 1,24 × 1018 . ANTIGO) , Prova O limite de Markov dá: P(X ÿ c) ÿ mas nosc permite substituir E(g(X)) X com uma função positiva g(x), portanto P(g(x) ÿ g(c)) ÿ propriedade g(c) . Nós usaremos isso a seguir, com g(X) = e ÿX. Agora considere (1 + ÿ), com ÿ > 0, como uma "distância da média", portanto, com ÿ > 0, ÿSn P (Sn ÿ (1 + ÿ)µ) = P ( e ÿ e ÿ(1+ÿ)µ ) ÿ e ÿÿ(1+ÿ)µE(e ÿSn ) (C.1) Agora E(e ÿSn ) = E(e ÿ ÿ(Xi) ) = E(e ÿXi) n , por independência do tempo de parada, torna-se ( E(e ÿX) )n . x Temos E(e ÿX) = 1 ÿ p + peÿ. Como 1 + x ÿ e Ee ÿSn , µ(e ÿaÿ1) ) ÿ e Substituindo em C.1, obtemos: ÿSn Educaçao Fisica ÿe ÿ(1+ÿ)µ ) ÿ e ÿÿ(1+ÿ)ÿ e ÿ(e ÿÿ1) (C.2) Restringimos os limites brincando com valores de ÿ que minimizam o lado direito. ÿe µ(eÿÿ1)ÿ (ÿ+1)µÿ ÿÿ ÿÿ = { ÿ : = 0} produz ÿÿ = log(1 + ÿ). Que recupera o limite: e ÿµ(ÿ + 1)(ÿÿÿ1)µ . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 o princípio do grande desvio, em resumo 179 Uma extensão dos limites de Chernoff foi feita por Hoeffding [130] , que a ampliou para variáveis aleatórias independentes limitadas, mas não necessariamente Bernouilli. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 D CALIBRE EM INGUNDER PA RETIANITY Figura D.1: O grande Benoit Mandelbrot vinculou a geometria fractal às distribuições estatísticas através da auto-afinidade em todas as escalas. Quando solicitado a explicar seu trabalho, ele disse: “rugosité”, que significa “rugosidade” – demorou cinquenta anos para perceber que essa era sua especialidade. (Cavalo-marinho criado por Wolfgang Beyer, Wikipedia Commons.) Começamos com uma atualização: Definição D.1 (Lei de Potência Classe P) O rv X ÿ R pertence a P, a classe de funções de variação lenta (também conhecida como Paretiantail ou 181 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 182 calibrando sob paretianidade potência com cauda) se sua função de sobrevivência (para a variável tomada em valor absoluto) decair assintoticamente em um expoente fixo ÿ, ou ÿ que é ', -a P(X > x) = L(x) x (D.1) (cauda direita) ou P(ÿX > x) = L(x) x ÿ ÿa (D.2) (cauda ' esquerda) onde ÿ,>ÿ0 e L: (0, ÿ) ÿ (0, ÿ) é uma função de variação lenta, definida como L(kx) limxÿÿ eu(x) =1 para todo k > 0. O resultado feliz é que o parâmetro ÿ obedece a uma distribuição gama inversa que converge rapidamente para uma Gaussiana e não requer um n grande para obter uma boa estimativa. Isto é ilustrado na Figura D.2, onde podemos ver a diferença no ajuste. 0,4 n=100 0,3 Verdadeira média Figura D.2: Simulação de Monte Carlo (105 ) de uma comparação da média amostral (Métodos 1 e 2) versus estimativas da média de verossimilhança máxima 0,2 0,1 (Método 3) para uma distribuição de Pareto com 0,0 5 10 15 20 mais confiável. Também podemos observar o viés, pois os Métodos 1 e 2 subestimam a média n=1000 0,5 ÿ = 1,2 (amarelo e azul respectivamente), para n = 100, 1000. Podemos ver como o MLE rastreia a distribuição de forma 0,4 amostral na presença de assimetria nos dados. Precisamos de mais 107 dados para obter o 0,3 mesmo taxa de erro. 0,2 0,1 0,0 5 10 15 20 Como vimos, há um problema com as chamadas leis de potência de variância finita: a finitude da variância não ajuda, como vimos no Capítulo 8. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 d.1 distribuição do expoente da cauda da amostra 183 d.1 distribuição do expoente da cauda da amostra Considere a distribuição de Pareto padrão para uma variável aleatória X com PDF: a ÿX(x) = ÿL ÿÿÿ 1x , x > eu (D.3) Suponha que L = 1 por escala. ÿÿÿ1 ÿx n A função de verossimilhança é L = ÿ eu=1 eu . Maximizando o Log da função de verossimilhança (assumindo que definimos o valor mínimo) log(L) = n(log(ÿ) + ÿ log(L)) ÿ (ÿ + ÿ n i=1 log n n Xi 1)nÿ i=1 log (xi) produz: ÿˆ = . Usando o n ÿ i=1 log(xi) . Agora considere l = função característica para obter a distribuição do rendimento logarítmico médio: ÿ(t) n = (ÿ ÿ 1f (x) exp ( it log (x) ndx)n ) = ( ÿn ÿn ÿ it )n que é a função característica da distribuição gama (n, ÿ ÿ 1 resultado é que ÿˆ gama inversa com densidade: l seguirá a distribuição e - ÿˆ (a) = ). Um padrão 1 um ÿn ÿˆ ( ÿn a )n ÿˆÿ(n) , uma > 0 . Desviando já que E(ÿˆ) = n n-1 = ÿ elegemos outra variável aleatória –imparcial– ˆÿ ÿ a-um n1n ÿˆ que, após escalonamento, terá como distribuição ÿÿˆÿ(a) = e a ÿ(nÿ1) a ) n+1 . ( umaÿ(n+1) Truncando para ÿ > 1 Dado que valores de ÿ ÿ 1 levam à ausência de média, restringimos a distribuição a valores maiores que 1 + ÿ, ÿ > 0. Nossa amostragem agora se aplica a valores truncados inferiores do estimador, aqueles estritamente maiores que 1, nÿ1 com ponto de corte ÿ> ÿˆ a_' (a) , 0, ou seja, ÿ log(xi) > 1 + ÿ, ou E(ÿˆ|ÿˆ>1+ÿ ): ÿÿˆÿÿ(a) = ÿ ˆ ÿ (a) de 1+ÿ ÿ a portanto, a distribuição dos valores do expoente condicional a ser maior que 1 torna-se: ÿ 2 um e aÿan ( 2ÿna(nÿ1))n ÿÿˆÿÿ(a) = n 2ÿ , uma ÿ 1 + ÿ (D.4) a ( ÿ(n) ÿ ÿ ( n, (nÿ1)(ÿ+1))) Assim, como podemos ver na Figura D.2, a média do “plug-in” através da cauda ÿ pode ser uma boa abordagem sob Paretianidade unicaudal. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 10 "ITISWH AT ITIS": DIAGNÓSTICO TESP 5 0 0 T † Este é um tour de diagnóstico das propriedades do índice SP500 em sua história. Envolvemo-nos numa bateria de testes e verificamos o quadro estatístico que surge. Claramente, os seus retornos são distribuídos pela lei de potência (com algumas complicações adicionais, tais como uma assimetria entre o lado positivo e o lado negativo) o que, mais uma vez, in- valida métodos comuns de análise. Procuramos, entre outras coisas: • O comportamento da curtose sob agregação (à medida que aumentamos a janela de observação) • O comportamento da expectativa condicional E(X|X>K) para vários valores usos de K. • O gráfico de soma máxima (MS Plot). • Rebaixamentos (ou seja, excursões máximas em uma janela de tempo) • Extremos e registros para verificar se os extremos são independentes. Esses diagnósticos nos permitem confirmar que toda uma classe de análises em L2, como a moderna teoria de portfólio, análise fatorial, GARCH, variância condicional ou volatilidade estocástica, são metodologicamente (e praticamente) inválidas. 10.1 paretianidade e momentos O problema Como dissemos no Prólogo, mudar de cauda fina para cauda gorda não é apenas mudar a cor do vestido. Os rentistas financeiros e económicos sustentam a mensagem "sabemos que é uma cauda gorda", mas depois não conseguem compreender as consequências sobre muitas coisas, como a lentidão da lei dos grandes números e o fracasso das médias amostrais ou dos momentos mais elevados para serem estatísticas suficientes. (bem como a ergodicidade Este é em grande parte um capítulo gráfico feito para ser lido mais a partir das figuras do que do texto, já que os argumentos repousam em grande parte na ausência de convergência nos gráficos. 185 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 186 "é o que é": diagnosticando o sp500† efeito, entre outros). Da mesma forma, leva a uma série de análises não informativas na indústria de investimentos. A paretianidade é claramente definida pela ausência de algum momento superior, exibida pela falta de convergência sob o LLN. Figura 10.1: Identificação Visual da Paretianidade em um gráfico log-log padrão com retornos (absolutos) no eixo horizontal e a função de P> X 1 0,100 sobrevivência no eixo vertical. Se removermos o ponto de dados correspondente ao crash de 1987, um lognormal talvez funcionasse, ou alguma distribuição mista de cauda grossa fora da classe da lei de potência. Pois podemos 1987 0,010 0,001 0,01 0,02 0,05 0,10 0,20 ver a função de sobrevivência tornando-se vertical, indicativo de um expoente de cauda |X} assintótico infinito. Mas como diz o ditado, tudo o que precisamos é de um único evento... Observação 8 Dado que: 1) a classe que varia regularmente não tem momentos superiores a ÿ, mais precisamente, • se p > ÿ, E(X p ) = ÿ se p for par ou a distribuição tiver suporte unilateral e • E(X p ) é indefinido se p for ímpar e a distribuição tiver suporte bicaudal, e 2) distribuições fora da classe que varia regularmente têm todos os momentos ÿp ÿ , N+ E(X p ) < ÿ. ÿp ÿ N+ st E(X p ) é indefinido ou infinito ÿ X ÿ P. A seguir, examinaremos maneiras de detectar momentos “infinitos”. Muita confusão acompanha a noção de momentos infinitos e sua identificação, uma vez que, por definição, os momentos amostrais são finitos e mensuráveis sob a medida de contagem. Contaremos com a não convergência de momentos. Seja ÿXÿp a norma p ponderada n ÿXÿp ÿ |xi | ÿ (1 n eu=1 p )1/p , temos a propriedade das leis de potência: E(X p ) ÿ ÿ ÿ ÿxÿp não é convergente. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 10.2 testes de convergência 187 Pergunta Como pertencer à classe das caudas da Lei de Potência (com ÿ ÿ 4) se cancela muitos dos métodos em L2? A seção 5.10 mostra a distribuição do desvio médio do segundo momento para uma lei de potência de variância finita. Simplesmente, mesmo que o quarto momento não exista, sob momentos infinitamente superiores, o segundo momento da variância tem ele próprio variância infinita, e caímos nos problemas de amostragem vistos antes: assim como com um lei de potência de ÿ perto de 1 (embora ligeiramente acima dela), a média existe, mas nunca será ser observado, numa situação de terceiro momento infinito, o segundo momento observado deixará de ser informativo, pois quase nunca convergirá para o seu valor. 10.2 testes de convergência As leis de convergência podem nos ajudar a excluir algumas classes de distribuições de probabilidade. Curtose Figura 10.2: Diagnóstico de convergência visual para curtose do SP500 nas últimas 17.000 observações. Nós calcular a curtose em diferentes defasagens para o SP500 bruto e dados reorganizados. Enquanto o 4 norma não é convergente 20 15 Reembaralhado SP500 SP500 10 5 0 20 40 60 80 100 atraso para dados brutos, é claramente assim para o série remodelada. Podemos, portanto, presumir que a “cauda gorda” é atribuível à estrutura temporal do os dados, particularmente o agrupamento de sua volatilidade. Consulte a Tabela 7.1 para queda esperada na velocidade 1/n para distribuições de cauda fina. 10.2.1 Teste 1: Curtose sob Agregação Se a curtose existisse, acabaria convergindo para a de uma Gaussiana à medida que aumentamos a janela de tempo. Portanto, testamos os cálculos dos retornos ao longo de períodos mais longos e defasagens mais longas, como podemos ver na Figura 10.2. Resultado O veredicto mostrado na Figura 10.2 é que a curtose de um mês não é inferior à curtose diária e, à medida que somamos dados, não se observa queda na curtose. Além disso, esperaríamos uma queda ÿ n ÿ1 . Isso nos permite eliminar com segurança classes complexas, que incluem volatilidade estocástica em suas formulações simples, como variância gama. A seguir entraremos nos detalhes técnicos do ponto e da força das evidências. Um mal-entendido típico é o seguinte. Em uma nota "O que Taleb pode aprender com Markowitz" [255], Jack L. Treynor, um dos fundadores da teoria do portfólio, defendeu o campo com o argumento de que os dados podem ser de cauda gorda de "curto prazo", mas em algo chamado “longo prazo”, as coisas se tornam gaussianas. Desculpe, não é assim. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 188 "é o que é": diagnosticando o sp500† Gráfico SP500 MS para 4º M Gráfico MS do 4º Momento para Dist de Cauda Fina. EM(4) EM(4) 1,0 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 n 5.000 10.000 n 15.000 5.000 10.000 15.000 Gráfico SP500 MS para 3º M Gráfico MS para correspondência de volatilidade estocástica EM(4) EM(3) 1,0 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 n 5.000 10.000 15.000 n 5.000 10.000 15.000 Figura 10.3: Gráfico MS (ou "lei dos grandes números para p momentos") para p = 4 para o SP500 comparado a p = 4 para uma volatilidade gaussiana e estocástica para uma curtose correspondente ( 30) durante todo o período. A convergência, se houver, não ocorre num prazo razoável. Gráfico MS para o momento p = 3 para o SP500 em comparação com p = 4 para um Gaussiano. Podemos dizer com segurança que oº4º momento é infinito e o 3º momento é indeterminado (Acrescentamos o problema ergódico que obscurece, se não elimina, a distinção entre longo e curto prazo). A razão é que simplesmente não podemos falar sobre "Gaussiana" se a curtose for infinita, mesmo quando existem momentos inferiores. Além disso, para ÿ ÿ 3, o limite central opera muito lentamente, requer n da ordem de 106 para se tornar aceitável, e não o que temos na história dos mercados. [27] 10.2.2 Rebaixamentos Máximos Para uma série temporal para o ativo S adquirido (t0, t0 + ÿt, t0 + nÿt), estamos interessados no comportamento de ÿ (t0, t, ÿt) = Min ( Siÿt+t0 ÿ ( MinSjÿt+t0 )nj=i+1)n (10.1) eu=0 Podemos considerar o rebaixamento relativo usando o logaritmo desse mínimo, como fazemos com os retornos. A janela para o saque pode ser n = 5.100.252 dias. Como visto na Figura 10.10, os rebaixamentos são Paretianos. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 10.2 testes de convergência 189 ÿ (-X -X>K) K 1.7 Figura 10.4: O "Lindy test" ou Condexp, usando o 1.6 expectativa condicional abaixo de K, pois K varia conforme o teste de escalabilidade. À medida que movemos K, 1,5 a medida deve cair. 1.4 K 0,04 0,06 0,08 0,10 60 50 40 Figura 10.5: O empírico a distribuição poderia 30 concebivelmente se ajustar a uma distribuição estável de Lévy com ÿl = 1,62. 20 10 -0,20 -0,15 -0,10 -0,05 0,05 0,10 Distribuição Estável[1, 1., 1., 0,0690167, 0,00608249] P> X 1 0,50 Figura 10.6: As caudas podem possivelmente até mesmo se ajusta a uma distribuição média estável infinita com ÿl = 1. 0,10 0,05 0,05 0,10 0,15 |X} 0,20 10.2.3 Kappa Empírico Da nossa equação kappa no Capítulo 8: ÿ(n0, n) = 2 ÿ log(n) ÿ log(n0) registro M(n0) ( M(n) ). (10.2) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 190 "é o que é": diagnosticando o sp500† 0,05 0,04 Figura 10.7: SP500 ao quadrado retorna para 16.500 observações. Nenhum GARCH(1,1) pode 0,03 produzir tal irregularidade ou o que o grande Benoit Mandelbrot chamou de "rugosité". 0,02 0,01 0,00 Kappa Empírico ÿn 0,20 0,18 0,16 Positivo Negativo 0,14 Figura 10.8: kappa-n estimado empiricamente. 0,12 0,10 n 100 200 400 300 500 600 com atalho ÿn = ÿ(1, n). Estimamos empiricamente por meio de bootstrapping e podemos veja efetivamente como ela se relaciona com uma lei de potência - com ÿ < 3 para o negativo retorna. 10.2.4 Teste 2: Excesso de Expectativa Condicional Resultado: O veredicto deste teste é que, como podemos ver na Figura 10.4, que a expectativa condicional de X (e ÿX), condicional em X é maior que algum valor arbitrário K, permanece proporcional a K. Definição 10.1 Seja K em R+ , o excesso relativo de expectativa condicional: + ÿ FiK - FiK E(X)|X>K K ÿ E(ÿX)|X>K K , . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 10.2 testes de convergência 191 0,0 0,0 -0,2 -0,2 -0,4 -0,4 -0,6 -0,6 -0,8 -0,8 0,0 0,0 -0,2 -0,2 -0,4 -0,4 -0,6 -0,6 -0,8 -0,8 Figura 10.9: Rebaixamentos para janelas n = 5, 30, 100 e 252 dias, respectivamente. Os rebaixamentos máximos são excursões mapeadas na Eq. 10.1. Usamos aqui o log do mínimo de S durante uma janela de n dias após um determinado S. P>X 1 252d 5d 100d 0,100 Figura 10.10: Paretianidade de rebaixamentos e escala 0,010 0,001 0,02 0,05 0,10 0,20 0,50 |X} Nós temos limão Kÿÿ ÿK = 0, para distribuições fora da bacia do direito de potência, e a limão Kÿÿ ÿK/K = 1 - uma para distribuição que satisfaça a Definição 1. Observe a lei de van der Wijk [44], [228]. A Figura 10.4 mostra o seguinte: a expectativa condicional não cai para valores grandes, o que é incompatível com distribuições não Paretianas. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 192 "é o que é": diagnosticando o sp500† P> X 1 0,50 Figura 10.11: Ajustando uma distribuição estável para rebaixamentos 0,10 0,05 0,55 0,60 0,65 0,70 |X} Pr. 1,0 0,8 0,6 Figura 10.12: Correção a distribuição empírica funcionar com um Frechet para o SP500 Função de Sobrevivência Empírica Frechet, 1 0,4 Frechet, índice de cauda inferior 0,2 K 0,05 0,10 0,15 10.2.5 Teste 3 - Instabilidade de 4 0,20 0,25 0h30 o momento Um argumento principal em [228] é que em 50 anos de observações do SP500, uma única representa >80% da curtose. Efeito semelhante é observado com outras variáveis, como ouro, petróleo, prata, outros mercados de ações, commodities agrícolas. Tal dependência amostral da curtose significa que o quarto momento não tem a estabilidade, isto é, não existe. 10.2.6 Teste 4: Gráfico MS Uma abordagem adicional para detectar se E(X p ) existe consiste em examinar a convergência de acordo com a lei dos grandes números (ou melhor, da ausência de), observando o comportamento dos momentos mais elevados em uma determinada amostra. Uma abordagem conveniente é a Gráfico de máximo para soma ou gráfico MS conforme mostrado na Figura 10.3. O MS Plot depende de uma consequência da lei dos grandes números [184] quando se trata do máximo Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 10.2 testes de convergência 193 de uma variável. Para uma sequência X1 , X2, ..., Xn de variáveis aleatórias iid não negativas, se para p = 1, 2, 3, . . . , E[X p ] < ÿ, então Rpp _=M n p n como n ÿ ÿ, onde S = n/Snp ÿcomo 0 n ÿ XI p _ p n é a soma parcial, e M p = máx(X X 1 , ...,p n) o eu=1 máximo parcial. (Observe que podemos ter X como o valor absoluto da variável aleatória caso o rv possa ser negativo para permitir que a abordagem seja aplicada a momentos ímpares.) Mostramos por comparação o gráfico MS para um Gaussiano e aquele para um Student T com um expoente de cauda de 3. Observamos que o SP500 mostra as características típicas de uma lei de potência íngreme, já que em 16.000 observações (50 anos) ela não aparece cair ao ponto de permitir o funcionamento da lei dos grandes números. 1 2 3 P> X P> X P> X 1 1 1 0,50 0,50 0,50 0,10 0,10 0,10 0,05 0,05 0,05 0,01 0,01 0,01 |X} 0,05 0,10 |X} 0,20 0,05 0,10 0,15 0,200,25 4 |X} 0,05 5 P> X P> X 1 1 1 0,50 0,50 0,50 0,10 0,10 0,10 0,05 0,05 0,05 0,01 0,01 0,01 |X} |X} 0,10 0,15 0,20 0,250,30 7 |X} 0,10 0,15 0,20 0,250,30 8 P> X P> X 1 1 0,50 0,50 0,50 0,10 0,10 0,10 0,05 0,05 0,05 0,01 0,01 0,01 |X} 0,10 |X} 0,10 0,15 0,20 0,25 0,30 |X} 0,10 0,15 0,20 0,25 0,300,35 11 10 P> X P> X 1 1 0,50 0,50 0,50 0,10 0,10 0,10 0,05 0,05 0,05 0,01 0,01 0,01 |X} 0,10 0,15 0,20 0,25 0,300,35 0,15 0,20 0,25 0,300,35 12 P> X 1 0,15 0,20 0,25 0,30 9 P> X 1 0,15 0,20 0,250,30 6 P> X 0,10 0,10 |X} 0,10 0,15 0,20 0,25 0,300,35 |X} 0,10 0,15 0,20 0,25 0,300,35 Figura 10.13: Separamos os retornos logarítmicos positivos e negativos e usamos retornos cumulativos sobrepostos de 1 a 15. Claramente, os retornos negativos parecem seguir uma Lei de Potência, enquanto a Paretianidade da lei certa é mais questionável. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 194 "é o que é": diagnosticando o sp500† 0,10 0,05 Figura 10.14: Gráfico QQ comparando o Student T com o distribuição empírica do 0,00 SP500: a cauda esquerda cabe, não a cauda direita. -0,05 -0,10 -0,10 -0,05 0,00 0,05 0,10 10.2.7 Registros e Extremos Os métodos de registro Gumbel são os seguintes (Embrechts et al [82]). Seja X1 , X2 ,. . . ser uma série temporal discreta, com máximo no período t ÿ 2, Mt = max(X1 , X2, . . . , Xt), temos o contador de registros N1,t para n pontos de dados. t N1,t = 1 + ÿ (10.3) 1Xt>Mtÿ1 . k=2 Independentemente da distribuição subjacente, a expectativa E(Nt) é a Harmônica t 1 Número Ht , t , onde Ht = ÿ e a variância Ht ÿ H2 eu=1 eu sou . Notamos que o número harmônico é côncavo e de crescimento muito lento, logarítmico, como pode ser aproximado com log(n) + ÿ, onde ÿ é a constante de Euler Mascheroni. O 1 a aproximação é tal que ÿ Ht ÿ log(t)1 ÿ ÿ ÿ (Wolfram Mathworld [263]). 2t 2(t+1) Figura 10.15: O registro teste mostra independência para extremos de retornos negativos, dependência de retornos positivos. O número de registros para observações independentes crescem com o tempo no número harmônico # registros 15 10 5 H(t) (linha tracejada), ÿ logarítmico, mas aqui parece crescer > 2,5 desvios padrão mais rapidamente para retornos positivos, portanto não podemos Ganhos Perdas tempo 0 5.000 10.000 15.000 assumir independência para ganhos extremos. O teste faz não fazer afirmações sobre dependência fora dos extremos. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 10.2 testes de convergência 195 N 15 10 5 t 50 100 150 50 100 150 N 15 10 5 t Figura 10.16: Período mais curto, t = 1000 dias de observações sobrepostas para os registros de máximos (topo) e mínimos (fundo), em comparação com o número harmônico esperado H (1000). Observação 9 O teste de independência de Gumbel acima é condição suficiente para a convergência dos valores extremos negativos dos log-retornos do SP500 para o Domínio Máximo de Atração (MDA) da distribuição de valores extremos. Série inteira Reorganizamos o SP500 (ou seja, inicializamos sem substituição, usando um tamanho de amostra igual ao original ÿ 17.000 pontos, com 103 repetições) e executamos registros em todos eles. Conforme mostrado nas Figuras 10.18 e 10.17, a média foi de 10,4 (aproximada pelo número harmônico, com um desvio padrão correspondente). A função de sobrevivência S(.) de N1,7×104 = 16, S(16) = o que nos permite considerar 1 40 a independência de extremos positivos implausível. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 196 "é o que é": diagnosticando o sp500† Por outro lado, os extremos negativos (9 contagens) mostram realizações próximas de um 1 2 padrão do esperado, o suficiente para justificar um o que é esperado (10.3), desviando por não rejeitar a independência. Subregistros Se em vez de considerarmos os dados como um bloco ao longo de todo o período, dividirmos o período em subperíodos, obtemos (devido à concavidade da medida desigualdade de Jensen) , Nt1+ÿ,t1+ÿ+ÿ obtemos observações T/ÿ . Tomamos ÿ = 103 e a e ÿ = 102 obtendo , assim 170 subperíodos para T ÿ 17 × 103 dias. A imagem mostrada na Figura 10.16 não pode rejeitar a independência tanto para observações positivas quanto para observações rejeitadas. Nt 1,0 Registros médios para máximo de 0,8 SP500 reorganizado retorna 1950-2017 # máximo 0,6 0,4 0,2 t 5 10 15 20 Figura 10.17: A função de sobrevivência dos registros de máximos positivos para o SP500 reamostrado (103 vezes), mantendo todos os retornos, mas embaralhando-os, removendo assim a estrutura temporal. A massa acima de 16 (número observado de registros máximos para SP500 durante o período) é 1 40 . Figura 10.18: O CDF dos registros de extremos negativos para o SP500 reamostrado (103 vezes) reembaralhado como acima. A massa acima de 9 (número observado de registros mínimos para SP500 durante o período) é 25. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 10.3 conclusão: é o que é 197 Conclusão para sub-registos Podemos pelo menos aplicar métodos EVT para observações negativas. 10.2.8 Assimetria cauda direita-esquerda Notamos uma assimetria como vista na Figura 10.13, com a cauda esquerda consideravelmente mais espessa que a direita. Pode ser um pesadelo para modeladores que procuram algum processo preciso, mas não necessariamente para pessoas interessadas em risco e negociação de opções. 10.3 conclusão: é o que é Este capítulo permitiu-nos explorar um tópico simples: os retornos do índice SP500 (que representa a maior parte da capitalização do mercado de ações dos EUA) são simplesmente distribuídos pela lei de potência – pela régua de Wittgenstein, é irresponsável modelá-los de qualquer outra forma. Métodos padrão, como a Teoria Moderna do Portfólio (MPT) ou verbalismos de "quebra da taxa básica" (afirmações de que as pessoas superestimam as probabilidades de eventos de cauda) são totalmente falsos - estamos falando de mais de 70.000 artigos e coortes inteiras de pesquisa, sem contar cerca de 106 artigos em economia geral com resultados dependentes de “variância” e “correlação”. Você precisa conviver com o fato de que essas métricas são falsas. Como diziam os antigos, dura lex sed lex, ou em termos mais modernos da máfia: É o que é. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 E O PROBLEMA COM OS TRICOS DE ECONOMIA pessoas não se reproduzem no mundo real. Dois testes de confiabilidade Há algo de errado com10,a um econometria, que quase todos os países no Capítulo sobre métodosjá paramétricos e outro sobre estatísticas robustas, mostram que deve haver algo podre nos métodos econométricos, fundamentalmente errados, e que os métodos não são suficientemente fiáveis para serem úteis em qualquer coisa remotamente relacionada com decisões arriscadas. Os profissionais continuam tecendo declarações ad hoc inconsistentes para explicar as falhas. Esta é uma breve exposição não técnica dos resultados em [228]. Com variáveis económicas, uma única observação em 10.000, ou seja, um único dia em 40 anos, pode explicar a maior parte da "curtose", a medida padrão de momento finito das "caudas gordas", isto é, tanto uma medida quanto o a distribuição em consideração se afasta do Gaussiano padrão, ou do papel dos eventos remotos na determinação das propriedades totais. Para o mercado de ações dos EUA, um único dia, o crash de 1987, determinou 80% da curtose para o período entre 1952 e 2008. O mesmo problema é encontrado com taxas de juros e de câmbio, commodities e outras variáveis. Refazer o estudo em diferentes períodos com diferentes variáveis mostra uma total instabilidade à curtose. O problema não é apenas que os dados tinham “caudas gordas”, algo que as pessoas sabiam, mas que queriam esquecer; o problema era que nunca seríamos capazes de determinar "quão gordas" eram as caudas dentro dos métodos padrão. Nunca.1 1 Variáveis macroeconómicas, como os pedidos semanais de subsídio de desemprego nos EUA, têm tradicionalmente parecido ser tratáveis dentro dos edifícios (feios e monótonos) que albergam departamentos económicos. Acabaram quebrando os modelos com estrondo. Os pedidos de auxílio-desemprego experimentaram saltos "inesperados" com o Covid 19 (o coronavírus) descrito em "trinta desvios padrão": a curtose (das alterações no log) aumentou de 8 para > 550 após uma única observação em abril de 2020. Quase todos na amostra foram mais altos os momentos são atribuíveis a um ponto de dados, e quanto maior o momento, maior esse efeito - portanto, deve-se aceitar que não há momentos mais altos, nem momento inferior informativo, e a variável deve ser distribuída pela lei de potência. Tal papel para a cauda anula toda a história da modelização macroeconómica, bem como das políticas baseadas na conclusão de economistas que utilizam métricas derivadas do Mediocristão. Embora os economistas nos círculos de citações possam não estar conscientes do seu comportamento fraudulento, outros não estão a perder o foco. No momento em que este artigo foi escrito, as pessoas estavam começando a perceber que quanto mais grossas as caudas, mais as políticas deveriam ser baseadas nos extremos esperados, usando a teoria dos valores extremos (EVT), e as diferenças entre os modelos gaussianos e de lei de potência são ainda mais acentuadas para os extremos. . 199 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 200 o problema da econometria Figura E.1: Crédito: Stefan Gasic A implicação é que aquelas ferramentas usadas em economia que se baseiam na quadratura 2 L ), como desvio padrão, variância, correlação, de variáveis (mais tecnicamente, a norma regressão, o tipo de coisa que você encontra nos livros didáticos, não são cientificamente válidas. (exceto em alguns raros casos em que a variável é limitada). Os chamados “valores de p” que você encontra nos estudos não têm significado com variáveis econômicas e financeiras. Mesmo as técnicas mais sofisticadas de cálculo estocástico utilizadas nas finanças matemáticas não funcionam em economia, exceto em áreas selecionadas. e.1 desempenho de estimadores de risco paramétricos padrão Portanto, não se espera que os resultados da maioria dos artigos em economia baseados nestes métodos estatísticos padrão sejam replicados, e efetivamente não o fazem. Além disso, essas ferramentas convidam à tomada de riscos tolos. Nem as técnicas alternativas produzem medidas fiáveis de eventos raros, exceto que podemos dizer se um evento remoto está subvalorizado, sem atribuir um valor exato. De [228]), usando retornos logarítmicos, Xt ÿ log ( P(t) P(tÿiÿt) ). Considere o máximo de n amostras 4 )n Seja Q(n) a contribuição das variações observação quártica máxima Max(Xtÿiÿt eu=0. quárticas máximas sobre n amostras e frequência ÿt. Q(n) := Máx. (X ÿ n eu=0 4 tÿiÿt )n eu=0 . X4 tÿiÿt Observe que, para nossos propósitos, onde usamos curtose central ou não central não faz diferença – os resultados são quase idênticos. Para um Gaussiano (isto é, a distribuição do quadrado de uma variável distribuída qui-quadrado) mostre Q ( 104 ) a contribuição máxima deve ser em torno de 0,008 ± 0,0028. Visivelmente podemos ver que a distribuição observada do 4º momento tem a propriedade n P ( X > máx(x 4 i )iÿ2ÿn ) ÿ P ( X > ÿ eu=1 4x _ eu ) . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 e.1 desempenho dos estimadores de risco paramétricos padrão 201 Tabela E.1: Contribuição máxima para o quarto momento de uma única observação diária Segurança Máx. Q anos. Prata 0,94 46. SP500 Óleo cru 0,79 56. 26. 0,79 Libra esterlina curta 0,75 17. Óleo de aquecimento 0,74 31. Nikkeis 0,72 23. FTSE 0,54 25. JGB 0,48 Eurodollar Depo 1M 0,31 24. Açúcar #11 Iene Bovespa Eurodollar 0,3 Depo 3M 0,25 0,27 48. CT 0,25 19. 0,27 38. 16. 0,2 48. 18. 28. DAX Lembre-se que, ingenuamente, o quarto momento expressa a estabilidade do segundo momento. E o segundo momento expressa a estabilidade da medida entre as amostras. Observe que tirar o instantâneo em um período diferente mostraria extremos chegando de outras variáveis, embora essas variáveis apresentem máximos elevados para a curtose, cairia, um mero resultado da instabilidade da medida ao longo das séries e do tempo. Descrição do conjunto de dados Todos os dados de macromercados negociáveis disponíveis em agosto de 2008, com "negociáveis" significando preços de fechamento reais correspondentes a transações (decorrentes de avaliações de mercados não burocráticas, incluindo taxas de juros, moedas, índices de ações). Participação de Max Quartic 0,8 0,6 0,4 0,2 0,0 Figura E.2: Max quártico entre títulos na Tabela E.1. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 202 o problema com econometria EuroDepo 3M: Kurt Anual 19812008 40 30 20 Figura E.3: Curtose entre períodos não sobrepostos para Eurodepósitos. 10 0 Volume Mensal 0,8 0,6 0,4 Figura E.4: Volatilidade entregue mensalmente no SP500 (medida por desvios padrão). A única estrutura tura parece ter chegado pelo fato de ser limitado em 0. Isso é padrão. 0,2 Vol de Vol 0,20 0,15 0,10 Figura E.5: Volatilidade mensal da volatilidade do mesmo conjunto de dados da Tabela E.1, previsivelmente instável. 0,05 0,00 e.2 desempenho de estimadores de risco não paramétricos padrão O passado se assemelha ao futuro nas caudas? Os testes a seguir são não paramétricos, ou seja, inteiramente baseados em distribuições de probabilidade empíricas. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 e.2 desempenho de estimadores de risco não paramétricos padrão 203 Mt1 Concentração de eventos de cauda 0,0004 sem antecessores Figura E.6: Comparando um desvio absoluto M[t] e o subsequente M[t+1] acima de um certo limite (aqui 4% em ações); ilustrou como grandes desvios não têm (ou poucos) predecessores, e nenhum (ou poucos) sucessores – nos últimos 50 0,0003 Concentração de eventos de cauda sem sucessores 0,0002 0,0001 anos de dados. Monte 0,0001 0,0002 0,0003 0,0004 0,0005 Mt1 0,030 0,025 Figura E.7: O “normal” é preditivo do regular, ou seja, o desvio médio. Comparando um desvio absoluto M[t] e o subsequente M[t+1] para 0,020 0,015 0,010 dados macroeconômicos. 0,005 Monte 0,005 0,010 0,015 0,020 0,025 0,030 Até agora ficamos na dimensão 1. Quando olhamos para propriedades de dimensões superiores, como matrizes de covariância, as coisas pioram. Voltaremos ao ponto com o tratamento do erro do modelo na otimização da média-variância. Quando xt está agora em RN, os problemas de sensibilidade às mudanças na matriz de covariância tornam os momentos observados empiricamente e os momentos condicionais extremamente instável. Os eventos finais de um vetor são muito mais difíceis de calibrar, e aumento de dimensões. As respostas até agora dos membros do establishment da economia/econometria , risco GARCH e Nenhuma resposta sobre por que eles ainda usam DST, regressões, valor em métodos semelhantes. Problema do peso Benoit Mandelbrot costumava insistir que se pode encaixar qualquer coisa Poisson salta. Isso é semelhante à ideia de que sempre é possível ajustar perfeitamente n dados aponta com um polinômio com n ÿ 1 parâmetros. Se você precisar mudar seu parâmetros, não é uma lei de potência. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 204 o problema da econometria Figura E.8: As correlações também são problemáticas, o que decorre da instabilidade das variâncias únicas e do efeito da multiplicação dos valores das variáveis aleatórias. Sob tal estocasticidade de correlações, não faz sentido, absolutamente nenhum sentido, utilizar métodos baseados em covariância, como a teoria de carteiras. Muitos pesquisadores invocam "outliers" ou "problema do peso"2 como reconhecimento de caudas gordas (ou o papel das caudas na distribuição), mas os ignoram analiticamente (fora dos modelos de Poisson que não são possíveis de calibrar exceto após o fato: Poisson convencional os saltos são de cauda fina). Nossa abordagem aqui é exatamente oposta: não empurre os valores discrepantes para debaixo do tapete, em vez disso, construa tudo ao seu redor. Por outras palavras, tal como a FAA e a FDA, que lidam com a segurança concentrando-se na prevenção de catástrofes, jogaremos fora o comum para debaixo do tapete e manteremos os extremos como a única abordagem sólida à gestão de riscos. E isso vai além da segurança, uma vez que muitas das análises e políticas que podem ser destruídas por eventos finais são inaplicáveis. Confusão do problema do Peso sobre o problema do Cisne Negro : "(...) "Cisnes Negros" (Taleb, 2007). Esses ícones culturais referem-se a desastres que ocorrem tão raramente que são virtualmente impossíveis de analisar usando inferência estatística padrão. No entanto, achamos essa perspectiva pouco útil porque sugere um estado de ignorância desesperadora em que nos resignamos a ser golpeados e espancados pelo incognoscível." Andrew Lo, que obviamente não se preocupou em ler o livro que citava. Falta de pele no jogo. Na verdade, perguntamo-nos por que é que os métodos econométricos continuam a ser usados embora sejam errados, tão chocantemente errados, como é que os investigadores "universitários" (adultos) podem participar em tais actos de arte. Basicamente, estes capturam os efeitos comuns e mascaram os efeitos de ordem superior. Como as explosões não são frequentes, esses eventos não aparecem nos dados e o pesquisador parece inteligente na maior parte do tempo, ao mesmo tempo que é fundamental. 2 O problema do peso é a descoberta de um valor atípico na oferta monetária, tornou-se um nome para valores atípicos e comportamento inexplicável em econometria. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 e.2 desempenho de estimadores de risco não paramétricos padrão 205 mentalmente errado. Na origem, os investigadores, o gestor de risco “quant” e o economista académico não têm qualquer envolvimento no jogo, pelo que não são prejudicados por medidas de risco erradas: outras pessoas são prejudicadas por elas. E o talento artístico deve continuar perpetuamente enquanto as pessoas puderem prejudicar outras impunemente. (Mais em Taleb e Sandis [246], Taleb [236] ). Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 F MACHINELEARNINGCONSIDERAÇÕES função unidimensional como uma combinação linear ponderada de Aprendemos com a negociação opções que você expressar opções de compra oude venda – suavizadas pelapode adição de valor dequalquer tempo ao opção. Uma opção se torna um alicerce. Uma recompensa conconstruído via opção é mais precisamente como segue S = ÿ n eu ÿi C(Ki , ti ), eu = 1, 2, . . . , n, onde C é o preço de compra (ou melhor, a avaliação), ÿ é um peso, K é o preço de exercício e t o tempo até o vencimento da opção. Uma chamada europeia C entrega max(S ÿ K, 0) no vencimento t. a As redes neurais e a regressão não linear, os predecessores do aprendizado de máquina, por outro lado, focaram na função degrau de Heaviside, novamente suavizada para produzir uma curva sigmóide do tipo "S". Uma coleção de sigmóides diferentes caberia na amostra. a Esta parece ser uma descoberta independente pelos traders do teorema da aproximação universal, inicialmente para funções sigmóides, que serão discutidas mais adiante (Cybenko [52]). f(x) Figura F.1: A função heavobservação iside ÿ : que é o retorno da "opção binária" e pode ser decomposta como C(K)ÿC(K+ÿK) limÿKÿ0 ÿK . x Portanto, esta discussão é sobre...a limitação e como os diferentes blocos de construção podem acomodá-la. O aprendizado de máquina estatística mudou para “ReLu” ou “rampa” 207 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 208 considerações sobre aprendizado de máquina funções que agem exatamente como opções de compra, em vez de uma agregação de curvas "S". Os pesquisadores então descobriram que ele permite um melhor tratamento de eventos finais fora da amostra (uma vez que, por definição, não há eventos finais inesperados na amostra) devido às propriedades de extrapolação deste último. O que é um sigmóide? Considere uma função de retorno como mostrada em F.7 que pode ser ex1 1 2tanh ( ÿxPi) + pressionado com a fórmula S : (ÿÿ, ÿ) ÿ (0, 1), S(x) = 2 ) , ou, mais préespecificamente, uma função de três parâmetros Si : (ÿÿ, ÿ) ÿ (0, a1 ) Si (x) = (c i ÿ b i x)+1 . Também comer e pode ser a distribuição normal cumulativa, N (µ, ÿ) onde ÿ controla a suavidade (torna-se então o Heaviside da Fig. F.7 no limite de ÿ ÿ 0). O sigmóide (limitado) é a suavização usando parâmetros da função Heaviside. Resposta (F(X)) 1,0 0,8 Figura F.2: A função sigmóide; observe que ele é limitado aos 0,6 lados esquerdo e direito devido à saturação: parece um Heaviside ÿ suavizado. 0,4 0,2 Dose (X) n (x) = ÿ Podemos construir funções "S" compostas com n somas ÿ F.3. Mas: n ÿiSi (x) como em eu Observação 10 Para ÿn (x) ÿ [0, ÿ) ÿ [ÿÿ, 0) ÿ (ÿÿ, ÿ), devemos ter n ÿ ÿ. Precisamos de uma infinidade de somas para uma função ilimitada. Portanto, onde quer que a "distribuição empírica" seja maximizada, a última observação corresponderá à parte plana do sinal. Para a definição de uma distribuição empírica ver 3.4. Agora vamos considerar os retornos das opções. A Fig.F.4 mostra o retorno de uma opção regular no vencimento – cuja definição corresponde a uma Unidade Linear Retificadora (ReLu) em aprendizado de máquina. Agora a Fig. F.5 mostra a seguinte função: considere uma função ÿ : (ÿÿ, ÿ) ÿ [k, ÿ), com K ÿ R: ÿ(x, K, p) = k + log ( e p(xÿK) +1) . p (F.1) Podemos somar a função como ÿi = 1nÿ(x, Ki , pi ) para ajustar uma função não linear, que na verdade replica o que fizemos com as opções de chamada – os parâmetros pi permitem suavizar o valor do tempo. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 considerações sobre aprendizado de máquina 209 Resposta (F(X)) 1,0 Figura F.3: Uma soma de sigmóides sempre será limitada, então é 0,5 Dose (X) submetido à saturação. -0,5 o necessária uma soma infinita para replicar um resultado “aberto”, aquele que não é sub- -1,0 f(x) Figura F.4: Uma opção com pagamento no vencimento, aberta à direita. x f(x) Figura F.5: Função ÿ , da Eq. 11,18 com k = ,0. Calibramos e suavizamos o resultado com diferentes valores de p. x F.0.1 Calibração via Ângulos Pela figura F.6 podemos ver que, na equação, S = ÿ ni ÿi C(Ki , ti ), o ÿi corresponde ao arco tangente do ângulo feito –se positivo (conforme ilustrado na figura F.7 ), ou o negativo do arctan do ângulo suplementar. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 210 considerações sobre aprendizado de máquina f(x) 40 Figura F.6: Uma borboleta (construído por meio de uma 30 soma de opções/ReLu, não sigmóides), com caudas abertas em ambos 20 lados e virando primeiro e segundas derivadas. Este exemplo é particularmente 10 potente porque não tem x 50 100 150 200 correspondência verbalística mas pode ser entendido por comerciantes de opções e máquinas -10 aprendizado. -20 f(x) 2,0 1,5 Figura F.7: Como ÿ = o2 arctano ÿ. Ajustando ângulos podemos traduzir um não-linear 1,0 função em seu resumo de opções informação. o1 0,5 i2 e1 0,0 0,2 x 0,4 0,6 0,8 1,0 Resumo Podemos expressar todas as funções univariadas não lineares usando uma soma ponderada de opções de chamada de diferentes strikes, que em aplicativos de aprendizado de máquina mapeiam para as caudas melhor do que uma soma de sigmóides (eles próprios uma rede de um longo e um opções curtas de greves vizinhas). Podemos obter os pesos implicitamente usando os ângulos das funções em relação às coordenadas cartesianas. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Parte III PREVISÕES , PREVISÃO , ANDÚNCIO DE INTY Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11 CALIBRO DE PROBABILIDADE EM IONUNDER DOENÇAS DE GORDURA ‡ O que as habilidades de previsão binária (ou probabilística) têm a ver com desempenho? Mapeamos a diferença entre previsões binárias (univariadas) ou "crenças" (expressas como um "evento" específico acontecerá/não acontecerá) e recompensas contínuas do mundo real (benefícios ou danos numéricos de um evento) e mostramos o efeito de sua fusão e descaracterização na literatura de ciência da decisão EM natureza. Os efeitos são: A) Falsidade da investigação psicológica, particularmente aquela que documenta que os humanos sobrestimam as probabilidades da cauda e os acontecimentos raros, ou que reagem exageradamente aos receios de quebras de mercado, calamidades ecológicas, etc. Há também um uso indevido dos argumentos hayekianos na promoção de mercados de previsão. B) Ser um “bom previsor” no espaço binário não leva a ter um bom desempenho, e vice-versa, principalmente em não linearidades. É provável que um registro de previsão binária seja um indicador reverso em algumas classes de distribuições. Uma incerteza mais profunda ou uma distribuição de probabilidade mais complicada e realista pioram a confusão. C) Aprendizado de Máquina: Algumas funções de retorno não linear, embora não se prestem a expressões verbalísticas e “previsões”, são bem capturadas por ML ou expressas em contratos de opções. D) Métodos de Competições M: A pontuação para as competições M4-M5 parece estar mais próximo das variáveis do mundo real do que a pontuação de Brier. O apêndice mostra as propriedades matemáticas e a distribuição exata dos vários resultados, juntamente com uma distribuição exata da pontuação de Brier, útil para testes de significância e suficiência amostral. Capítulo de pesquisa. 213 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 214 calibração de probabilidade sob caudas gordas ''Real'' Pr 1,0 ''Normativo'' 0,8 ''Descritivo'' 0,6 0,4 0,2 0,2 0,4 0,6 0,8 1,0 Julgado Pr Figura 11.1: “Padrões típicos”, conforme declarado e descrito em [13], uma afirmação representativa na psicologia da tomada de decisão de que as pessoas superestimam pequenos eventos probabilísticos. As descobertas centrais estão em 1977 e 1978 [152] e [153]. Observamos que à esquerda, na parte de estimativa, 1) eventos como inundações, tornados, botulismo, em sua maioria variáveis patentemente de cauda grossa, questões de consequências graves que os agentes podem ter incorporado na probabilidade, 2) essas probabilidades estão sujeitos a erros de estimativa que, quando endogenizados, aumentam a estimativa. 11.1 payoffs contínuos vs. discretos: definições e comentários Exemplo 11.1 (“Não se come crenças e previsões (binárias)”) No primeiro volume do Incerto ( Fooled by Randomness, 2001 [226]), o narrador, um trader, é questionado pelo gerente "você prevê que o mercado vai subir ou descer?" "Para cima", ele respondeu, com confiança. Aí o patrão ficou furioso quando, olhando as exposições da empresa, descobriu que o narrador estava vendido no mercado, ou seja, se beneficiaria com a queda do mercado. O trader teve dificuldade em transmitir a ideia de que não havia contradição, pois alguém poderia ter a crença (binária) de que o mercado tinha maior probabilidade de subir do que de descer, mas que, caso caísse, há uma probabilidade muito pequena de que poderia descer consideravelmente, pelo que uma posição curta tinha um retorno esperado positivo e a resposta racional era envolverse numa exposição curta. “Você não come previsões, mas P/L” (ou “não se monetiza previsões”), diz o ditado entre os traders. Se as exposições e as crenças não vão na mesma direção, é porque as crenças são reduções verbalísticas que contraem um objeto de dimensão superior em uma única dimensão. Para expressar o erro do gestor em termos de pesquisa para tomada de decisão, pode haver uma fusão em algo tão elementar como a noção de um evento binário (relacionado ao momento zero) ou a probabilidade de um evento e o retorno esperado dele (relacionado ao momento zero). o primeiro momento e, quando não linear, para todos os momentos superiores), pois as funções de payoff dos dois podem ser semelhantes em algumas circunstâncias e diferentes em outras. Comentário 11.1 Em resumo, a calibração probabilística requer estimativas do momento zero, enquanto o mundo real requer todos os momentos (fora das apostas de jogo ou de ambientes artificiais, como experimentos psicológicos onde os retornos são necessariamente truncados), e é uma propriedade central das caudas grossas. que momentos superiores são explosivos (até mesmo "infinitos") e contam mais e mais. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.1 Pagamentos contínuos vs. discretos: definições e comentários 215 11.1.1 Longe do Verbalístico Embora a história do trader seja matematicamente trivial (embora o erro seja cometido com demasiada frequência), lacunas mais sérias estão presentes na tomada de decisão e na gestão de risco, particularmente quando a função de retorno é mais complicada, ou não linear (e relacionada a momentos mais elevados). ). Assim, uma vez mapeados matematicamente os contratos ou exposições, em vez de nos concentrarmos em palavras e descrições verbais, surgem alguns sérios problemas de distribuição. Definição 11.1 (Evento) Uma variável aleatória (de valor real) X: ÿ ÿ R definida no espaço de probabilidade (ÿ, F, P) é uma função X(ÿ) do resultado ÿ ÿ ÿ. Um evento é um subconjunto mensurável (contável ou não) de ÿ, mensurável significando que pode ser definido através do(s) valor(es) de uma das diversas variáveis aleatórias. Definição 11.2 (previsão/recompensa binária) Uma previsão binária (crença ou recompensa) é uma variável aleatória que assume dois valores X : ÿ ÿ {X1 , X2}, com realizações X1 , X2 ÿ R. Em outras palavras, ele reside no conjunto binário (digamos {0, 1}, {ÿ1, 1}, etc.), ou seja, o evento especificado ocorrerá ou não e, se houver uma recompensa, tal recompensa será mapeado em dois números finitos (uma soma fixa se o evento aconteceu, outra se não aconteceu). A menos que especificado de outra forma, nesta discussão o padrão é o conjunto {0, 1} . Exemplo de situações no mundo real em que o retorno é binário: • Jogos de cassino, lançamentos de moedas em, loterias, ambientes "lúdicos" ou opções binárias pagando uma quantia fixa se, digamos, o mercado de ações cair abaixo de um certo ponto e nada de outra forma –considerado uma forma de jogo2 . • Eleições onde o resultado é binário (por exemplo, referendos, eleições presidenciais nos EUA), embora não o efeito económico do resultado da eleição.3 • Prognósticos médicos para um único paciente, implicando sobrevivência ou cura durante um período especificado, embora não a duração em si como variável, ou a sobrevivência específica da doença expressa no tempo, ou a esperança de vida condicional. Exclua também qualquer coisa relacionada à epidemiologia. • Se uma determinada pessoa com perfil online comprará ou não uma unidade ou mais de um produto específico em um determinado momento (não a quantidade ou unidades). Comentário 11.2 (Uma crença binária é equivalente a uma recompensa) Uma "crença" binária deve ser mapeada para uma recompensa econômica (sob alguma escala ou normalização 2 As opções binárias de retalho são normalmente utilizadas para jogos de azar e foram proibidas em muitas jurisdições, como, por exemplo, pela Autoridade Europeia dos Valores Mobiliários e dos Mercados (ESMA), www.esma.europa.eu, bem como nos Estados Unidos, onde são é considerada outra forma de jogo na Internet, desencadeando uma reclamação por parte de um conjunto de cientistas de decisão, ver Arrow et al. [3]. Consideramos tal proibição justificada uma vez que as apostas praticamente não têm valor económico, comparativamente aos mercados financeiros amplamente abertos ao público, onde as exposições naturais podem ser devidamente compensadas. 3 Observe a ausência de formação espontânea de mercados de jogos de azar com recompensas binárias para variáveis contínuas. A exceção poderia ter sido as opções binárias, mas estas não permaneceram na moda por muito tempo, pelas experiências do autor, durante um período entre 1993 e 1998, em grande parte motivadas por truques fiscais. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 216 calibração de probabilidade sob caudas gordas necessariamente constituir uma probabilidade), um insight devido a De Finetti [57] , que sustentou que uma "crença" e uma "predição" (quando estão preocupadas com dois resultados distintos) mapeiam o equivalente à expectativa de uma variável aleatória binária e apostas com pagamento em {0, 1}. Uma “opinião” torna-se um preço de escolha para uma aposta, e aquele pelo qual se está igualmente disposto a comprar ou vender. Opiniões inconsistentes, portanto, levariam a uma violação das regras de arbitragem, como o “livro holandês”, onde uma combinação de apostas com preços errados pode garantir uma perda futura. Definição 11.3 (Remuneração contínua aberta no mundo real) X : ÿ ÿ [a, ÿ) ÿ (ÿÿ, b] ÿ (ÿÿ, ÿ). Uma recompensa contínua “vive” em um intervalo, não em um conjunto finito. Corresponde a uma variável aleatória ilimitada, duplamente ilimitada ou semi-limitada, com o limite de um lado (variável de cauda única). Advertência Estamos limitando, para os propósitos do nosso estudo, a consideração a binário versus contínuo e aberto (ou seja, sem suporte compacto). Muitos resultados discretos são incluídos na classe contínua usando argumentos padrão de aproximação. Também estamos omitindo trigêmeos, ou seja, resultados em, digamos, {ÿ1, 0, 3}, pois estes obedecem às propriedades dos binários (e podem ser construídos usando uma soma de binários). Além disso, muitas variáveis com piso e teto remoto (portanto, formalmente com suporte compacto), como o número de vítimas ou uma catástrofe, são tratadas analítica e praticamente como se fossem abertas [46]. Exemplo de situações no mundo real onde a recompensa é contínua: • Vítimas de guerras, calamidades devido a terremotos, contas médicas, etc. • Magnitude de uma quebra de mercado, gravidade de uma recessão, taxa de inflação • Receita de uma estratégia • Vendas e lucratividade de um novo produto • Em geral, qualquer coisa coberta por um contrato de seguro Pague 3.5 3,0 g(x) 2,5 Figura 11.2: Comparando o retorno de uma aposta binária (The Heaviside ÿ(.)) com uma exposição contínua aberta g(x). Visivelmente não há forma de igualar os derivados (matemáticos) para qualquer forma de cobertura. ÿ(x) 2,0 Desvio de rastreamento 1,5 1,0 0,5 x -1 1 2 3 4 A maioria das variáveis naturais e socioeconómicas são contínuas e as suas estatísticas a distribuição não tem um suporte compacto no sentido de que não temos um identificador de um limite superior exato. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.1 Pagamentos contínuos vs. discretos: definições e comentários 217 Figura 11.3: A combinação de probabilidade e retorno esperado está profundamente enraizada na psicologia e nas finanças. Crédito: Stefan Gasic. Exemplo 11.2 A análise preditiva no espaço binário {0, 1} pode ser bem-sucedida na previsão se, a partir de sua atividade on-line, o consumidor on-line Iannis Papadopoulos comprará um determinado item, digamos, uma aliança de casamento, com base apenas no cálculo da probabilidade. Mas a probabilidade de “sucesso” de um potencial novo produto pode ser – tal como acontece com a história do comerciante – enganosa. Dado que as vendas da empresa são tipicamente grossas, uma probabilidade muito baixa de sucesso ainda pode ser satisfatória para tomar uma decisão. Considere o capital de risco ou a negociação de opções – uma opção em 8 do dinheiro pode muitas vezes ser atraente, mas pode ter menos de 1 em 1000 probabilidade de dar retorno. Mais significativamente, o erro de rastreamento para estimativas de probabilidade não será mapeado para o desempenho. ÿ (M4) faria. Esta diferença é bem conhecida pelos negociantes de opções, pois existem contratos de derivativos financeiros chamados "binários" que pagam no conjunto binário {0, 1} (digamos, se o ativo subjacente S, digamos, exceder um preço de exercício K), enquanto outros chamados de " vanilla" que pagam em [0, ÿ), ou seja, max(S ÿ K, 0) (ou, pior, em (ÿÿ, 0) pois o vendedor pode agora ser exposto à falência devido à exposição ilimitada). A considerável diferença matemática e econômica entre os dois foi discutida e é o assunto de Dynamic Hedging: Managing Vanilla and Exotic Options [225]. Dado que as primeiras são apostas que pagam um valor fixo e as últimas têm retorno total, uma não pode ser adequadamente replicada (ou protegida) usando outra, especialmente sob caudas gordas e incerteza paramétrica – o que significa que o desempenho em uma não se traduz em desempenho no outro. Embora este conhecimento seja bem conhecido em finanças matemáticas, não parece ter sido transmitido à literatura sobre teoria de decisão. Comentário 11.3 (Teoria dos Derivados) Nossa abordagem aqui é inspirada na teoria e prática de derivativos (ou opções), onde existem diferentes tipos de contratos de derivativos, 1) aqueles com pagamentos binários (que pagam uma quantia fixa se um evento acontecer) e 2) aqueles "vanilla" (opções padrão com retornos contínuos). É praticamente impossível proteger um do outro [225]. Além disso, uma aposta com preço de exercício K e uma opção de compra com o mesmo preço de exercício K, com K nas caudas da distribuição, quase sempre têm as suas avaliações reagindo de forma oposta quando se aumenta a curtose da distribuição, (preservando os três primeiros momentos) ou, num exemplo mais abaixo no ambiente lognormal, quando se aumenta a incerteza através da escala da distribuição. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 218 calibração de probabilidade sob caudas gordas Comentário 11.4 (planilhas de termos) Note-se que, graças aos "planos de termos" que são necessários tanto legal como matematicamente, a prática de derivados financeiros fornece um mapeamento legalista preciso dos pagamentos, de forma a tornar salientes as suas diferenças matemáticas, estatísticas e económicas. Tem havido uma tensão entre os mercados de previsão e os mercados financeiros reais. Como podemos mostrar aqui, os mercados de previsão podem ser úteis para os jogadores, mas não podem cobrir as exposições económicas. A matemática da diferença e da impossibilidade de cobertura pode ser mostrada a seguir. Seja X uma variável aleatória em R, temos o retorno da aposta ou da previsão ÿK : R ÿ {0, 1}, xÿK0 ÿK(x) = { 1, (11.1) caso contrário, e g : R ÿ R o da exposição natural. Como em K, ÿ(K) e ÿ) ÿx ÿ ÿxÿK(x) é uma função delta de Dirac gk (x) é pelo menosuma vez diferenciável para x ÿ K (ou constante no caso de a exposição ser globalmente linear ou, como uma opção, linear por partes acima de K), derivadas correspondentes para fins de compensação de variações não é uma estratégia possível.4 O ponto é ilustrado na Figura 11.2. 11.1.2 Não há "colapso", "desastre" ou "sucesso" definidos sob caudas gordas O fato de um “evento” ter alguma incerteza em torno de sua magnitude acarreta algumas consequências matemáticas. Alguns artigos verbalistas de 2019 ainda cometem a falácia de binarizar um evento em [0, ÿ): Um artigo recente sobre calibração de crenças diz "...se uma pessoa afirma que os Estados Unidos estão à beira de um colapso econômico ou que um desastre climático é iminente..." Um "colapso" económico ou um "desastre" climático não deve ser expresso como um evento em {0, 1} quando no mundo real pode assumir muitos valores. Para isso, é necessária uma escala característica. Na verdade, sob caudas gordas, não há colapso ou desastre "típico", devido à ausência de escala característica, portanto, previsões ou crenças binárias verbais não podem ser usadas como medidores. Apresentamos a diferença entre domínios de cauda fina e de cauda gorda como segue. Definição 11.4 (escala característica) Seja X uma variável aleatória que vive em (0, ÿ) ou (ÿÿ, ÿ) e E o operador de expectativa na distribuição (física) do "mundo real". Por resultados clássicos [82]: 1 limão Kÿÿ • Se ÿ = 1 K E(X|X>K) = ÿ, (11.2) , Diz-se que X pertence à classe D1 de cauda fina e tem uma escala característica , Diz-se que X está na classe de variação regular de cauda gorda D2 e não tem • Se ÿ > 1 escala característica 4 Para replicar um retorno contínuo e aberto com binários, é necessária uma série infinita de apostas, o que cancela toda a ideia de um mercado de previsão, transformando-o num mercado financeiro. Distribuições com suporte compacto sempre têm momentos finitos, o que não é o caso das da linha real. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.2 superestimação espúria da probabilidade da cauda em psicologia 219 • Se limão E(X|X>K) ÿ K = µ Kÿÿ onde µ > 0, então X está na classe exponencial limítrofe O ponto pode ser esclarecido da seguinte forma. Não se pode ter um contrato binário que proteja adequadamente alguém contra um “colapso”, dado que não se pode saber antecipadamente a dimensão do colapso ou quanto deve ser o valor nominal desse contrato. Por outro lado, um contrato ou opção de seguro com pagamento contínuo proporcionaria uma cobertura satisfatória. Outra forma de ver a questão: reduzir estes eventos a "colapso" verbalístico, "desastre" é equivalente a um pagamento único ao seguro de saúde se alguém estiver "muito doente" - independentemente da natureza e gravidade da doença - e 0 caso contrário . E é altamente falho separar o resultado e a probabilidade na integral do resultado esperado.5 Algumas experiências do tipo mostrado na Figura 11 perguntam aos agentes quais são as suas estimativas de mortes por botulismo ou alguma doença semelhante: os agentes são culpados por compreenderem mal o probabilidade. Isto é um problema com a experiência: as pessoas não separam necessariamente as probabilidades dos resultados. 11.2 superestimação espúria da probabilidade da cauda em psicologia Definição 11.5 (Substituição de integral) Seja K ÿ R+ um limite, f(.) uma função de densidade e pK ÿ [0, 1] a probabilidade de excedê-lo, e g(x) uma função de impacto. Seja I1 o retorno esperado acima de K: ÿ I1 = ÿ g(x)f(x)dx, K e Seja I2 o impacto em K multiplicado pela probabilidade de exceder K: ÿ I2 = g(K) ÿ f(x)dx = g(K)pK. K A substituição vem da fusão de I1 e I2, que se torna uma identidade se e somente se g(.) for constante acima de K (digamos g(x) = ÿK(x), a função teta de Heaviside). Para g(.) uma função variável com primeira derivada positiva, I1 pode estar próximo de I2 apenas sob distribuições de cauda fina, e não sob distribuições de cauda gorda.6 Para as discussões e exemplos nesta seção, assuma g(x) = x, pois consideraremos o caso não linear mais avançado na Seção 11.5. 5 Foi demonstrado que praticamente todas as variáveis económicas e informacionais desde a década de 1960 pertencem à classe D2 , ou pelo menos à classe subexponencial intermédia (que inclui o lognormal), [99, 162, 163, 164, 226], juntamente com variáveis sociais como tamanho das cidades, palavras em idiomas, conexões em redes, tamanho das empresas, rendimentos das empresas, dados macroeconômicos, dados monetários, vítimas de conflitos interestaduais e guerras civis[46, 199], risco operacional, danos causados por terremotos, tsunamis, furacões e outras calamidades naturais, desigualdade de rendimentos [40], etc. O que nos deixa com a questão mais racional: onde estão as variáveis gaussianas? Estes parecem ser, na melhor das hipóteses, uma ordem de grandeza menor nas decisões que envolvem previsões formais. 6 Isto também pode explicar, como veremos no Capítulo 11 , que as apostas binárias nunca podem representar “a pele no jogo” sob distribuições de cauda gorda. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Calibração de probabilidade 220 sob caudas gordas Teorema 2: Convergência de I1 Se I2 X estiver na classe D1 de cauda fina conforme descrito em 11.2, Folha I1 = 1 (11.3) I2 Kÿÿ Se X estiver na classe de variação regular D2, limão I1 = ÿ > 1. (11.4) I2 Kÿÿ Prova. Da Eq. 11.2. Comentários adicionais: 11.2.1 Caudas finas Pela nossa própria definição de uma distribuição de cauda fina (mais geralmente qualquer distribuição fora da classe subexponencial, indexada por (g)), onde f (g) (.) é o PDF: ÿ limão Kÿÿ ÿK xf (g) (x) dx = E1 = 1. ÿ I2 K ÿ K f (g) (x) dx (11.5) Caso especial de uma Gaussiana: Seja g(.) a PDF da distribuição Gaussiana predominantemente usada (centralizada e normalizada), - ÿ e ÿK e Kp = o xg(x) dx = ÿ K2 2 (11.6) 2ÿ K ( ÿ 2 ), onde erfc é a função de erro complementar e Kp é limite correspondente à probabilidade p. corresponde ao 1 2erfc Notamos que Kp E1 I2 índice de Mills inverso utilizado em seguros. 11.2.2 Caudas gordas Para todas as distribuições na classe de variação regular, definidas pela sua função de sobrevivência da cauda: para K grande, P(X > K) ÿ LKÿÿ , uma > 1, onde L > 0 e f (p) é o PDF de um membro dessa classe: ÿ limão Kpÿÿ ÿK xf (p) (x) dx ÿ Kÿ Kp f (p) (x) dx = a uma - 1 > 1. (11.7) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.2 superestimação espúria da probabilidade da cauda em psicologia 221 11.2.3 Conflações Conflação de I1 e I2 Em numerosos experimentos, que incluem o artigo da teoria do prospecto de Kahneman e Tversky (1978) [139], tem sido repetidamente estabelecido que os agentes superestimam pequenas probabilidades em experimentos onde as probabilidades são mostradas a eles, e quando o resultado corresponde a um único pagamento. O bem conhecido resultado de Kahneman-Tversky mostrou-se robusto, mas as interpretações fazem afirmações errôneas a partir dele. Praticamente toda a literatura subsequente baseia-se em I2 e confundeo com I1 , o que este autor chamou de falácia lúdica em O Cisne Negro [226], já que os jogos estão necessariamente truncando uma dimensão da realidade. Os resultados psicológicos podem ser robustos, no sentido de que se replicam quando repetidos em condições exactamente semelhantes, mas todas as afirmações fora destas condições e extensões a riscos reais serão uma generalização extremamente duvidosa – dado que as nossas exposições no o mundo real raramente é mapeado para I1 . Além disso, pode-se superestimar a probabilidade e ainda subestimar o retorno esperado. A rigidez da fusão A má interpretação ainda é feita quatro décadas depois de KahnemanTversky (1979). Numa revisão da economia comportamental, com ênfase no erro de cálculo da probabilidade, Barberis (2003) [12] trata I1 = I2. E Arrow et al. [3], uma longa lista de cientistas que defendem a desregulamentação dos mercados de apostas também deturpou a adequação destas previsões binárias ao mundo real (particularmente na presença de mercados financeiros reais). Outro exemplo rigoroso – e perigoso – é o “VaR padrão” (Valor em risco) que é explicitamente dado como I2 , ou seja, probabilidade de inadimplência x (taxa de recuperação esperada de 1), que pode ser bastante diferente da expectativa de perda real em caso de padrão. As , finanças apresentam aproximações erradas do CVaR7 e a aproximação é a falha de gestão de risco que pode ter causado a crise de 2008 [244]. O argumento falacioso é que calculam a taxa de recuperação como o valor esperado da garantia, sem ser condicionado pelo evento de incumprimento. O valor esperado da garantia condicional a um incumprimento é muitas vezes muito inferior à sua expectativa incondicional. Em 2007, após uma série massiva de execuções hipotecárias, o valor da maioria das garantias caiu para cerca de 1/3 do seu valor esperado! Incompreensão dos argumentos de conhecimento de Hayek Os argumentos "Hayekianos" para a consolidação de crenças através dos preços não conduzem a mercados de previsão como discutidos em artigos como [30], ou em Sunstein [220]: os preços existem nos mercados financeiros e comerciais; os preços não são apostas binárias. Para Hayek [127], a consolidação do conhecimento é feita através de preços e arbitradores (palavras suas) – e os arbitradores negociam produtos, serviços e títulos financeiros, não apostas binárias. 7 A expressão matemática do Valor em Risco, VaR, para uma variável aleatória X com função de distribuição F e limite ÿ ÿ [0, 1] VaRÿ(X) = ÿ inf {x ÿ R : FX(x) > ÿ}, e o CVar correspondente ESÿ(X) = E ( ÿX |Xÿÿ VaRÿ(X) ) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 222 calibração de probabilidade sob caudas gordas Tabela 11.1: Pseudo-superestimação ÿ ÿ ÿ Kp ÿ Kp gaussiana xf(x)dx Kp f(x)dx p ÿ Kp p 1,36 pp. 1,28 1,75 × 10ÿ1 1,28 × 10ÿ1 × 10ÿ1 1,36 1,14 × 1 2,32 2,66 × 10ÿ2 2,32 × 10ÿ2 10ÿ2 1,14 1,08 × 10ÿ3 10 1 1,08 1,06 × 10ÿ4 1,06 3,09 3,36 × 10ÿ3 3,09 × 10ÿ3 100 1 1000 1 10000 3,71 3,95 × 10ÿ4 3,71 × 10ÿ4 ÿ Definição 11.6 (Probabilidade corrigida em experimentos binarizados) ÿ Deixe p seja a probabilidade equivalente de fazer I1 = I2 e eliminar o efeito do erro, então p ÿ = {p: I1 = I2 = K} Agora vamos resolver para Kp “na cauda”, trabalhando com uma probabilidade p. Para o Gaussiano, ÿ1/uma . Kp = ÿ 2erfcÿ1 (2p); para a distribuição com cauda paretiana, Kp = p Portanto, para uma distribuição paretiana, a razão entre a probabilidade real contínua e a binária a ÿ = pp. o que pode permitir em casos absurdos p ÿ 1 - uma , exceder 1 quando a distribuição for grosseiramente mal especificado. As Tabelas 11.1 e 11.2 mostram, para um nível de probabilidade p, o nível de cauda correspondente Kp, tal como Kp = {inf K : P(X > K) > p} , que probabilidade ajustada correspondente p habilidades ÿ desbinariza o evento 89– prob- e a aqui precisam estar na metade inferior, ou seja, p < 0,5. Observe que estamos operando no caso moderado de distribuições de probabilidade conhecidas, à medida que piora sob a incerteza paramétrica.10 A distribuição mais comumente conhecida entre o público, a "Pareto 80/20" (baseada na descoberta de Pareto de que 20% da população na Itália possuía 80% da terra), mapeia para um índice de cauda ÿ = 1,16, então o a probabilidade ajustada é > 7 vezes a ingênua. Exemplo de probabilidade e retorno esperado reagindo em direções opostas sob aumento de incerteza Um exemplo que mostra como, sob uma distribuição distorcida, o binário e a expectativa reagindo em direções opostas é o seguinte. Considere a distribuição lognormal neutra ao risco L(X0 ÿ 2 , ÿ) com PDF fL(.), média 1 p 8 A análise é invariável se utilizamos a cauda direita ou esquerda. Por convenção, as finanças utilizam valor negativo para perdas, enquanto outras áreas de gestão de risco expressam o negativo da variância aleatória, concentrando-se, portanto, na cauda direita. 9 Kp é equivalente ao VaRp do Valor em Risco em finanças, onde p é a probabilidade de perda. I1 10 Observe a lei de van der Wijk, ver Cirillo [44]: está relacionada ao que se chama em finanças de déficit esperado I2 para Kp. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.2 superestimação espúria da probabilidade da cauda em psicologia 223 Binário 10 5 0 -5 -10 Caudas Finas Figura 11.4: Comparação dos três resultados em duas distribuições – o binário tem o mesmo perfil, independentemente de a distribuição ser de cauda estreita ou de cauda gorda. As duas primeiras subfiguras estão em escala, a terceira (representando o Pareto 80/20 com ÿ = 1,16 requer a multiplicação da escala por duas ordens de grandeza. 10 5 0 -5 -10 Pareto 80/20 1000 500 0 -500 -1000 X0 e variância (e 2p . 2 ÿ1 ) X 0 . Podemos aumentar sua incerteza com o parâmetro ÿ. Temos a expectativa de um contrato acima de X0, E>X0 : 1 E>X0 = ÿX0 x fl(x) dx = 2 X0 ( 1 + erf ( 2ÿ ÿ 2 )) ÿ e a probabilidade de exceder X0, P(X > X0) = 1 2 ( 1 ÿ erf ( ÿÿ22 )) , 2 onde erf é a função de erro. À medida que ÿ aumenta erf ÿ ( ÿ2 ) ÿ 1, com E>X0 ÿ X0 e P(X > X0) ÿ 0. Este exemplo é bem conhecido pelos traders de opções (ver Hedge Dinâmico [225]), pois a opção binária atingida em X0 vai para 0 enquanto a opção de compra padrão do mesmo exercício sobe consideravelmente para atingir o nível de o ativo – independentemente de Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 224 calibração de probabilidade sob caudas gordas Tabela 11.2: Pseudo-superestimação paretiana ÿ ÿ ÿ xf(x)dx Kp ÿ Kp ÿ Kp Kp 8,1 8,92 p ÿ f(x)dxp pp. 1 65,7 7,23 5,87 0,811 1.1 (sic) 11. 10 1 4328 4,76 0,65 0,11 11. 100 1 533 0,53 0,011 11. 0,43 0,0011 11. 1000 1 10000 batida. Este é normalmente o caso do capital de risco: quanto mais arriscado for o projeto, menor será a probabilidade de sucesso, mas mais recompensador em caso de sucesso. Assim, a expectativa pode ir para +ÿ enquanto a probabilidade de sucesso vai para 0. 11.2.4 Incerteza Distribucional Observação 11: Incerteza distribucional Devido à desigualdade de Jensen, a discrepância (I1 - I2) aumenta sob a incerteza do parâmetro, expressa em maior curtose, via estocasticidade de ÿ a escala da distribuição de cauda fina, ou de ÿ o índice de cauda do Paretian um. ÿ Prova. Primeiro, o mundo gaussiano. Consideramos o efeito de I1 ÿ I2 = ÿ ÿ Seja ÿ a K xf (g) (x) ÿ ÿ K f (g) (x) sob volatilidade estocástica, ou seja, o parâmetro do aumento da volatilidade. escala da Gaussiana, com K constante: ÿ ÿ2(ÿ K ÿ xf (g) (x)dx) ÿÿ2 - ÿ2(ÿ K - f (g) (x)dx) ÿÿ2 = e K2 2ÿ 2 ( (K ÿ 1)K 3 ÿ (K ÿ 2)Kÿ 2 ) , ÿ 2ÿÿ5 (11.8) 4 -K _ 3 -K _ 2 + 2K > 0 para K que é positivo para todos os valores de K > 0 (dado que K é positivo). Em segundo lugar, considere a sensibilidade da razão I2 I1 à incerteza do parâmetro para ÿ no caso paretiano (para o qual podemos obter uma expressão simplificada em comparação com a diferença). Para ÿ > 1 (a condição para uma média finita): ÿ ÿ 2 (ÿ ÿK xf (p) (x)dx/ ÿ ÿÿ2K f (p) (x)dx) = 2K , (a ÿ 1)3 (11.9) que é positivo e aumenta acentuadamente em valores mais baixos de ÿ, ou seja, quanto mais grossas forem as caudas, pior será a incerteza sobre o retorno esperado e maior será a diferença entre I1 e I2. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.3 calibração e calibração incorreta 225 11.3 calibração e calibração incorreta A literatura de psicologia também examina a "calibração" da avaliação probabilística - uma avaliação de quão próximo alguém que fornece probabilidades de eventos acaba em média (sob alguma operação da lei do grande número considerada satisfatória) [152], [143], veja a Fig. 3.13 (como vimos no Capítulo 3). Os métodos, pelas razões que mostramos aqui, são altamente falhos, exceto em circunstâncias restritas de recompensas puramente binárias (como aquelas que implicam um resultado de “ganhar/perder”) – e generalizar a partir dessas recompensas ou não é possível ou produz resultados enganosos. resultados. Conseqüentemente, a Figura 11 faz pouco sentido empiricamente. No fundo, as métricas de calibração, como a pontuação de Brier, são sempre de cauda fina, quando a variável sob medição é de cauda grossa, o que piora a tratabilidade. Para usar novamente o ditado “Você não come previsões”, a maioria das empresas tem retornos severamente distorcidos, portanto, ser calibrado em probabilidade não faz sentido. Observação 12: Diferenças de distribuição As previsões binárias e as métricas de calibração por meio da pontuação Brier pertencem à classe de cauda fina. Mostraremos as provas a seguir. 11.4 métricas de pontuação Esta seção, resumida na Tabela 11.3, compara as distribuições de probabilidade das diversas métricas utilizadas para medir o desempenho, seja por formulação explícita ou vinculando-as a uma determinada classe de probabilidade. Claramente, pode-se estar medindo mal o desempenho se a variável aleatória estiver na classe de probabilidade errada. Diferentes distribuições subjacentes exigirão um número diferente de tamanhos de amostra devido às diferenças na forma como a lei dos números opera nas distribuições. Uma série de previsões binárias convergirá muito rapidamente para uma Gaussiana de cauda fina, mesmo que a distribuição subjacente seja de cauda grossa, mas um desempenho econômico de rastreamento de P/L para alguém com uma exposição real exigirá um tamanho de amostra consideravelmente maior se, digamos, o subjacente é distribuído por Pareto [235]. Começamos por expressões precisas para as quatro possíveis: 1. Desempenho no mundo real em condições de sobrevivência, ou, por outras palavras, P/L ou uma pontuação quantitativa cumulativa. 2. Uma contagem de apostas, a soma ingénua da frequência com que a previsão binária de uma pessoa é correto 3. Pontuação Brier de De Finetti ÿ(B)n 4. Pontuação M4 ÿ M4 para nnobservações usadas na competição M4 e sua sequência prosaica M5. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 226 calibração de probabilidade sob caudas gordas Tabela 11.3: Métricas de Pontuação para Avaliação de Desempenho Nome da métrica Aptidão para a realidade P (r) (T) P/L cumulativo Adaptado para distribuições do mundo real, particularmente P (p) (n) Contagem de Apostas incorretamente o desempenho sob caudas gordas, funciona sob um filtro de sobrevivência Representa apenas para apostas binárias e/ou domínios de cauda fina. ÿ(n) Pontuação de Brier eun(M4) Pontuação M4 Deturpa a precisão do desempenho sob caudas gordas, ignora momentos mais elevados. Representa a precisão, não exatamente o desempenho no mundo real, mas mapeia a distribuição real das variáveis subjacentes. ÿ (M5) n Pontuação M5 proposta Representa condições de precisão e sobrevivência, prevendo extremos de séries temporais. eu(.) Expressa exposições sem verbalismo e reflete o verdadeiro P/L econômico ou outro. Assemelha-se a planilhas de termos Função de recompensa não linear de aprendizado de máquina (não métrica) a de derivativos financeiros. P/L no Espaço de Pagamento (sob condição de sobrevivência) O “P/L” é a abreviação de índice natural de lucros e perdas, ou seja, uma conta cumulativa de desempenho. Sejam Xi realizações de uma variável aleatória genérica unidimensional X com suporte em R e t = 1, 2,. . . n. Os retornos do mundo real Pr(.) são expressos de forma simplificada como (11.10) g(xt), Pr(n) = P(0) + ÿ kÿN onde gt : R ÿ R é uma função mensurável que representa o payoff; g pode ser dependente do caminho (para acomodar uma condição de sobrevivência), ou seja, é uma função do período anterior ÿ < t ou da soma cumulativa ÿÿÿt g(xÿ) para introduzir uma barreira absorvente, digamos, prevenção de falência , nesse caso escrevemos: P (r) (T) = P (r) (0) + ÿ 1(ÿÿ<t g(xÿ )>b) g(xt), (11.11) tÿn onde b é qualquer número arbitrário em R que chamamos de marca de sobrevivência e 1(.) uma função indicadora ÿ {0, 1}. A última condição da função indicadora na Eq. 11.11 destina-se a lidar com a ergodicidade ou a falta dela [226]. O comentário 11.5 P/L corresponde tautologicamente à distribuição do mundo real, com uma barreira absorvente na condição de sobrevivência. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.4 métricas de pontuação 227 Espaço de Frequência, A literatura padrão da psicologia tem duas abordagens. A-Ao contabilizar previsões como um contador 1 P (p) (n) = n ÿ 1Xtÿÿ, (11.12) euÿn onde 1Xtÿÿ ÿ {0, 1} é um indicador de que a variável aleatória x ÿ ÿt está no "intervalo de previsão", e T o número total de tais eventos de previsão. onde ft ÿ [0, 1] é a probabilidade anunciada pelo previsor para o evento t B-Ao lidar com uma pontuação (método de calibração) na ausência de um desempenho líquido visível, os pesquisadores produzem alguma métrica ou pontuação mais avançada para medir a calibração. Selecionamos abaixo do padrão ouro", pontuação Brier de De Finetti (DeFinetti, [58]). É favorecido porque não permite arbitragem e requer calibração probabilística perfeita: alguém que aposta que um evento tem probabilidade 1 de ocorrer obterá um pontuação perfeita somente se o evento ocorrer o tempo todo. ÿ (B) n = 1 n 2 ÿ (ft ÿ 1Xtÿÿ) , (11.13) tÿn que precisa ser minimizado para um avaliador de probabilidade perfeito. Aplicações: Competições M4 e M5 A série M (Makridakis [159]) avalia previsores usando vários métodos para prever uma estimativa pontual (juntamente com uma faixa de valores possíveis). A última competição de 2018, M4, baseou-se em grande parte numa série de pontuações, ÿ M4j que funciona , bem em situações em que é necessário prever o primeiro momento da distribuição e a dispersão à sua volta. Definição 11.7 (As pontuações de previsão do primeiro momento M4) A pontuação de precisão da competição M4 (Makridakis et al. [159]) julga os competidores nas seguintes métricas indexadas por j = 1, 2 1 (M4 ) = jÿn n onde s1 = n Xfi ÿ Xri ÿ (11.14) eu sj 1 2 ( |Xfi |+|Xri | ) e s2 é (geralmente) o desvio absoluto médio bruto para o observações disponíveis até o período i (ou seja, o erro médio absoluto de qualquer previsão "ingênua" ou de testes amostrais), Xfi é a previsão para a variável i como uma estimativa pontual, Xri é a variável realizada e n o número de experimentos sob escrutínio. Em outras palavras, é uma aplicação do Erro Médio Absoluto Escalado (MASE) e do Erro Percentual Médio Absoluto Simétrico (sMAPE) [133]. A pontuação M5 sugerida (esperada para 2020) adiciona as previsões de extremos das variáveis em consideração e repete os mesmos testes que o das variáveis brutas na Definição 11.7. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 228 calibração de probabilidade sob caudas gordas 11.4.1 Derivando Distribuições Distribuição de P (p) (n) Observação 13 A contagem da previsão binária P (p) (n) é assintoticamente normal com média p e padrão desvio padrão ÿ 1 capaz X. n (p ÿ p 2) independentemente da classe de distribuição das variáveis aleatórias Os resultados são bastante padronizados, mas veja o apêndice para as re-derivações. Distribuição da pontuação Brier ÿn Teorema 3 Independentemente da distribuição da variável aleatória X, sem sequer assumir a independência de (f1 ÿ 1A1 ), . . . , (fn ÿ 1An), para n < +ÿ, a pontuação ÿn possui todos q < +ÿ. os momentos de ordem q,n) E(ÿ Prova. Para todo i, (f i ÿ 1Ai ) 2ÿ1 . Podemos chegar mais perto de uma distribuição completa da pontuação entre políticas de apostas independentes. Suponha que as previsões binárias f i sejam independentes e sigam uma distribuição beta B(a, b) (que aproxima ou inclui todas as distribuições unimodais em [0, 1] (mais um Bernoulli por meio de duas funções de Dirac), e seja p a taxa de sucesso p = E (1Ai), a função característica de ÿn para n avaliações do escore de Brier é ÿn(t) = ÿ n/2 ( 2 ÿaÿb+1ÿ(a + b) 1 isto (a + b + 1); 2 um + b ( p 2F˜ 2 ( b2+ , b; 2 2 , 1 um + , 1 ÿ (p ÿ 1) 2F˜ 2 ( a2+ 1 (11.15) n) não; 2 2 , 2 isto (a + b + 1); n ))) . Aqui 2F˜ 2 é a função hipergeométrica generalizada regularizada 2F˜ 2(., .; (a1)k ... ., .; .) = ÿ 2F2(a;b;z) (ap)k k=0 (b1)k ...(bp)k e pFq(a; b; z) tem expansão em série ÿ z k/k!, onde (a)(.) é (ÿ(b1)...ÿ(bq)) o símbolo de Pochhammer. Portanto, podemos provar o seguinte: nas condições de independência das somas declaradas acima, ÿn Dÿÿ N (µ, ÿn) (11.16) onde N denota a distribuição gaussiana com para o primeiro argumento a média e para o segundo argumento o desvio padrão. A prova e parametrização de µ e ÿn está no apêndice. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.5 funções de recompensa não-verbalísticas/aprendizado de máquina 229 Distribuição do P/L econômico ou medida quantitativa Pr Observação 14 Condicional à sobrevivência ao tempo T, a distribuição da medida quantitativa P (r) (T) seguirá a distribuição da variável subjacente g(x). A discussão é simples se não houver barreira absorvente (isto é, nenhuma condição de sobrevivência). Distribuição da pontuação M4 A distribuição de um desvio absoluto está na mesma classe de probabilidade da própria variável. A pontuação de Brier está na norma L2 e é baseada no segundo momento (que sempre existe), pois De Finetti mostrou que é mais eficiente apenas uma probabilidade em desvios quadrados. No entanto, para não binários, é muito mais eficiente, sob caudas gordas, confiar em desvios absolutos, mesmo quando existe o segundo momento [239]. 11.5 funções de recompensa não-verbalísticas/aprendizado de máquina Os exemplos anteriores concentraram-se em funções de recompensa simples, com alguns casos em que a fusão I1 e I2 pode ser benigna (sob a condição de estar num ambiente de cauda fina). No entanto Inseparabilidade da probabilidade sob função de retorno não linear Agora, quando introduzimos uma função de retorno g(.) que é não linear, ou seja, que a resposta econômica ou outra resposta quantificável à variável aleatória X varia com os níveis de X, a discrepância se torna maior e a fusão pior. Comentário 11.6 (Probabilidade como kernel de integração) A probabilidade é apenas um núcleo dentro de uma integral ou soma, e não uma coisa real por si só. O mundo económico gira em torno de recompensas quantitativas. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Calibração de probabilidade 230 sob caudas gordas Observação 15: Inseparabilidade da probabilidade Seja F : A ÿ [0, 1] uma distribuição de probabilidade (com derivada f) e g : R ÿ R uma função mensurável, o "recompensa"". Claramente, para Aÿ um subconjunto de A : ÿA' g(x)dF(x) = ÿ f(x)g(x)dx A' ÿ= ÿ f(x)dx g (ÿ Aÿ dx ) A' Em termos discretos, com ÿ(.) uma função de massa de probabilidade: ÿ x ÿAÿ ÿ(x)g(x) ÿ= ÿ xÿAÿ ÿ(x)g( 1 n ÿ xÿAÿ (11.17) x) = probabilidade do evento × recompensa do evento médio Prova. Imediato pela desigualdade de Jensen. Em outras palavras, a probabilidade de um evento é um retorno esperado apenas quando, como vimos anteriormente, g(x) é uma função teta de Heaviside. A seguir, nos concentramos em funções tratáveis matematicamente ou legalmente, mas não confiáveis verbalmente por meio de “crenças” ou “previsões”. Mal-entendido g A Figura 11.5 , que mostra a história de confusão de Morgan Stanley, ilustra noções verbalísticas como "colapso" mal expressas em exposições não-lineares. Em 2007, a empresa de Wall Street Morgan Stanley decidiu "protegerse" contra um "colapso" imobiliário, antes que o mercado imobiliário começasse a declinar. O problema é que não perceberam que o “colapso” poderia assumir muitos valores, alguns piores do que esperavam, e preparar-se para beneficiar se houvesse um declínio ligeiro, mas perder muito se houvesse um declínio maior. Eles acabaram acertando ao prever a crise, mas perderam US$ 10 bilhões com o “hedge”. A Figura F.6 mostra um resultado mais complicado, apelidado de “borboleta”. A função g e aprendizado de máquina Observamos que g mapeia várias funções de aprendizado de máquina que produzem não linearidades exaustivas por meio do teorema da aproximação universal universal (Cybenko [52]) ou das decomposições generalizadas de retorno de opções (ver Hedge Dinâmico [225]). Considere a função ÿ : (ÿÿ, ÿ) ÿ [K, ÿ), com K, o rv X ÿ R: ÿK,p(x) = k + log (e p(xÿK) p +1) (11.18) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.5 funções de recompensa não-verbalísticas/aprendizado de máquina 231 20 20 40 60 80 100 120 -20 -40 Sério -60 Benefícios de Danos de Iniciando Apontar Declínio Declínio Figura 11.5: A história do Morgan Stanley: um exemplo de recompensa não linear elementar que não pode ser descrita verbalmente. Essa exposição é chamada no jargão dos traders de derivativos de "Árvore de Natal", obtida através da compra de uma opção de venda com preço de exercício K e da venda de uma opção de venda com preço de exercício inferior K - ÿ1 e outra com preço de exercício ainda menor K - ÿ2, com ÿ2 ÿ ÿ1 ÿ 0. Podemos expressar todas as funções de payoff não lineares g como, com a ponderação ÿi ÿ R: g(x) = ÿ ÿi ÿKi ,p(x) (11.19) eu por alguma semelhança, ÿK,p(x) mapeia para o valor um preço de compra com exercício K e tempo t até o vencimento normalizado para 1, todas as taxas definidas em 0, com o único outro parâmetro ÿ o desvio padrão do subjacente. Notamos que a expectativa de g(.) é a soma das expectativas das funções ReLu: E (g(x)) = ÿ ÿi E ( ÿKi ,p(x) ) (11h20) eu A variância e outras medidas estatísticas de ordem superior são mais difíceis de obter de forma fechada ou simples. Comentário 11.7 A gestão de risco consiste em alterar a função de retorno g(.) em vez de fazer "boas previsões". Observamos que ÿ não é uma métrica, mas uma meta à qual se podem aplicar várias métricas. Sobrevivência A tomada de decisão é sequencial. Conseqüentemente, a calibração incorreta pode ser uma boa ideia se reduzir as chances de ser absorvido. Veja o apêndice de Skin in the Game [226], Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 232 calibração de probabilidade sob caudas gordas que mostra a diferença entre a probabilidade do conjunto e a probabilidade do tempo. A expectativa da soma de n jogadores em um determinado dia é diferente daquela de um único jogador em n dias, devido ao condicionamento. Nesse sentido, medir o desempenho de um agente que acabará por falir (com probabilidade um) não tem sentido.11 11.6 conclusão: Finalmente, que no mundo real, é o desempenho líquido (económico ou outro) que conta, e cometer erros de “calibração” onde não importa ou pode ser útil deve ser encorajado, e não penalizado. O argumento da variância tendenciosa é bem conhecido no aprendizado de máquina [124] como meio de aumentar o desempenho, em discussões sobre racionalidade (ver Skin in the Game [226]) como um mecanismo necessário para a sobrevivência e uma adaptação psicológica muito útil (Brighton e Gigerenzer [33] mostram um argumento poderoso de que se for um preconceito, é bastante útil.) Se um erro não lhe custa nada – ou o ajuda a sobreviver ou a melhorar os seus resultados – claramente não é um erro. E se isso lhe custa alguma coisa, e está presente na sociedade há muito tempo, considere que pode haver vantagens evolutivas ocultas nestes tipos de erros – do seguinte tipo: confundir um urso com uma pedra é pior do que confundir uma pedra com um urso. Mostrámos que, na gestão de risco, nunca se deve operar em probabilidade espaço. 11.7 apêndice: provas e derivações 11.7.1 Distribuição de contagem binária P (p) (n) Estamos lidando com uma média de variáveis aleatórias de Bernoulli, com resultados bem conhecidos, mas que vale a pena refazer. A função característica de uma distribuição de Bernoulli com parâmetro p é ÿ(t) = 1 ÿ p + e (It)p. Estamos preocupados com a soma de N) N. ' oh geradora de cumulante ÿ ordem p: (ÿ) = logÿ ( N Temos ÿ(p) o cumulante da função ÿ pÿ ÿ(p) = ÿi p ÿt p Então: ÿ(1) = p, ÿ(2) = (1ÿp)p N , k(3) = ' tÿ0 (pÿ1)p(2pÿ1) , ÿ(4) = N2 (1ÿp)p(6(pÿ1)p+1) N3 , qual prova que P (p) (N) converge pela lei dos grandes números na velocidade ÿ N, e por o teorema do limite central chega ao Gaussiano a uma taxa de 6(pÿ1)p+1 cumulantes acima, sua curtose = 3 ÿ ). n(pÿ1)p 1 N , (já que a partir do 11 Espera-se que a competição M5 corrija isso fazendo com que os “preditores” prevejam o mínimo (ou máximo) em uma série temporal. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 11.7 apêndice: provas e derivações 233 11.7.2 Distribuição da Pontuação Brier Probabilidade base f Primeiro, consideramos a distribuição de f a probabilidade base. Usamos uma distribuição beta que cobre tanto o caso condicional quanto o incondicional (é uma questão de parametrização de a e b na Eq. 11.15). Distribuição da probabilidade Vamos atualizar um resultado padrão por trás de discussões e testes não paramétricos, datado de Kolmogorov [146] para mostrar a lógica por trás da afirmação de que a distribuição de probabilidade de probabilidade (sic) é robusta - em outras palavras, a distribuição da probabilidade a probabilidade de X não depende da distribuição de X, ([68] [143]). A transformada integral de probabilidade é a seguinte. Seja X uma distribuição contínua para a qual a função de distribuição cumulativa (CDF) é FX. Então – na ausência de informação adicional – a variável aleatória U definida como U = FX(X) é uniforme entre 0 e 1. A prova é a seguinte: Para t ÿ [0, 1], ÿ1 X P(Y ÿ você) = P(FX(X) ÿ você) = P(X ÿ F (u)) = FX(F ÿ1 X (você)) = você (11,21) que é a função de distribuição cumulativa do uniforme. Este é o caso independentemente da distribuição de probabilidade de X. Claramente estamos lidando com 1) f beta distribuído (seja como um caso especial, a distribuição uniforme quando puramente aleatória, como derivada acima, ou uma distribuição beta quando se tem alguma precisão, para a qual o uniforme é um caso especial), e 2) 1Em uma variável de Bernoulli com probabilidade p. Consideremos o caso geral. Seja ga,b o PDF do Beta: 1x ga,b (x) = umaÿ (1 ÿx ) b-1 , 0<x<1 B(uma,b) Os resultados, um pouco pesados, mas controláveis: 2 µ= 2 p n= - ( a (ÿ(p ÿ 1)) ÿ ap + a + b(b + 1)p ) ÿ(a + b) ÿ(a + b + 2) 1 n(a + b) 2(a + b + 1)2 1 2 ( a (pÿ1) + a(pÿ1)ÿb(b+ 1)p )2 + (a + b + 2)(a + b + 3)(a + b)(a + b + 1)(p(a - b)(a + b + 3)(a(a + 3) + (b + 1)(b + 2)) ÿ uma(uma + 1)(uma + 2)(uma + 3)) Podemos verificar ainda que o escore de Brier tem caudas mais finas que o Gaussiano, pois sua curtose é inferior a 3. Prova. Começamos com yj = (f ÿ 1Aj ), a diferença entre uma variável aleatória distribuída Beta contínua e uma variável Bernoulli discreta, ambas indexadas por j. O personagem (y) função característica de yj , ÿ f = ( 1 + p ( ÿ1 + e ÿit)) 1F1 (a; a + b; it) onde 1F1 (.; .; .) é Com a função hipergeométrica confluente de Kummer 1F1 (a; b; z) = ÿ ÿ k=0 e ok ! k obrigado . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 234 calibração de probabilidade sob caudas gordas 2 A partir daqui obtemos a função característica para y j ÿ (s 2 = (f j ÿ 1Aj ) não +b; 2 2 ) (t) = ÿ ÿ2 ÿaÿb+1ÿ(a + b) ( p 2F˜ 2 ( b +2 1 a 1); it) ÿ (p ÿ 1) 2F˜ 2 ( a + 12 , , uma + b; 2 2 , 2 , 1 (a + b + 2 (11.22) 1 2 (a + b + 1); isto)) ., .; .) = onde 2F˜ 2 é a função hipergeométrica generalizada regularizada 2F˜ 2(., .; (a1)k ... ÿ (ap)k 2F2(a;b;z) k=0 (ÿ(b1)...ÿ( ...(bp)kem o símbolo e pFq(a; b; z)bq)) tem(b1)k expansão série ÿde z k/k!, onde (a)(.) é Pochhammer. Podemos prosseguir para provar diretamente a partir daí a convergência na distribuição n 2 1 para a média n ÿ eu y : eu n limnÿÿ ÿy 2 (t/n) = exp ( - (11.23) isto(p(a ÿ b)(a + b + 1) ÿ a(a + 1)) (a + b)(a + b + 1) ) + que é o de um Gaussiano degenerado (Dirac) com parâmetro de localização p(bÿa) a(a+1) a+b+1 a+b . Podemos finalmente avaliar a velocidade de convergência, a taxa na qual os momentos mais elevados mapear para aqueles de uma distribuição gaussiana: considere o comportamento do 4 ÿ 4 log ÿ.(.) | do cumulante tÿ0: ÿ4 = ÿi ÿt 4 1) no caso de entropia máxima de a = b = 1: 6 ÿ4 |a=1,b=1= ÿ 7n independentemente da pág. 2) No caso de variância máxima, usando l'Hôpital: lim ÿ4 = ÿ aÿ0 bÿ0 Se temos ÿ4 ÿ0 na taxa n ÿ1 6(p ÿ 1)p + 1n(p ÿ 1)p . 2ÿn ÿ ÿ 2 Além disso, podemos extrair sua função de densidade de probabilidade da pontuação de Brier para N = 1: para 0 < z < 1, p(z) = ÿ(a + b) ( (p ÿ 1)z a/2 ( 1 ÿ ÿ z )b ÿ p ( 1 ÿ ÿ z )a z b/2 ) 2 (ÿ z ÿ 1 ) zÿ(a)ÿ( b) . (11.24) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 12 PREDIÇÕES DE ELEIÇÃO COMO MARTINGALES: ARBITRAGEM ABORDAGEM ‡ aplicação às eleições. Um resultado padrão em finanças quantitativas é Examinamos efeitoa da incerteza nos resultados binários, com queoquando volatilidade do título subjacente aumenta, as pressões de arbitragem empurram o binário correspondente opção de negociar perto de 50% e tornar-se menos variável ao longo do tempo restante até o vencimento. Contraintuitivamente, quanto maior a incerteza do título subjacente, menor a volatilidade da opção binária. Este efeito deverá manter-se em todos os domínios onde é produzido um preço binário – no entanto, observamos graves violações destes princípios em muitas áreas onde são feitas previsões binárias, em particular aquelas relativas às eleições presidenciais dos EUA em 2016. Observamos erros gritantes entre políticos. cientistas e analistas, por exemplo com 1) avaliadores dando ao candidato D. Trump entre 0,1% e 3% de chances de sucesso, 2) saltos nas revisões das previsões de 48% para 15%, ambos feitos invocando incerteza. Convencionalmente, a qualidade da previsão eleitoral tem sido avaliada estaticamente pelo método de De Finetti, que consiste em minimizar a pontuação de Brier, uma métrica de divergência do resultado final (o padrão para rastrear a precisão dos avaliadores de probabilidade em vários domínios, desde eleições até ao clima). . Nenhuma avaliação intertemporal de mudanças nas estimativas parece ter sido imposta fora do Capítulo de pesquisa. O autor agradece a Dhruv Madeka e Raphael Douady pelas discussões detalhadas e extensas do artigo, bem como pela auditoria completa das provas nas várias iterações e, pior, pelas inúmeras mudanças de notação. Peter Carr ajudou nas discussões sobre as propriedades de um martingale limitado e as transformações. Agradeço a David Shimko, Andrew Lesniewski e Andrew Papanicolaou pelos comentários. Agradeço a Arthur Breitman pela orientação com a literatura para aproximações numéricas das várias integrais normais logísticas. Agradeço aos participantes dos Seminários Tandon School of Engineering e Bloomberg Quant-titative Finance. Agradeço também a Bruno Dupire, MikeLawler, aos editores-chefes da Quantitative Finance e a várias pessoas amigas nas redes sociais. DhruvMadeka, então na Bloomberg, enquanto trabalhava num problema semelhante, descobriu de forma independente as mesmas relações entre a volatilidade de uma estimativa e os seus limites e os mesmos limites de arbitragem. Todos os erros são meus. 235 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 236 previsões eleitorais como martingales: uma abordagem de arbitragem‡ prática e literatura de finanças quantitativas. No entanto, o próprio princípio de De Finetti é que uma probabilidade deve ser tratada como um preço de “escolha” bidireccional, o que é assim violado pela prática convencional. Estimador 0,5 0,4 0,42 0,3 0,44 0,46 0,48 0,2 0,5 é 0,04 0,06 0,08 0,10 0,12 Figura 12.1: “Estimativa” de arbitragem eleitoral (ou seja, avaliação) em diferentes votos proporcionais esperados Y ÿ [0, 1], com s a volatilidade esperada de Y entre os resultados atuais e eleitorais. Podemos observar que sob maior incerteza, a estimativa do resultado aproxima-se de 0,5 e torna-se insensível à margem eleitoral estimada. X (-,) B= (XT > l) S=S(X) Bt0 [0,1] B= (YT > S(l)) S [L, H] Figura 12.2: X é uma variável aleatória aberta não observável (uma espécie de variável sombra) em R, Y, seu mapeamento em "votos" ou "votos eleitorais" por meio de uma função sigmoidal S(.), que mapeia um para um e o binário como o valor esperado de qualquer um usando a distribuição correspondente adequada. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 previsões eleitorais como martingales: uma abordagem de arbitragem‡ 237 Neste capítulo adotamos uma abordagem dinâmica e de tempo contínuo baseada nos princípios das finanças quantitativas e argumentamos que uma estimativa probabilística de um resultado eleitoral por um determinado “avaliador” precisa ser tratada como um preço negociável, isto é, como um valor da opção binária sujeito a limites de arbitragem (particularmente porque as opções binárias são realmente usadas em mercados de apostas). As futuras estimativas revistas precisam de ser compatíveis com os preços de martingale, caso contrário é criada uma arbitragem intertemporal, através da “compra” e “venda” do avaliador. Uma complicação matemática surge à medida que avançamos para o tempo contínuo e aplicamos a abordagem martingale padrão: nomeadamente que, como previsão de probabilidade, a segurança subjacente reside em [0, 1]. Nossa abordagem é criar um processo de martingale duplo (ou "sombra") Y, em um intervalo [L, H] a partir de um movimento browniano aritmético, X em (ÿÿ, ÿ) e eleições de preços em conformidade. O processo duplo Y pode, por exemplo, representar os votos numéricos necessários para o sucesso. Uma complicação é que, devido à transformação de X em Y, se Y é um martingale, X não pode ser um martingale (e vice-versa). O processo para Y permite-nos construir uma relação de arbitragem entre a volatilidade de uma estimativa de probabilidade e a da variável subjacente, por exemplo, o número do voto. Assim podemos mostrar que quando existe uma elevada incerteza sobre o resultado final, 1) de facto, o valor de arbitragem da previsão (como opção binária) aproxima-se de 50% e 2) a estimativa não deve sofrer grandes alterações mesmo se as pesquisas ou outras bases apresentarem variações significativas.3 As ligações de preços estão entre 1) o valor da opção binária (ou seja, a probabilidade de previsão), 2) a estimativa de Y e 3) a volatilidade da estimativa de Y durante o tempo restante até ao vencimento (ver Figuras 12.1 e 12.2 ) . 12.0.1 Principais resultados Por conveniência, começamos com nossa notação. Notação 3 Uma propriedade central do nosso modelo é que ele evita que B(.) varie mais do que o Y estimado: numa disputa entre dois candidatos, será limitado (mínimo) em Y se for inferior (superior) a 0,5. Na prática, podemos observar probabilidades de vitória de 98% contra 02% a partir de um spread mais estreito de votos estimados de 47% contra 53%; a nossa abordagem evita que, sob elevada incerteza, as probabilidades se afastem dos votos estimados. Mas permanece conservador o suficiente para não dar uma proporção maior. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 238 previsões eleitorais como martingales: uma abordagem de arbitragem‡ a proporção estimada de votos observada expressa em [0, 1] no tempo t0. Podem ser votos populares ou eleitorais, desde que sejam tratados com consistência. período em que o T resultado final irrevogável da eleição YT é revelado, ou expiração. período de avaliação atual, portanto T ÿ t0 é o tempo até a eleição final, expresso em anos. t0 volatilidade anualizada de Y, ou é incerteza presente nos resultados de Y no tempo restante até o vencimento. Assumimos que s é constante sem qualquer perda de generalidade – mas pode depender do tempo. B(.) “probabilidade de previsão”, ou avaliação de arbitragem estimada em tempo contínuo dos resultados eleitorais, estabelecendo limites de arbitragem entre B(.), Y0 e a volatilidade s. A0 Resultados principais 1 B(Y0, ÿ, t0, T) = 2 2p . (Tÿt0) e 2s 2ÿ(Tÿt0) erfc ( l ÿ erfÿ1ÿ(2Y0 1)e ÿ ÿ 1 (12.1) ), onde ÿÿ log ( 2ÿs 2e 2erfÿ1 (2Y0ÿ1)2 + 1) ÿ 2 ÿ T ÿ t0 , (12.2) l é o limite necessário (o padrão é 0,5) e erfc(.) é a função de erro complementar padrão, 1ÿ 2 z ÿt e dt. erf(.), com erf(z) = 2ÿ Pi _ 0 Achamos apropriado aqui responder ao comentário usual de estatísticos e pessoas que operam fora das finanças matemáticas: "por que não usar simplesmente uma distribuição estilo Beta para Y?". A resposta é que 1) o objetivo principal do artigo é estabelecer consistência temporal (livre de arbitragem) em previsões binárias, e 2) não temos conhecimento de um processo estocástico de tempo contínuo que acomode uma distribuição beta ou uma distribuição convencional similarmente limitada. um. 12.0.2 Organização As demais partes do artigo estão organizadas da seguinte forma. Primeiro, mostramos o processo para Y e as transformações necessárias a partir de um movimento browniano específico. Segundo, derivamos a relação de arbitragem usada para obter a equação (12.1). Finalmente, discutimos a abordagem de De Finetti e mostramos como uma avaliação martingale se relaciona com a minimização do padrão convencional na indústria de previsão, nomeadamente o Brier Score. Um comentário sobre a ausência de soluções de forma fechada para ÿ Notamos que para Y falta uma solução de forma fechada para a integral que reflita a variação total: Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 previsões eleitorais como martingales: uma abordagem de arbitragem‡ 239 T ÿ e t0 ÿÿ p ÿerfÿ1 (2ysÿ1)2 ds, embora o correspondente para X seja computável. Conseqüentemente, contamos com métodos de propagação de incerteza para obter uma solução de forma fechada para a densidade de probabilidade de Y, embora não explicitamente seus momentos, pois a integral normal logística não se presta a expansões simples [195]. Distribuições de intervalo de tempo para X e Y A distribuição de intervalo de tempo é a função de densidade de probabilidade de Y a partir do tempo t, que é a representação de um período, 1 + 2 y0 = erf(x0). Inversamente, para X dado y0, o correspondente x0, X pode começando em t com 12 ser considerado normalmente distribuído para o período T ÿ t0 com 2p . (Tÿt0) E(X, T) = X0e 2 2s e , (Tÿt0) ÿ 1 V(X, T) = 2 e uma curtose de 3. Por transformação de probabilidade obtemos ÿ, a distribuição correspondente de Y com valor inicial y0 é dada por 1 ÿ(y; y0, T) = ÿe 2s 2 1 2 (coth ( ÿ (tÿt0) ÿ 1 exp {erfÿ1 (2y ÿ 1)2 ÿ 2 t) (12.3) 2p . ÿ 1 ) (erfÿ1 (2y ÿ 1) ÿ erfÿ1 (2y0 ÿ 1)e (tÿt0) )2 } e temos E(Yt) = Y0. 2 Quanto à variância, E(Y ), como mencionado acima, não se presta a uma solução fechada derivada de ÿ(.), nem da integral estocástica; mas pode ser facilmente estimado a partir da distribuição de forma fechada de X usando métodos de propagação da incerteza para os dois primeiros momentos (o método delta). Como a variância de uma função f de uma variável aleatória de momento finito X pode ser aproximado como V (f(X)) = f ' 2 (ANTIGO)) ÿS ÿ1 (y) V(X): e 2s 2 (Tÿt0) ÿ 1 2ÿs 2 ÿy y=Y0 2s 2 s ÿ ÿ eÿ2erfÿ1 (2Y0ÿ1)2 2p. (e (Tÿt0) ÿ 1 ) . (12.4) Da mesma forma, para cálculos na direção oposta, encontramos ÿÿ ÿ log ( 2ÿs 2e 2erfÿ1 (2Y0ÿ1)2 + 1) ÿ 2 ÿ T ÿ t0 , que está (12.2) na apresentação do resultado principal. Observe que expansões incluindo momentos mais altos não trazem um aumento material na precisão – embora s seja altamente não linear em torno do centro, a faixa de valores Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 240 previsões eleitorais como martingales: uma abordagem de arbitragem‡ pois a volatilidade do total ou, digamos, do colégio eleitoral é demasiado baixa para afectar os termos de ordem superior de forma significativa, para além da limitação das transformações de estilo sigmóide. 1,0 ELEIÇÃO DIA Rigoroso 0,9 atualizando 0,8 538 0,7 0,6 0,5 20 40 60 80 100 Figura 12.3: Abordagem teórica (parte superior) versus prática (parte inferior). Mostra como o processo de estimativa não pode estar sincronizado com a volatilidade da estimativa de votos (eleitorais ou outros), pois viola os limites da arbitragem. 12.0.3 Uma discussão sobre neutralidade de risco Aplicamos avaliação neutra ao risco, por falta de convicção de outra forma, como opção default. Embora Y possa não ser necessariamente negociável, adicionar um prémio de risco ao processo envolvido na determinação da avaliação de arbitragem implicaria necessariamente um prémio de risco negativo para o(s) outro(s) candidato(s), o que é difícil de justificar. Além disso, os valores das opções ou apostas binárias precisam satisfazer um argumento sem Dutch Book (a forma De Finetti de não-arbitragem) (ver [97]), ou seja, opções binárias com preços adequados interpretadas como previsões de probabilidade não dão nenhuma "vantagem" de apostas em todos resultados sem perdas. Finalmente, qualquer afastamento da neutralidade de risco degradaria a pontuação de Brier (sobre a qual, abaixo), pois representaria um desvio da previsão final. Observe também a ausência das premissas de taxa de financiamento normalmente presentes nas discussões financeiras. 12.1 a avaliação estilo solteiro Seja F(.) uma função de uma variável X que satisfaz dXt = p 2 Xtdt + ÿdWt . (12,5) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 12.1 a avaliação estilo solteiro 241 Queremos mostrar que X tem um preço de opção de Bachelier simples B(.). A ideia de não haver arbitragem é que uma previsão feita continuamente deve ser ela mesma um martingale. Aplicando o Lema de Itô a F ÿ B para X rendimentos satisfatórios (12,5) ÿF 2 dF = [ p de modo que, desde ÿF ÿt + XÿX _ ÿ2F _ 12p 2 ÿX2 + F dW X ÿF ÿt ] dt + p ÿ 0, F deve satisfazer a equação diferencial parcial 1 ÿ2F _ 2 ÿX2 por 2 2 X + ÿ + ÿX ÿF ÿF ÿt = 0, (12.6) que é a condição sem deriva que torna B um martingale. Para uma opção binária (call), temos para condições terminais B(X, t) ÿ F, FT = ÿ(x ÿ l), onde ÿ(.) é a função teta de Heaviside e l é o limite: ÿ(x) := { 1, x0,ÿxl < eu com condição inicial x0 no tempo t0 e condição terminal em T dada por: 1 2 p. 2 t ÿe erfc ( x0e 2s 2t_ _ ÿ eu ÿ1 ) que é, simplesmente, a função de sobrevivência da distribuição Normal parametrizada no processo para X. Da mesma forma, notamos no argumento anterior de um para um (pode-se usar argumentos de conjunto de Borel) que < S(l), ÿ(y) := { 1, y0,ÿyS(l) para que possamos precificar o processo alternativo B(Y, t) = P(Y > ) (ou qualquer outro similar 12 limite obtido l, precificando B(Y0, t0) = P(x > S ÿ1 (eu)). A precificação da proporção de votos é dada por: 1 B(Y0, ÿ, t0, T) = 2 2p . (Tÿt0) (Tÿt0) ÿ 1 ÿ e 2sÿ 21)e erfc (l ÿ erfÿ1 (2Y0 ), a equação principal (12.1), que também pode ser expressa de forma menos conveniente como 1 B(y0, ÿ, t0, T) = ÿ 2ÿ 2 t ÿ 1 e 1 - 2 (coth ( ÿ ÿ eu 1 exp (erfÿ1 (2y ÿ 1)2 2 2p . t ) ÿ 1 ) (erfÿ1 (2y ÿ 1) ÿ erfÿ1 (2y0 ÿ 1)e t )2 ) você Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 242 previsões eleitorais como martingales: uma abordagem de arbitragem‡ X,Y 0,5 200 400 600 800 X -0,5 t 1000 Figura 12.4: Processo e Processo Duplo E -1,0 -1,5 12.2 processo martingale duplo limitado YT é o valor terminal de um processo no dia das eleições. Ele vive em [0, 1], mas pode ser generalizado para o mais amplo [L, H], L, H ÿ [0, ÿ). O limite para a vitória de um determinado candidato é fixado em l. Y pode corresponder a votos brutos, votos eleitorais ou qualquer outra métrica. Assumimos que Yt é uma realização intermediária do processo em t, produzida sinteticamente a partir de pesquisas (estimativas corrigidas) ou de outros sistemas semelhantes. A seguir, criamos, para um processo estocástico aritmético ilimitado, um processo estocástico "dual" limitado usando uma transformação sigmoidal. Pode ser útil mapear processos como um processo eleitoral limitado para um movimento browniano, ou mapear um resultado limitado para um ilimitado, ver Figura 12.2. Proposição 12.1 Sob transformações de estilo sigmoidal S : x ÿ y, R ÿ [0, 1] da forma a) ou b) 1 1+exp(ÿx) , se X é um martingale, Y é apenas um martingale para Y0 = martingale , X é apenas um martingale para X0 = 0 . 11+22 jarda (x), 12 , e se Y for um Prova. A prova é esboçada como segue. Do lema de Itô, o termo de deriva para dXt tornase 1) ÿ 2X(t), ou 2) onde ÿ1 2denota respectivamente com transformações das ÿ 2Tanha (volatilidade, X(t) 2), formas a) de Xt e b) de Xt sob um martingale para ÿerf ÿ1 (2Yÿ1)2 erfÿ1 (2Yÿ1) ou 2) ÿ ÿ Y. A deriva para dYt torna-se: 1) 2 pág . e ÿ 2Y(Y ÿ 1)(2Y ÿ 1) 12 sob um martingale para X. Selecionamos, portanto, o caso de Y ser um martingale e apresentamos os detalhes da transformação a). As propriedades do processo foram desenvolvidas por Carr [35]. Seja X o movimento browniano aritmético (12.5), com desvio dependente de X e escala constante ÿ: dXt = ÿ 2Xtdt + ÿdWt , 0 < t < T < +ÿ. Notamos que isso tem semelhanças com o processo de Ornstein-Uhlenbeck normalmente escrito dXt = ÿ(µ ÿ Xt)dt + ÿdW, exceto que temos µ = 0 e violamos as regras usando um coeficiente de reversão à média negativo, descrito de forma mais adequada como "repulsão 2 . média", ÿ = ÿÿ Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 12.3 relação com o avaliador de probabilidade de de finetti 243 Mapeamos de X ÿ (ÿÿ, ÿ) para seu processo dual Y como segue. Com S : R ÿ [0, 1], Y = S(x), 1 + 1 jarda (x) 22 S(x) = o processo dual (por transformação única já que S é um para um, torna-se, para ÿ S(x), usando e o lema de Itô (já que S(.) é duas vezes diferenciável e ÿS/ÿt = 0): 2 dS = (1 por 2 ÿ2S2 __ + Xÿ ÿx2 _ ÿS ÿx) dt + p ÿSdW ÿx que com desvio zero pode ser escrito como um processo dYt = s(Y)dWt , para todo t > ÿ, E(Yt |Yÿ) = Yÿ. e escala p s(S) = e ÿerfÿ1 (2yÿ1)2 ÿp que, como podemos ver na Figura 12.5, s(y) pode ser aproximado pela função quadrática y(1 ÿ y) vezes uma constante. Figura 12.5: A volatilidade instantânea de Y em função do nível de Y para dois métodos diferentes de transformações de X, que parecem não ser substancialmente diferentes. é 0,25 0,20 ÿ-er-1 (-1+2 anos) 0,15 Pi 2 compare com a forma quadrática y ÿ y 0,10 e (1 - y) 0,05 Sim 0,2 0,4 0,6 2 1 O escalonada por uma constante. 3 8h2 0,8 1,0 3ÿ 8h2_ a volatilidade diminui à medida que nos afastamos e colapsa nas bordas, 12 mantendo assim Y em (0, 1). Por simplicidade, assumimos ÿ = t = 1. ÿ1 (y) = erfÿ1 (2y ÿ 1), e Podemos recuperar a equação (12.5) invertendo, ou seja, S novamente aplicando o Lema de Itô. Como consequência da invariância de calibre, os preços das opções são idênticos, quer sejam precificados em X ou Y, mesmo que um processo tenha um desvio enquanto o outro seja um martingale. Por outras palavras, pode-se aplicar a estimativa ao limiar eleitoral, ou ao X mais complicado com os mesmos resultados. E, para resumir nosso método, precificar uma opção em X é familiar, pois é exatamente um preço de opção no estilo Bachelier. 12.3 relação com o avaliador de probabilidade de de finetti Esta seção fornece um breve contexto para a abordagem convencional de avaliação de probabilidade. O grande De Finetti [58] mostrou que a "avaliação" da "probabilidade" de realização de uma variável aleatória em {0, 1} requer uma resposta não linear Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 244 previsões eleitorais como martingales: uma abordagem de arbitragem‡ Figura 12.6: Bruno de Finetti (1906-1985 ). Probabilista, filósofo e matemático de seguros, ele formulou a pontuação de Brier para avaliação probabilística, que mostramos ser compatível dinamicamente com um martingale. Fonte: DeFinetti.org função de perda – o que faz com que a sua definição de avaliação probabilística seja diferente daquela do P/L de um trader envolvido em apostas binárias. Suponha que um agente de apostas num modelo n-repetido de dois períodos, t0 e t1 , produza uma estratégia S de apostas b0,i ÿ [0, 1] indexadas por i = 1, 2, . . . , n, com a Se .considerarmos a variação absoluta do seu P/L sobre n realização do binário rv 1t1,i apostas, será 1 n ÿ 1t1,i ÿ bt0,i . L1 (S) = n eu=1 Por exemplo, suponha que E(1t1 ) = 1 1 2 . Apostando na probabilidade, aqui 2 , produz 1 uma perda expectativa, que é o mesmo que apostar em 0 ou 1 – portanto, não favorece de 2 o agente a apostar na probabilidade exata. Se trabalharmos com a mesma variável aleatória e probabilidades não variáveis no tempo, 1 a métrica L seria apropriada: n 1 L1 (S) = n 1t1,eu ÿÿ bt0,i . eu=1 De Finetti propôs uma função do tipo "pontuação de Brier", uma função de perda quadrática em L2 : 1 L2(S) = n n ÿ (1t1,i ÿ bt0,i ) 2 , eu=1 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 12.4 conclusão e comentários 245 cujo mínimo é alcançado para bt0,i = E(1t1 ). Em nosso mundo de avaliação derivada de tempo contínuo, onde, no lugar de um modelo de rede de dois períodos, estamos interessados, para o mesmo resultado final em t1 , no processo estocástico bt , t0 ÿ t ÿ t1 , o "valor" de arbitragem de uma aposta num resultado binário precisa de corresponder à expectativa, portanto, novamente, mapeamos para a pontuação de Brier – através de um argumento de arbitragem. Embora não haja nenhuma função de perda quadrática envolvida, o facto de a aposta ser uma função de um martingale, que deve ser ele próprio um martingale, ou seja, que a expectativa condicional permanece invariante ao tempo, não permite que ocorra uma arbitragem. Um preço “alto” pode ser “vendido” pelo arbitrador, um preço “baixo” pode ser “comprado” e assim por diante repetidamente. A consistência entre as apostas no período t e outros períodos t + ÿt reforça a disciplina probabilística. Em outras palavras, alguém pode “comprar” do previsor e depois “vender” de volta para ele, gerando um “retorno” esperado positivo se o previsor estiver fora de linha com a avaliação de Martingale. Quanto à prática actual dos analistas, embora alguns analistas eleitorais pareçam estar conscientes da necessidade de minimizar a sua pontuação Brier, a ideia de que as revisões das estimativas também devem ser sujeitas à avaliação martingale não está bem estabelecida. 12.4 conclusão e comentários Como pode ser visto na Figura 12.1, uma opção binária revela mais sobre a incerteza do que sobre a estimativa verdadeira, um resultado bem conhecido pelos traders, ver [225]. Na presença de mais de 2 candidatos, o processo pode ser generalizado com a seguinte aproximação heurística. Estabeleça o processo estocástico para Y1,t , e assim como Y1,t é um processo em [0, 1], Y2,t é um processo ÿ (Y1,t , 1], com Y3,t o resíduo 1 ÿY2, t ÿY1,t , e mais geralmente Ynÿ1,t ÿ (Yn2,t , 1] e Yn,t é o resíduo Em = 1 ÿ ÿ n-1 eu=1 Sim, t . Para n candidatos, o enésimo é o resíduo. adendo: todos os caminhos levam ao financiamento quantitativo Antecedentes Aubrey Clayton enviou uma carta ao editor reclamando do artigo anterior alegando “erros” na metodologia acima. O autor respondeu, com Dhruv Madeka, não exatamente a Clayton, mas sim para expressar a utilidade dos métodos financeiros quantitativos na vida. Temos o prazer de responder à carta (não revisada) de Clayton, apesar de suas confusões, pois ela nos dará a oportunidade de abordar mal-entendidos mais fundamentais sobre o papel das finanças quantitativas em geral, e dos preços de arbitragem em particular. , e mostram com orgulho como "todos os caminhos levam ao financiamento quantitativo", ou seja, que as abordagens de arbitragem são universais e aplicáveis a todos os tipos de previsão binária. Também permite que o segundo autor comente seu artigo, Madeka (2017)[158], que obteve, de forma independente e simultânea, resultados semelhantes aos de Taleb (2018)[234]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 246 previsões eleitorais como martingales: uma abordagem de arbitragem‡ Reivindicações incorretas As críticas de Taleb às probabilidades de previsão populares, especificamente as previsões eleitorais de FiveThir-tyEight ..." e "Ele [Taleb] afirma que isso significa que as previsões FiveThirtyEight devem ter" violado [d] limites de arbitragem "são factualmente incorretas. Não há menção a FiveThirtyEight em [234], e Clayton deve estar confundindo artigos científicos com debates no Twitter. O artigo é uma tentativa de abordar as eleições de forma rigorosa, sem discussão jornalística, e apenas menciona as eleições de 2016 numa frase ilustrativa.4 Continuemos, no entanto, a investigar as outras afirmações de Clayton, apesar da sua confusão. missão e a natureza da carta. Avaliação de arbitragem incorreta As alegações de Clayton ou são um erro ("Primeiro, um dos "resultados padrão" das finanças quantitativas em que se baseiam as suas avaliações de previsões eleitorais é falso", escreve ele inicialmente), ou, como ele retrata de forma confusa, algo "apenas parcialmente verdadeiro". Novamente, deixemos de lado que Taleb(2018)[234] não faz nenhuma “avaliação” do histórico de FiveThirtyEight e delineamos seu raciocínio. Clayton considera três períodos, t0 = 0, um período intermediário t e um terminal T, com t0 ÿ t < T. Clayton mostra um caso especial da distribuição da probabilidade direta, vista em t0, para o tempo T2 começando em t = e terminando em T. É uma distribuição uniforme para aquele período específico. Na verdade, sob sua construção, usando a transformada integral de probabilidade, pode-se mostrar que as probabilidades seguem o que se assemelha a uma distribuição beta simétrica com os parâmetros a e b, e com temos a = b = 1 (daí a distribuição uniforme). Antes de T/2 a = b. Quando t = terminando com T2 , tem forma ÿ , com Dirac em t = t0. Além de T/2 ele tem uma forma ÿ , duas varetas de Dirac em 0 e 1 (como um Bernoulli) quando t está próximo de T (e próximo de uma distribuição arco-seno com a = b = em algum lugar no meio). 12 A construção de Clayton é de facto enganadora, uma vez que ele analisa a distribuição do preço no tempo t com a filtragem no tempo t0, particularmente quando discute preços de arbitragem e pressões de arbitragem. Os agentes avaliam as opções entre t e T no momento t (não no período t0), com um preço subjacente: sob tal restrição, a opção binária converge automaticamente para ÿ ÿ ÿ, e isso para qualquer valor do preço subjacente, não importa quão 1 2 longe longe do preço de exercício (ou limite). O ÿ aqui nunca é realizado no passado, apenas volatilidade futura não realizada. Isto pode ser visto dentro da estrutura apresentada em Taleb (2018) [234] , mas também tomando qualquer modelo de precificação de opções binárias. Um preço não é uma probabilidade (menos ainda uma distribuição de probabilidade), mas uma expectativa. Simplesmente, como operadores de arbitragem, olhamos para a volatilidade futura com base em informações sobre o subjacente ao precificar uma opção binária, e não para a distribuição da probabilidade em si no abstrato incondicional. Em ÿ infinito, tudo se torna ruído, e tal nível de ruído afoga todos os sinais. 4 Aliás, o problema com FiveThirtyEight não é alterar as probabilidades de 0,55 para 0,85 num período de 5 meses, mas sim realizar mudanças abruptas num intervalo de tempo muito mais curto – e isso foi discutido em Madeka (2017)[158]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 12.4 conclusão e comentários 247 Outra maneira de ver a atração da incerteza é usar a teoria da informação1 e 2 a noção de entropia máxima sob incerteza profunda: a entropia (I) de uma distribuição de Bernoulli com probabilidades p e (1 ÿ p), I = ÿ((1 ÿ p) log(1 ÿ p) + p log(p)) é máximo em 12 . Para vencer um 1 2 precificação, é preciso ter informações suficientes para vencer o ruído. Como veremos na próxima seção, não é fácil. Questões de arbitragem Outro resultado do financiamento quantitativo que impõe limites à volatilidade das previsões é o seguinte. Uma vez que as previsões eleitorais podem ser interpretadas como uma opção binária europeia, podemos explorar o facto de o processo de preço desta opção estar limitado entre 0 e 1 para fazer afirmações sobre a volatilidade do próprio preço. Essencialmente, se o preço da opção binária variar demasiado, uma simples estratégia de negociação de comprar na baixa e vender na alta é garantida para produzir lucro5 . O argumento pode ser resumido observando que se considerarmos um movimento browniano aritmético limitado entre [L, H]: dBt = ÿdWt (12.7) T 2 (B0 ÿ Bt)dBt = ÿzero, 2T ÿ indicando (BT ÿ B0) que o valor de BT é limitado pelo valor A integral estocástica 2 ÿ pode ser replicada a custo máximo da diferença quadrada no lado direito da equação. Ou seja, um analista que produz probabilidades excessivamente voláteis – se ele ou ela estiver disposto a negociar com base em tal previsão (ou seja, se tiver pele no jogo) – pode ser arbitrado seguindo uma estratégia que vende (proporcionalmente) quando a previsão é demasiado alta e compra (proporcionalmente) quando a previsão é muito baixa. Para concluir, qualquer previsão probabilística numérica deve ser tratada como um preço de escolha – a intuição de De Finetti é que as previsões devem estar no jogo. Nessas condições, a previsão binária pertence às regras de arbitragem e precificação de derivativos, bem mapeadas nas finanças quantitativas. Usar uma abordagem financeira quantitativa para produzir previsões binárias não impede os métodos bayesianos (Taleb (2018) não diz que as probabilidades deveriam ser 2 , 1 apenas que há um vento contrário em direção a esse nível devido a pressões de arbitragem e restrições sobre quão variável uma previsão pode ser). Só que existe um preço que conta no final, 1 ou 0, o que estrutura a atualização.6 5 Tiramos esse resultado das anotações de Bruno Dupire para sua aula de finanças em tempo contínuo no Courant da NYU Institute, especialmente seu exame final para a primavera de 2019. 6 Outra forma de ver isto, fora dos nossos modelos financeiros quantitativos: considere um modelo probabilístico padrão pontuação. Seja X1, . . . , Xn sejam variáveis aleatórias em [0, 1 e a BT uma constante BT ÿ {0, 1}, temos a pontuação ÿ 1 n= n n 2 ÿ (xi ÿ BT ) , eu=1 que precisa ser minimizado (em um único resultado BT). Para qualquer BT e uma previsão média x = ÿ o valor mínimo de ÿn n . . =alta . . . = xn = xn. variância, Para venceréuma previsão ter de Dirac é alcançado para x1 = para i=1 xi , que ÿ = com uma estratégia. de necessário 75% x1 de=precisão. (Observe que 12 uma previsão uniforme tem uma pontuação de 14 .) Isso nos mostra a compensação entre volatilidade e sinal. 13 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 248 previsões eleitorais como martingales: uma abordagem de arbitragem‡ A razão pela qual Clayton poderá ter problemas com finanças quantitativas poderá ser o facto de as probabilidades e as sondagens subjacentes poderem não ser martingales na vida real; as probabilidades negociadas (portanto, as previsões reais) devem ser martingales. É por isso que em Taleb (2018)[234] o processo para as pesquisas (que pode ser vago e não negociável) precisa ser transformado em um processo para probabilidade em [0, 1]. agradecimentos Raphael Douady, alunos da Tandon School of Engineering da NYU, participantes do Bloomberg Quantitative Finance Seminar em Nova York. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Parte IV DESIGUALDADEESTIM ATO RUNDER GORDURA TA ILS Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13GINIESTIM EM IONUNDERINFINITE VARIÂNCIA ‡ T Este capítulo trata dos problemas relacionados à estimativa do índice de Gini na presença de um processo de geração de dados de cauda gorda, ou seja, um na classe de distribuição estável com média finita, mas variância infinita (ou seja, com índice de cauda ÿ ÿ ( 1, 2)). Mostramos que, nesse caso, o coeficiente de Gini não pode ser estimado de forma confiável utilizando métodos não paramétricos convencionais, devido a um viés descendente que surge sob caudas grossas. Isto tem implicações importantes para a discussão em curso sobre a desigualdade económica. Começamos discutindo como o estimador não paramétrico do índice de Gini sofre uma transição de fase na estrutura de simetria de sua distribuição assintótica, à medida que a distribuição dos dados muda do domínio de atração de uma distribuição de cauda leve para aquela de cauda gorda, especialmente no caso de variância infinita. Também mostramos como o viés não paramétrico de Gini aumenta com valores mais baixos de ÿ. Provamos então que a estimativa de máxima verossimilhança supera os métodos não paramétricos, exigindo um tamanho de amostra muito menor para alcançar a eficiência. Finalmente, para dados de cauda gorda, fornecemos um mecanismo simples de correção para o viés de pequena amostra do estimador não paramétrico com base na distância entre a moda e a média de sua distribuição assintótica. 13.1 introdução Os estudos sobre desigualdade de riqueza representam um campo da economia, estatística e econofísica exposto a processos de geração de dados de cauda gorda, muitas vezes com variância infinita [39, 144]. Isto não é de todo surpreendente se recordarmos que o protótipo das distribuições de cauda gorda, o Pareto, foi proposto pela primeira vez para modelar as informações dos agregados familiares. Capítulo de pesquisa. (Com A. Fontanari e P. Cirillo), coautores 251 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Estimativa de 252 gini sob variação infinita ‡ vem [185]. No entanto, a grande quantidade de dados pode ser problemática no contexto dos estudos de riqueza, uma vez que a propriedade da eficiência (e, parcialmente, da consistência) não é necessariamente válida para muitos estimadores de desigualdade e concentração [82, 144]. O objetivo deste trabalho é mostrar como as caudas gordas afetam a estimativa de uma das mais celebradas medidas de desigualdade econômica, o índice de Gini [78, 110, 144], frequentemente usado (e abusado) na literatura de econofísica e economia como o principal ferramenta para descrever a distribuição e a concentração da riqueza em todo o mundo [39, 191? ]. A literatura relativa à estimativa do índice de Gini é ampla e abrangente (por exemplo, [78, 222] para uma revisão), no entanto, estranhamente, quase nenhuma atenção tem sido dada ao seu comportamento na presença de caudas gordas, e isto é curioso se considerarmos que: 1) caudas gordas são onipresentes nas distribuições empíricas de renda e riqueza [144, 191], e 2) o próprio índice de Gini pode ser visto como uma medida de variabilidade e cauda gorda [76, 79, 80, 95]. O método padrão para a estimativa do índice de Gini é não paramétrico: calcula-se o índice a partir da distribuição empírica dos dados disponíveis usando a Equação (13.5) abaixo. Mas, como mostramos neste artigo, este estimador sofre de um viés descendente quando lidamos com observações de cauda gorda. Portanto, nosso objetivo é preencher essa lacuna derivando a distribuição limitante do estimador não paramétrico de Gini na presença de caudas gordas, e propor possíveis estratégias para reduzir o viés. Mostramos como a abordagem de máxima verossimilhança, apesar do risco de especificação incorreta do modelo, precisa de muito menos observações para alcançar eficiência quando comparada a uma abordagem não paramétrica.2 Os nossos resultados são relevantes para a discussão sobre a desigualdade de riqueza, recentemente reavivada por Thomas Piketty em [191], uma vez que a estimativa do índice de Gini sob caudas gordas e variância infinita pode fazer com que várias análises económicas sejam pouco fiáveis, se não marcadamente erradas. Por que alguém deveria confiar em um estimador tendencioso? Figura 13.1: O estatístico italiano Corrado Gini, 1884-1965. fonte: Boc-coni. 2 Um enviesamento semelhante também afecta a medição não paramétrica das contribuições quantílicas, ou seja, aquelas do tipo “os 1% mais ricos possuem x% da riqueza total" [242]. Este artigo estende o problema ao coeficiente de Gini, mais difundido, e vai mais fundo fazendo ligações com os teoremas do limite. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13.1 introdução 253 Por dados de cauda gorda indicamos aqueles dados gerados por uma variável aleatória positiva X com função de distribuição cumulativa (cdf) F(x), que varia regularmente de ordem ÿ [136], ou seja, para F¯(x): = 1 ÿ F(x), tem-se (13.1) limxÿÿ x ÿF¯(x) = L(x), L(cx) onde L(x) é uma função de variação lenta tal que limxÿÿ = 1 com é c > 0, e L(x) onde ÿ > 0 chamado de expoente final. Distribuições regularmente variáveis definem uma grande classe de variáveis aleatórias cujas propriedades foram extensivamente estudadas no contexto da teoria dos valores extremos [82, 116], ao lidar com o comportamento probabilístico de máximos e mínimos. Como apontado em [44], variação regular e cauda gorda são de fato sinônimos. Sabe-se que, se X1 , ..., Xn são observações iid com uma cdf F(x) na classe regularmente variável, conforme definido na Equação (13.1), então seu processo de geração de dados cai no domínio máximo de atração de uma distribuição de Fréchet com parâmetro ÿ, em símbolos X ÿ MDA(ÿ(ÿ))[116]. Isto significa que, para o máximo parcial Mn = max(X1 , ..., Xn), tem-se ÿ1 P (uman (Mn d ÿ ÿ(ÿ) = e ÿ bn) ÿ x) ÿx ÿp , ÿ > 0, (13.2) com an > 0 e bn ÿ R duas constantes de normalização. Claramente, a conexão entre o coeficiente ÿ, que varia regularmente , e o parâmetro de distribuição de Fréchet ÿ é dada por: 1 ÿ = [82]. p. A distribuição Fréchet é uma das distribuições limitantes para máximos na teoria dos valores extremos, juntamente com a Gumbel e a Weibull; representa o caso limite de cauda gorda e ilimitado [116]. A relação entre variáveis aleatórias que variam regularmente e a classe de Fréchet permite-nos assim lidar com uma família muito grande de variáveis aleatórias (e dados empíricos), e permite-nos mostrar como o índice de Gini é altamente influenciado pelos máximos, ou seja, extremos. riqueza, como claramente sugerido pela intuição [95, 144], especialmente sob variação infinita. Mais uma vez, isto recomenda alguma cautela ao discutir a desigualdade económica sob caudas gordas. Vale lembrar que a existência (finitude) dos momentos para uma variável aleatória de cauda gorda X depende do expoente de cauda ÿ, na verdade ANTIGO d ANTIGO ) < ÿ se ÿ ÿ ÿ, d ) = ÿ se ÿ > a. (13.3) Neste trabalho, restringimos nosso foco aos processos de geração de dados com média finita e variância infinita, portanto, conforme a Equação (13.3), na classe de distribuições regularmente variantes com índice de cauda ÿ ÿ (1, 2). A Tabela 13.1 e a Figura 13.2 apresentam numérica e graficamente nossa história, já sugerindo sua conclusão, com base em observações artificiais amostradas a partir de uma distribuição de Pareto (Equação (13.13) abaixo) com parâmetro de cauda ÿ igual a 1,1. A Tabela 13.1 compara o índice de Gini não paramétrico da Equação (13.5) com o índice de máxima verossimilhança (ML) baseado na cauda da Seção 13.3. Para os diferentes tamanhos de amostra na Tabela 13.1, geramos 108 amostras, calculando a média dos estimadores via Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Estimativa de 254 gini sob variação infinita Monte Carlo. Como mostra a primeira coluna, a convergência do não paramétrico estimador para o verdadeiro valor de Gini (g = 0,8333) é extremamente lento e monotonicamente aumentando; isso sugere um problema não apenas na estrutura final da distribuição do estimador não paramétrico, mas também em sua simetria. A Figura 13.2 fornece algumas evidências numéricas de que a distribuição limite de o índice não paramétrico de Gini perde suas propriedades de normalidade e simetria [91], mudando para um limite distorcido e com cauda mais grossa, quando os dados são caracterizados por uma variação infinita. Como provamos na Seção 13.2, quando o processo de geração de dados está no domínio de atração de uma distribuição de cauda gorda, a distribuição assintótica do índice de Gini torna-se uma lei ÿ-estável distorcida para a direita. Esta mudança de comportamento é responsável pelo viés descendente do Gini não paramétrico sob condições de gordura caudas. Contudo, o conhecimento do novo limite permite-nos propor uma correcção para o estimador não paramétrico, melhorando sua qualidade e reduzindo assim o risco de estimar mal a desigualdade de riqueza, com todas as consequências possíveis em termos das políticas económicas e sociais [144, 191]. Tabela 13.1: Comparação do Gini Não Paramétrico (NonPar) e Máxima Verossimilhança (ML) estimadores, usando dados paretianos com cauda ÿ = 1,1 (média finita, variância infinita) e amostras diferentes tamanhos. Número de simulações de Monte Carlo: 108 . n Não par AM Taxa de erro3 (número de obs.) Viés médio Viés médio 103 0,711 -0,122 0,8333 0,750 0 1.4 104 -0,083 0,8333 0,775 -0,058 0 105 0,8333 0,790 -0,043 0,8333 0 3 6.6 106 0,802 -0,031 0,8333 0 107 0 156 105+ Figura 13.2: Histogramas para o Estimadores não paramétricos de Gini para duas distribuições paretianas (tipo I) com índices de cauda diferentes, com variância finita e infinita (os gráficos foram centralizados para facilitar comparação). Tamanho da amostra: 103 . Número de amostras: 102 para cada distribuição. O resto do artigo está organizado da seguinte forma. Na Seção 13.2 derivamos a distribuição assintótica do índice de Gini amostral quando os dados possuem uma variância infinita. Na Seção 13.3 tratamos do estimador de máxima verossimilhança; na Seção 13.4 nós forneça uma ilustração com observações paretianas; na Seção 13.5 propomos um correção simples baseada na distância modal média da distribuição assintótica do estimador não paramétrico, para cuidar de seu viés de amostra pequena. Seção 13.6 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13.2 assintótica do estimador não paramétrico sob variância infinita 255 fecha o papel. Um Apêndice técnico contém as provas mais extensas dos principais resultados do trabalho. 13.2 assintótica do estimador não paramétrico sob infinito variação Derivamos agora a distribuição assintótica para o estimador não paramétrico do índice de Gini quando o processo de geração de dados é de cauda gorda com média finita, mas variância infinita. A chamada representação estocástica do Gini g é g= 1 E (|X ' ÿ X”|) 2 ÿ [0, 1], µ (13.4) ' e X” são cópias iid de uma variável aleatória X com cdf F(x) ÿ [c, ÿ), ÿ X”|) é ' c > 0, e com média finita E(X) = µ. A quantidade E (|X "Diferença conhecido como onde X eu Média de Gini" (GMD) [222]. Para conveniência posterior, também definimos g = sou com ÿ = E(|X ÿÿX”|) . 2 O índice de Gini de uma variável aleatória X é, portanto, o desvio médio esperado entre quaisquer duas realizações independentes de X, escalonadas pelo dobro da média [81]. O estimador não paramétrico mais comum do índice de Gini para uma amostra X1 , ..., Xn é definido como GNP (Xn) ÿ1ÿi<jÿn |Xi ÿ Xj | = (n ÿ 1) ÿ n eu=1 , (13,5) XI que também pode ser expresso como GNP (Xn) = ÿ n euÿ1 eu=1(2( nÿ1 n i=1 X(i) ÿ 1)X(i) ÿ = ÿ 1 n1 n ÿ n eu=1 Z(eu) n eu=1 , (13.6) XI onde X(1), X(2), ..., X(n) são as estatísticas ordenadas de X1 , ..., Xn, tais que: X(1) < n-1 ÿ 1 ) X(eu) . A normalidade assintótica do X(2) < ... < X(n) e Z(i) = 2 ( iÿ1 O estimador na Equação (13.6) sob a hipótese de variância finita para o processo de geração de dados é conhecido [144, 222]. O resultado segue diretamente das propriedades das estatísticas U e dos estimadores L envolvidos na Equação (13.6) Uma metodologia padrão para provar a distribuição limite do estimador na Equação (13.6), e mais em geral de uma combinação linear de estatísticas de ordem, é mostrar que, no limite para n ÿ ÿ, a sequência de estatísticas de ordem pode ser aproximadamente -imatado por uma sequência de variáveis aleatórias iid [56, 151]. No entanto, isso 2 geralmente requer algum tipo de integrabilidade L do processo de geração de dados, algo que não estamos assumindo aqui. O Lema 13.1 (provado no Apêndice) mostra como lidar com o caso de se - apenas 1 sequências de estatísticas de pedidos geradas por rótulos de cauda variáveis aleatórias integráveis gorda. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Estimativa de 256 gini sob variação infinita Lema 13.1 n ÿ1 1nÿ eu=1( n ÿ você(i) )F (U(i) ) onde U(i) são a ordem eu Considere a seguinte sequência Rn = estatística de uma amostra aleatória iid uniformemente distribuída. Suponha que ÿ1 (você) ÿ eu1 . Então F os seguintes resultados sejam válidos: eu 1 (13.7) Rn ÿÿ 0, e umaÿ1 eu 1 n uma Rn ÿÿ 0, L0(n) (13.8) com ÿ ÿ (1, 2) e L0(n) uma função de variação lenta. 13.2.1 Uma rápida recapitulação sobre variáveis aleatórias ÿ-estáveis Introduzimos aqui algumas notações para distribuições ÿ-estáveis, pois precisamos delas para estudar o limite assintótico do índice de Gini. Uma variável aleatória X segue uma distribuição ÿ-estável, em símbolos X ÿ S(ÿ, ÿ, ÿ, ÿ), se sua função característica for uma |t| ÿ (1ÿiÿ sinal (t)) tan ( ÿÿ|t|(1+iÿ e E(e itX) = { e ÿÿ 2 Pi pa 2 )+iÿt ÿÿ = , 1ÿ=1 sinal(t)) ln|t|+iÿt onde ÿ ÿ (0, 2) governa a cauda, ÿ ÿ [ÿ1, 1] é a assimetria, ÿ ÿ R+ é o parâmetro de escala e ÿ ÿ R é o de localização. Isso é conhecido como parametrização S1 de distribuições ÿ-estáveis [181, 209]. Curiosamente, há uma correspondência entre o parâmetro ÿ de uma variável aleatória ÿ-estável e o ÿ de uma variável aleatória que varia regularmente conforme a Equação (13.1): como mostrado em [91, 181], uma variável aleatória que varia regularmente de ordem ÿ é ÿ- estável, com o mesmo coeficiente de cauda. É por isso que não fazemos nenhuma distinção no uso do ÿ aqui. Como pretendemos lidar com distribuições caracterizadas por média finita, mas variância infinita, restringimos nosso foco a ÿ ÿ (1, 2), pois os dois ÿ's coincidem. Lembre-se de que, para ÿ ÿ (1, 2], o valor esperado de uma variável aleatória ÿ-estável X é igual ao parâmetro de localização ÿ, ou seja, E(X) = ÿ. Para mais detalhes, consulte [181, 209 ]. A variável aleatória ÿ-estável padronizada é expressa como (13.9) Sÿ,ÿ ÿ S(ÿ, ÿ, 1, 0). Notamos que distribuições ÿ-estáveis são uma subclasse de distribuições infinitamente divisíveis. Graças ao seu fechamento sob convolução, eles podem ser usados para descrever o n comportamento limitante de somas parciais (reescalonadas), Sn = XI ÿ ,na configuração do Teorema eu=1 Geral do Limite Central (GCLT) [91]. Para ÿ = 2 obtemos a distribuição normal como um caso especial, que é a distribuição limite para os CLTs clássicos, sob a hipótese de variância finita. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13.2 assintótica do estimador não paramétrico sob variância infinita 257 A seguir indicamos que uma variável aleatória está no domínio de atração de uma distribuição ÿ-estável, escrevendo X ÿ DA(Sÿ). Basta observar que esta condição para o limite das somas parciais é equivalente àquela dada na Equação (13.2) para o limite dos máximos parciais [82, 91]. 13.2.2 O Limite Assintótico ÿ-Estável do Índice de Gini Considere uma amostra X1 , ..., Xn de observações iid com uma cdf contínua F(x) na classe regularmente variável, conforme definido na Equação (13.1), com índice de cauda ÿ ÿ (1, 2). O processo de geração de dados para a amostra está no domínio de atração de uma distribuição 1 1. de Fréchet com ÿ ÿ ( 2 , 1), dado que ÿ = a Para a distribuição assintótica do estimador do índice de Gini, conforme apresentado na Equação (13.6), quando o processo de geração de dados é caracterizado por uma variância infinita, podemos fazer uso do seguinte dois teoremas: o Teorema 1 trata da distribuição limitante da Diferença Média de Gini (o numerador na Equação (13.6)), enquanto o Teorema 2 estende o resultado para o índice de Gini completo. As provas para ambos os teoremas estão no Apêndice. Teorema 1 Considere uma sequência (Xi )1ÿiÿn de variáveis aleatórias iid de uma distribuição X em [c, +ÿ) com c > 0, tal que X está no domínio de atração de uma variável aleatória ÿ-estável, ÿ i =1 Z(eu) n X ÿ DA(Sÿ), com ÿ ÿ (1, 2). Então, o desvio médio de Gini da amostra (GMD) satisfaz o n seguinte limite na distribuição: n uma-1 uma L0(n) ( 1 n n ÿ eu=1 ÿ Sÿ,1 , (13.10) Z(i) ÿ ÿ ) d onde Zi = (2F(Xi ) ÿ 1)Xi , E(Zi ) = ÿ, L0(n) é uma função de variação lenta tal que a Equação (13.37) é válida (veja o Apêndice), e Sÿ,1 é uma função direita -variável aleatória ÿ-estável padronizada distorcida definida como na Equação (13.9). Além disso a estatística 1 n ou seja n i=1 Z(i) é um estimador assintoticamente consistente para o GMD, ÿ n 1 P ÿ eu. n ÿ eu=1 Z(eu) Observe que o Teorema 1 poderia ser reformulado em termos do domínio máximo de atração MDA(ÿ(ÿ)) conforme definido na Equação (13.2). Teorema 2 Dadas as mesmas suposições do Teorema 1, o índice de Gini estimado G NP(Xn) = n ÿ eu=1 Z(eu) n ÿ eu=1 XI satisfaz o seguinte limite na distribuição n a-1a L0(n) ( G NP(Xn) ÿ eu eu )d ÿ Q, (13.11) onde E(Zi ) = ÿ, E(Xi ) = µ, L0(n) é a mesma função de variação lenta definida no Teorema 1 1 e Q é uma variável aleatória ÿ-estável distorcida à direita S(ÿ, 1, , 0). ÿ Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Estimativa de 258 gini sob variação infinita n ÿ i=1 Z(i) Além disso a estatística n ÿ eu=1 Z(eu) índice, ou seja ÿ neu=1 XI P ÿ ÿ neu=1 XI é um estimador assintoticamente consistente para o Gini eu sou =g. No caso de caudas gordas com ÿ ÿ (1, 2), o Teorema 2 nos diz que a distribuição assintótica do estimador de Gini é sempre assimétrica à direita, não obstante a distribuição do processo gerador de dados subjacente. Portanto, dados de cauda pesada não apenas induzem um limite de cauda mais gorda para o estimador de Gini, mas também alteram a forma da lei limite, que definitivamente se afasta da Gaussiana simétrica usual. Como consequência, o estimador de Gini, cuja consistência assintótica ainda é garantida [151], aproximar-se-á do seu valor verdadeiro mais lentamente e por baixo. Algumas evidências disso já foram fornecidas na Tabela 13.1. 13.3 o estimador de máxima verossimilhança O Teorema 2 indica que o estimador não paramétrico usual para o índice de Gini não é a melhor opção quando se trata de distribuições de variância infinita, devido à assimetria e à gordura do seu limite assintótico. O objetivo é encontrar estimadores que ainda preservem sua normalidade assintótica sob caudas gordas, o que não é possível com métodos não paramétricos, pois todos eles se enquadram no caso do Teorema do Limite Central ÿ-estável [82, 91]. Portanto, a solução é usar técnicas paramétricas. O Teorema 3 mostra como, uma vez identificada uma família paramétrica para o processo de geração de dados, é possível estimar o índice de Gini via MLE. O estimador resultante não é apenas assintoticamente normal, mas também assintoticamente eficiente. No Teorema 3 tratamos de variáveis aleatórias X cuja distribuição pertence à grande e flexível família exponencial [211], ou seja, cuja densidade pode ser representada como fÿ (x) = h(x)e (ÿ(ÿ)T(x)ÿA(ÿ)) , com ÿ ÿ R, e onde T(x), ÿ(ÿ), h(x), A(ÿ) são funções conhecidas. Teorema 3 Seja X ÿ Fÿ tal que Fÿ é uma distribuição pertencente à família exponencial. Então o índice de Gini obtido pela inserção do estimador de máxima verossimilhança de ÿ, GML(Xn)ÿ , é assintoticamente normal e eficiente. Nomeadamente: AM onde g '2 ÿ1 (Xn)ÿ ÿ gÿ ) Dÿ N ( 0, g ÿn(G eu EU (eu) ), ' = dgÿ e I(ÿ) é a informação de Fisher. dÿ eu AM ÿn(G '2 ÿ1 (Xn)ÿ ÿ gÿ ) Dÿ N ( 0, g eu EU (eu) ), Prova. O resultado segue facilmente da eficiência assintótica dos estimadores de máxima verossimilhança da família exponencial e do princípio de invariância do MLE. Em particular, a validade do princípio da invariância para o índice de Gini é concedida (13.12) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13.4 uma ilustração paretiana 259 pela continuidade e pela monotonicidade de gÿ em relação a ÿ. A variância assintótica é então obtida pela aplicação do método delta [211]. 13.4 uma ilustração paretiana Fornecemos uma ilustração dos resultados obtidos usando alguns dados artificiais de cauda gorda. Escolhemos um Pareto I [185], com densidade f(x) = ÿc ÿx ÿÿÿ 1 , x ÿ c. (13.13) É fácil verificar que a função de sobrevivência correspondente F¯(x) pertence à classe de variação regular com parâmetro de cauda ÿ e função de variação lenta L(x) = . Podemos, portanto, aplicar os ca resultados da Seção 13.2 para obter os seguintes corolários. Corolário 13.1 Seja X1 , ..., Xn uma sequência de observações iid com distribuição de Pareto com parâmetro de cauda ÿ ÿ (1, 2). O estimador não paramétrico de Gini é caracterizado pelo seguinte limite: - Dn POR EXEMPLO = G NP(Xn) ÿ g ÿ S ÿ ÿÿ, a 1 a C1, a-1 n a (uma - 1) a , 0ÿ (13.14) ÿ. Prova. Sem perda de generalidade podemos assumir c = 1 na Equação (13.13). Os resultados são uma mera aplicação do Teorema 2, lembrando que uma distribuição de Pareto está no domínio de atração de variáveis aleatórias ÿ-estáveis com variação lenta 1 função L(x) = 1. A sequência cn para satisfazer a Equação (13.37) torna-se cn = n 1 1 - portanto temos L0(n) = C da - uma C uma uma , a a, que é independente de n. Além disso a média a distribuição também é função de ÿ, ou seja µ = umaÿ1 . Corolário 13.2 Seja a amostra X1 , ..., Xn distribuída como no Corolário 13.1, seja GML o estimador de máxima eu verossimilhança para o índice de Gini conforme definido no Teorema 3. Então o estimador MLE Gini, reescalonado por sua média verdadeira g, tem o seguinte limite: D nAM =G AM a 2 4a (Xn) ÿ g ÿ N ( 0, n(2ÿ ÿ 1)4 ) , (13.15) onde N indica um Gaussiano. Prova. A forma funcional do estimador de máxima verossimilhança para o índice de Gini é conhecida = decorre então do facto de a distribuição de Pareto (com valor mínimo como GML [144]. O resultado eu 12ÿML ÿ1 conhecido xm) pertencer a uma família exponencial e, portanto, satisfazer as condições de regularidade necessárias para a normalidade assintótica e eficiência do estimador de máxima verossimilhança. Observe também que a informação de Fisher para uma distribuição de Pareto é 12 . _a Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Estimativa de 260 gini sob variação infinita Agora que elaboramos ambas as distribuições assintóticas, podemos comparar a qualidade da convergência tanto para o MLE quanto para o caso não paramétrico quando lidando com dados paretianos, que usamos como protótipo para a abordagem mais geral classe de observações de cauda gorda. Em particular, podemos aproximar a distribuição dos desvios do estimador do valor verdadeiro g do índice de Gini para tamanhos de amostra finitos, usando Equações (13.14) e (13.15). Distribuição limite para 1.6, MLE vs Não Paramétrico Distribuição limite para 1.8, MLE vs Não Paramétrico 021 041 MLE MLE n = 100 n = 100 n = 500 n = 500 n = 1000 0 0 001 n = 1000 ÿ0,10 ÿ0,05 0,00 0,05 ÿ0,15 0,10 ÿ0,10 ÿ0,05 0,00 Desvio do valor médio Desvio do valor médio (a) ÿ = 1,8 (b) ÿ = 1,6 Distribuição limite para 1.4, MLE vs Não Paramétrico 0,05 0,10 0,15 Distribuição limite para alfa = 1,2, MLE vs Não Paramétrico MLE n = 100 n = 500 n = 500 n = 1000 n = 1000 0 0 5 MLE n = 100 ÿ0,2 ÿ0,1 0,0 0,1 0,2 ÿ0,3 ÿ0,2 ÿ0,1 0,0 Desvio do valor médio Desvio do valor médio (c) ÿ = 1,4 (d) ÿ = 1,2 0,1 0,2 Figura 13.3: Comparações entre a máxima verossimilhança e as distribuições assintóticas não paramétricas para diferentes valores do índice de cauda ÿ. O número de observações para MLE é fixado em n = 100. Observe que, mesmo que todas as distribuições tenham média zero, a moda das distribuições dos valores não paramétricos estimador é diferente de zero, por causa da assimetria. A Figura 13.3 mostra como os desvios em torno da média dos dois tipos diferentes de estimadores são distribuídos e como essas distribuições mudam conforme o número de observações aumenta. Em particular, para facilitar a comparação entre os máxima verossimilhança e os estimadores não paramétricos, fixamos o número de observação no caso MLE, deixando-os variar no caso não paramétrico. Realizamos este estudo para diferentes tipos de índices de cauda para mostrar quão grande é o o impacto está na consistência do estimador. Vale notar que, como o índice de cauda diminui para 1 (o valor limite para uma média infinita), o modo da distribuição do estimador não paramétrico se afasta mais do Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13.4 uma ilustração paretiana 261 média da distribuição (centrada em 0 por definição, visto que se trata de desvios da média). Este efeito é responsável pelo pequeno viés amostral observado nas aplicações. Tal fenômeno não está presente no caso MLE, graças à normalidade do limite para cada valor do parâmetro final. Podemos tornar nosso argumento mais rigoroso avaliando o número de observações n˜ necessárias para que o estimador não paramétrico seja tão bom quanto o MLE, sob diferentes cenários de cauda. Vamos considerar a função do tipo razão de verossimilhança PS(|DNP n |> c) r(c, n) = PN(|DML |> c) , (13.16) 100 onde PS(|DNP n |> c) e PN(|DML |>100 c) são as probabilidades (ÿ-estável e gaussiana respectivamente) dos estimadores centrados nos casos não paramétricos, e nos casos MLE, de exceder os limites ±c , conforme Equações (13.15) e (13.14). No caso não paramétrico, o número de observações n pode mudar, enquanto no caso MLE é fixado em 100. Procuramos então o valor n˜ tal que r(c, n˜) = 1 para c fixo. A Tabela 13.2 exibe os resultados para diferentes limites c e parâmetros finais ÿ. Em particular, podemos ver como o estimador MLE supera o não paramétrico, o que requer um número muito maior de observações para obter a mesma probabilidade de cauda do MLE com n fixado em 100. Por exemplo, precisamos de pelo menos 80 × 106 observações para o estimador não paramétrico para obter a mesma probabilidade de ultrapassar o limite de ±0,02 do MLE, quando ÿ = 1,2. Tabela 13.2: O número de observações n˜ necessárias para que o estimador não paramétrico corresponda às probabilidades de cauda, para diferentes valores limite c e diferentes valores do índice de cauda ÿ, do estimador de máxima verossimilhança com n fixo = 100. Limite c conforme a Equação (13.16): a 0,01 27 × 103 12 × 0,02 0,005 0,015 1,8 105 12 × 106 63 × 105 1,5 21 × 104 21 × 104 46 × 105 81 × 107 1,2 33 × 108 67 × 107 20 × 107 80 × 106 Curiosamente, o número de observações necessárias para corresponder às probabilidades finais na Equação (13.16) não varia uniformemente com o limite. Isto é esperado, uma vez que à medida que o limite vai para o infinito ou para zero, as probabilidades finais permanecem as mesmas para cada valor de n. Portanto, dada a unimodalidade das distribuições limite, esperamos que exista um limite que maximize o número de observações necessárias para corresponder às probabilidades de cauda, enquanto para todos os outros níveis o número de observações será menor. Concluímos que, quando na presença de dados de cauda gorda com variância infinita, um O estimador plug-in baseado em MLE deve ser preferido ao não paramétrico. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Estimativa de 262 gini sob variância infinita 13,5 correção de amostra pequena O Teorema 2 também pode ser usado para fornecer uma correção para o viés do estimador não paramétrico para amostras pequenas. A ideia principal é reconhecer que, para distribuições unimodais, a maioria das observações vem de perto da moda. Em distribuições simétricas, a moda e a média coincidem, portanto, a maioria das observações também estará próxima do valor médio, o que não acontece com distribuições assimétricas: para distribuições unimodais contínuas assimétricas à direita, a moda é inferior à média. Portanto, dado que a distribuição assintótica do índice de Gini não paramétrico é assimétrica à direita, esperamos que o valor observado do índice de Gini seja geralmente inferior ao verdadeiro (colocado no nível médio). Podemos quantificar esta diferença (ou seja, o viés) observando a distância entre a moda e a média, e uma vez conhecida esta distância, podemos corrigir a nossa estimativa de Gini adicionando-a de volta4 . Formalmente, pretendemos derivar um estimador não paramétrico corrigido G C(Xn) tal que G C (Xn) = G NP(Xn) + ||m(G NP(Xn)) ÿ E(G NP(Xn))||, (13.17) onde ||m(G NP(Xn)) ÿ E(G NP(Xn))|| é a distância entre o modo m e a média da distribuição do estimador não paramétrico de Gini G NP(Xn). Realizar o tipo de correção descrito na Equação (13.17) equivale a deslocar a distribuição de G NP(Xn) para colocar sua moda no valor verdadeiro de o índice de Gini. Idealmente, gostaríamos de medir esta distância modal média ||m(G NP(Xn)) ÿ E(G NP(Xn))|| na distribuição exata do índice de Gini para obter a correção mais precisa. No entanto, a distribuição finita nem sempre é facilmente derivável, pois requer suposições sobre a estrutura paramétrica do processo de geração de dados (que, na maioria dos casos, é desconhecida para dados de cauda gorda [144]). Propomos, portanto, usar a distribuição limite para o Gini não paramétrico obtido na Seção 13.2 para aproximar a distribuição amostral finita e estimar a distância modal com ela. Este procedimento permite mais liberdade nas suposições de modelagem e potencialmente diminui o número de parâmetros a serem estimados, dado que a distribuição limite depende apenas do índice de cauda e da média dos dados, que geralmente pode ser assumido como uma função do próprio índice de cauda, como no caso paretiano onde µ = a umaÿ1 . Explorando a propriedade de escala de localização de distribuições ÿ-estáveis e a Equação (13.11), aproximamos a distribuição de G NP(Xn) para amostras finitas por G NP(Xn) ÿ S (ÿ, 1, ÿ(n), g), onde ÿ(n) = 1 aÿ 1n a L0(n) µ (13.18) é o parâmetro de escala da distribuição limitante. Como consequência, graças à linearidade do modo para distribuições ÿ-estáveis, temos ||m(G NP(Xn)) ÿ E(G NP(Xn))||ÿ ||m(ÿ, ÿ(n)) + g ÿ g||= ||m(ÿ, ÿ(n) )||, 4 Outra ideia, que testamos ao escrever o artigo, é usar a distância entre a mediana e O significativo; os desempenhos são comparáveis. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13,5 correção de amostra pequena 263 onde m(ÿ, ÿ(n)) é a função modo de uma distribuição ÿ-estável com média zero. A implicação é que, para obter o termo de correção, não é necessário o conhecimento do verdadeiro índice de Gini, visto que m(ÿ, ÿ(n)) não depende de g. Em seguida, estimamos o termo de correção como mˆ (ÿ, ÿ(n)) = arg max s(x), x (13.19) onde s(x) é a densidade numérica da distribuição ÿ-estável associada na Equação (13.18), mas centrada em 0. Isso vem do fato de que, para distribuições ÿ-estáveis, a moda não está disponível em forma fechada, mas pode ser facilmente computada numericamente [181], usando a unimodalidade da lei. O estimador não paramétrico corrigido é, portanto, G C (Xn) = G NP(Xn) + mˆ (ÿ, ÿ(n)), (13h20) cuja distribuição assintótica é G C (Xn) ÿ S (ÿ, 1, ÿ(n), g + mˆ (ÿ, ÿ(n))). (13.21) Observe que o termo de correção mˆ (ÿ, ÿ(n)) é uma função do índice de cauda ÿ e está conectado ao tamanho da amostra n pelo parâmetro de escala ÿ(n) da distribuição limitante associada. É importante ressaltar que mˆ (ÿ, ÿ(n)) é decrescente em n, e que limnÿÿ mˆ (ÿ, ÿ(n)) ÿ 0. Isso acontece porque, à medida que n aumenta, a distribuição descrita em A equação (13.18) torna-se cada vez mais centrada em torno do seu valor médio, reduzindo a zero a distância entre a moda e a média. Isso garante a equivalência assintótica do estimador corrigido e do não paramétrico. Basta observar isso C limnÿÿ |G(Xn) ÿGNP (Xn) | = limnÿÿ |G NP(Xn) + mˆ (ÿ, ÿ(n)) ÿ G NP(Xn)| = limnÿÿ |mˆ (ÿ, ÿ(n))|ÿ 0. Naturalmente, graças à correção, G C(Xn) sempre se comportará melhor em amostras pequenas. Considere também que, a partir da Equação (13.21), a distribuição do estimador corrigido tem agora para média g + mˆ (ÿ, ÿ(n)), que converge para o Gini verdadeiro g quando n ÿ ÿ. Do ponto de vista teórico, a qualidade desta correção depende da distância entre a distribuição exata de G NP(Xn) e o seu limite ÿ-estável; quanto mais próximos os dois estiverem um do outro, melhor será a aproximação. Contudo, dado que, na maioria dos casos, a distribuição exacta de G NP(Xn) é desconhecida, não é possível dar mais detalhes. Pelo que escrevemos até agora, fica claro que o termo de correção depende do índice final dos dados e, possivelmente, também de sua média. Estes parâmetros, se não forem considerados conhecidos a priori, devem ser estimados. Por conseguinte, a incerteza adicional devida à estimativa refletir-se-á também na qualidade da correção. Concluímos esta Seção com a discussão do efeito do procedimento de correção com um exemplo simples. Em um experimento de Monte Carlo, simulamos 1.000 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Estimativa de 264 gini sob variação infinita Amostras paretianas de tamanho crescente, de n = 10 a n = 2.000, e para cada amostra tamanho, calculamos tanto o estimador não paramétrico original G NP(Xn) quanto o G C(Xn) corrigido . Repetimos o experimento para diferentes ÿ's. A Figura 13.4 apresenta o resultados. É claro que os estimadores corrigidos sempre apresentam melhor desempenho do que os não corrigidos em termos de desvio absoluto do verdadeiro valor de Gini. Em particular, nosso experimento numérico mostra que para amostras pequenas com n ÿ 1000 o o ganho é bastante notável para todos os diferentes valores de ÿ ÿ (1, 2). Porém, como esperado, a diferença entre os estimadores diminui com o tamanho da amostra, pois o termo de correção diminui tanto em n quanto no índice de cauda ÿ. Observe que, quando o índice de cauda é igual a 2, obtemos a distribuição gaussiana simétrica e o dois estimadores coincidem, dado que, graças à finitude da variância, o estimador não paramétrico não é mais tendencioso. Estimador corrigido versus original, índice de cauda de dados = 1,6 0,1 0,1 Estimador corrigido versus original, índice de cauda de dados = 1,8 Estimador corrigido Estimador corrigido Estimador Original 8,0 8,0 Estimador Original 2,0 rodsa em roiltaosV d e 4,0 6,0 Valor real 0,0 0,0 2,0 rodsa em roiltaosV d e 4,0 6,0 Valor real 0 500 1000 1500 2000 0 500 Tamanho da amostra 1000 1500 2000 Tamanho da amostra (a) ÿ = 1,8 (b) ÿ = 1,6 0,1 Estimador corrigido versus original, índice de cauda de dados = 1,2 0,1 Estimador corrigido versus original, índice de cauda de dados = 1,4 Estimador corrigido Estimador corrigido Estimador Original 8,0 8,0 Estimador Original 2,0 rodsa em roiltaosV d e 4,0 6,0 Valor real 0,0 0,0 2,0 rodsa em roiltaosV d e 4,0 6,0 Valor real 0 500 1000 Tamanho da amostra (c) ÿ = 1,4 1500 2000 0 500 1000 1500 2000 Tamanho da amostra (d) ÿ = 1,2 Figura 13.4: Comparações entre o estimador não paramétrico corrigido (em vermelho, o que está no topo) e o estimador não paramétrico usual (em preto, o abaixo). Para tamanhos de amostra pequenos, o corrigido melhora claramente a qualidade da estimativa. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13,6 conclusões 265 13.6 conclusões Neste capítulo abordamos a questão do comportamento assintótico do estimador não paramétrico do índice de Gini na presença de uma distribuição com variância infinita, questão que tem sido curiosamente ignorada pela literatura. O erro central nos métodos não paramétricos amplamente utilizados é acreditar que a consistência assintótica se traduz em propriedades pré-assintóticas equivalentes. Mostramos que uma abordagem paramétrica fornece melhores resultados assintóticos graças às propriedades de estimativa de máxima verossimilhança. Portanto, sugerimos fortemente que, se houver suspeita de que os dados coletados sejam de cauda gorda, os métodos paramétricos devem ser preferidos. Em situações onde uma abordagem totalmente paramétrica não pode ser utilizada, propomos um mecanismo de correção simples para o estimador não paramétrico baseado na distância entre a moda e a média de sua distribuição assintótica. Mesmo que a correção funcione bem, sugerimos cautela na sua utilização devido à incerteza adicional proveniente da estimativa do prazo de correção. apêndice técnico Prova do Lema 13.1 Seja U = F(X) a transformada de probabilidade integral uniformemente distribuída padrão da variável como = aleatória X. Para as estatísticas de ordem, temos então [? ]: XI) ÿ1 F (você(eu) ). Por isso 1 n Rn = n ÿ (eu/n ÿ você(eu) )F ÿ1 (Em(eu) ). (13.22) eu=1 Agora, pela definição de cdf empírica, segue-se que 1 n Rn = onde Fn(u) = variáveis. n ÿ ÿ1 (Fn(U(i) ) ÿ U(i) )F (Em(eu) ), (13.23) eu=1 n 1nÿ i=1 1Uiÿu é o cdf empírico de dados aleatórios uniformemente distribuídos eu 1 Para mostrar que Rn ÿÿ 0, vamos impor um limite superior que vai até zero. Primeiro notamos que 1 n E|Rn|ÿ n ÿ eu=1 ÿ1 E|(Fn(U(i) ) ÿ U(i) )F (Em(i) )|. (13.24) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Estimativa de 266 gini sob variação infinita Para construir um limite para o lado direito (rhs) de (13.24), podemos explorar o fato de ÿ1 1 que, embora F -integrável, (U(i) ) pode ser apenas L) ÿ U(i) é L integrável, portanto podemos usar Fn(U(i) ÿ Desigualdade de Hölder com q = ÿ e p = 1. Segue-se que 1 n ÿ n 1 ÿ1 E|(Fn(U(i) ) ÿ U(i) )F (U(i) )|ÿ n eu=1 n ÿ ÿ1 E sup |(Fn(U(i) ) ÿ U(i) )|E|F (Em(i) )|. em (eu) eu = 1 (13.25) Então, graças à desigualdade de Cauchy-Schwarz, obtemos n 1 ÿ n E sup |(Fn(U(i) ) ÿ U(i) )|E|F eu=1 ÿ1 (Em (eu) )| em (eu) n ÿ (1 2 1 ÿ n (E sup |(Fn(U(i) ) ÿ U(i) )|) n eu=1 em (eu) n ÿ1 Agora, primeiro lembre-se que ÿ eu=1 F como (Em (s) ) ÿ1 sequência iid, então observe que E(F (13.26) se torna =ÿ n eu=1 F ÿ1 n ÿ (E(F ÿ1 eu=1 . (13.26) (In (i) )))2 )1 2 (Ui ) com Ui , i = 1, ..., n, sendo um (Ui )) = µ, de modo que o segundo termo da Equação n µ (1 ÿ n eu=1 . (E sup |(Fn(U(i) ) ÿ U(i) )|) em (eu) (13.27) 2 )1 2 O passo final é mostrar que a Equação (13.27) vai para zero quando n ÿ ÿ. Sabemos que Fn é o fdc empírico de variáveis aleatórias uniformes. Usando a desigualdade triangular, o termo interno da Equação (13.27) pode ser limitado como 1 n ÿ n (E sup |(Fn(U(i) ) ÿ U(i) )|) eu=1 ÿ 2 (13.28) em (eu) n 1 ÿ n (E sup |(Fn(U(i) ) ÿ F(U(i) ))|) eu=1 2+ 1 n ÿ n eu=1 em (eu) 2 (E sup |(F(U(i) ) ÿ U(i) )|) . em (eu) Como estamos lidando com uniformes, sabemos que F(U) = u, e o segundo termo no rhs de (13.28) desaparece. Podemos então vincular E(supU(i) |(Fn(U(i) ) ÿ F(U(i) )|) usando a chamada desigualdade de Vapnik-Chervonenkis (VC), um limite uniforme para processos empíricos [29, 55, 258], obtendo E sup em (eu) |(Fn(U(i) ) ÿ F(U(i) )|ÿÿ log(n + 1) + nlog(2) . (13.29) Combinando a Equação (13.29) com a Equação (13.27) obtemos n µ (1 ÿ n eu=1 (E sup |(Fn(U(i) ) ÿ U(i) )|) em (eu) n 2 )1 2 ÿ µ ÿ log(n + 1) + log(2) que vai para zero quando n ÿ ÿ, provando assim a primeira afirmação. , (13h30) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13,6 conclusões 267 Para a segunda afirmação, é suficiente observar que o rhs de (13.30) ainda vai para se ÿ ÿ (1, 2). umaÿ1 n uma zero quando multiplicado por L0(n) Prova do Teorema 1 A primeira parte da prova consiste em mostrar que podemos reescrever a Equação (13.10) como uma função de variáveis aleatórias iid no lugar de estatísticas de ordem, para podermos aplicar um argumento do Teorema do Limite Central (CLT). Vamos começar considerando a sequência n 1 ÿ n 1 n eu ÿ 1 ÿ n Z(eu) = eu=1 eu=1 ÿ1 (2 n ÿ 1 d ÿ1 =F Usando a transformação de probabilidade integral X e adicionando e removendo ÿ ser reescrito como n 1 ÿ n 1 Z(eu) = eu=1 n 1 pode n n ÿ n ÿ1 i=1 ( 2U(i) ÿ 1 ) F ÿ (Em (eu) ) + n (2U(i) ÿ 1)F ÿ1 eu=1 eu=1 (U) com uniforme padrão U, (U(i) ), o rhs na Equação (13.31) n 1 ÿ1 (13.31) (Em(eu) ). ÿ1)F 2 (eun ÿÿ 11 ÿ você(i) )F (Em(eu) ). (13.32) Então, usando as propriedades das estatísticas de ordem [56] , obtemos a seguinte equivalência quase certa 1 n n ÿ como = Z(eu) eu = 1 n 1 ÿ n (2Ui ÿ 1)F ÿ1 n 1 (Ui ) + eu=1 ÿ n ÿ1 eu=1 2 (eun ÿÿ 11 ÿ você(i) )F (Em(eu) ). (13.33) Observe que o primeiro termo no rhs de (13.33) é uma função de variáveis aleatórias iid conforme desejado, enquanto o segundo termo é apenas um lembrete, portanto n 1 como = ÿ n Z(eu) eu = 1 ÿ1 com Zi = (2Ui ÿ 1)F n 1 ÿ n Zi + Rn, eu=1 euÿ1 n ÿ1 (Em(eu) ). 1n ÿ eu=1(2( nÿ1 ÿ você(i) ))F (Ui ) e Rn = Dada a Equação (13.10) e explorando a decomposição dada em (13.33) podemos reescrever nossa afirmação como n a-1 n a L0(n) ( 1 n n ÿ eu = 1 Z(i) ÿ ÿ ) = a-1 uma- n a L0(n) ( 1 n 1n ÿ eu=1 Zi ÿ ÿ ) + a L0(n) Rn. (13.34) A partir da segunda afirmação do Lema 13.1 e do Teorema de Slutsky, a convergência na Equação (13.10) pode ser provada observando o comportamento da sequência n uma-1 n uma L0(n) ( 1 n ÿ eu=1 (13h35) Zi ÿ ÿ ), Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Estimativa de 268 gini sob variação infinita ‡ ÿ1 onde Zi = (2Ui ÿ 1)F (Ui ) = (2F(Xi ) ÿ 1)Xi . Isso se reduz a provar que Zi está no domínio de atração das caudas gordas. Lembre-se que por suposição X ÿ DA(Sÿ) com ÿ ÿ (1, 2). Essa suposição nos permite usar um tipo particular de argumento CLT para a convergência da soma de variáveis aleatórias de cauda gorda. No entanto, primeiro precisamos provar que Z ÿ DA(Sÿ) -a também, ou seja, P(|Z|> z) ÿ L(z)z , com ÿ ÿ (1, 2) e L(z) variando lentamente. Notar que P(|Z˜|> z) ÿ P(|Z|> z) ÿ P(2X > z), onde Z˜ = (2U ÿ 1)X e U ÿ X. O primeiro limite é válido por causa da dependência positiva entre X e F(X) e pode ser provado rigorosamente observando que 2UX ÿ 2F(X)X pela chamada desigualdade de rearranjo [122]. O limite superior, por outro lado, é trivial. . Usando as propriedades de funções de variação lenta, temos P(2X > z) ÿ 2 ÿL(z)z ÿÿ Para mostrar que Z˜ ÿ DA(Sÿ), usamos o Teorema de Breiman, que garante a estabilidade de a classe ÿ-estável sob produto, desde que a segunda variável aleatória não seja muito de cauda gorda [267]. Para aplicar o Teorema reescrevemos P(|Z˜|> z) como P(|Z˜|> z) = P(Z˜ > z) + P(ÿZ˜ > z) = P(UX˜ > z) + P(ÿUX˜ > z), onde U˜ é um uniforme padrão com U˜ ÿ X. Focamos em P(UX˜ > z), pois o procedimento é o mesmo para P(ÿUX˜ > z). Nós ter P(UX˜ > z) = P(UX˜ > z|U˜ > 0)P(U˜ > 0) + P(UX˜ > z|U˜ ÿ 0)P(U˜ ÿ 0), para z ÿ +ÿ. Agora, temos que P(UX˜ > z|U˜ ÿ 0) ÿ 0, enquanto, aplicando o Teorema de Breiman, P(UX˜ > z|U˜ > 0) torna-se P(UX˜ > z|U˜ > 0) ÿ E(U˜ ÿ |U > 0)P(X > z)P(U > 0). Portanto P(|Z˜|> z) ÿ 1 E( U˜a |U > 0)P(X > z) + 2 2 1 a E((ÿU˜ ) |U ÿ 0)P(X > z). A partir disso 1 P(|Z˜|> z) ÿ 2 = P(X > z)[E(U˜ ) 2 a a |U > 0) + E((ÿU˜ a |U ÿ 0)] 2a P(X > z) ÿ -a eu(z)z 1ÿÿ1ÿÿ . Podemos então concluir que, pelo Teorema da compressão [91], P(|Z|> z) ÿ L(z)z ÿuma , Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 13,6 conclusões 269 como z ÿ ÿ. Portanto Z ÿ DA(Sÿ). Agora estamos prontos para invocar o Teorema Generalizado do Limite Central (GCLT) [82] para a sequência Zi , ou seja n ncÿ1 n ÿ n (1 eu=1 (13.36) ÿ Sá, b. Dia - E (Dia )) d com E(Zi ) = ÿ, Sÿ,ÿ uma variável aleatória padronizada ÿ-estável, e onde cn é uma sequência que deve satisfazer = ÿ(2 ÿ ÿ)|cos( ÿÿ )|2 = Ca. nL(cn) limnÿÿ (13.37) uma - 1 um c n 1 Observe que cn pode ser representado como cn = ÿ L0(n), onde L0(n) é outro n função variável possivelmente diferente de L(n). O parâmetro de assimetria ÿ é tal que P(Z > z) 1+ . b2 ÿ P(|Z|> z) Lembrando que, por construção, Z ÿ [ÿc, +ÿ), a expressão acima se reduz a P(Z > z) P(Z > z) ÿ P(Z > z) + P(ÿZ > z) =1ÿ P(Z > z) 1+ , b2 (13.38) portanto ÿ = 1. Isso, combinado com a Equação (13.34), o resultado para o lembrete Rn do Lema 13.1 e do Teorema de Slutsky, nos permite concluir que os mesmos limites fracos valem para a sequência ordenada de Z(i) na Equação (13.10). ) também. Prova do Teorema 2 n ÿ eu=1 Z(eu) O primeiro passo da prova é mostrar que a sequência ordenada caracterizadaÿ Xi , i=1 ÿ izando o níndice de Gini, neu=1 Dia Em é equivalente em distribuição à sequência iid. Para provar isso, basta aplicar a n XI . ÿ eu=1 fatoração na Equação ( 13.33) à Equação (13.11), obtendo n umaÿ1 n uma-1 uma eu=1 L0(n) ( ÿ ÿ n eu=1 Dia XI eu eu n n uma - )+ Rn L0(n) ÿ n eu=1 . (13.39) XI Pelo Lema 13.1 e pela aplicação do mapeamento contínuo e dos teoremas de Slutsky, o segundo termo na Equação (13.39) vai a zero pelo menos em probabilidade. Portanto, para provar a afirmação é suficiente derivar um limite fraco para a seguinte sequência umaÿ1 1 n uma L0(n) ( ÿ ÿ n eu=1 n eu=1 Dia XI eu - eu ). (13h40) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ Estimativa de 270 gini sob variação infinita Expandindo a Equação (13.40) e lembrando que Zi = (2F(Xi ) ÿ 1)Xi , obtemos a-1 n n n a n L0(n) ÿ eu=1 ÿ n eu = 1 Xi (1 eu (13.41) Xi (2F(Xi ) ÿ 1 ÿ ÿ )) . n O termo ÿ 1 na Equação (13.41) converge em probabilidade para µ por uma aplicação XI do Teorema do mapeamento contínuo, e pelo fato de estarmos lidando com variáveis aleatórias n eu=1 positivas X. Portanto, contribuirá para o limite final via Teorema de Slutsky. Começamos primeiro focando no estudo da lei limite do termo n a-1 1 a L0(n) n Definir Zˆ eu = Xi (2F(Xi ) ÿ 1 ÿ eu eu n ÿ eu=1 eu Xi (2F(Xi ) ÿ 1 ÿ eu (13.42) ). ) e observe que E(Zˆ i ) = 0, pois E(Zi ) = ÿ e E(Xi ) = µ. Para aplicar um argumento GCLT para caracterizar a distribuição limite de Zˆ i precisamos uma1n seqüência GCLT para a L0(n) 1 n ÿ n eu=1 provar que Zˆ ÿ DA(Sÿ). Se sim, então podemos aplicar n n uma-1 uma eu=1 Zˆ eu (13.43) n L0(n) ( ÿ ÿ E(Zˆi ) ) . Observe que, como E(Zˆ i ) = 0, a Equação (13.43) é igual à Equação (13.42). Para provar que Zˆ ÿ DA(Sÿ), lembre-se que Zˆ eu = Xi (2F(Xi ) ÿ 1 ÿ eu eu ) é apenas Zi = eu Xi (2F(Xi ) ÿ 1) deslocado por . euPortanto o mesmo argumento usado no Teorema 1 para Z se aplica aqui para mostrar que Zˆ ÿ DA(Sÿ). Em particular, podemos apontar que Zˆ e Z (portanto também X) compartilham a mesma função ÿ e de variação lenta L(n). Observe que pela suposição X ÿ [c, ÿ) com c > 0 e estamos lidando com distribuições contínuas, portanto Zˆ ÿ [ÿc(1 + ), ÿ). Como consequência a cauda esquerda de Zˆ não contribui para alterar eu eu o parâmetro limite de assimetria ÿ, que permanece igual a 1 (como para Z) por uma aplicação da Equação (13.38). Portanto, aplicando a GCLT finalmente obtemos n a-1 a 1ÿ ( L0(n) ÿ n eu=1 Dia n eu=1 XI eu - sou _ d ÿÿ 1S (ÿ, 1, 1, 0). eu (13.44) Concluímos a prova notando que, como provado na Equação (13.39), o fraco, em vez de n ÿ Dia limite do índice de Gini é caracterizado pela sequência iid de i=1 a ordenada,ÿ eneu=1 XI que uma variável aleatória ÿ-estável é fechada sob escalonamento por uma constante [209]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 14 SOBRE O SUPER - ADICIONALIDADE E ESTIMAÇÃO EM IONBIASESOFQUANTILE CONTRIBUIÇÕES ‡ S amplas medidasa das contribuições do percentil superior para o total (concentralização) são estimadores instáveis, tendenciosos para baixo, extremamente sensíveis ao tamanho da amostra e côncavos na contabilização de grandes desvios. Isso os torna particularmente inadequados em domínios com caudas da Lei de Potência, especialmente para valores baixos Estes estimadores podem variar ao longo do tempo e aumentar com o tamanho da população, como mostrado neste artigo, proporcionando assim a ilusão de mudanças estruturais na concentração. Eles também são inconsistentes nas distribuições de agregação e mistura, já que a média ponderada das medidas de concentração para A e B tenderá a ser menor do que a de A ÿ B. Além disso, pode ser mostrado que sob tais caudas grossas, aumentos em a soma total precisa ser acompanhada por um aumento no tamanho da amostra da medição da concentração. Examinamos a superaditividade e o viés da estimativa sob distribuições homogêneas e mistas. a Com R. Douady 14.1 introdução Vilfredo Pareto notou que 80% das terras na Itália pertenciam a 20% da população, e vice-versa, dando assim origem à classe de distribuições da lei de potência e ao ditado popular 80/20. A autosemelhança no cerne da propriedade das leis de potência [162] e [163] nos permite recorrer e reaplicar o 80/20 aos 20% restantes, e assim por diante, até obter o resultado de que a porcentagem superior da população possuirá cerca de 53% da riqueza total. Parece que tal medida de concentração pode ser seriamente distorcida, dependendo de como é medida, por isso é muito provável que a verdadeira proporção de concentração de Capítulo de pesquisa. 271 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 272 sobre os vieses de superaditividade e estimativa de contribuições quantílicas Figura 14.1: O jovem Vilfredo Pareto, antes de descobrir as leis de potência. o que Pareto observou, ou seja, a participação do percentil superior, estava mais próximo de 70%, portanto, as mudanças anuais seriam mais elevadas para convergir para tal nível de amostra maior. Na verdade, como mostraremos nesta discussão, para, digamos, riqueza, mais amostras completas resultantes do progresso tecnológico, e também o maior crescimento populacional e econômico farão convergir tal medida, aumentando ao longo tempo, por nenhuma outra razão além da expansão no espaço amostral ou no valor agregado. O cerne do problema é que, para a classe de variáveis aleatórias unicaudais de cauda gorda, ou seja, limitadas à esquerda e ilimitadas à direita, onde a variável aleatória variável X ÿ [xmin, ÿ), a contribuição do quantil na amostra é um estimador tendencioso de o verdadeiro valor da contribuição real do quantil. Vamos definir a contribuição do quantil E[X|X > h(q)] ÿq = q ANTIGO] onde h(q) = inf{h ÿ [xmin, +ÿ), P(X > h) ÿ q} é o limite de excedência para a probabilidade q. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 14.2 estimativa para distribuições não misturadas com cauda pareto 273 q percentil Para uma dada amostra (Xk )1ÿkÿn , seu estimador "natural" ÿq ÿ da , usado em total maioria dos estudos acadêmicos, pode ser expresso, como ÿ ÿÿ n i=1 1Xi>ˆh(q) Xi ÿq n eu=1 XI onde ˆh(q) é o limite de excedência estimado para a probabilidade q : 1 n ˆh(q) = inf{h : n ÿ 1x>h ÿ q} eu=1 Veremos que a variável observada ÿq é um estimador tendencioso para baixo da razão verdadeira ÿq, aquela que se manteria fora da amostra, e tal tendência é proporcional à gordura das caudas e, para distribuições de cauda muito espessa, permanece significativa, mesmo para amostras muito grandes. 14.2 estimativa para distribuições pareto-caudadas não misturadas Seja X uma variável aleatória pertencente à classe de distribuições com cauda direita "lei de potência", ou seja: -a P(X > x) = L(x) x (14.1) L(kx) = onde L : [xmin, +ÿ) ÿ (0, +ÿ) é uma função de variação lenta, definida como limxÿ+ÿ L(x) 1 para qualquer k > 0. Há pouca diferença para pequenos quantis de excedência (<50%) entre as diversas distribuições possíveis, como t de Student, Lévy ÿ-estável, Dagum,[53],[54] Distribuição Singh-Maddala [213], ou Pareto direto. Para expoentes 1 ÿ ÿ ÿ 2, conforme observado em [235] (Capítulo 8 deste livro), a lei dos grandes números opera, embora de forma extremamente lenta. O problema é agudo para ÿ próximo, mas estritamente acima de 1 e grave, à medida que diverge, para ÿ = 1. 14.2.1 Viés e Convergência Distribuição de Pareto Simples Consideremos primeiro ÿÿ(x) a densidade de uma ÿ-Pareto a distribuição limitada de baixo por xmin > 0, ou seja: ÿÿ(x) = ÿx e P(X > x) = ( xmin ) minx ÿÿÿ11xÿxmin , ÿ . Sob essas suposições, x o ponto de corte de excedência é ÿ1/ÿ e temos: h(q) = xmin q ÿ ÿ x ÿ(x)dx h(q) ÿq = ÿ ÿ xmin xÿ (x)dx a-1 = ( h(q) xmin ) 1ÿÿ =q a (14.2) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 274 sobre os vieses de superaditividade e estimativa de contribuições quantílicas Se a distribuição de X for ÿ-Pareto apenas além de um ponto de corte xcut, que assumimos estar abaixo de h (q), de modo que temos P (X > x) = ( ÿx ) ÿ para algum ÿ > 0, então ainda temos h (q) = ÿq ÿ1/ÿ e a eu ÿq = q ÿ ÿ 1 E [X] a-1 a A estimativa de ÿq, portanto, requer a do expoente ÿ , bem como a do parâmetro de escala ÿ, ou pelo menos sua razão com a expectativa de X. A Tabela 14.1 mostra o viés de ÿq como estimador de ÿq no caso de uma distribuição ÿPareto para ÿ = 1,1, valor escolhido para ser compatível com medidas econômicas práticas, como a distribuição de riqueza no mundo ou em um determinado país , incluindo os desenvolvidos.2 Nesse caso, o estimador é extremamente sensível a amostras "pequenas", o que significa "pequeno" na prática 108 . Executamos até um trilhão de simulações em diversos tamanhos de amostra. Embora ÿ0,01 ÿ 0,657933, mesmo um tamanho de amostra de 100 milhões permanece severamente tendencioso, como pode ser visto na tabela. Naturalmente, o viés é rapidamente (e não linearmente) reduzido para ÿ mais distante de 1, e torna-se fraco na vizinhança de 2 para um ÿ constante, embora não sob uma distribuição mista para ÿ, como veremos mais tarde. Também é mais fraco fora do percentil superior de 1%, por isso esta discussão centra-se no famoso “um por cento” e nos valores baixos do expoente ÿ . Tabela 14.1: Vieses do estimador de ÿ = 0,657933 De 1012 Realizações de Monte Carlo Média Mediana STD em MC varia m(n) 0,160244 0,117917 ÿ(103 ) 0,405235 0,367698 ÿ(104 ) 0,485916 0,458449 ÿ(105 ) 0,539028 0,516415 ÿ(106) 0,581384 0,555997 ÿ (107) 0,5915 06 0,57526 2k ( 108 ) 0,606513 0,593667 0,0931362 0,0853593 0,0601528 0,0461397 Tendo em vista esses resultados e uma série de testes que realizamos em torno deles, podemos conjecturar que o viés ÿq ÿ ÿq(n) é "da ordem de" c(ÿ, q)n ÿb(q)(ÿ ÿ1) onde as constantes b(q) e c(ÿ, q) precisam ser avaliadas. As simulações sugerem que b(q) = 1, qualquer que seja o valor de ÿ e q, mas a convergência bastante lenta do estimador e do seu desvio padrão para 0 torna difícil uma estimativa precisa. Caso Geral No caso geral, vamos fixar o limite h e definir: = P(X > h) E[X|X > h] ÿh = E[X1X>h ] ANTIGO] ANTIGO] 2 Este valor, inferior aos expoentes estimados encontrados na literatura – em torno de 2 – é, seguindo [86], uma estimativa inferior que não pode ser excluída das observações. ‡ Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 14.2 estimativa para distribuições de cauda pareto não misturadas 275 então temos ÿq = ÿh(q) . Também definimos o estimador de n amostras: ÿ ÿh ÿ n i=1 1Xi>hXi ÿ neu=1 XI onde Xi são n cópias independentes de X. A intuição por trás do viés de estimativa de ÿq por ÿq reside em uma diferença de concavidade da medida de concentração em relação a uma inovação (um novo valor de amostra), quer ela caia abaixo ou acima do limite. Deixe Ah (n) = n ÿ i=1 1Xi>hXi e S(n) = ÿ assumir um limite congelado h. n Ah (n) XI , de modo que ÿh (n) = e S(n) Se um novo valor amostral Xn+1 < h então o novo valor Ah (n) é ÿh (n + 1) = . O valor é eu=1 convexo em Xn+1 de modo que a incerteza em Xn+1 S(n) + Xn+1 aumenta sua expectativa. Em variância, se o novo valor amostral Xn+1 > h, o novo valor Ah(n)+Xn+1ÿh S(n)ÿAh(n) ÿh ( n + 1) ÿ que agora é côncavo Xn+ 1, S(n) = 1em ÿincerteza +Xn+1ÿh S(n)+Xn+1ÿhentre , de modo em Xn+1 reduz seu valor. A competição estes que dois aefeitos opostos é a favor deste último, devido a uma maior concavidade em relação à variável, e também a uma maior variabilidade (qualquer que seja a sua medição) da variável condicionalmente a estar acima do limiar do que a estar abaixo. Quanto mais espessa for a cauda direita da distribuição, mais forte será o efeito. No geral, descobrimos que E [Ah (n)] = ÿh (observe que descongelar o limite ˆh(q) também tende a E [ÿh (n)] ÿ E [S(n)] reduzir a estimativa da medida de devido a um concentração, adicionando a o efeito, ao introduzir uma amostra extra ligeiro aumento no valor esperado do estimador ˆh(q), embora este efeito seja bastante insignificante). Na verdade temos o seguinte: Proposição 14.1 n Seja X = (X) uma amostra aleatória de tamanho n > eu=1 1, q Y = Xn+1 um único aleatório extra n ÿ i=1 1Xi>hXi + 1Y>hY observação, e defina: ÿh (X ÿ Y) = . Observamosn que, sempre que Xi + Y ÿ eu=1 Y > h, tem-se: ÿ 2 ÿh (X ÿ Y) ÿY2 ÿ 0. Esta desigualdade ainda é válida com ÿq pois o valor ˆh(q, X ÿ Y) não depende do valor particular de Y > ˆh(q, X). Enfrentamos uma situação diferente do efeito comum de pequenas amostras resultante do alto impacto da rara observação nas caudas que são menos prováveis de aparecer em amostras pequenas, um viés que desaparece pela repetição de execuções de amostras. A concavidade do estimador constitui um limite superior para a medição em n finito, cortando grandes desvios, o que leva a problemas de agregação como afirmaremos a seguir no Teorema 1. Na prática, mesmo em amostras muito grandes, a contribuição de eventos raros muito grandes para ÿq retarda a convergência do estimador amostral para o valor verdadeiro. Para uma estimativa melhor e imparcial, seria necessário usar um caminho diferente: primeiro estimar os parâmetros de distribuição ( ÿˆ, ÿˆ ) e só então estimar a contribuição teórica da cauda ÿq(ÿˆ, ÿˆ ). Falk [86] observa que, mesmo com um estimador adequado de ÿ e ÿ, a convergência é extremamente lenta, nomeadamente da ordem de n ÿÿ/ln n, onde Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 276 sobre os vieses de superaditividade e estimativa de contribuições quantílicas KXiY 0,95 0,90 0,85 Figura 14.2: Efeito de observações adicionais em ÿ 0,80 0,75 0,70 0,65 20.000 40.000 60.000 80.000 E 100.000 KXiY 0,626 Figura 14.3: Efeito de observações adicionais em ÿ, podemos ver convexidade em ambos os lados de h, exceto para valores sem efeito à esquerda de h, uma área de ordem 1/n 0,624 0,622 E 20 40 60 80 100 o expoente ÿ depende de ÿ e da tolerância da distribuição real versus um Pareto teórico, medido pela distância de Hellinger. Em particular, ÿ ÿ 0 como ÿ ÿ 1, tornando a convergência muito lenta para valores baixos de ÿ. 14.3 uma desigualdade sobre a desigualdade agregada j Para a estimativa da média de um rv de cauda gorda em m subamostras de eu (X) cada um para um totalde n tamanho ni a alocação do número total de observações = ÿ i=1 ni , n entre i e j não importa, desde que o total n permaneça inalterado. Aqui, a alocação de n amostras entre m subamostras é importante devido à concavidade de ÿ. 3 Em seguida provamos que a concentração global medida por ÿq num amplo conjunto de dados parecerá superior à concentração local, pelo que a agregação de dados europeus, por exemplo, daria um ÿq superior à medida média de concentração entre países – uma "desigualdade sobre desigualdade". Em outras palavras, afirmamos que o viés de estimativa ao usar ÿq(n) aumenta ainda mais quando se divide eu , 3 A mesma concavidade – e tendência geral – aplica-se quando a distribuição é lognormal e é exacerbada por alta variância. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 14.3 uma desigualdade sobre a desigualdade agregada 277 a amostra em subamostras e tomando a média ponderada dos valores medidos ÿq(ni ). Teorema 4 Particione os n dados em m subamostras N = N1 ÿ . . . ÿ Nm dos respectivos tamanhos eu n1 , . . . , nm, com ÿ i=1 ni = n, e seja S1 , . . . , Sm é a soma das variáveis de cada subamostra e S = ÿ eu eu=1 Seja isso em toda a amostra. Então nós temos: eu E [ ÿq(N) ] ÿ ÿ eu=1 Bem, sim S] E [ ÿq(Ni ) ] Se assumirmos ainda que a distribuição das variáveis Xj é a mesma em todas as subamostras. Então nós temos: eu em n E [ ÿq(Ni )] E [ ÿq(N) ] ÿ ÿ eu=1 Por outras palavras, a média das medidas de concentração das subamostras, ponderadas pela soma total de cada subamostra, produz uma estimativa tendenciosa para baixo da medida de concentração da amostra completa. Prova. Uma indução elementar reduz a questão ao caso de duas subamostras. Sejam q ÿ (0, 1) e (X1 , . . . , Xm) e ( X variáveis 1 , . . . , X n ) ser duas amostras de iid positivo ' ' 'está tendo distribuição aleatórias, os Xi tendo distribuições p(dx) e os X j ÿ (dxÿ ). Para simplificar, assumimos que ambos qm e qn são inteiros. Definimos ção p eu S= n ÿ mq ' . Definimos A = X[i]ÿ onde X[i] é o i-ésimo maior valor de ' = ÿ X eu Xi e S eu=1 eu=1 eu=1 mq '= ÿ (X1 ,..., Xm) e A X ' ÿ onde X [eu] [eu] é o i-ésimo maior valor de (X ' ' 1 , . . . , X n ). eu=1 Também definimos S (m+n)q X onde X [i] [i] ÿ “ = S + S ' e A” = “ “ é o i-ésimo maior valor de eu=1 ' 1,...,X a amostra conjunta (X1 , . . . , Xm, X ÿ n ). A medida de q-concentração para as amostras X = (X1 , ..., Xm), X e X ) são: = (X1 , . . . , Xm, X 1 , . . . , X n “ ' ' A k= 'K S = A ' K '' = A ' = (X 1' , ..., X ' ) “ S” S' Devemos provar que a seguinte desigualdade é válida para as medidas de concentração esperadas. certeza: ' E [ ÿ "] ÿ E [ S S ' ] E [k] + E [S See More S' Observamos que: A = máx Jÿ{1,...,m} iÿJ |J|=ÿm ÿ XI ] E [ Sr. '] n Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 278 sobre os vieses de superaditividade e estimativa de contribuições quantílicas ‡ e, da mesma ' = maxJ ÿÿ{1,...,n},|J ÿ |=qn ÿiÿJ ÿ' Xe um = maxJ “ "ÿ{1,...,m+n},|J" |=q (m+n) ÿiÿJ “ Xi , para forma, A onde denotamos Xm+i i = 1 . . . n. Se J ÿ {1, ..., m} , |J| = ÿm tem cardinal ' m + n, portanto = J ÿ J = X e Jÿ {m + 1, ..., m + n} , |J | = qn, então J eu eu ' = ÿiÿJ “ Xi ÿ ' A e temos: “, Um + Um ' ' “ qualquer que seja a amostra específica. Portanto k S __ “ÿ S” S'k + k ' S” 'K S ” k ] + E [S S ” ' ] E [ ÿ "] ÿ E [ S Vamos agora mostrar que: E [S S ” k ] = E [ UMA S ' ] ÿ E [S MAR _ _ S] Se for esse o caso, então obtemos de forma idêntica para ÿ : ' ' 'K S ' ] ÿ E [S E [S S ” ÿ ] = E [ UMA ' ' MAR _ _ S ' ] portanto teremos: E [ ÿ "] ÿ E [ S ' S ' ] E [k] + E [S See More S' ] E [ Sr. '] Seja T = X[mq] o ponto de corte (onde [mq] é a parte inteira de mq), tal que ÿ ÿ Xi1XiÿT e seja B = eu UMA = eu S ÿ eAB= são Xi1Xi<T. Condicionalmente a T, A eu=1 eu=1 independente: A é uma soma se mÿ amostras determinadas a estarem acima de T, enquanto B é a soma de m(1 ÿ ÿ) amostras independentes restritas a estarem abaixo de T. . Sejam pA(t, da) e pB(t, db) a distribuição de A e B e Elas também são denotam independentes de S ÿ (dsÿ respectivamente, dado T = t. Lembramos que) é a distribuição de S pq(dt) é o de T. Temos: ' ' E [S S ” k ] = a+ a (dsÿ ba + b + s q(dt) pa + b) pA(t, da) pB(t, db) ' Para dados b, t e s' , uma ÿ a+b a+b+s ÿ e um ÿ um a + b ÿ são duas funções crescentes de mesma variável a, portanto condicionalmente a T, B e S , temos: ' E [S S ” Senhor T, B, S A+B+Sÿ ÿ ] = E [ UMA T, B, S + B+ +B Sÿ ÿ ] ÿ E [A UMA T, B, S Sendo esta desigualdade válida para quaisquer valores de expectativa dicional T, B e S, temos: E [S S ” ÿ ] ÿ E [ S MAR _ _ S] ', +B ' ] ESTÁAEM T, B, S '] é válido para o inconstante Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 14.4 distribuições mistas para o expoente da cauda 279 Se as duas amostras tiverem a mesma distribuição, teremos: n eu E [ ÿ "] ÿ m+n E [k] + ' m + n E [ Sr. ] eu eu Na verdade, neste caso, observamos que E [ SS " ] = m+n . Na verdade S = ÿeu=1 Xi e o Xi “ são distribuídos de forma idêntica, portanto E [ SS " ] = mE [ XS " ] . Mas também temos E [ SS ' ] = 1 mês + n 1 = (m + n)E [ XS " ] portanto E [ XS " ] = . Da mesma forma, E [ SS ” ] = ' n m+n , produzindo o resultado. Isso acaba com a prova do teorema. Seja X uma variável aleatória positiva e h ÿ (0, 1). Lembramos a medida teórica de concentração h, definida como: P(X > h)E [X |X > h ] ÿh = E [X] A(n) enquanto a medida de concentração ÿ de n amostras é ÿh (n) = onde A(n)como e S(n) , S(n) são definidos acima para uma n-amostra X = (X1 , . . . , Xn) de variáveis iid com a mesma distribuição de X. Teorema 5 Para qualquer n ÿ N, temos: E [ÿh (n)] < ÿh e limão nÿ+ÿ ÿh (n) = ÿh como e em probabilidade Prova. O corolário acima mostra que a sequência nE [ÿh (n)] é superaditiva, portanto E [ÿh (n)] é uma sequência crescente. Além disso, graças à lei dos grandes números, A(n) converge quase 1 1 certamente enem probabilidade paracom E [X1X>h ] =eP(X h)E [X |X > hpara ], portanto, S(n) converge quase certeza em > probabilidade E [X] e sua proporção n também converge quase certamente para ÿh . Por outro lado, esta razão é limitada por 1. O teorema da convergência dominada por Lebesgue conclui o argumento sobre a convergência em probabilidade. 14.4 distribuições mistas para o expoente da cauda Considere agora uma variável aleatória X, cuja distribuição p(dx) é uma mistura de distribuições paramétricas com diferentes valores do parâmetro: p(dx) = Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 280 sobre os vieses de superaditividade e estimativa de contribuições quantílicas Figura 14.4: Pierre Simon, Marquês de Laplace. Ele obteve seu nome em uma distribuição e em alguns resultados, mas estava por trás das distribuições de Cauchy e Gaussiana (ver a lei da eponímia de Stigler [218]). Retrato póstumo de JeanBaptiste Paulin Guérin, 1838. eu ÿ i=1 ÿi pÿi (dx). Uma n-amostra típica de X pode ser feita de ni = ÿ em amostras de Xÿi com distribuição pÿi . O teorema acima mostra que, neste caso, temos: eu E [ ÿq(n, X) ] ÿ ÿ eu=1 S(n, E [ S(ÿin, Xÿi ) X) ] E [ ÿq(ÿin, Xÿi ) ] S(ÿin, Xÿi ) Quando n ÿ +ÿ, cada razão converge quase certamente para ÿi respectivamente, S(n, X) portanto temos a seguinte desigualdade de convexidade: eu ÿq(X) ÿ ÿiÿq(Xÿi ÿ ) eu=1 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 14.4 distribuições mistas para o expoente da cauda 281 O caso da distribuição de Pareto é particularmente interessante. Aqui, o parâmetro ÿ representa o expoente final da distribuição. Se normalizarmos as expectativas para 1, o cdf de Xÿ é Fÿ(x) = 1 ÿ ( x xmin )ÿÿ e temos: uma-1 ÿq(Xÿ) = q uma e 2 d (registro q) uma-1 dÿ 2 ÿq (Xÿ) = q uma >0 3a _ Portanto, ÿq(Xÿ) é uma função convexa de ÿ e podemos escrever: eu ÿq(X) ÿ ÿ ÿiÿq(Xÿi ) ÿ ÿq(Xÿ ÿ ) eu=1 eu onde ÿ¯ = ÿ i=1 ÿiÿ. Suponha agora que X é uma variável aleatória positiva com distribuição desconhecida, exceto que sua cauda decai como uma potência baixa com expoente desconhecido. Uma estimativa imparcial do expoente, com necessariamente alguma incerteza (ou seja, uma distribuição de possíveis valores verdadeiros em torno de alguma média), levaria a uma estimativa tendenciosa para baixo de ÿq. Como a medida de concentração depende apenas da cauda da distribuição, esta desigualdade também se aplica no caso de uma mistura de distribuições com decaimento de potência, como na Equação 23.1: N P(X > x) = (14.3) ÿ ÿiLi (x)x ÿÿj j=1 A menor incerteza sobre o expoente aumenta o índice de concentração. Pode-se obter uma estimativa real desse viés considerando uma média ÿ¯ > 1 e dois valores + circundantes ÿ = ÿ + ÿ e ÿ = ÿ ÿ ÿ. A convexidade escreve-se desigualmente da seguinte forma: ÿq(ÿ) = q 1ÿ 1 ÿ¯ < 1 1ÿ 1ÿ 1uma+d + q 2 (q 1 a-d ) Portanto, na prática, um ÿ¯ estimado em torno de 3/2, às vezes chamado de expoente "meio cúbico", produziria resultados semelhantes aos do valor de ÿ muito mais próximo de ro 1, como usamos na seção anterior. Simplesmente ÿq(ÿ) é convexo e dominado pelo segundo 1ÿ efeito de ordem ln(q)q 1 ÿ+ÿ (ln(q)ÿ2(ÿ+ÿ)) , um efeito que é exacerbado em valores mais baixos de ÿ. 4 (ÿ+ÿ) Para mostrar quão pouco confiáveis são as medidas de concentração de desigualdade a partir de quantis, considere que um erro padrão de 0,3 na medição de ÿ faz com que ÿq(ÿ) aumente em 0,25. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 282 sobre os vieses de superaditividade e estimativa de contribuições quantílicas 14.5 uma soma total maior é acompanhada por aumentos em ÿq n ÿ Existe uma grande dependência entre o estimador ÿq e a soma S = Xj : j=1 condicional a um aumento em ÿq a soma esperada é maior. Na verdade, como mostrado no teorema 4, ÿq e S estão positivamente correlacionados. Para o caso em que as variáveis aleatórias em causa são a riqueza, observamos como na Figura 14.5 esse aumento condicional; por outras palavras, como a distribuição é da classe de caudas grossas em consideração, o máximo é da mesma ordem que a soma, riqueza adicional significa desigualdade mais medida. Sob tal dinâmica, é bastante absurdo presumir que riqueza adicional surgirá da base ou mesmo do meio. (O mesmo argumento pode ser aplicado a guerras, pandemias, tamanho ou empresas, etc.) K n104 1,0 0,9 0,8 0,7 Figura 14.5: Efeito da riqueza adicional em ÿˆ 0,6 0,5 0,4 0,3 Fortuna 60.000 80.000 100.000 120.000 14.6 conclusão e estimativa adequada de concentração A concentração pode ser elevada ao nível do gerador, mas em pequenas unidades ou subsecções observaremos um ÿq inferior. Assim, examinando as séries temporais, podemos facilmente obter uma ilusão histórica de um aumento, digamos, na concentração de riqueza, quando esta sempre existiu ao nível do processo; e uma expansão no tamanho da unidade medida pode ser parte da explicação.4 Mesmo a estimativa de ÿ pode ser tendenciosa em alguns domínios onde não se veja o quadro completo: na presença de incerteza sobre o "verdadeiro" ÿ, pode ser mostrado que, ao contrário de outros parâmetros, o que deve ser usado não são os expoentes ponderados pela probabilidade (a média padrão), mas sim o mínimo em uma seção de ex-poentes. Não se devem realizar análises de variações homólogas de ÿq sem ajustamento. Não escapou à nossa atenção que algumas teorias são construídas com base em afirmações de tal “aumento” da desigualdade, como em [191], sem levar em conta a verdadeira natureza da desigualdade. 4 A riqueza acumulada é tipicamente mais espessa do que o rendimento, ver [99]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 14.6 conclusão e estimativa adequada da concentração 283 ÿq, e promulgar teorias sobre a "variação" da desigualdade sem referência à estocasticidade da estimativa - e a falta de consistência de ÿq ao longo do tempo e das subunidades. O que é pior, a rejeição de tais teorias também ignorou o efeito de tamanho, ao contrapor-se a dados de um tamanho de amostra diferente, tornando efetivamente o diálogo sobre a desigualdade estatisticamente não informativo.5 O erro parece ser comumente cometido em inferências comuns sobre dados de cauda gorda em a literatura. A própria metodologia de utilização da concentração e mudanças na concentração é altamente questionável. Por exemplo, na tese de Steven Pinker [194] de que o mundo está se tornando menos violento, notamos uma inferência falaciosa sobre a concentração dos danos das guerras de um ÿq com população minuciosamente pequena em relação à cauda gorda.6 Devido a Considerando a grande quantidade de vítimas de guerra e as consequências dos conflitos violentos, um ajustamento invalidaria rapidamente tais alegações de que a violência da guerra sofreu um declínio estatístico. 14.6.1 Métodos robustos e uso de dados exaustivos Muitas vezes enfrentamos argumentos do tipo “o método de medir a concentração a partir de contribuições quantílicas ÿˆ é robusto e baseado em um conjunto completo de dados”. Métodos robustos, infelizmente, tendem a falhar com dados de cauda gorda, ver Capítulo 8. Mas, além disso, o problema aqui é pior: mesmo que tais métodos “robustos” fossem considerados imparciais, um método de estimativa directa de percentis ainda está ligado a uma população estática e específica e não agrega. Conseqüentemente, tais técnicas não nos permitem fazer afirmações estatísticas ou declarações científicas sobre as verdadeiras propriedades que deveriam necessariamente ser realizadas na amostra. Contrate uma seguradora (ou, melhor, resseguradora). Os lucros “contábeis” em um ano em que houve poucos sinistros não refletem na situação “econômica” da empresa e é inútil fazer declarações sobre a concentração de perdas por evento segurado com base em uma amostra de um único ano. Os lucros “contábeis” não são utilizados para prever variações ano a ano, mas sim a exposição a eventos de cauda (e outros), análises que levam em conta a natureza estocástica do desempenho. Esta diferença entre valores “contábeis” (determinísticos) e “econômicos” (estocásticos) é importante para a formulação de políticas, especialmente sob caudas grossas. O mesmo acontece com as guerras: não estimamos a gravidade de um risco (futuro) com base em dados históricos anteriores da amostra. 14.6.2 Como devemos medir a concentração? Os profissionais de gestores de risco tendem agora a calcular CVaR e outras métricas, métodos que são extrapolativos e não côncavos, como as informações do expoente ÿ , levando aquele mais próximo do limite inferior do intervalo de expoentes, como nós 5 Financial Times, 23 de maio de 2014 "Descobertas de Piketty prejudicadas por erros", por Chris Giles. 6 Usando os dados de Richardson, [194]: "(As guerras) seguiram uma regra 80:2: quase oitenta por cento das mortes foram causadas por dois por cento (enf. dele) das guerras". Assim, parece que tanto Pinker como a literatura citada para as propriedades quantitativas dos conflitos violentos estão a utilizar uma metodologia falha, que produz um enviesamento grave, uma vez que a estimativa do percentil tem enviesamentos extremamente grandes com guerras de cauda gorda. Além disso, as afirmações sobre a média tornam-se espúrias em expoentes baixos. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 284 sobre os vieses de superaditividade e estimativa de contribuições quantílicas vimos em nossa extensão ao Teorema 2 e redescobrir o ÿ correspondente, ou, mais rigorosamente, integrar as funções de ÿ entre os vários estados possíveis. Tais métodos de ajustamento são menos tendenciosos e não se confundem com problemas de agregação – são semelhantes aos métodos de “volatilidade estocástica” em finanças matemáticas que consistem em ajustamentos aos preços das opções adicionando um “sorriso” ao desvio padrão. , proporcionalmente à variabilidade do parâmetro que representa a volatilidade e aos erros na sua medição. Aqui seria "alfa estocástico" ou "expoente da cauda estocástica "7. Por extrapolativo, queremos dizer a extensão incorporada da cauda na medição, levando em consideração realizações fora do caminho da amostra que excedem os extremos observados.8 9 reconhecimento O falecido Benoit Mandelbrot, Branko Milanovic, Dominique Guéguan, Felix Salmon, Bruno Dupire, o falecido Marc Yor, Albert Shiryaev, a equipe do Restaurante Luciano no Brooklyn e Naya em Manhattan. 7 Observe também que, além do problema de estimativa do percentil, alguns autores como [192] ao lidar com dados censurados, usam interpolação de Pareto para informações insuficientes sobre as caudas (com base no parâmetro cauda), preenchendo o colchete com média condicional contribuição de colchetes, que não é a mesma coisa que usar extensão total da lei de potência; tal método mantém um viés significativo. 8 Mesmo a utilização de uma distribuição lognormal, ao ajustar o parâmetro de escala, funciona até certo ponto, pois um aumento do desvio padrão extrapola a massa de probabilidade para a cauda direita. 9 Observamos também que os teoremas também se aplicariam aos saltos de Poisson, mas nos concentramos no caso da lei de potência na aplicação, já que os métodos para ajustar os saltos de Poisson são interpolativos e provaram ser mais fáceis de ajustar na amostra do que fora da amostra. ‡ Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Parte V MOMENTOS DE SOMBRA PA PERS Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 15 MOMENTOS DE SOMBRA AP PA RENT LY INFINITE - MEAN FENÔMENOS ‡ T este capítulo propõe uma abordagem para calcular os momentos condicionais de fenômenos de cauda gorda que, apenas olhando para os dados, poderiam ser erroneamente considerados como tendo média infinita. Este tipo de problema manifesta-se quando uma variável aleatória Y tem uma distribuição de cauda pesada com uma distribuição extremamente ampla, mas suporte limitado. Introduzimos o conceito de distribuição dual, por meio de uma transformação logarítmica que remove suavemente o limite superior. A cauda da distribuição dual pode então ser estudada usando a teoria dos valores extremos, sem fazer suposições paramétricas excessivas, e as estimativas obtidas podem ser usadas para estudar a distribuição original e calcular seus momentos revertendo a transformação. A diferença central entre a nossa abordagem e um truncamento simples está na suavidade da transformação entre a distribuição original e a distribuição dual, permitindo o uso da teoria dos valores extremos. As baixas de guerra, o risco operacional, a degradação ambiental, as redes complexas e muitos outros fenómenos econofísicos são possíveis campos de aplicação. 15.1 introdução Considere uma variável aleatória de cauda pesada Y com suporte finito [L, H]. Wlog definiu L >> 0 para o limite inferior, enquanto para o limite superior H, suponha que seu valor seja notavelmente grande, mas finito. É tão grande que a probabilidade de observar valores na sua vizinhança é extremamente pequena, de modo que nos dados tendemos a encontrar observações apenas abaixo de um certo M << H < ÿ. Capítulo de pesquisa, com P. Cirillo. 287 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 288 momentos sombrios de fenômenos aparentemente infinitos ‡ A Figura 15.1 fornece uma representação gráfica do problema. Para nossa variável aleatória Y com limite superior remoto H, a cauda real é representada pela linha contínua. No entanto, se observarmos apenas valores até M << H, e - querendo ou não - ignorarmos a existência de H, o que é improvável de ser visto, poderíamos estar inclinados a acreditar que a cauda é pontilhada, a aparente um. As duas caudas são de fato indistinguíveis na maioria dos casos, já que a divergência só é evidente quando nos aproximamos de H. Agora suponhamos que queremos estudar a cauda de Y e, como ela tem cauda gorda e apesar de H < ÿ, consideramos que ela pertence à chamada classe Fréchet2 . Na teoria dos valores extremos [184], diz-se que uma distribuição F de uma variável aleatória Y está na classe Fréchet se F¯(y) = 1 ÿ F(y) = y ÿÿL(y), onde L(y) é uma função que varia lentamente. Em outros termos, a classe Fréchet é a classe de todas as distribuições cuja cauda direita se comporta como uma lei de potência. Observando os dados, poderíamos ser levados a acreditar que a cauda direita é a linha pontilhada na Figura 15.1, e nossa estimativa de ÿ mostra que ela é menor que 1. Dadas as propriedades das leis de potência, isso significa que E[Y] é não finito (como todos os outros momentos superiores). Isto também implica que a média amostral é essencialmente inútil para fazer inferências, além de quaisquer considerações sobre robustez [168]. Mas se H for finito, isto não pode ser verdade: todos os momentos de uma variável aleatória com suporte limitado são finitos. Uma solução para esta situação poderia ser ajustar um modelo paramétrico, que permita caudas grossas e suporte limitado, como por exemplo um Pareto truncado [1]. Mas o que acontece se Y apresentar um comportamento paretiano apenas na cauda superior, e não em toda a distribuição? Devemos ajustar um modelo de mistura? Na próxima seção propomos uma solução geral simples, que não depende de fortes suposições paramétricas. 15.2 a distribuição dupla Em vez de alterar as caudas da distribuição, achamos mais conveniente transformar os dados e confiar em distribuições com propriedades bem conhecidas. Na Figura 15.1, as caudas real e aparente são em grande parte indistinguíveis. Podemos usar esse fato a nosso favor, transformando Y para remover seu limite superior H, de modo que a nova variável aleatória Z - a variável aleatória dupla - tenha a mesma cauda que a cauda aparente. Podemos então estimar o parâmetro de forma ÿ da cauda de Z e voltar a Y para calcular seus momentos ou, para ser mais exato, calcular seus momentos excedentes, os momentos condicionais acima de um determinado limite, visto que iremos apenas extrair o informações da cauda de Z. Pegue Y com suporte [L, H] e defina a função ÿ(Y) = L ÿ H log ( H ÿ YH ÿ L ) . (15.1) 2 Observe que tratar Y como pertencente à classe Fréchet é um erro. Se uma variável aleatória tem um limite superior finito vinculado, não pode pertencer à classe Fréchet, mas sim à classe Weibull [116]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 :adtiu e)ya ri(-D C F 1 15.2 a distribuição dupla 289 M Cauda Real Cauda Aparente H e Figura 15.1: Representação gráfica do que pode acontecer se ignorarmos a existência do limite superior finito H, uma vez que apenas M é observado. ÿ1 ÿ1 (L) = ÿ(L) = L. Podemos verificar que ÿ é "suave": ÿ ÿ C ÿ, ÿ Então (ÿ) = H e ÿ Z = ÿ(Y) define uma nova variável aleatória com limite inferior L e limite superior infinito. Observe que a transformação induzida por ÿ(·) não depende de nenhum dos parâmetros da distribuição de Y. Por construção, z = ÿ(y) ÿ y para valores muito grandes de H. Isso significa que para um limite superior muito grande, improvável de ser tocado, os resultados que obtemos para a cauda de Y e Z = ÿ(Y) são essencialmente o mesmo, até não chegarmos a H. Mas enquanto Y é limitado, Z não é. Portanto, podemos modelar com segurança a distribuição dual ilimitada de Z como pertencente à classe Fréchet, estudar a sua cauda e depois voltar a Y e aos seus momentos, que sob a distribuição dual de Z não poderiam existir.3 A cauda de Z pode ser estudada de diferentes maneiras, veja por exemplo [184] e [87]. Nossas sugestões são confiar nos chamados de Pickands, Balkema e no Teorema de de Haan [116]. Este teorema nos permite focar na cauda direita de uma distribuição, sem nos preocupar muito com o que acontece abaixo de um determinado limite u. No nosso caso você ÿ eu. 3 Observe que o uso da transformação logarítmica é bastante natural no contexto da utilidade. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 290 momentos sombrios de fenômenos aparentemente infinitos Considere uma variável aleatória Z com função de distribuição G e chame Gu de df condicional de Z acima de um determinado limite u. Podemos então definir o rv W, representando os excessos redimensionados de Z sobre o limiar u, de modo que G(você + C) ÿ G(você) Gu(w) = P(Z ÿ você ÿ w|Z > você) = , 1 ÿ G(você) para 0 ÿ w ÿ zG ÿ u, onde zG é o extremo direito de G. Pickands, Balkema e de Haan mostraram que para uma grande classe de funções de distribuição G, e um grande u, Gu pode ser aproximado por uma distribuição de Pareto generalizada, ou seja, Gu(w) ÿ GPD(w; ÿ, ÿ), como você ÿ ÿ onde Em ) ÿ1/ÿ se ÿ ÿ= 0 p - 1ÿe Em GPD(w; ÿ, ÿ) = { 1 ÿ (1 + ÿ , w ÿ 0. (15.2) se ÿ = 0 p O parâmetro ÿ, conhecido como parâmetro de forma, e correspondente a 1/ ÿ, rege a espessura das caudas e, portanto, a existência de momentos. O momento de ordem p de uma variável aleatória distribuída de Pareto Generalizado só existe se e somente se ÿ < 1/p, ou ÿ > p [184]. Tanto ÿ quanto ÿ podem ser estimados usando MLE ou o método dos momentos [116].4 15,3 de volta a y: a média sombra (ou média populacional) Com f e g, indicamos as densidades de Y e Z. ÿ1 Sabemos que Z = ÿ(Y), então Y = ÿ Agora, vamos supor que encontramos u = L ÿ (Z) = (L ÿ H)e L-Z H + H. ÿ L, tal que Gu(w) ÿ GPD(w; ÿ, ÿ). Isto implica ÿ que a cauda de Y, acima do mesmo valor L que encontramos para Z, pode ser obtida a partir da cauda de Z, ou seja, Gu. Primeiro temos ÿ ÿ1 ÿ eu * Fi g(z)dz = ÿ (ÿ) (15.3) f(s) você. eu * E nós sabemos disso g(z; ÿ, ÿ) = Configuração ÿ = ÿ ÿ1 , 1 1 ÿz ÿ(1+ s )ÿ _ ÿ1x , z ÿ [L ÿ , ÿ). (15.4) Nós temos H(log(HÿL)ÿlog(Hÿy)) f(y; uma, s) = H (1 + ás ÿ(H ÿ y) )ÿÿÿ1 , y ÿ [L ÿ , H], (15,5) 4 Existem métodos alternativos para enfrentar limites superiores finitos (ou côncavos), ou seja, o uso de leis de potência temperadas (com amortecimento exponencial)[197] ou exponenciais esticadas [149]; embora sejam da mesma natureza do nosso exercício, estes métodos não permitem aplicações imediatas da teoria dos valores extremos ou métodos semelhantes de parametrização. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 15,3 de volta a y: a média sombra (ou média populacional) 291 Figura 15.2: CF Gauss, pintado por Christian Albrecht Jensen. Gauss tem seu nome na distribuição, geralmente atribuído a Laplace. ou, em termos de função de distribuição, H(log(H ÿ L) ÿ log(H ÿ y)) ás F(y; ÿ, ÿ) = 1 ÿ ( 1 + (15.6) )ÿa . Claramente, dado que ÿ é uma transformação biunívoca, os parâmetros de f e g obtidos pelos métodos de máxima verossimilhança serão os mesmos - as funções de verossimilhança de f e g diferem por uma constante de escala. ÿ Podemos derivar a média sombria5 de Y, condicionalmente em Y > L , como H E[Y|Y > L ÿ ]=ÿ yf(y; a, s) dy, eu * 5 Chamamos a média da população – em oposição à amostra – de “sombra”, pois não é imediatamente visível a partir dos dados. (15.7) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 292 momentos de sombra de fenômenos aparentemente infinitos obtendo E[Y|Z > L ÿ ] = (H ÿ L A média condicional de Y acima de L ÿ ás ás )e ÿ ás H ( H )ÿ C ( 1 ÿ ÿ, ÿ H ) + eu . (15.8) ÿ L pode então ser estimado simplesmente inserindo as estimativas ÿˆ e ÿˆ, como resultado da aproximação GPD da cauda de Z. Vale a pena ÿ ÿ = L, E[Y|Y notar que se L ] = E[Y], ou seja, a média condicional deentão Y acima de>YLé exatamente a média de Y. Naturalmente, de forma semelhante, podemos obter os demais momentos, mesmo que necessitemos de métodos numéricos para calculá-los. Nosso método pode ser usado em geral, mas é particularmente útil quando, a partir dos dados, a cauda de Y parece tão gorda que nenhum momento é finito, como é frequentemente o caso quando se lida com perdas de risco operacional, a distribuição de graus de grandes redes complexas ou outros fenómenos econofísicos. ÿ Por exemplo, suponha que para Z temos ÿ > 1. Então ambos E[Z|Z > L ] e E[Z] não são finitos6 . A Figura 15.1 nos diz que podemos estar inclinados a assumir que também E[Y] é infinito - e é isso que os dados provavelmente nos dirão se estimarmos ˆÿ a partir da cauda7 de Y. Mas isso não pode ser verdade porque H < ÿ , e mesmo para ÿ > 1 podemos calcular o valor ÿ esperado E[Y|Z > L ] usando a equação (15.8). Valor em risco e déficit esperado Graças à equação (15.6), podemos calcular por inversão a função quantílica de Y quando Y ÿ L ÿ, aquilo é ás ÿ Q(p; ÿ, ÿ, H, L) = e H + Heÿ(p) ÿ Ele e ÿÿ(p) (EU ás H ), (15.9) ÿs(1ÿp) ÿ1/ÿ onde ÿ(p) = e p ÿ [0, 1]. H Novamente, esta função quantílica está condicionada ao fato de Y ser ÿ . maior que L A partir da equação (15.9), podemos calcular facilmente o Valor em Risco (VaR) de Y|Y ÿ L ÿ para qualquer nível de confiança. Por exemplo, o VaR de 95% de Y, se Y representa perdas operacionais ao longo de um horizonte temporal de 1 ano, é simplesmente VaRY = Q(0,95; ÿ, ÿ, H, L). 0,95 Outra quantidade em que podemos estar interessados ao lidar com o risco de cauda de Y]. Isso ÿ é o chamado déficit esperado (ES), ou seja, E[Y|Y > u ÿ L mais do que uma não é nada generalização da equação (15.8). Podemos obter o déficit esperado calculando primeiro a função de excesso médio definida como de Y|Y ÿ L ÿ, ÿ ÿ eu(Y) = E[Y ÿ u|Y > u] = em (você ÿ y)f(y; ÿ, ÿ)dy , 1 ÿ F(você) 6 Lembre-se que para uma variável aleatória GPD Z, E [Z p ] < ÿ se ÿ < 1/p. 7 Devido às semelhanças entre 1 ÿ F(y) e 1 ÿ G(z), pelo menos até M, a aproximação GPD será forneça duas estimativas estatisticamente indistinguíveis de ÿ para ambas as caudas [184]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 15.4 comparação com outros métodos 293 ÿ para y ÿ você ÿ L . Usando a equação (15.5), obtemos a ás ás eu(Y) = (H ÿ L)e H log ( HÿL H( H + 1ÿ × ás ÿ ás (15.10) C ( 1 ÿ uma, H Hÿu ) )ÿ ÿlog ÿ +( H ÿ LH ÿ u )) . O déficit esperado é então simplesmente calculado como E[Y|Y > você ÿ L ÿ ] = eu(Y) + u. Tal como nas finanças e na gestão de riscos, o ES e o VaR podem ser combinados. Por exemplo, ÿ poderíamos estar interessados em calcular o ES de 95% de Y quando Y ÿ L . Isso é simplesmente dado por VaRY 0,95 + eVaRY (E). 0,95 15.4 comparação com outros métodos Existem três maneiras de cortar explicitamente uma distribuição paretiana nas caudas (sem contar os métodos para esticar ou "temperar" a distribuição). 1) A primeira consiste no truncamento rígido, ou seja, na definição de um único ponto final para a distribuição e normalização. Por exemplo, a distribuição seria normalizada entre L e H, distribuindo o excesso de massa por todos os pontos. 2) A segunda assumiria que H é uma barreira absorvente, que todas as realizações da variável aleatória em excesso de H seriam comprimidas numa função delta de Dirac em H – como praticado em modelos derivativos. Nesse caso, a distribuição teria a mesma densidade que um Pareto regular, exceto no ponto H. 3) O terceiro é o apresentado aqui. O mesmo problema surgiu nas finanças quantitativas sobre o uso de normal truncado (para corrigir o uso de uma Gaussiana direta por Bachelier) versus transformação logarítmica (Sprenkle, 1961 [216]), com o modelo padrão optando por transformação logarítmica. transformação e a distribuição lognormal unicaudal associada. Além da aditividade dos retornos logarítmicos e outros benefícios semelhantes, os modelos não produzem um "cliff", que é uma mudança abrupta na densidade abaixo ou acima, com a instabilidade associada às medições de risco em função não suave. . Quanto ao uso da teoria dos valores extremos, Breilant et al. (2014)[? ] vá truncar a distribuição tendo excesso nas caudas com a transformação Y (Y ÿ Hÿÿ ) e aplique EVT - a ÿ a ao -resultado. Dado que a transformação inclui o parâmetro estimado, é necessário um novo MLE para o parâmetro ÿ . Encontramos problemas com essa transformação não suave. O mesmo problema ocorre com os modelos de ativos financeiros, particularmente a presença de um “penhasco” abrupto abaixo do qual existe uma densidade, e acima do qual não existe nenhuma. O efeito é que a expectativa obtida desta forma será superior à nossa, principalmente em valores de ÿ < 1, como pode ser visto na Figura 15.3. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ‡ 294 momentos sombrios de fenômenos aparentemente infinitos Podemos demonstrar o último ponto da seguinte forma. Suponha que observamos que a distribuição é um Pareto que está de fato truncado, mas tratamos isso como um Pareto. A densidade é f(x) = 1 ( xÿL ás [L, H]. ÿÿÿ1 ( xÿL + 1)ÿÿÿ1 , ÿ ÿs +1) x ÿ [L, ÿ). O truncamento dá g(x) = x ÿ ÿ(1ÿÿ ÿÿ ÿ (ÿÿ+HÿL)ÿÿ) , Momentos de ordem p do Pareto truncado (ou seja, o que é visto nas realizações do processo), M(p) são: a ÿipp (como) (ÿs ÿ L) p ÿ ÿ M(p) =ÿe ( BHLÿas (p + 1, ÿÿ) ÿ B L Lÿas (p + 1, ÿÿ) ) )ÿ (15.11) ( como como +HÿL ÿ 1 ÿ(a)ÿ(b) onde B(., .) é a função Euler Beta, B(a, b) = ÿ(a+b) 1 a-1 (1 ÿt ) b-1 dt. =ÿ0 t Terminamos com r(H, ÿ), a razão entre a média do truncado suave e a do Pareto truncado. r(H, ÿ) =e - a a a H ( H )a ( uma + H ( ÿ + H ÿ )ÿÿ+)ÿÿ )ÿÿ (15.12) (ÿ ÿ 1) ((Hÿ+ 1) ( ÿ ( ÿ+H H )ÿ ÿ ( ÿ+HH )a) Ea ( a H ) ÿ onde Eÿ ( uma H ) é a integral exponencial eÿz = ÿ 1 t(ÿÿ) en dt. 15,5 aplicações Risco operacional As perdas de uma empresa são limitadas pela capitalização, com perdas máximas bem conhecidas. Contratos de resseguro com limite Os contratos de resseguro quase sempre têm limites (ou seja, um sinistro máximo); mas um ressegurador pode ter muitos desses contratos sobre a mesma fonte de risco e a adição do contrato empurra o limite superior de tal forma que causa maiores danos cumulativos potenciais. Violência Embora as guerras sejam extremamente complicadas, o efeito máximo de qualquer evento deste tipo não pode exceder a população mundial. Risco de crédito Um empréstimo tem uma perda máxima finita, de forma semelhante aos contratos de resseguro. Tamanho da cidade Embora tenha sido demonstrado que as cidades têm distribuição Zipf, o tamanho de uma determinada cidade não pode exceder o da população mundial. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 15,5 aplicações 295 E[Xsuave ] E[Xtruncado ] 1,0 0,8 0,6 H = 105 0,4 H = 108 0,2 a 0,4 0,6 0,8 1,0 1.2 Figura 15.3: Razão entre a expectativa de transformação suave e truncada. Danos ambientais Embora estas variáveis tenham uma cauda excessivamente gorda, o risco é limitado pelo tamanho do planeta (ou do continente em que ocorrem) como um limite superior firme. Redes complexas O número de conexões é finito. Tamanho da empresa As vendas de uma empresa estão vinculadas ao PIB. Terremotos O dano máximo de um terremoto está limitado pela energia. Hidrologia O nível máximo de uma inundação pode ser determinado. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16 SOBRE O RISCO VIOLENTO CONFLITO (COM P. CIRILLO) ‡ história da era comum com foco em lidar com Examinamos todos ose quadros estatísticos de conflitos plenitude falta de confiabilidade dospossíveis dados. Aplicamos métodosviolentos de teoria do valor extremo em dados transformados em log para remover como apoio do pacto, então, devido à limitação do número máximo de vítimas, retransformar os dados e derivar os meios esperados. Descobrimos que a média estimada é provavelmente pelo menos três vezes maior do que a média da amostra, o que significa uma grave subestimação da gravidade dos conflitos devido à observação ingénua. Verificamos a robustez por amostragem entre estimativas altas e baixas e analisando os dados. Estudamos os tempos entre chegadas entre eventos finais e encontramos eventos (de primeira ordem) sem memória. Os quadros estatísticos obtidos estão em desacordo com as afirmações sobre uma “paz longa”. 16.1 introdução/resumo Este estudo trata tanto de novas metodologias estatísticas com dados grossos (e não confiáveis), bem como de variáveis aleatórias limitadas com comportamento local da Lei de Potência, quanto das propriedades da violência.2 A violência é muito mais severa do que parece a partir das análises convencionais e da teoria prevalecente da “paz longa”, que afirma que a violência diminuiu. Adaptando métodos da teoria dos valores extremos e ajustando os erros nos relatórios de conflitos e estimativas históricas de vítimas, analisamos os vários quadros estatísticos de conflitos violentos, com foco na parametrização daqueles com mais de 50 mil Capítulo de pesquisa. 2 Agradecimentos: O capitão Mark Weisenborn envolveu-se na tarefa ingrata e horrível de compilar os dados, verificar as fontes e vincular cada conflito a uma narrativa na Wikipédia (ver Apêndice 1). Beneficiámos também de ajuda generosa nas redes sociais onde colocamos dados para análise, bem como de conselhos de historiadores agradecidos no mesmo apêndice. Agradecemos também ao falecido Benoit Mandelbrot pelos insights sobre as propriedades posteriores das guerras e conflitos, bem como a Yaneer Bar-Yam, Raphael Douady... 297 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 298 sobre o risco de conflito violento (com p. cirillo)‡ Pr. Figura 16.1: Valores do expoente final ÿ do estimador de Hill obtidos através de 100.000 diferentes 0,12 0,10 números de vítimas reescalonados, selecionados uniformemente entre estimativas baixas e altas 0,08 de conflito. 0,06 O expoente é ligeiramente (mas não significativamente) diferente da 0,04 Máxima Verossimilhança para todos os dados, uma vez que nos 0,02 concentramos nos 100 principais desvios. a 0,00 0,48 0,50 0,52 0,54 0,56 0,58 Figura 16.2: Gráfico QQ dos dados redimensionados na cauda próxima plotados em relação a uma distribuição estilo Pareto II-Lomax. Figura 16.3: Número de mortes causadas por “conflitos nomeados” ao longo do tempo. Os conflitos com duração superior a 25 anos são desagregados em dois ou mais conflitos, cada um com duração de 25 anos. vítimas (em proporção equivalente à população atual, o que corresponderia a ÿ 5 mil no século XVIII ). Contrariamente às discussões actuais, todos os quadros estatísticos assim obtidos mostram que 1) o risco de conflito violento não tem diminuído, mas é bastante subestimado por técnicas que se baseiam em mudanças ingénuas da média de ano para ano, Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16.1 introdução/resumo 299 Figura 16.4: Número de mortes redimensionado em conflitos armados e regimes ao longo do tempo. Os dados são redimensionados em relação à população mundial atual. Os conflitos com duração superior a 25 anos são desagregados em dois ou mais conflitos, cada um com duração de 25 an Significar 8×107 observada : 7x107 Figura 16.5 média “jornalística” comparada à Média de probabilidade máxima Amostra ("jornalística") média MLE (derivada do Significar 6×107 redimensionamento dos dados para suporte compacto) para 5×107 diferentes valores de ÿ (portanto, para permutações do par (ÿÿ, ÿ)). 4x107 O "intervalo de ÿ é aquele que obtemos a partir de possíveis 3x107 variações dos dados de bootstrap e simulações de confiabilidade. 2x107 Alcance de 1x107 0,40 0,45 0,50 0,55 0,60 0,65 0,70 ou usar a média amostral como um estimador da média verdadeira de um fenômeno de cauda extremamente gorda; 2) os conflitos armados têm tempos entre chegadas sem memória, portanto incompatíveis com a ideia de uma tendência temporal. Nossa análise utiliza 1) dados brutos, registrados e estimados por historiadores; 2) uma transformação ingênua, utilizada por certos historiadores e sociólogos, que redimensiona conflitos e vítimas do passado em relação à população real; 3) mais importante ainda, uma transformação logarítmica para ter em conta o facto de que o número de vítimas num conflito não pode ser maior do que a população mundial. (Isso é semelhante à transformação de dados em retornos logarítmicos em finanças matemáticas, a fim de usar distribuições com suporte na linha real.) Em suma, entre as diferentes classes de dados (brutos e reescalados), observamos que 1) as vítimas são distribuídas pela Lei de Potência.3 No caso de dados reescalados logarítmicos, observamos 0,4 ÿ ÿ ÿ 0,7, indicando assim um valor extremamente fenômeno de cauda gorda com média indefinida (resultado obtido de forma robusta); 2) os horários entre chegadas de 3 Muitos estudos anteriores encontraram Paretianidade nos dados, [? ],[38]. Nosso estudo, além do uso de técnicas de valores extremos, bootstraps de confiabilidade e transformações de suporte compacto, varia tanto nas calibrações quanto na interpretação. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 300 na cauda risco de conflito violento (com p. cirillo)‡ os conflitos acima do limiar dos 50 mil seguem um processo de Poisson homogéneo, não indicando nenhuma tendência particular e, portanto, contradizendo uma narrativa popular sobre o declínio da violência; 3) a verdadeira média esperada no futuro, e a mais compatível com os dados, embora altamente estocástica, é ÿ 3× maior que a média passada. Além disso, explicamos: 1) como a média (em termos de vítimas esperadas) é severamente subestimada pelas análises de dados convencionais, uma vez que a média observada não é um estimador da média verdadeira (ao contrário do expoente da cauda que fornece uma imagem com menor ruído). ; 2) como os equívocos surgem dos longos (e voláteis) tempos entre chegadas entre grandes conflitos. Para remediar as imprecisões das avaliações numéricas históricas, fornecemos uma análise bootstrap padrão das nossas estimativas, além de verificações de Monte Carlo quanto à falta de fiabilidade das guerras e à ausência de eventos na história actualmente registada. 16.2 discussão estatística resumida 16.2.1 Resultados Os métodos Peak-Over-Threshold das caudas Paretian mostram (variáveis brutas e redimensionadas) exibirem um forte comportamento da cauda Paretian, com probabilidade de ÿuma , sobrevivência P(X > x) = ÿ(x)x onde ÿ : [L, +ÿ) ÿ (0 , +ÿ) é uma função de variação lenta, definida como ÿ(kx) limxÿ+ÿ = 1 para qualquer k > 0. ÿ(x) Parametrizamos G(.), uma Distribuição de Pareto Generalizada (GPD), G(x) consulte a Tabela , 16.4, com ÿ ÿ 1,88, ± 0,14 para dados redimensionados que correspondem = 1 ÿ (1 + ÿy/ÿ) ÿ1/ÿ = 0,53, para uma cauda ÿ = ± 0,04. 1x Falta de memória no início dos conflitos As Tabelas 16.2 e 16.3 mostram os tempos entre chegadas, o que significa que se pode esperar mais de cem anos por um evento como a Segunda Guerra Mundial sem alterar as expectativas. Não há autocorrelação visível, nem estrutura temporal estatisticamente detectável (ou seja, não podemos ver a marca de um processo auto-excitante), ver Figura 16.8. Distribuição(ões) completa(s) Os dados redimensionados ajustam-se a uma distribuição estilo Lomax com a mesma cauda obtida pelo POT, com forte qualidade de ajuste. Para eventos com vítimas > L = 10K, 25K, 50K, etc. ajustamos diferentes distribuições de Pareto II (Lomax) com cauda correspondente ÿ (ajuste do GPD), com escala ÿ = 84, 360, ou seja, com densidade ÿÿÿ1 ÿ( ÿL+ÿ+x ÿ ) p , x ÿ eu. Também consideramos uma gama mais ampla de "imagens" estatísticas dos pares ÿ, ÿÿ através dos dados de potenciais valores alternativos de ÿ, com recalibração da máxima verossimilhança ÿ, ver Figura 16.5. Diferença entre a média amostral e a média de máxima verossimilhança : A Tabela 16.1 mostra a média verdadeira usando a parametrização da distribuição de Pareto acima Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16.2 discussão estatística resumida 301 e inverter a transformação de volta ao suporte compacto. "Verdadeiro" ou máximo probabilidade, ou média "estatística", está entre 3 e 4 vezes a média observada. Isto significa a observação “jornalística” da média, além da análise conceitual erro de confiar na média amostral, subestima a média verdadeira em pelo menos 3 tempos e observações futuras mais elevadas não permitiriam a conclusão de que a violência elevou". Tabela 16.1: Médias amostrais e média de máxima verossimilhança estimada entre valores mínimos L – Dados redimensionados. eu Razão Média de ML Média da Amostra 9,079 × 106 3,11 × 107 9,82 × 3,43 10 mil 25 mil 106 3,62 × 107 1,12 × 107 3,69 50 mil 4,11 × 107 1,34 × 107 4,74 × 3,67 100 mil 107 1,66 × 107 6,31 × 107 3,53 200 mil 2,48 × 107 8,26 × 107 3,79 3.31 500 mil 16.2.2 Conclusão A história vista a partir da análise da cauda é muito mais arriscada e os conflitos muito mais violentos do que o reconhecido pela observação ingênua do comportamento das médias no tempo histórico Series. Tabela 16.2: Tempos médios entre chegadas e seu desvio médio absoluto para eventos com mais de 1, 2, 5 e 10 milhões de vítimas, utilizando estimativas reais. Limite médio MAD 1 26,71 31,66 2 5 10 42.19 57,74 101,58 47,31 68,60 144,47 Tabela 16.3: Tempos médios entre chegadas e seu desvio médio absoluto para eventos com mais de 1, 2, 5, 10, 20 e 50 milhões de vítimas, utilizando valores reescalonados. Limite médio MAD 1 11,27 12,59 2 5 10 20 50 16,84 18,13 27.29 26h31 37,39 41h30 48,47 52.14 67,88 78,57 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 302 na cauda do risco de conflito violento (com p. cirillo)‡ Tabela 16.4: Estimativas (e erros padrão) dos parâmetros da Distribuição Generalizada de Pareto para vítimas acima de um limite de 50 mil . Tanto para as vítimas reais como para as redimensionadas, também fornecemos o número de eventos acima do limite (o número total de eventos nos nossos dados é 99). Dados Nº. Excessos Dados não tratados 307 Redimensionamento ingênuo 524 ÿ ÿ 1,5886 3,6254 (0,1467) (0,8191) 1,8718 14,3254 (0,1259) (2,1111) 1,8717 524 Redimensionamento de log 14,3261 (0,1277) (2,1422) 16.3 discussão metodológica 16.3.1 Método de redimensionamento Removemos o suporte compacto para podermos usar leis de potência como segue (ver capítulos anteriores). Usando Xt como o rv para o número de incidências de conflito nos momentos t, considere primeiro um = Xt reescalonamento ingênuo de X no período t. t Ht , onde Ht é a população humana total ' Veja o apêndice para métodos de estimativa de Ht . A seguir, com a população máxima de hoje H e L o mínimo reescalonado ingenuamente para nossa definição de conflito, introduzimos uma função de reescalonamento suave ÿ : [L, H] ÿ [L, ÿ) satisfatório: i ÿ é "suave": ÿ ÿ C ÿ, eu ÿ iiiÿ _ ÿ1 (ÿ) = H, ÿ1 (L) = ÿ(L) = L. Em particular, escolhemos: (16.1) ÿ(x) = L ÿ H log ( H ÿ x H ÿ L ) . Podemos realizar análises apropriadas em xr = ÿ(x), visto que ele é ilimitado e se ajusta adequadamente aos expoentes da Lei de Potência. Então podemos redimensionar novamente para as propriedades de X. Observe também que ÿ(x) ÿ x para valores muito grandes de H. Isso significa que para um limite superior muito grande, os resultados que obteremos para x e ÿ(x) será essencialmente o mesmo. A grande diferença é apenas do ponto de vista filosófico/metodológico, no sentido de que removemos o limite superior (improvável de ser alcançado). A seguir usaremos as vítimas ingenuamente redimensionadas como entrada para a função ÿ(·) . Escolhemos H = Pt0 para o exercício. A distribuição de x pode ser derivada da seguinte forma a partir da distribuição de xr: ÿ1 ÿ ÿ eu Fi f(xr) dxr = ÿ (ÿ) g(x)dx, eu (16.2) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16.3 discussão metodológica 303 onde ÿ ÿ1 Oe (você) = (L ÿ H)e H + H Neste caso, do Pareto-Lomax selecionado: f(xr) = g(x) = que verifica ÿ H eu ( ÿL+ÿ+xrÿ )ÿÿÿ1 ÿ , xr ÿ [L, ÿ) p H-L ) ÿH ( ÿ ÿ H log p( H ÿ x )ÿÿÿ1 (16.3) , x ÿ [L, H], ÿ(H ÿ x) xg(x) dx = 1. Daí a expectativa H - a Por exemplo (X; L, H, ÿ, ÿ) = ÿH (1 (H ÿ L)e ÿ/HEÿ+1 ( ÿ H ) H ÿ onde E.(.) é a integral exponencial Enz = ÿ (16.4) xg(x)dx, Por exemplo (x; L, H, ÿ, ÿ) = eu ÿ 1 (16,5) ) t(ÿz) e _ dt. não Observe que contamos com a propriedade de invariância: Observação 16 Se ˆÿ é o estimador de máxima verossimilhança (MLE) de ÿ, então para uma função absolutamente contínua ÿ, ÿ( ˆÿ) é o estimador MLE de ÿ(ÿ). Para mais detalhes ver [211]. 16.3.2 Expectativa por Condicionamento (menos rigoroso) Estaríamos substituindo uma função suave em C pela ÿ por uma função passo de Heaviside, que função indicadora 1: R ÿ {0, 1}, escrita como 1Xÿ[L,H] : H E(1Xÿ[L,H] ) = ÿ xf(x)dx H ÿ f(x)dx eu eu que para Pareto Lomax se torna: E(1Xÿ[L,H] ) = asa (HÿL) ÿ ÿÿ(HÿL+ÿ) ÿ + (ÿ ÿ 1)EU + p ÿÿ1 (16.6) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 304 na cauda do risco de conflito violento (com p. cirillo)‡ 16.3.3 Confiabilidade dos Dados e Efeito nas Estimativas da Cauda Os dados sobre a violência são em grande parte anedóticos, difundindo-se através de citações, muitas vezes baseadas em estimativas vagas, sem que ninguém possa verificar as avaliações utilizando fontes da época. Estima-se que um acontecimento ocorrido no século VII, como a rebelião de Lushan, tenha matado 26 milhões de pessoas, sem nenhuma metodologia precisa ou confiável que nos permita confiar no número. A guerra de independência da Argélia tem várias estimativas, algumas da França, outras dos rebeldes, e nada obtido científica ou profissionalmente. Como dito anteriormente, neste capítulo, usamos dados diferentes: dados brutos, dados reescalados ingenuamente em relação à população mundial atual e dados reescalados logarítmicos para evitar o problema teórico do limite superior. Para algumas observações, juntamente com o número estimado de vítimas, resultante de fontes históricas, também temos disponíveis um limite inferior e superior. Seja Xt o número de vítimas num determinado conflito no tempo t. Em princípio, podemos definir trigêmeos como l • } para as estimativas reais (dados brutos), onde X {Xt , u XX t , t l e X t representam em t o limite inferior e superior, se disponível. P20015 P20015l _ E =X =X t P20015 • {Yt = Xt } para Pt os, dados redimensionados ingenuamente, onde P2015 é a população mundial t Pt , t Pt eu Sim em em _ em 2015 e Pt é a população no tempo t = 1, ..., 2014. • {Zt = ÿ(Yt), Z eu t = ÿ(S em eu t ), COM t = ÿ(S em t )} para os dados redimensionados em log. Para evitar possíveis críticas sobre o uso de estimativas médias, quando limites estão presentes, decidimos utilizar o seguinte procedimento de Monte Carlo (para mais detalhes [201]), não obtendo nenhuma diferença significativa nas estimativas de todas as quantidades de interesse (como o expoente da cauda ÿ = 1/ ÿ): 1. Para cada evento X para o qual existem limites, assumimos que as baixas estão uniformemente distribuídas entre o limite inferior e o superior, ou seja, X ÿ você(X ). ,AXescolha da distribuição uniforme visa manter as coisas simples. Todas as eu em outras distribuições limitadas gerariam de facto os mesmos resultados no limite, graças ao teorema do limite central. 2. Geramos então um grande número de replicações de Monte Carlo e em cada replicação atribuímos um valor aleatório a cada evento X de acordo com U(X , X ). eu em 3. Para cada replicação calculamos as estatísticas de interesse, normalmente a expoente da cauda, obtendo valores que calculamos posteriormente. Este procedimento mostrou que a precisão das estimativas não afeta a cauda da distribuição de vítimas, uma vez que o expoente da cauda é bastante estável. Para aqueles eventos para os quais nenhum limite é dado, as opções eram usá-los como são, ou perturbá-los criando limites fictícios em torno deles (e então tratá-los como os outros limites nas replicações de Monte Carlo). Escolhemos a segunda abordagem. O acima também se aplica a Yt e Zt . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16.3 discussão metodológica 305 Observe que o ÿ final derivado de uma média é diferente de um alfa médio em diferentes estimativas, e é por isso que realizamos as diversas análises entre estimativas. Comentário técnico Estas simulações procuram em grande parte uma tendência “alfa estocástica” resultante de erros e falta de fiabilidade dos dados (Capítulo 18). Com um tamanho de amostra n, um parâmetro ˆÿm será o parâmetro médio obtido em um grande número de execuções de Monte Carlo. Seja Xi um dado vetor simulado de Monte Carlo indexado por i e Xµ é a estimativa intermediária entre os limites superior e inferior. Visto que, ÿÿm 1 metro 1 m ÿÿmÿXjÿ1= ÿXµÿ1 através de Monte Carlo corre, mas ÿj , ÿXjÿ1ÿ= ÿXµÿ1 , ÿm = com ÿ(Xj ) ÿ= ÿ(Xµ). Por exemplo, considere a estimativa de máxima verossimilhança ))ÿ1 . Com de uma cauda paretiana, ÿ(Xi ) ÿ ( xi ÿ(Xi ÿ ÿ) ÿ 1 ÿ 2 eu ÿ ÿ xm, defina n ( ÿ1ÿiÿn log n n + n ÿ ( xieuÿ ) i=1 logeu ) ÿ log ( ÿ ÿ n ( xieuÿ ) i=1 logeu ÿ ) + log ( ÿ que, devido à concavidade da função logarítmica, dá a desigualdade ÿÿ ÿ xm, ÿ(Xi ÿ ÿ) ÿ ÿ(Xi ). 16.3.4 Definição de um “Evento” Os conflitos “nomeados” são uma designação arbitrária que, muitas vezes, não faz sentido estatisticamente: um conflito pode ter dois ou mais nomes; dois ou mais conflitos podem ter o mesmo nome e não encontramos nenhuma hierarquia satisfatória entre guerra e conflito. Para uniformidade, tratamos os eventos como o evento mais curto ou a sua desagregação em unidades com duração máxima de 25 anos cada. Assim, tratamos as guerras mongóis, que duraram mais de um século e um quarto, como mais do que um único acontecimento. Caso contrário, faz pouco sentido, pois seria o equivalente a tratar o período desde a guerra franco-prussiana até à Segunda Guerra Mundial como "guerras alemãs(ic)", em vez de eventos múltiplos, porque estas guerras tinham nomes individuais em fontes contemporâneas. Efetivamente, as principais fontes, como a Enciclopédia da Guerra [189], listam numerosos conflitos no lugar das "Invasões Mongóis" - quanto mais sofisticados os historiadores em uma determinada área, maior a probabilidade de eles dividirem os conflitos em diferentes eventos "nomeados". e, dependendo dos historiadores, as guerras mongóis variam entre 12 e 55 conflitos. Que controvérsia sobre a definição de “nome” pode ser, mais uma vez, resolvida por bootstrapping. A nossa conclusão, aliás, é invariável com a agregação ou desagregação das guerras mongóis. Além disso, na ausência de um protocolo claramente definido em estudos históricos, tem sido difícil separar a morte directa das guerras e a morte dos efeitos menos directos sobre as populações (por exemplo, bloqueios, fome). Por exemplo, a Primeira Guerra Judaica confundiu os historiadores, pois estima-se que 30 mil mortes vieram da guerra, e um número consideravelmente maior (entre 350 mil e o número 1 milhão de acordo com Josefo) da fome ou das baixas civis. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 306 na cauda risco de conflito violento (com p. cirillo)‡ 16.3.5 Eventos ausentes Podemos supor que existem inúmeras guerras que não fazem parte da nossa amostra, mesmo que duvidemos que tais eventos estejam na “cauda” da distribuição, dado que grandes conflitos têm maior probabilidade de serem relatados por historiadores. Além disso, também assumimos que a sua ocorrência é aleatória nos dados (no sentido de que não têm efeito no agrupamento). Mas estamos cientes de um preconceito resultante do diferencial tanto na precisão como nos relatórios ao longo do tempo: é mais provável que os eventos sejam registados nos tempos modernos do que no passado. Aumentando o valor mínimo L, é provável que o número de tais eventos “perdidos” e o seu impacto diminuam rapidamente. Na verdade, como verificação de robustez, elevar a fasquia para um mínimo L = 500K não altera a nossa análise. Um simples procedimento canivete, realizado removendo aleatoriamente uma proporção de eventos da amostra e repetindo as análises, mostra-nos a dependência de nossa análise em eventos faltantes, dependência que consideramos insignificante, quando focamos na cauda da distribuição de vítimas . Em outras palavras, dado que estamos lidando com extremos, se a remoção de 30% dos eventos e a verificação dos efeitos nos parâmetros não produzirem divergências em relação aos resultados iniciais, então não precisamos nos preocupar em ter perdido 30% dos eventos, pois os eventos faltantes são provavelmente não causará afinamento das caudas.4 16.3.6 Viés de Sobrevivência Não tivemos em conta os preconceitos de sobrevivência na análise, assumindo que eram insignificantes antes de 1960, uma vez que a probabilidade de um conflito afectar toda a humanidade era insignificante. Essa probabilidade (e risco) tornou-se consideravelmente maior desde então, especialmente devido às armas nucleares e outras armas de destruição em massa. 16.4 análise de dados As Figuras 16.3 e 16.4 representam graficamente os nossos dados: o número de vítimas ao longo do tempo. A Figura 16.3 refere-se ao número real estimado de vítimas, enquanto a Figura 16.4 mostra os montantes reescalonados, obtidos através do reescalonamento da observação anterior em relação à população mundial em 2015 (cerca de 7,2 mil milhões de pessoas)5 . A Figura 16.3 pode sugerir um aumento no número de mortes em conflitos armados ao longo do tempo, apoiando assim a ideia de que a violência da guerra aumentou. A Figura 16.4, pelo contrário, parece sugerir uma diminuição no número (reescalonado) de vítimas, especialmente nos últimos cem anos, e possivelmente também na violência. A seguir mostramos que ambas as interpretações são certamente ingênuas, porque não levam em consideração o fato de que estamos lidando com eventos extremos. 4 O oposto não é verdade, o que está no cerne da assimetria do Cisne Negro: tal procedimento não corrige a falta da cauda, os eventos do “Cisne Negro” no registro. Um único evento “Cisne Negro” pode engordar consideravelmente a cauda. Neste caso a cauda é suficientemente gorda e nenhuma informação faltante parece capaz de torná-la mais fina. 5 Observe que, na equação (16.1), para H = 7,2 bilhões, ÿ(x) ÿ x. Portanto a Figura 16.4 também é representativa para dados redimensionados em log. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16.4 análise de dados 307 16.4.1 Picos acima do limite Dada a natureza detalhada dos dados, que pode ser facilmente observada com algumas ferramentas gráficas básicas, como histogramas nos registros e gráficos QQ (a Figura 16.6 mostra o gráfico QQ de vítimas reais em relação a uma distribuição exponencial: a concavidade clara é uma sinal de distribuição de cauda gorda), parece apropriado usar um método bem conhecido da teoria dos valores extremos para modelar as baixas de guerra ao longo do tempo: os Picos acima do Limiar ou POT [184]. De acordo com o método POT, os excessos de uma sequência iid sobre um limite alto u (que temos que identificar) ocorrem nos momentos de um processo de Poisson homogêneo, enquanto os próprios excessos podem ser modelados com uma Distribuição Generalizada de Pareto (GPD) . Os horários de chegada e os excessos são considerados independentes entre si. No nosso caso, assumir a independência dos acontecimentos da guerra não parece uma suposição forte, dada a separação temporal e espacial entre eles. Em relação aos outros pressupostos, pelo contrário, temos que verificá-los. Começamos identificando o limite u acima do qual a aproximação GPD pode se manter. Diferentes ferramentas heurísticas podem ser utilizadas para esse fim, desde o gráfico de Zipf até os gráficos de função de excesso médio, onde se procura a linearidade típica dos fenômenos de cauda gorda [44, 82]. A Figura 16.7 mostra o gráfico da função de excesso médio para vítimas reais6 : uma tendência ascendente está claramente presente, começando já com um limiar igual a 5 mil vítimas. Para a qualidade do ajuste, pode ser apropriado escolher um limite . um pouco maior, como u = 50k 7 Figura 16.6: Gráfico QQ de vítimas reais em relação ao quantil exponencial padrão. A curvatura côncava dos pontos de dados é um sinal claro de caudas pesadas. 6 Resultados semelhantes são válidos para os montantes reescalonados (ingénuos e log). Por uma questão de brevidade, sempre mostramos gráficos para uma das duas variáveis, a menos que uma grande diferença seja observada. 7 Esta ideia também foi apoiada por testes subsequentes de adequação. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 308 na cauda risco de conflito violento (com p. cirillo)‡ Figura 16.7: Gráfico da função de excesso médio (MEPLOT) para vítimas reais. Uma tendência ascendente – quase linear na primeira parte do gráfico – está presente, sugerindo a presença de uma cauda direita gorda. A variabilidade da função de excesso médio para limiares mais elevados deve-se ao pequeno número de observações que excedem esses limiares e não deve ser tida em consideração. 16.4.2 Lacunas em Séries e Autocorrelação Para verificar se os eventos ao longo do tempo ocorrem de acordo com um processo de Poisson homogêneo, pressuposto básico do método POT, podemos observar a distribuição dos tempos ou intervalos entre chegadas, que devem ser exponenciais. As lacunas também não devem mostrar autocorrelação. Figura 16.8: Gráfico ACF de lacunas para vítimas reais, nenhuma autocorrelação significativa é visível. A Figura 16.8 mostra claramente a ausência de autocorrelação. A plausibilidade de uma distribuição exponencial para os tempos entre chegadas pode ser verificada positivamente usando ferramentas heurísticas e analíticas. Aqui omitimos os resultados positivos por questões de brevidade. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16.4 análise de dados 309 Contudo, a fim de fornecer algumas informações úteis adicionais, nas Tabelas 16.2 e 16.3 fornecemos algumas estatísticas básicas sobre os tempos entre chegadas para eventos muito catastróficos em termos de vítimas8 . A simples evidência aí contida já deveria ser suficiente para sublinhar quão pouco fiável pode ser a afirmação de que a violência da guerra tem diminuído ao longo do tempo. Para um evento com mais de 10 milhões de vítimas, se nos referirmos a estimativas reais, o tempo médio de atraso é de 101,58 anos, com um desvio médio absoluto de 144,47 anos9 . Isto significa que é totalmente plausível que nos últimos anos não tenhamos observado um evento tão grande. Poderia simplesmente acontecer amanhã ou em algum momento no futuro. Isto também significa que toda extrapolação de tendências não faz muito sentido para este tipo de eventos extremos. Finalmente, temos de considerar que um evento tão grande como a Segunda Guerra Mundial aconteceu apenas uma vez em 2014, se lidarmos com vítimas reais (para baixas redimensionadas podemos considerar a rebelião de An Lushan); neste caso o tempo de espera possível é ainda maior. 16.4.3 Análise da Cauda Dado que os pressupostos do POT sobre o processo de Poisson parecem ser confirmados pelos dados, é finalmente o momento de ajustar uma Distribuição Generalizada de Pareto aos excedentes. Considere uma variável aleatória X com df F e chame Fu de df condicional de X acima de um determinado limite u. Podemos então definir um rv Y, representando os excessos redimensionados de X acima do limite u, obtendo [184] Fu(y) = P(X ÿ você ÿ y|X > você) = F(você + y) ÿ F(você) 1 ÿ F(você) para 0 ÿ y ÿ xF ÿ u, onde xF é o extremo direito da distribuição subjacente F. Pickands [190], Balkema e de Haan [8], [9] e [10] mostraram que para uma grande classe de distribuição subjacente funções F (seguindo o chamado domínio de atração da distribuição GEV [184]), e um grande u, Fu pode ser aproximado por uma distribuição de Pareto generalizada: Fu(y) ÿ G(y), como u ÿ ÿ onde ÿ e+ ÿy/b G(y) = { 1 ÿ1 (1 ÿy/ÿ) ÿ1/ÿ se ÿ ÿ= se 0 ÿ = 0. . (16.7) Pode-se mostrar que a distribuição GPD é uma distribuição interpolada entre a distribuição exponencial (para ÿ = 0) e uma classe de distribuições de Pareto. Referimo-nos a [184] para mais detalhes. Os parâmetros em (16.7) podem ser estimados usando métodos como máxima verossimilhança ou momentos ponderados de probabilidade [184]. A qualidade do ajuste pode então ser testada usando testes baseados em bootstrap [262]. 8 A Tabela 16.2 não mostra o atraso médio para eventos com 20 milhões (50 milhões) ou mais de vítimas. Isto se deve à quantidade limitada dessas observações em dados reais e não redimensionados. Em particular, todos os eventos com mais de 20 milhões de vítimas ocorreram durante os últimos 150 anos e o tempo médio entre chegadas é inferior a 20 anos. Estamos realmente vivendo em um mundo mais pacífico? 9 No caso de valores reescalonados, os tempos entre chegadas são mais curtos, mas a interpretação é a mesma. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 310 na cauda risco de conflito violento (com p. cirillo)‡ A Tabela 16.4 contém as nossas estimativas de mle para vítimas reais e reescalonadas acima do limite de 50 mil vítimas. Este limiar é de facto aquele que proporciona o melhor compromisso entre a qualidade do ajuste e um número suficiente de observações, para que os erros padrão sejam fiáveis. Os dados reais e os dados reescalonados mostram dois conjuntos diferentes de estimativas, mas a sua interpretação é fortemente consistente. Por esta razão, focamos apenas nas vítimas reais para a discussão. O parâmetro ÿ é o mais importante para nós: é o parâmetro que rege a espessura da cauda direita. Um ÿ maior que 1 (temos 1,5886) significa que nenhum momento está definido para nosso Pareto Generalizado: uma situação de cauda muito gorda. Naturalmente, na amostra, podemos calcular todos os momentos que nos interessam, mas do ponto de vista teórico eles são completamente pouco confiáveis e sua interpretação é extremamente falha (embora um erro muito comum). De acordo com o nosso ajuste, acontecimentos muito catastróficos não são de todo improváveis. Vale ressaltar que a estimativa é significativa, visto que seu erro padrão é de 0,1467. As Figuras 16.9 e 16.10 comparam nossos ajustes com dados reais. Em ambas as figuras é possível ver a qualidade do ajuste do GPD para a maioria das observações acima do limite de 50 mil vítimas. Alguns problemas surgem para eventos muito grandes, como a 2ª Guerra Mundial e a rebelião de An Lushan 10. Neste caso, parece que a nossa adaptação espera que eventos maiores tenham acontecido. Este é um problema bem conhecido para dados extremos [184]. O evento muito grande pode estar logo atrás da esquina. Da mesma forma, eventos com 5 a 10 milhões de vítimas (nem um pouco menores!) parecem ser um pouco mais frequentes do que o esperado pelo nosso ajuste do GPD. Este é outro sinal do carácter extremo das baixas de guerra, que não permite a extrapolação de tendências simplistas. Figura 16.9: Ajuste da cauda do GPD aos dados reais das vítimas (em 10k). Parâmetros conforme Tabela 16.4, primeira linha. 10 Se removermos os dois maiores eventos dos dados, a hipótese do GPD não pode ser rejeitada na taxa de 5%. nível de significância. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16.4 análise de dados 311 Figura 16.10: Distribuição cumulativa do GPD ajustada aos dados reais de vítimas (em 10k). Parâmetros conforme Tabela 16.4, primeira linha. 16.4.4 Uma Visão Alternativa sobre Maxima Outro método é a abordagem de máximos de bloco da teoria dos valores extremos. Nesta abordagem os dados são divididos em blocos, e dentro de cada bloco apenas o valor máximo é levado em consideração. O teorema de Fisher-Tippet [184] garante então que os máximos normalizados convergem na distribuição para uma Distribuição Generalizada de Valores Extremos, ou GEV. 1 ÿ DAR(x; ÿ) = exp ( ÿ(1 + ÿx) ÿ ÿ ÿ ) ÿ ÿ= 0 exp (ÿ exp (ÿx)) ÿ , 1 + ÿx > 0 ÿ=0 Esta distribuição está naturalmente relacionada com o GPD, e referimo-nos a [184] para mais detalhes. Se dividirmos os nossos dados em blocos de 100 anos, obtemos 21 observações (o último bloco é o residual de 2001 a 2014). As estimativas de máxima verossimilhança fornecem um ÿ maior que 2, indicando que estamos no chamado domínio máximo de atração de Fréchet, compatível com fenômenos de cauda muito pesada. Um valor de ÿ maior que 2 na distribuição GEV confirma ainda mais a ideia da ausência de momentos, um sinal claro de uma cauda direita muito pesada. 16.4.5 Análise Completa de Dados Naturalmente, estando cientes das limitações, podemos tentar ajustar todos os nossos dados, enquanto para vítimas superiores a 10.000, ajustamos a Distribuição de Pareto da Equação 16.3 com ÿ ÿ 0,53 por toda parte. A qualidade do ajuste para a “cauda próxima” (L=10K) pode ser vista na Figura 16.2. Resultados semelhantes aos da Figura 16.2 são vistos para diferentes valores na tabela abaixo, todos com a mesma qualidade de ajuste. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 312 na cauda do risco de conflito violento (com p. cirillo)‡ p eu 10K 84, 260 25K 899, 953 50K 116, 794 100K 172, 733 200 mil 232, 358 500 mil 598, 292 Os diferentes valores possíveis da média na Equação 16.4 podem ser calculados através de diferentes valores definidos de ÿ, com um único grau de liberdade: o ÿ correspondente é uma estimativa MLE usando tal ÿ como fixo: para um tamanho de amostra n, e xi as observações ÿn maior que L, ÿÿ = { ÿ : A p n ÿ (uma + 1) ÿ1 eu=1 xiÿL+ÿ média amostral para L = 10K é 9,12 × 106 espalhada nos valores mostrados na Figura 16.15. = 0, ÿ > 0 } . , em 100 mil simulações, com o A média "verdadeira" da Equação 16.4 produz 3,1 ÿ 107 , e repetimos para L = 10K, 20K, 50K, 100K, 200K e 500K, encontrando proporções entre a média estimada verdadeira e a observada com segurança entre 3 e 4. Consulte a Tabela 16.1. Observe que este valor para a média de ÿ 3,5 vezes a média amostral observada é apenas uma diretriz geral, uma vez que, sendo estocástico, não revela nenhuma informação precisa além de nos impedir de levar a sério a estimativa ingênua da média. Para caudas gordas, a média derivada das estimativas de ÿ é mais rigorosa e tem um erro menor, uma vez que a estimativa de ÿ é assintoticamente gaussiana enquanto a média de uma lei de potência, mesmo quando existe, é consideravelmente mais estocástica. Veja a discussão sobre “lentidão da lei dos grandes números” em 8 em conexão com o ponto. Obtemos a média por truncamento para L=10K um pouco mais abaixo, na equação 16.6; cerca de 1,8835 × 107 . Constatamos finalmente que, para os valores de L considerados, 96% dos conflitos com mais de 10.000 vítimas estão abaixo da média: onde m é a média, -a P(X < m) = 1 ÿ ÿ H log ( ÿe ÿ/HEÿ+1 ( ÿH ) ) ÿ . p ÿ1 ÿ ÿ 16,5 testes adicionais de robustez e confiabilidade 16.5.1 Bootstrap para o GPD Para verificar nossa sensibilidade à qualidade/precisão de nossos dados, decidimos realizar algumas análises de bootstrap. Tanto para os dados brutos quanto para os redimensionados, geramos 100 mil novas amostras selecionando aleatoriamente 90% das observações, com reposição. As Figuras 16.11, 16.12 e 16.13 mostram a estabilidade das nossas estimativas de ÿ . Em particular, ÿ > 0 em todas as amostras, indicando a extrema cauda gorda do número de vítimas em conflitos armados. As estimativas de ÿ na Tabela 16.4 aparecem Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16,5 testes adicionais de robustez e confiabilidade 313 ser boas aproximações para nossos parâmetros de forma real GPD, não obstante imprecisões e observações faltantes nos dados. Dados brutos: 100 mil amostras de bootstrap 000.01 amostras de boot-strap para reais dados. Cada amostra é selecionada aleatoriamente com reposição usando 0 aicnêuqerF Figura 16.11: Parâmetros ÿ distribuição de mais de 100 mil 90% das observações originais. 1.2 1,0 1.4 1.6 1,8 2.2 2,0 Dados redimensionados ingenuamente: 100 mil amostras de bootstrap 000.01 amostras de boot-strap para ingenuamente dados redimensionados. Cada amostra é selecionado aleatoriamente com 0 aicnêuqerF Figura 16.12: Parâmetros ÿ distribuição de mais de 100 mil substituição usando 90% do observações originais. 1.4 1.6 1,8 2,0 2.2 2.4 Dados redimensionados em log: 100 mil amostras de bootstrap 000.01 amostras de bootstrap para dados redimensionados em log. Cada amostra é selecionado aleatoriamente com 0 aicnêuqerF Figura 16.13: Distribuição do parâmetro ÿ em 100K substituição usando 90% de as observações originais. 1.4 1.6 1,8 2,0 2.2 2.4 16.5.2 Perturbação entre limites de estimativas Realizamos análises para a “cauda próxima” usando as técnicas de Monte Carlo discutidas na seção 16.3.3. Observamos os "valores p" de segunda ordem, que é a sensibilidade dos valores p em diferentes estimativas na Figura 16.14 – praticamente todos os resultados atendem à mesma significância estatística e qualidade de ajuste. Além disso, analisamos os valores das médias amostrais e dos valores derivados de alfa. Média MLE entre permutações, veja as Figuras 16.15 e 16.16. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 314 na cauda do risco de conflito violento (com p. cirillo)‡ Pr. 0,25 Figura 16.14: Valores P de Pareto-Lomax em 100K combinações. Isto não é para 0,20 determinar o valor p, em vez para verificar a robustez por olhando as variações 0,15 0,10 através de permutações de estimativas companheiros. 0,05 0,00 0,6 0,7 0,8 0,9 1,0 com p Pr. 0,10 0,08 0,06 Figura 16.15: Média amostral redimensionada em 100 mil estimativas entre máximo e mínimo. 0,04 0,02 0,00 eu 8,5×106 9,0×106 9,5×106 Pr. 0,08 0,06 Figura 16.16: Média MLE em 100K 0,04 Redimensionado estimativas entre alto-baixo. 0,02 0,00 eu 3,0×107 3,2×107 3,4×107 3,6×107 16.6 conclusão: o mundo é mais inseguro do que parece? 3,8×107 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 16.6 conclusão: o mundo é mais inseguro do que parece? 315 Registro(P>x ) 0,100 f 0,010 g Figura 16.17: Comparação loglogplot de f e g, mostrando um limite de estilo de colagem em torno de H. 0,001 10-4 10-5 Registro(x) 10 100 1000 104 Para colocar a nossa conclusão nos termos mais simples: a ocorrência de eventos que aumentariam a violência média em um múltiplo de 3 não nos levaria a reescrever este capítulo, nem a alterar os parâmetros nele calibrados. • Na verdade, apenas com base na análise estatística, o mundo é mais inseguro do que números examinados casualmente. A violência é subestimada pelos olhares jornalísticos não estatísticos sobre a média e a falta de compreensão da estocasticidade dos tempos entre chegadas. • A transformação em suporte compacto permitiu-nos realizar as análises em caso de e avaliar tal subestimação que subestimação , ruído, dá-nos uma ideia da e seus limites. • Por outras palavras, um grande evento e mesmo um aumento na violência média observada não seriam inconsistentes com as propriedades estatísticas, o que significaria que justificariam uma reacção de “nada mudou”. • Evitamos discussões sobre homicídios, uma vez que limitamos L a valores > 10.000, mas sua taxa não parece ter uma influência específica nas caudas. Pode ser uma gota no oceano. Obedece dinâmicas diferentes. Podemos ter observado taxas mais baixas de homicídio nas sociedades, mas a maioria dos riscos de morte advém de violência conflito. (As baixas por homicídio, ao redimensionarmos a partir da taxa de 70 por 100 mil, dão-nos 5,04 × 106 vítimas por ano na população actual. Uma queda para níveis mínimos permanece abaixo da diferença entre os erros na média da violência de conflitos com mais de 10.000 vítimas.) • Ignorámos o preconceito de sobrevivência na análise dos dados (ou seja, o facto de que se o mundo tivesse sido mais violento, não estaríamos aqui para falar sobre isso). Adicioná-lo aumentaria o risco. A presença de efeitos de cauda hoje faz com que análises mais aprofundadas exijam levá-los em consideração. Desde 1960, um único conflito – que quase aconteceu – tem a capacidade de atingir o máximo de vítimas, algo que não tínhamos antes. (Podemos reescrever o modelo com um de fragmentação do mundo, constituído por n variáveis aleatórias independentes isoladas "separadas" Xi , cada uma com um valor máximo Hi , com o total ÿn ÿiHi = H, com todos wi > 0, Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 316 na cauda risco de conflito violento (com p. cirillo)‡ ÿn ÿi = 1. Nesse caso, o máximo (que é o pior conflito) poderia exigir as probabilidades conjuntas de que todos os X1 , X2, · · · Xn estejam próximos do seu valor máximo, o que, sob subexponencialidade, é um evento de probabilidade muito menor do que ter uma única variável atingindo seu máximo.)11 16,7 agradecimentos Os dados foram compilados pelo capitão Mark Weisenborn. Agradecemos a Ben Kiernan pelos comentários sobre os conflitos do Leste Asiático. 11 Quanto tempo teremos de esperar antes de fazer um pronunciamento científico sobre a queda na incidência de guerras de certa magnitude? Simplesmente, como o tempo entre chegadas segue uma distribuição exponencial sem memória, ÿ3 aproximadamente a função de sobrevivência de um desvio de três vezes a média é e ÿ 0,05. Significa esperar três vezes mais que o tempo médio entre chegadas antes de dizer algo científico. Para grandes guerras como a Primeira e a Segunda Guerra Mundial, espere 300 anos. É o que é. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 G O QUE ESTÁ EM ARETHECHANCESOFA TERCEIRA GUERRA MUNDIAL? ÿ,† T isto é de um artigo que faz parte do debate com intelectuais públicos que afirmam que a violência caiu “dos dados”, sem perceber que a ciência é difícil; a significância requer mais dados sob caudas grossas e um exame mais cuidadoso. Nossa resposta (do autor e P. Cirillo) fornece uma forma de resumir marize o principal problema do empirismo ingênuo sob caudas gordas. Numa edição recente da Significance, o Sr. Peter McIntyre perguntou quais são as probabilidades de ocorrer a Terceira Guerra Mundial neste século. O professor Michael Spagat escreveu que ninguém sabe, ninguém pode realmente responder – e concordamos totalmente com ele nisso. Depois acrescenta que “uma guerra realmente grande é possível, mas, na minha opinião, extremamente improvável”. Para apoiar a sua declaração, o Prof. Spagat baseia-se parcialmente no trabalho científico popular do Prof. Steven Pinker, expresso em The Better Angels of our Nature e em espaços jornalísticos. O professor Pinker afirma que o mundo tem experimentado um declínio de longo prazo na violência, sugerindo uma mudança estrutural no nível de beligerância da humanidade. É lamentável que o Prof. Spagat, em sua resposta, se refira ao nosso artigo (este volume, Capítulo 16 ), que faz parte de um projeto mais ambicioso no qual estamos trabalhando relacionado a variáveis de cauda gorda. O que caracteriza as variáveis de cauda gorda? Eles têm suas propriedades (como a média) dominadas por eventos extremos, aqueles “nas caudas”. A versão mais conhecida é a "Pareto 80/20". Mostramos que, simplesmente, os dados não apoiam a ideia de uma mudança estrutural na beligerância humana. Portanto, o primeiro erro do Prof. Spagat é interpretar mal a nossa afirmação: não estamos a fazer declarações pessimistas nem optimistas: apenas acreditamos que os estatísticos devem respeitar os fundamentos da teoria estatística e evitar dizer aos dados o que dizer. Voltemos aos primeiros princípios. Capítulo de discussão. 317 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 318 quais são as chances de uma terceira guerra mundial?ÿ,† Figura G.1: Depois de Napoleão, houve uma calmaria na Europa. Até que o nacionalismo veio mudar a história. Princípios Fundamentais Fundamentalmente, a estatística visa garantir que as pessoas não construam teorias científicas a partir do ar quente, isto é, sem se afastarem significativamente do aleatório. Caso contrário, é patentemente “enganado pela aleatoriedade”. Além disso, para variáveis de cauda gorda, o mecanismo convencional da lei dos grandes números é consideravelmente mais lento e a significância requer mais dados e períodos mais longos. Ironicamente, há afirmações que podem ser feitas com poucos dados: a inferência é assimétrica em domínios de cauda gorda. Precisamos de mais dados para afirmar que não existem Cisnes Negros do que para afirmar que existem Cisnes Negros, portanto precisaríamos de muito mais dados para afirmar uma queda na violência do que para afirmar um aumento da mesma. Finalmente, afirmações que não são consideradas estatisticamente significativas – e que o são – nunca devem ser utilizadas para construir teorias científicas. Estes princípios fundamentais são frequentemente ignorados porque, normalmente, a formação estatística dos cientistas sociais é limitada a ferramentas mecanicistas de domínios de cauda fina [2]. Na física, muitas vezes é possível reivindicar evidências de pequenos conjuntos de dados, ignorando metodologias estatísticas padrão, simplesmente porque a variância dessas variáveis é baixa. Quanto maior a variância, mais dados serão necessários para fazer afirmações estatísticas. Para caudas gordas, a variância é normalmente alta e subestimada em dados anteriores. O segundo erro – mais sério – que Spagat e Pinker cometeram foi acreditar que os eventos de cauda e a média são de alguma forma animais diferentes, sem perceber que a média inclui esses eventos de cauda. Para variáveis de cauda gorda, a média é quase inteiramente determinada pelos extremos. Se você não tiver certeza sobre as caudas, então não terá certeza sobre a média. É, portanto, incoerente dizer que a violência diminuiu, mas talvez não o risco de eventos de cauda; seria como dizer que alguém é “extremamente virtuoso, exceto durante o episódio do tiroteio na escola, quando matou 30 alunos”. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 quais são as chances de uma terceira guerra mundial?ÿ,† 319 Robustez Nosso estudo tentou traçar o quadro estatístico mais robusto da violência, contando com métodos da teoria dos valores extremos e métodos estatísticos adaptados às caudas gordas. Também implementámos verificações de robustez para lidar com a imperfeição dos dados recolhidos há alguns milhares de anos: os nossos resultados têm de ser válidos mesmo que um terço (ou mais) dos dados estejam errados. Horários entre chegadas Mostramos que os tempos entre as chegadas entre os principais conflitos são extremamente longos e consistentes com um processo de Poisson homogéneo: portanto, nenhuma tendência específica pode ser estabelecida: nós, como humanos, não podemos ser considerados menos beligerantes do que o habitual. Para um conflito que gere pelo menos 10 milhões de vítimas, um evento menos sangrento do que a Primeira ou a Segunda Guerra Mundial, o tempo de espera é, em média, de 136 anos, com um desvio médio absoluto de 267 (ou 52 anos e 61 desvios para dados redimensionados para a população de hoje). Os setenta anos do que é chamado de “Longa Paz” claramente não são suficientes para afirmar muito sobre a possibilidade de uma Terceira Guerra Mundial num futuro próximo. Subestimação da média Descobrimos também que a violência média observada no passado subestima a verdadeira média estatística em pelo menos metade. Por que? Considere que cerca de 90-97% das observações ficam abaixo da média, o que requer algumas correções com a ajuda da teoria dos valores extremos. (Sob caudas extremamente grossas, a média estatística pode estar mais próxima da observação máxima anterior do que a média da amostra.) Um erro comum Erros semelhantes foram cometidos no passado. Em 1860, um certo HT Buckle2 usou o mesmo raciocínio não estatístico de Pinker e Spagat. Que esta busca bárbara está, no progresso da sociedade, em constante declínio, deve ser evidente, mesmo para o leitor mais apressado da história europeia. Se compararmos um país com outro, descobriremos que durante um longo período as guerras têm se tornado menos frequentes; e agora o movimento está tão claramente marcado que, até ao início tardio das hostilidades, tínhamos permanecido em paz durante quase quarenta anos: uma circunstância sem paralelo (...) Surge a questão de saber qual a participação dos nossos sentimentos morais teve para trazer essa grande melhoria. Sentimentos morais ou não, o século que se seguiu à prosa do Sr. Buckle revelou-se o mais assassino da história da humanidade. 2 Buckle, HT (1858) História da Civilização na Inglaterra, Vol. 1, Londres: John W. Parker e filho. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 320 quais são as chances de uma terceira guerra mundial?ÿ,† Concluímos dizendo que achamos apropriado – e nos sentimos honrados – expor erros estatísticos fundamentais em uma revista chamada Significance, já que o problema é precisamente sobre significância e transmissão de noções de rigor estatístico para o público em geral. público. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Parte VI ME TA PROBABILIDADE PA PERS Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 17QUÃO ESPESSURA TA ILSEMERGEFROM RECURSIVAEPISTÊMICA UNCER DE INTY † com uma distribuição específica e termine com uma Gaussiana. O O Opostocomece do Limite Central: Com o Teorema do Limite Central, o oposto tem maior probabilidade de ser verdade. Lembre-se de como engordamos a cauda do Gaussiano estocastizando a variância? Agora vamos usar o mesmo método de metaprobabilidade, colocando camadas adicionais de incerteza. O argumento da regressão (erro sobre erro) O principal problema por trás do Cisne Negro é a compreensão limitada do erro do modelo (ou representação) e, para aqueles que o entendem, a falta de compreensão dos erros de segunda ordem (sobre os métodos usados para calcular os erros) e por um argumento de regressão, uma incapacidade de reaplicar continuamente o pensamento até ao seu limite ( especialmente quando não se fornece nenhuma razão para parar). Novamente, não há problema em parar a recursão, desde que ela seja aceita como um a priori declarado que escapa aos métodos quantitativos e estatísticos. Redederivação epistêmica e não estatística de leis de potência Observe que as derivações anteriores de leis de potência foram estatísticas (vantagem cumulativa, apego preferencial, efeitos de o vencedor leva tudo, criticidade) e as propriedades derivadas por Yule, Mandelbrot , Zipf, Simon, Bak e outros resultam de condições estruturais ou da quebra dos pressupostos de independência nas somas de variáveis aleatórias permitindo a aplicação do teorema do limite central, [90] [212][100] [162] [161] . Este trabalho é inteiramente epistêmico, baseado em dúvidas filosóficas padrão e argumentos de regressão. Capítulo de discussão. Uma versão deste capítulo foi apresentada no Memorial Científico de Benoit Mandelbrot em 29 de abril de 2011, em New Haven, CT. 323 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 324 como caudas grossas emergem da incerteza epistêmica recursiva† 17.1 métodos e derivações Figura 17.1: Uma versão deste capítulo foi apresentada no memorial de Benoit Mandelbrot. 17.1.1 Camadas de incertezas Tomemos uma distribuição de probabilidade padrão, digamos a Gaussiana. A medida de dispersão, aqui ÿ, é estimada, e precisamos anexar alguma medida de dispersão em torno dela. A incerteza sobre a taxa de incerteza, por assim dizer, ou parâmetro de ordem superior, semelhante ao que chamamos de “volatilidade da volatilidade” no jargão dos operadores de opções (ver Taleb, 1997, Derman, 1994, Dupire, 1994, Hull e White , 1997) – aqui seria “taxa de incerteza sobre a taxa de incerteza”. E não há razão para parar aí: podemos continuar a aninhar estas incertezas em ordens superiores, com a taxa de incerteza da taxa de incerteza da taxa de incerteza, e assim por diante. Não há razão para ter certeza em nenhum ponto do processo Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 17.1 métodos e derivações 325 17.1.2 Integrais de Ordem Superior no Caso Gaussiano Padrão Começamos com o caso de uma Gaussiana e focamos a incerteza no desvio padrão assumido. Defina ÿ(µ,ÿ;x) como a PDF gaussiana para o valor x com média µ e desvio padrão ÿ. Um desvio padrão estocástico de 2ª ordem é a integral de ÿ entre valores de ÿ ÿ com ÿ1 , sob o PDF f (ÿ¯, ÿ1 ; ÿ) , seu parâmetro de escala (nossa abordagem para traçar o erro do erro), não necessariamente seu desvio padrão; o valor esperado de ÿ1 é ÿ1 . R+ ÿ f(x)1 = ÿ 0 ÿ(ÿ, ÿ, x)f (ÿ¯, ÿ1 ; ÿ) dÿ Generalizando para a enésima ordem, a função densidade f(x) torna-se ÿ f(x)N = ÿ 0 ÿ ... ÿ0 ÿ(µ, ÿ, x)f (ÿ¯, ÿ1 , ÿ) f (ÿ1 , ÿ2, ÿ1). . . f (ÿNÿ1 , ÿN, ÿNÿ1) dÿ dÿ1 dÿ2 ... dÿN (17.1) O problema é que esta abordagem tem muitos parâmetros e requer as especificações das distribuições subordinadas (em finanças, o lognormal tem sido tradicionalmente usado 2 2p para ÿ ] uma vez que o uso (ou direto Gaussiano de umapara Gaussiana a razãopermite Log[ 2pvalores negativos). t _ Precisaríamos especificar uma medida f para cada camada de taxa de erro. Em vez disso, isto pode ser aproximado usando o desvio médio para ÿ, como veremos a seguir. Discretização usando séries aninhadas de dois estados para ÿ- um processo multiplicativo simples acesso Vimos no último capítulo uma simplificação bastante eficaz para capturar a convexidade, a razão de (ou diferença entre) ÿ(µ,ÿ,x) e ÿ desvio padrão 0 ÿ(µ, ÿ, x)f (ÿ¯, ÿ1 , ÿ) dÿ (o de primeira ordem) usando uma média ponderada de valores de ÿ, digamos, para um caso simples de volatilidade estocástica de uma ordem: ÿ ÿ(1 ± uma(1)) com 0 ÿ a(1) < 1, onde a(1) é o desvio absoluto médio proporcional para ÿ, em outras palavras, a medida da taxa de erro absoluta para ÿ. Usamos como probabilidade 2 de cada estado. Ao contrário da situação anterior, não estamos preservando a variância, mas sim o STD. Assim, a distribuição utilizando o desvio padrão estocástico de primeira ordem pode ser expressa como: 1 f(x)1 = 2 ( ÿ(µ, ÿ (1 + a(1)), x) + ÿ(µ, ÿ(1 ÿ a(1)), x) ) (17.2) Agora assuma a incerteza sobre a taxa de erro a(1), expressa por a(2), da mesma maneira que antes. Assim, no lugar de a(1) temos a(1)( 1± a(2)). 12 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 326 como caudas grossas emergem da incerteza epistêmica recursiva† a1 1 a2 1 a3 1 ÿ a1 1 a2 1 S a1 1 a2 1 1a3 ÿ a1 1 S a1 1 1a2 a3 1 ÿ a1 1 1a2 S a1 1 1a2 1a3 S S 1a1 a2 1 a3 1 ÿ 1a1 a2 1 S 1a1 a2 1 1a3 ÿ 1a1 S 1a1 1a2 a3 1P 1a1 1a2 S 1a1 1a2 1a3 S Figura 17.2: Três níveis de taxas de erro para ÿ seguindo um processo multiplicativo O desvio padrão estocástico de segunda ordem: 1 f(x)2 = 4 ( ÿ ( µ, ÿ(1 + a(1)(1 + a(2))), x ) + ÿ ( µ, ÿ(1ÿ a(1)(1 + a(2))), x ) + ÿ(µ, ÿ(1 + a(1)(1ÿ a(2)), x ) +ÿ ( µ, ÿ(1ÿ a(1)(1ÿ a(2))), x ) ) (17.3) e a enésima ordem: 1 f(x)N = onde MNº é o i eu 2N 2N ÿ ÿ(ÿ, ÿMN ix) , eu=1 escalar (linha) da matriz MN ( 2 N × 1) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 17.1 métodos e derivações 327 Nº 2 MN = ÿ N ÿ ÿ j=1 ÿ ÿ (a(j)Ti,j + 1) eu=1 e Ti,j o elemento da i linha e j coluna da matriz da combinação exaustiva de ntuplas do conjunto {ÿ1, 1}, que são as sequências de comprimento n (1, 1, 1, . ..) representando todas as combinações de 1 e ÿ1. para N=3, ÿ 1 1 1 1 1 ÿ1 ÿ 1 ÿ1 1 1 ÿ1 ÿ1 T= 1 ÿ1 1 ÿ1 1 ÿ1 ÿ1 ÿ1 1 ÿ1 ÿ1 ÿ1 ÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿ e ÿ M3 = ÿÿÿÿÿÿÿÿÿÿÿÿ (1 ÿ a(1))(1 ÿ a(2))(1 ÿ a(3)) (1 ÿ ÿ a(1))(1 ÿ a(2))(a(3) + 1) (1 ÿ a(1))(a(2) + 1)(1 ÿ a(3)) (1 ÿ a(1))(a(2) + 1)(a(3) + 1) (a(1) ) + 1)(1 ÿ a(2))(1 ÿ a(3)) (a(1) + 1)(1 ÿ a(2))(a(3) + 1) (a(1) + 1) (uma(2) + 1)(1 ÿ uma(3)) (uma(1) + 1)(uma(2) + 1)(uma(3) + 1) ÿÿÿÿÿÿÿÿÿÿÿÿ Então M3 = {(1 ÿ a(1))(1 ÿ a(2))(1 ÿ a(3))}, etc. 1 Note-se que as várias taxas de erro a(i) não são semelhantes aos erros de amostragem, mas sim à projeção das taxas de erro no futuro. Eles são, repetindo, epistêmicos. A distribuição final da mistura A distribuição média ponderada da mistura (lembrese de que ÿ é a PDF gaussiana comum com média µ, padrão ÿ para a variável aleatória x). Nº 2 eu , f(x|µ, ÿ, M, N) = 2ÿN ÿ ÿ ( µ, ÿMN x) eu=1 Poderia ser aproximado por uma distribuição lognormal para ÿ e o V correspondente como sua própria variância. Mas é precisamente o V que nos interessa, e V depende de como os erros de ordem superior se comportam. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 328 como caudas grossas emergem da incerteza epistêmica recursiva† 0,6 0,5 0,4 0,3 0,2 0,1 6 4 2 2 4 6 Figura 17.3: Caudas mais espessas (picos mais altos) para valores mais elevados de N; aqui N = 0, 5, 10, 25, 50, todos os valores de 1uma = 10 A seguir, consideremos os diferentes regimes para erros de ordem superior. regime 1 (explosivo): caso de parâmetro constante a Caso especial de constante a: Suponha que a(1)=a(2)=...a(N)=a, ou seja, o caso de taxa de erro proporcional plana a. A Matriz M colapsa em uma árvore binomial convencional para a dispersão no nível N. N f(x|µ, ÿ, M, N) = 2ÿN ÿ , x) ( N j ) ÿ ( µ, ÿ(a + 1)j (1 ÿ a) Nÿj (17.4) j=0 Devido à linearidade das somas, quando a é constante, podemos usar a distribuição binomial como pesos para os momentos (observe novamente o efeito artificial de restringir o primeiro momento µ na análise a um conjunto, certo e conhecido a a priori). Momento ÿ 1 2 3 ÿÿÿÿÿÿ 4 6m 2s 2 (uma 2 ÿ eu 2p . 2 (a 3µs2 + 1)N + µ + 1)N + µ 2+ (a 2 1)N + µ 4 + 3 (uma 3 4 2 + 6a + 1) Np 4 ÿÿÿÿÿÿ Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 17.1 métodos e derivações 329 Observe novamente a estranheza de que, apesar da natureza explosiva dos momentos mais elevados, a expectativa do valor absoluto de x é independente de a e de N, uma vez que as perturbações de ÿ não afetam o primeiro momento absoluto = ÿ 2 inicial assumido ÿ). A situação seria diferente com a adição de x. Pi 2 Cada recursão multiplica a variância do processo por (1 + a ÿ (isto é, o ). O processo é semelhante a um modelo de volatilidade estocástica, com o desvio padrão (não a variância) seguindo uma distribuição lognormal, cuja volatilidade cresce com M, portanto atingirá a variância infinita no limite. Consequências Para uma constante a > 0, e no caso mais geral com a variável a onde a(n) ÿ a(n-1), os momentos explodem. menor valor de a >0, já que ( 1 + um segundo momento 2 )N é ilimitado, leva a A- Mesmo o indo para o infinito (embora não o primeiro) quando Nÿ ÿ. Então, algo tão pequeno quanto a . A taxa de erro de 001% ainda levará à explosão de momentos e 2 invalidação do uso da classe de distribuições L. B- Nessas condições, precisamos usar leis de potência por razões epistêmicas, ou, pelo menos, 2 distribuições fora do L norma, independentemente de observações de dados passados. Observe que precisamos de uma razão a priori (no sentido filosófico) para cortar o N em algum lugar, limitando assim a expansão do segundo momento. Convergência para propriedades semelhantes às leis de potência Podemos ver no exemplo a seguir gráfico Log-Log (Figura 1) como, em ordens mais altas de volatilidade estocástica, com coeficiente estocástico igualmente proporcional, (onde a(1)=a(2) =...=a(N)= ) como a densidade se aproxima daquela de uma Lei de Potência (assim como 1 10 a distribuição Lognormal com maior variância), conforme mostrado em densidade mais plana no gráfico LogLog. As probabilidades continuam a aumentar nas caudas à medida que adicionamos camadas de incerteza até que parecem atingir o limite da lei de potência, enquanto, ironicamente, o primeiro momento permanece invariante. O mesmo efeito ocorre quando a aumenta em direção a 1, já que no limite o expoente final P>x se aproxima de 1, mas permanece >1. 17.1.3 Efeito em Pequenas Probabilidades A seguir medimos o efeito na espessura das caudas. O efeito óbvio é o surgimento de pequenas probabilidades. Considere a probabilidade excedente, ou seja, a probabilidade de exceder K, dado N, para o parâmetro uma constante: N P > K|N = ÿ j=0 2 K ÿNÿ1 ( N j )erfc ( ÿ 2ÿ(a + 1)j (1 ÿ a) Nÿj ) (17,5) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 330 como caudas grossas emergem da incerteza epistêmica recursiva† 1 a , N0,5,10,25,50 10 Registro de preço 0,1 104 107 1010 1013 Registro x 1,5 2,0 5,0 3,0 7,0 10,0 15,0 20,0 30,0 Figura 17.4: Gráfico LogLog da probabilidade de exceder x mostrando achatamento no estilo da lei de potência como N sobe. Aqui todos os valores de a = 1/10 onde erfc(.) é o complementar da função de erro, 1-erf(.), erf(z) = ÿ Efeito de convexidade A próxima tabela mostra a razão de probabilidade excedente sob diferentes valores de N divididos pela probabilidade no caso de um Gaussiano padrão. Tabela 17.1: Caso de a = N P>3,N P>3,N=0 5 P>5,N P>5,N=0 1,01724 1,155 1,326 10 1.0345 15 1 10 P>10,N P>10,N=0 7 45 1,05178 1,514 20 1,06908 221 1,720 25 1,0864 922 1.943 Tabela 17.2: Caso de a = N P>3,N P>3,N=0 5 2,74 10 4,43 3347 1 100 P>5,N P>5,N=0 P>10,N P>10,N=0 146 1,09 × 1012 805 8,99 × 1015 2,21 × 1017 15 5,98 20 1980 7,38 25 3529 1,20 × 1018 8,64 5321 3,62 × 1018 2 Pi ÿ0 Com e -t 2 dt Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 17.2 regime 2: casos de decaimento dos parâmetros a( n) 17.2 regime 2: casos de decaimento dos parâmetros a( n) Como dissemos, podemos ter (na verdade precisamos ter) razões a priori para diminuir o parâmetro a ou parar N em algum lugar. Quando a ordem superior de a(i) diminui, então os momentos tendem a ser limitados (as caudas herdadas virão da lognormalidade de ÿ). 17.2.1 Regime 2-a; “Sangria” de Erro de Ordem Superior Faça um “sangramento” de erros de ordem superior na taxa ÿ, 0ÿ , tal como a(N) = ÿ ÿ < 1 a(N-1), portanto N a(1), com a(1) a intensidade convencional do estocástico a(N) =ÿ desvio padrão. Suponha µ=0. Com N=2 , o segundo momento torna-se: M2(2) = (uma(1)2 + 1) ÿ 2 (uma(1)2ÿ 2 + 1) Com N=3, M2(3) = p2 ( 1 + uma(1)2 ) (1 + ÿ 2 uma(1)2 ) (1 + ÿ 4 uma(1)2 ) finalmente, para o N geral: 2 N-1 M3(N) = (uma(1)2 + 1) ÿ ÿ 2i (a(1)2l (17.6) +1) eu=1 Podemos reexpressar 17,6 usando o símbolo Q-Pochhammer (a; q)N = ÿ M2(N) = ÿ 2 ( ÿa(1)2 ; ÿ N-1 eu=1 ( 1 ÿ aqi ) 2)N O que nos permite chegar ao limite limão M2(N) = ÿ 2 2 2 2 ( eu ; eu ) 2 ( uma(1)2 ; eu ) 2 (ÿ2 ÿ 1) Nÿÿ ÿ (ÿ2 + 1) Quanto ao quarto momento: Por recursão: M4 (N) = 3ÿ4 N-1 ÿ (6a(1)2l 2i + um(1)4min4i +1) eu=0 M4 (N) = 3ÿ4 ((2 ÿ 2 ÿ 3 ) uma(1)2 ; ÿ 2 ) N ( ÿ ( 3 + 2ÿ 2 ) uma(1)2 ; ÿ 2 ) N (17.7) 331 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 332 como caudas grossas emergem da incerteza epistêmica recursiva† limão Nÿÿ M4 (N) = 3ÿ4 ((2 ÿ 2 ÿ 3 ) uma(1)2 ; ÿ 2 ) ÿ ( ÿ ( 3 + 2ÿ 2 ) a(1)2 ; ÿ 2 ) ÿ (17,8) Portanto, o segundo momento limite para ÿ=0,9 e a(1)=0,2 é apenas 1,28 ÿ2 , um significativo mas viés de convexidade relativamente benigno. O quarto momento limite é apenas 4 , 9,88ÿ, mais de 3 vezes o de Gaussiano 4 ), mas ainda quarto momento finito. Para pequenos (3 valores de ÿ de a e valores de ÿ próximos de 1, o quarto momento colapsa para o de um Gaussiano. 17.2.2 Regime 2-b; Segundo método, uma taxa de erro não multiplicativa Para N recursões, ÿ(1 ± (a(1)(1 ± (a(2)(1 ± a(3)( ...))) 1 eu P(X, µ, ÿ, N) = f ( x, µ, ÿ ( 1 + ( T NA N ) i ) ÿ eu =1 (MN.T + 1)i ) é o i- ésimo componente do (N × 1) produto escalar de T N a matriz de Tuplas em (xx) , L o comprimento da matriz e A contém os parâmetros AN = ( aj ) j=1,...N Assim, por exemplo, para N = 3, T = ( 1, a, a 2 , 3a _ ) + ÿ 32+a + aa 3 2 ÿa a+a ÿ 32aÿa + a 3 2 ÿa ÿ a + a A3T _ 3 = 32a+ a ÿ a 3 2 ÿa + a ÿa 32aÿa ÿ a 3 2 ÿa ÿ a ÿ a ÿÿÿÿÿÿÿÿÿÿÿÿ Os momentos são os seguintes: M1 (N) = µ M2(N) = µ2 + 2p ÿÿÿÿÿÿÿÿÿÿÿÿ Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 17,3 limite de distribuição 333 M4 (N) = µ 4 + 12µ 2s + 12s 2 N ÿ 2e um eu=0 No limite: 2 12h limão Nÿÿ M4 (N)= 2 1 ÿ uma 4 + m + 12µ 2p o que é muito leve. 17.3 distribuição limite Veja Taleb e Cirillo [241] para o tratamento da distribuição limite que será lognormal nas condições certas. Na verdade, as aproximações lognormais funcionam bem quando os erros sobre os erros estão em proporção constante. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 18 S PARA TA ILEXPONENTFOR CÁSTICO AS YM METRICP OW ERL AW S† classe com expoente de cauda estocástica,o expoente ÿ tendo Examinamossua variáveis aleatórias na lei de potência/variação lenta própria distribuição. Mostramos o efeito da estocasticidade de ÿ na expectativa e nos momentos mais altos das variáveis aleatórias capaz. Por exemplo, os momentos de uma variável de cauda direita ou assimétrica à direita, quando finitos, aumentam com a variância de ÿ; aqueles de um assimétrico à esquerda diminuem. O mesmo se aplica ao déficit condicional (CVar) ou funções de excesso de média. Provamos o caso geral e examinamos a situação específica de ÿ ÿ [b, ÿ), b > 1 com distribuição lognormal. A estocasticidade do expoente induz um viés significativo na estimativa da média e dos momentos superiores na presença de incerteza nos dados. Isto tem consequências no erro de amostragem, uma vez que a incerteza sobre ÿ se traduz numa média esperada mais elevada. O viés é conservado sob soma, mesmo com um número suficientemente grande de somas para garantir a convergência para a distribuição estável. Estabelecemos desigualdades relacionadas à assimetria. Consideramos também a situação das leis de potência limitada (ou seja, com apoio compacto) e aplicamo-la ao estudo da violência realizado por Cirillo e Taleb (2016). Mostramos que a incerteza relativa aos dados históricos aumenta a verdadeira significar. Capítulo de pesquisa. Conferência: Extremos e Riscos em Dimensões Superiores, Lorentz Center, Leiden, Holanda, setembro de 2016. 335 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 336 expoente de cauda estocástica para leis de potência assimétricas† Plano de fundo 18.1 A volatilidade estocástica foi introduzida heuristicamente nas finanças matemáticas por traders que procuram preconceitos na avaliação de opções, onde se considera que uma distribuição gaussiana tem várias variações possíveis, quer localmente, quer numa data futura específica. As opções longe do dinheiro (ou seja, relativas a eventos de cauda) aumentam de valor com a incerteza na variância da distribuição, uma vez que são convexas em relação ao desvio padrão. Isso levou a uma família de modelos de movimento browniano com variância estocástica (ver revisão em Gatheral [102]) e provou ser útil no rastreamento das distribuições do subjacente e do efeito do caráter não gaussiano de processos aleatórios nas funções do processo (como preços das opções). Assim como as opções são convexas em relação à escala da distribuição, encontramos muitas situações em que as expectativas são convexas em relação ao expoente final da Lei de Potência. Esta nota examina dois casos: • As leis de potência padrão, unicaudais ou assimétricas. • A lei da pseudo-potência, onde uma variável aleatória parece ser uma lei da potência, mas tem suporte compacto, como no estudo da violência [46] , onde as guerras têm o número de vítimas limitado a um valor máximo. 18.2 distribuições unicaudais com alfa estocástico 18.2.1 Casos Gerais Definição 18.1 Seja X uma variável aleatória pertencente à classe de distribuições com cauda direita de "lei de potência", que é suportada em [x0, +ÿ) , ÿ R: Subclasse P1 : {X : P(X > x) = L(x)x - a , ÿ qL(x) = 0 para q ÿ 1} ÿx q (18.1) Notamos que x_0 pode ser negativo por deslocamento, desde que x0 > ÿÿ. Classe P: {X : P(X > x) = L(x) x -a } (18.2) onde ÿ significa que o limite da razão ou rhs para lhs vai para 1 quando x ÿ ÿ. L : L(kx) [xmin, +ÿ) ÿ (0, +ÿ) é uma função de variação lenta, definida como limxÿ+ÿ = 1 para L(x) qualquer k > 0. L '(x) é monótono. A constante ÿ > 0. Assumimos ainda que: Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 18.2 distribuições unicaudais com alfa estocástico 337 limxÿÿ ' (x)x = 0 (18.3) L limxÿÿ L ”(x) x = 0 (18.4) Nós temos P1 ÿ P Notamos que a primeira classe corresponde às distribuições de Pareto (com deslocamento e escalonamento adequados), onde L é uma constante e P às leis de potência unilaterais mais gerais. 18.2.2 Desigualdade Alfa Estocástica Ao longo do resto do artigo usaremos como notação X a versão de X, o caso ÿ constante . ' para o alfa estocástico Proposição 18.1 Seja p = 1, 2, ..., X ' ser a mesma variável aleatória que X acima em P1 (o regular unicaudal classe de variação), com x0 ÿ 0, exceto com ÿ estocástico com todas as realizações > p que preservam a média ÿ¯, ANTIGO 'p ) ÿ E(Xp ) . Proposição 18.2 Seja K um limite. Com X na classe P, temos o déficit condicional esperado (CVar): limão ANTIGO ' |Xÿ>K) ÿ limite Kÿÿ E(X|X>K). Kÿÿ O esboço da prova é o seguinte. Observamos que E(X p ) é convexo para ÿ, no seguinte sentido. Seja Xÿi a variável aleatória distribuída com expoente de cauda constante ÿi , com ÿi > p, ÿi, e ÿi os pesos positivos normalizados: ÿi ÿi = 1, 0 ÿ |ÿi |ÿ 1, ÿi ÿiÿi = ÿ¯. Pela desigualdade de Jensen: ai p ) ÿ E(ÿ (ÿiX ANTIGO p ÿi ÿ eu ai )). eu Como as classes são definidas por suas funções de sobrevivência, primeiro precisamos resolver a densidade correspondente: ÿ(x) = ÿx ÿÿÿ1L(x, ÿ) ÿ x ÿÿL (1,0)(x, ÿ) e obtenha a constante de normalização. a eu(x0, ÿ) = x 0 - 2x0L (1,0)(x0, ÿ) ÿÿ1 2 - 2x 0L (2,0)(x0, a) (ÿ ÿ 1)(ÿ ÿ 2) , (18,5) ÿ ÿ= 1, 2 quando existem a primeira e a segunda derivada, respectivamente. A notação de slot L (p,0) (x0, ÿ) é a abreviação de ÿ pL(x,ÿ) ÿx p |x=x0 . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 338 expoente de cauda estocástica para leis de potência assimétricas† Pelo teorema de representação de Karamata, [22],[248], uma função L em [x0, +ÿ) está se movendo lentamente (Definição) se e somente se puder ser escrita na forma ÿ(t) eu(x) = exp (ÿ x tdt) + ÿ(x) x0 onde ÿ(.) é uma função mensurável limitada convergindo para um número finito como x ÿ +ÿ, e ÿ(x) é uma função mensurável limitada convergindo para zero como x ÿ +ÿ. '(x) vai para 0 quando x ÿ ÿ. (Assumimos ainda em 18.3 e 18.4 2 Assim, L ÿ aquele L (x) vai para 0 mais rápido que x e L “(x) vai para 0 mais rápido que x partes, ). Integrando por ÿ E(X p ) = x p 0 + pÿ x pÿ 1dF¯(x) x0 onde F¯ é a função de sobrevivência nas Eqs. 23.1 e 18.2. Integrando por partes três vezes adicionais e eliminando derivadas de L(.) de ordem superior a 2: x E(X p ) = pÿÿ 0 x0 pÿÿ+1 _ eu(x0, ÿ) L (1,0)(x0, a) p - uma x0 pÿÿ+2 _ + - (p ÿ ÿ)(p ÿ ÿ + 1) L (2,0)(x0, a) (18.6) (p - ÿ) (p - ÿ + 1) (p - ÿ + 2) que, para o caso especial de X em P1 se reduz a: E(X p ) = x a p (18.7) 0a-p ' Quanto à Proposição 2, podemos abordar a prova a partir da propriedade de que limxÿÿ L 0. Isso permite (x) = uma prova da lei de var der Mijk de que a igualdade de Paretian é invariante a E(X|X>K) o limite na cauda, ou seja converge para uma constante como K ÿ +ÿ. K A Equação 18.6 apresenta as condições exatas da forma funcional de L(x) para que a convexidade se estenda às subclasses entre P1 e P. Nossos resultados se referem a distribuições que são transformadas por deslocamento e escalonamento, do tipo: x ÿ x ÿ µ + x0 (Pareto II), ou com transformações adicionais para os tipos de Pareto II e IV. Notamos que a representação P1 utiliza o mesmo parâmetro, x0, tanto para escala quanto para valor mínimo, como simplificação. Podemos verificar que a expectativa da Eq. 18,7 é convexo para ÿ: ÿÿ2 ÿE(X p ) x 0 p 2 = (ÿÿ1)3 . 18.2.3 Aproximações para a Classe P Para P \ P1, nossos resultados são válidos quando podemos escrever uma aproximação da expectativa de -a X como uma constante multiplicando a integral de x E(X) ÿ k ÿ ÿ para) 1 , nomeadamente (18.8) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 18,3 somas de leis de potência 339 onde k é uma constante positiva que não depende de ÿ e ÿ(.) é aproximada por uma função linear de ÿ (mais um limite). A expectativa será convexa para ÿ. Exemplo: Distribuição T de Student Para a distribuição T de Student com cauda ÿ, a função "sofisticada" de variação lenta de uso comum para leis de potência simétricas em finanças quantitativas, a meia-média ou a média da distribuição unilateral (ou seja, com suporte em R+ torna-se 2ÿ(a) = 2 ÿ ÿÿ ( ÿ+12 ) ÿuma _ (1 + log(4)) Pi ÿ ÿÿ ( ÿ 2 ) , onde ÿ(.) é a função gama. 18,3 somas de leis de potência Como estamos tratando daqui em diante de convergência para a distribuição estável, consideramos situações de 1 < ÿ < 2, portanto p = 1 e nos preocuparemos apenas com a média. Observamos que a convexidade da média é invariante aos somatórios das variáveis distribuídas pela Lei de Potência como X acima. A distribuição Estável tem uma média que nas parametrizações convencionais não parece depender de ÿ – mas na verdade depende dele. Seja Y distribuído de acordo com uma distribuição de Pareto com densidade f(y) ÿ , y ÿ ÿ > 0 e ÿÿÿy ÿÿÿ1 com seu expoente final 1 < ÿ < 2. Agora, seja Y1 , Y2, . . . Sim são cópias idênticas e independentes de Y. Seja ÿ(t) a função característica de f(y). Temos ÿ(t) = ÿ(ÿit) ÿÿ(ÿÿ, ÿit), onde ÿ(., .) é a função gama incompleta. Podemos obter a média da função característica da média de n somas 1 n (Y1 t n ) . n + Y2 + ...Yn), ou seja, ÿ( t n ) ÿÿ( ÿeu n ÿt = (ÿi) ÿ(nÿ1)n 1ÿÿn Tomando a primeira derivada: ÿ nÿ ÿ(nÿ1)t ÿ(nÿ1)ÿ1ÿ (18,9) isto istoÿ ÿa, ÿ é um e ( n )nÿ1 ( (ÿi) ÿ ÿÿÿ t ÿÿ ( ÿÿ, ÿ n)ÿn n) e t n ) n ÿÿ( limnÿÿ ÿiÿt = ÿ ÿ ÿ ÿ t=0 a ÿÿ ÿ 1 (18.10) Assim podemos ver como a distribuição assintótica convergente para a média terá como média a os tempos da escala ÿÿ1 , que não depende de n. Seja ÿ S (t) ser a função característica da distribuição estável correspondente Sÿ,ÿ,µ,ÿ, da distribuição de cópias infinitamente somadas de Y. Pelo teorema da continuidade de Lévy, temos Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 340 expoente de cauda estocástica para leis de potência assimétricas† 1 n ÿiÿnYi • D S, com distribuição Sa,ÿ,µ,ÿ, onde ÿÿ denota convergência D ÿÿ na distribuição e S • x (t) = limnÿÿ ÿ(t/n) n são equivalentes. Portanto, estamos lidando com o resultado padrão [272],[209], para somas exatas de Pareto [269], substituindo o µ convencional pela média acima: ÿt Sh (t) = exp (eu ( ÿ uma - 1 + |t| 2 )sgn(t) + i ))) . a ( b bronzeado (pa 18.4 distribuições estáveis assimétricas Podemos verificar por simetria que, efetivamente, inverter a distribuição nas subclasses P1 e P2 em torno de y0 para torná-la negativa produz um valor negativo da média d momentos mais elevados, daí a degradação do ÿ estocástico. A questão central passa a ser: Observação 17: Preservação da Assimetria Uma soma normalizada na distribuição unicaudal P1 com expectativa que depende de ÿ da forma na Eq. 18.8 convergirá necessariamente na distribuição para uma distribuição estável assimétrica Sÿ,ÿ,µ,1 , com ÿ ÿ= 0. Observação 18 ' Deixe Y ser Y sob ÿ estocástico com preservação de média. O efeito de convexidade torna-se sinal (E(Y ' ) ÿ E(Y) ) = sinal(b). O esboço da prova é o seguinte. Considere duas funções de variação lenta como em 23.1, cada uma em um lado da cauda. Temos L(y) = 1y<yÿ L ÿ(y) + 1yÿyÿ L ÿ eu + (y), L : [yÿ , +ÿ], calcárioÿÿ L + + (e): (y) = c ÿÿ ÿÿ L ÿ(y), L : [ÿÿ, yÿ ], calcárioÿÿÿ L ÿ(y) = d. De [209], ÿ P(X > x) ÿ cxÿÿ , x ÿ +ÿ se então Y converge na distribuição para Sÿ,ÿ,µ,1 ÿÿ ÿÿ P(X < x) ÿ d|x| ÿÿ com , x ÿ +ÿ, o coeficiente ÿ = cÿd c+d . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Distribuição de Pareto 18,5 com distribuição lognormal ÿ 341 ÿ onde: ÿÿ1 Podemos mostrar que a média pode ser escrita como (ÿ+ ÿ ÿÿ) ÿ eu ÿ+ ÿ ÿÿ se ÿ yÿ + (y)dy, ÿ ÿ yÿ L ÿ(y) você ÿÿ Distribuição de Pareto 18,5 com distribuição lognormal ÿ Agora suponha que ÿ esteja seguindo uma distribuição Lognormal deslocada com média ÿ0 e 2s 2 , _ valor mínimo b, ou seja, ÿ ÿ b segue um Lognormal L ( log(ÿ0) ÿ ÿ ). O o parâmetro b nos permite trabalhar com um limite inferior no expoente final para satisfazer a expectativa finita. Sabemos que o expoente final acabará por convergir para b, mas o processo pode ser bastante lento. Proposição 18.3 Assumindo expectativa finita para X' e para o expoente o deslocamento lognormalmente distribuído 2p . 2, variável ÿ ÿ b com lei L ( log(ÿ0) ÿ ' EI p ), b ÿ 1 valor mínimo para ÿ e escala ÿ: (e ) = E(Y) + ÿ 2p . ÿb ) (18.11) ÿ0 ÿ b Precisamos de b ÿ 1 para evitar problemas de expectativa infinita. Seja ÿ(y, ÿ) a densidade com expoente de cauda estocástica. Com ÿ > 0, ÿ0 > b, b ÿ 1, ÿ > 0, Yÿÿ>0 , ÿ E(S) = ÿ ÿ ÿ b vocêÿ(y; ÿ) dy daÿ eu a ÿ =ÿb 1 ÿuma ÿ 1 ÿ 2ÿs(a ÿ b) 2p . ÿ ( log(ÿ ÿ b) ÿ log(ÿ0 ÿ b) + ÿÿÿ ÿ ( ÿ0 experiência 2s 2 (18.12) 2 )2 ÿ ÿÿ sim +e 2p . ÿb ) = . ÿ0 ÿ b Aproximação da Densidade Com b = 1 (que é o limite inferior para b), obtemos a densidade com ÿ estocástico: 1 ÿ(y; ÿ0, ÿ) = limite kÿÿ A2 k ÿ 1 eu(ÿ0 ÿ 1)eu não! 1 eu(euÿ1)p2 2 (log(ÿ) ÿ log(y))iÿ1 (i + log(ÿ) ÿ log(y)) eu=0 (18.13) Este resultado é obtido expandindo ÿ em torno de seu limite inferior b (que simplificamos para b = 1) e integrando cada soma. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 342 expoente de cauda estocástico para leis de potência assimétricas† Distribuição pareto 18,6 com alfa distribuído gama Proposição 18.4 ' Assumindo expectativa finita para escala ÿ, e para expoente uma distribuição gama deslocada a variável X ÿ ÿ 1 com lei ÿ(.), média ÿ0 e variância s2 , todos os valores para ÿ maiores que 1: ANTIGO ' ) = E(X ' ) 2s _ + (ÿ0 ÿ 1)(ÿ0 ÿ s ÿ 1)(ÿ0 + s ÿ 1) (18.14) Prova. - (ÿÿ1)(ÿ0ÿ1) é é2 e (a0ÿ1) 2 ( (ÿÿ1)(ÿ0ÿ1) ) ÿ ÿ(a) = 2 é2 , uma > 1 (18.15) é (ÿÿ1)ÿ ( (ÿ0ÿ1) 2 2) ÿ ÿ1 - (18.16) ala x ÿÿÿ1ÿ(ÿ) dÿ (a0ÿ1)2 (ÿÿ1)(ÿ0ÿ1) 2 é 2s _ é ÿ um (e = ÿ1 ( (ÿÿ1)(ÿ0ÿ1))ÿ 2) sim é 2 )) + (ÿ ÿ 1) ( (ÿ ÿ 1)ÿ ( (ÿ0ÿ1)2 = 1 2 (1 ÿ0 + s ÿ 1 + 1 ÿ0 ÿ s ÿ 1 2) 18.7 a lei de potência limitada em cirillo e taleb (2016) Em [46] e [45], os estudos fazem uso de leis de poder limitado, aplicadas à violência e ao risco operacional, respectivamente. Embora com ÿ < 1 a variável Z tenha expectativas finitas devido ao limite superior. Os métodos oferecidos foram uma transformação suave da variável da seguinte forma: começamos com z ÿ [L, H), L > 0 e transformamos em x ÿ [L, ÿ), este último sendo legitimamente distribuído pela Lei de Potência. Portanto, a transformação logarítmica suave): x = ÿ(z) = L ÿ H log ( H ÿHz - EU), e f(x) = ás ( xÿL + 1)ÿÿÿ1 . p Obtemos assim a distribuição de Z que terá uma expectativa finita para todos os valores positivos de ÿ. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 18,8 comentários adicionais 343 ÿ 2E(Z) ÿÿ2 1 = ás H3 (H ÿ L) (e uma + 1, uma + 1, uma + 1 1, | H ) 2,3 ( como uma, uma, H (2H 3G 4,03,4 ( como ) uma ÿ2H _ 2 (H + p)G uma + 1, uma + 1 H | (18.17) 1, uma, uma ás 2 + ÿ ( ÿ2 + (ÿ + 1)H 3,0 + 2ÿHÿ ) Eÿ ( H )) ÿ Hÿ(H + ÿ) ) o que parece ser positivo na faixa de perturbações numéricas em [46].3 Em um nível tão baixo de ÿ, a expectativa é extremamente convexa 12 e , o viés será, portanto, extremamente pronunciado. Esta convexidade tem a seguinte implicação prática. Os dados históricos sobre a violência nos últimos dois milénios são fundamentalmente pouco fiáveis [46]. Conseqüentemente, uma imprecisão sobre o expoente final, devido a erros embutidos nos dados, precisa estar presente nos cálculos. O que foi dito acima mostra que a incerteza sobre ÿ tem mais probabilidade de tornar a média estatística "verdadeira" (que é a média do processo em oposição à média da amostra) maior do que menor, portanto, apóia a afirmação de que mais incerteza aumenta a estimativa de violência. 18,8 comentários adicionais O viés na estimativa da média e as deficiências decorrentes da incerteza no expoente da cauda podem ser adicionados às análises onde os dados são insuficientes, não confiáveis ou simplesmente propensos a falsificações. Além da inferência estatística, esses resultados podem se estender a processos, seja um processo composto de Poisson com subordinação de leis de potência [217] (ou seja, um tempo de chegada de Poisson e um salto que é distribuído pela Lei de Potência) ou um processo de Lévy. Este último pode ser analisado considerando sucessivas “distribuições de fatias” ou discretização do processo [50]. Como a expectativa de uma soma de saltos é a soma das expectativas, aparecerá a mesma convexidade que obtivemos na Eq. 18.8. 18,9 agradecimentos Marco Avellaneda, Robert Frey, Raphael Douady, Pasquale Cirillo. 3G 4,0 uma + 1, uma + 1, uma + 1 1, H | 3.4 ( asc uma, uma, uma ) é a função Meijer G. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 19 COM ELES - DISTRIBUIÇÃO DE JOGADORES FPS -VA ANDP - HACKING ‡ para valores de p em conjuntos de fenômenos estatisticamente idênticos Apresentamosena, uma distribuição de probabilidade exata (meta-distribuição) bem como a distribuição do valor p mínimo entre m testes independentes. Derivamos a distribuição para pequenas amostras ples 2 < n ÿ n ÿ ÿ 30, bem como o limite à medida que o tamanho da amostra n se torna grande. Também examinamos as propriedades do “poder” de um teste através da distribuição de seu inverso para um determinado valor p e parametrização. Os valores P mostram-se extremamente distorcidos e voláteis, independentemente do tamanho da amostra n, e variam muito entre repetições exatamente dos mesmos protocolos sob cópias estocásticas idênticas do fenômeno; tal volatilidade faz com que o valor mínimo de p divirja significativamente do valor “verdadeiro”. É demonstrado que definir o poder oferece pouca solução, a menos que o tamanho da amostra seja aumentado acentuadamente ou o valor p seja reduzido em pelo menos uma ordem de grandeza. As fórmulas permitem a investigação da estabilidade da reprodução dos resultados e do "phacking" e outros aspectos da meta-análise – incluindo uma metadistribuição dos resultados p-hackeados. Do ponto de vista probabilístico, nem um valor p de 0,05 nem um “poder” de 0,9 parecem fazer o menor sentido. Suponha que conheçamos o “verdadeiro” valor p, ps, como seriam suas realizações em várias tentativas de cópias estatisticamente idênticas dos fenômenos? Por valor verdadeiro ps, entendemos seu valor esperado pela lei dos grandes números em um conjunto m de amostras possíveis para o fenômeno sob escrutínio, ou seja 1 eu P ÿÿmpi _ P ÿÿ ps (onde ÿÿ denota convergência em probabilidade). Um argumento de convergência semelhante também pode ser feito para a “mediana verdadeira” correspondente pM. O principal resultado do artigo é que a distribuição de n pequenas amostras pode ser explicitada (embora com funções inversas especiais), bem como sua limitação parcimoniosa Capítulo de pesquisa. 345 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 346 meta-distribuição de valores p e p-hacking‡ um para n grande, sem outro parâmetro além do valor mediano pM. fomos Não conseguimos obter uma forma explícita para ps , mas contornamos isso usando a mediana. Finalmente, a distribuição do valor p mínimo abaixo pode ser explicitada, em uma fórmula parcimoniosa que permite a compreensão de preconceitos na ciência estudos. PDF 10 8 n=5 n=10 n=15 6 n=20 n=25 4 2 0,00 0,05 0,10 0,15 0,20 p Figura 19.1: Os diferentes valores para a Equ. 19.1 mostrando convergência para a distribuição limite. Descobriu-se, como podemos ver na Figura 19.2 , que a distribuição é extremamente assimétrica (inclinada para a direita), a ponto de 75% das realizações de um valor p "verdadeiro" de 0,05 será <0,05 (uma situação limítrofe tem 3x mais probabilidade de passar do que reprovar em um determinado protocolo) e, o que é pior, 60% do verdadeiro valor p de 0,12 estará abaixo de 0,05. Embora com suporte compacto, a distribuição apresenta os atributos de extrema cauda gorda. Para um valor p observado de, digamos, 0,02, o valor p "verdadeiro" é provável que seja> 0,1 (e muito possivelmente próximo de 0,2), com um desvio padrão> 0,2 (sic) e um desvio médio em torno de 0,35 (sic, sic). Por causa do excesso 1 e eu 2 assimetria, medidas de dispersão em L (e normas mais altas) variam dificilmente com ps, então o desvio padrão não é proporcional, o que significa que um valor p de 0,01 na amostra tem uma probabilidade significativa de ter um valor verdadeiro > 0,3. Então, claramente, não sabemos do que estamos falando quando falamos sobre valores p. Tentativas anteriores de uma meta-distribuição explícita na literatura foram encontradas em [132] e [208], embora para situações de subordinação gaussiana e parametrização menos parcimoniosa. A gravidade do problema de significância do chamado "estatisticamente significativo" foi discutida em [105] e ofereceu uma solução via bayesiana. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 19.1 provas e derivações 347 métodos em [138], que de fato recomenda o mesmo rigor dos padrões para valores de p ÿ 0,01. Mas a gravidade da extrema assimetria da distribuição dos valores-p só é aparente quando se olha para a metadistribuição. Para notação, usamos n para o tamanho da amostra de um determinado estudo e m o número de ensaios que levam a um valor p. 19.1 provas e derivações Proposição 19.1 Seja P uma variável aleatória ÿ [0, 1]) correspondente ao valor p unilateral derivado da amostra da estatística do teste T pareado (variância desconhecida) com valor mediano M(P) = pM ÿ [0 , 1] derivado de uma amostra de tamanho n. A distribuição pelo conjunto de cópias estatisticamente idênticas da amostra tem para PDF 1 2 ÿ(p;para pM)H ÿ(p; pM) = { ÿ(p; pM)L p< para p > 1 2 ÿ(p; pM)L = ÿ p (ÿnÿ1) 12 ÿp ( ÿpM ÿ 1 ) - ( ÿp ÿ 1 ) ÿpM ÿ 2 ÿ( 1 ÿ ÿp ) ÿp ÿ( 1 ÿ ÿpM ) ÿpM + 1 ÿ 1 ÿÿÿ ' ÿ(p; pM)H = ( 1 ÿ ÿ p ) 1 ÿ ÿÿ 2 1 p + 1 ÿ1 2 ÿ 1ÿÿp ÿ ÿpM ÿ ÿp ÿ1ÿÿpM 1ÿÿpM - ' ÿ1 2p ( n 1 ÿÿÿ ÿ ( ÿÿpM ) + 2ÿ( 1 ÿ ÿ ÿ1 2 ,2 ) , ÿpM = I 1ÿ2pM ( 1 n+1 2 (19.1) 'p ) eu'ÿÿ p ÿ( 1 ÿ ÿpM ) ÿpM + 1 ÿ onde ÿp = eu n/2 (ÿnÿ1) ( eup ÿ 1 ) ( ÿpM ÿ 1 ) ÿp _ ÿ n 2 , 2 ), __ p = eu ÿ1ÿl ÿ1 n 2pÿ1 ( 1 2 , 2 ), e eu (.) (., .) é o função beta regularizada inversa. Observação 19 Para p=12a distribuição não existe na teoria, mas existe na prática e podemos trabalhar 1 em torno dele com a sequência pmk = como 1 ± 2no mil ,gráfico que mostra uma convergência para a distribuição uniforme em [0, 1] na Figura 19.3. Observe também que o que é chamado de hipótese “nula” é efetivamente um conjunto de medida 0. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 348 meta-distribuição de valores p e p-hacking‡ Prova. Seja Z uma variável aleatória normalizada com realizações ÿ, de um vetor ÿv de n realizações, com média amostral mv e desvio padrão amostral sv, ÿ = (onde mh é o nível contra o qual é testado), portanto assumido mvÿm ÿsvn como ÿ Student T com n graus de liberdade e, crucialmente, supostamente fornece uma média de ¯ÿ, n+1 2 n ( ( ¯ÿÿÿ) 2+n ) f(ÿ; ¯ÿ) = ÿ nB ( n 22) , 1 onde B(.,.) é a função beta padrão. Seja g(.) a função de sobrevivência unicaudal da distribuição T de Student com média zero e n graus de liberdade: ÿ 1 Em _ 1 2 ÿ 2+n ( n g(ÿ) = P(Z > ÿ) = 1 ÿÿ ÿÿ ÿÿ0 2, 2) 2 2, 2 (eu (z z12+n n 2 ) + 1) z < 0 onde I(.,.) é a função Beta incompleta. Procuramos agora a distribuição de g ÿ f(ÿ). Dado que g(.) é uma função de Borel legítima, e nomeando p a probabilidade como uma variável aleatória, temos um resultado padrão para a transformação: f ( g (ÿ1) (p) ) ÿ(p, ÿÿ) = | g ÿ ( g (ÿ1)(p) ) | Podemos converter ¯ÿ na probabilidade de sobrevivência mediana correspondente devido à simetria de Z. Como metade das observações cai em ambos os lados de ¯ÿ, podemos verificar que a transformação preserva a mediana: g( ¯ÿ) = portanto ÿ(pM , .) = 2 . Portanto, acabamos tendo { ¯ÿ : 1 Em _ 1 2 ¯ÿ 2+n ( n 1 2 2 (eu z z 2+n 12 , 1 2 , 2 ) = pM} (caso positivo) e { ¯ÿ : 2 ) + 1) = pM} n ( 12 , (caso negativo). Substituindo obtemos a Eq.19.1 e a Proposição a ção 19.1 está concluída. Notamos que n não aumenta a significância, uma vez que os valores de p são calculados a partir de variáveis normalizadas (daí a universalidade da metadistribuição); um n alto corresponde a uma convergência aumentada para o gaussiano. Para n grande, podemos provar a seguinte proposição: Proposição 19.2 Sob as mesmas suposições acima, a distribuição limite para ÿ(.): ÿerfcÿ1 (2pM)(erfcÿ1 (2pM)ÿ2erfcÿ1 (2p)) limnÿÿ ÿ(p; pM) = e onde erfc(.) é a função de erro complementar e er fc(.) ÿ1 é o inverso. (19.2) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 19.1 provas e derivações 349 O CDF limite ÿ(.) 1 ÿ(k; pM) = 2 ergc ( foutÿ1 (1 ÿ 2k) ÿ foutÿ1 (1 ÿ 2pM) ) Prova. Para n grande, a distribuição de Z = mv (19.3) torna-se o de um Gaussiano, e o ÿsvn função de sobrevivência unicaudal g(.) = erfc ( ÿÿ 2 ) , ÿ(p) ÿ ÿ 2erfcÿ1 (p). 12 PDF/Frequ. 53% de realizações <0,05 25% de realizações <0,01 0,15 0,10 5% ponto de corte valor p (verdadeira média) Mediana 0,05 0,00 p 0,05 0,10 0,15 0,20 Figura 19.2: A distribuição de probabilidade de um valor p unilateral com valor esperado 0,11 gerado por Monte Carlo (histograma), bem como analiticamente com ÿ(.) (a linha sólida). Extraímos todas as subamostras possíveis de um conjunto com determinadas propriedades. A assimetria excessiva da distribuição torna o valor médio consideravelmente superior ao da maioria das observações, causando assim ilusões de "significância estatística". Esta distribuição limitante se aplica a testes pareados com variância amostral conhecida ou presumida, uma vez que o teste se torna uma variável gaussiana, equivalente à convergência do teste T (Student T) para o gaussiano quando n é grande. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 350 meta-distribuição de valores p e p-hacking‡ f5 4 0,025 .1 .15 3 0,5 2 1 0,0 0,2 0,4 0,6 0,8 1,0 Figura 19.3: A distribuição de probabilidade de p em diferentes valores de pM. Observamos como pM = para uma distribuição uniforme. 12 p pistas Observação 20 Para valores de p próximos de 0, ÿ na Equ. 19.2 pode ser calculado de forma útil como: 2 2ÿp M ) ÿ(p; pM) = ÿ 2ÿpM log ( 1 2 ))ÿ2 log(p) e ÿ ÿ log( 2ÿ log( 12ÿp ÿ ÿ log( 2ÿ log( 1 2ÿp M ))ÿ2 log(pM) 2 2 + O (p A aproximação funciona mais precisamente para a faixa de valores relevantes 0 < p < ). (19.4) 1 2p . A partir disso podemos obter resultados numéricos para convoluções de ÿ usando a Transformada de Fourier ou métodos semelhantes. Podemos obter a distribuição do valor p mínimo por m ensaios em situações estatisticamente idênticas, assim, ter uma ideia de "p-hacking", definido como tentativas dos pesquisadores de obter os valores p mais baixos de muitos experimentos, ou tentar até um dos testes produz significância estatística. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 19,2 potência inversa do teste 351 Proposição 19.3 A distribuição do mínimo de m observações de valores p estatisticamente idênticos torna-se (sob a distribuição limite da proposição 19.2): ÿm(p; pM) = m eerfcÿ1 (2pM)(2erfcÿ1 (2p)ÿerfcÿ1 (2pM)) 1 ( 1- 2 erfc ( erfcÿ1 (2p) ÿ erfcÿ1 (2pM) ))mÿ1 (19,5) Prova. P (p1 > p, p2 > p, . . . , pm > p) = ÿni=1ÿ(pi ) = ÿ¯ (p) m. Tomando a primeira derivada obtemos o resultado. Fora da distribuição limite: integramos numericamente para diferentes valores de m conforme mostrado na Figura 19.4. Então, mais precisamente, para m tentativas, a expectativa é calculada como: 1 E(pmin) = ÿ 0 ÿm ÿ(p; pM) (ÿ p0 ÿ(u, .) du )mÿ1 dp P-val mínimo esperado 0,12 0,10 n=5 0,08 n=15 0,06 0,04 0,02 m testes 2 4 6 8 10 12 14 Figura 19.4: O valor de “p-hacking” em m ensaios para pM = 0,15 e ps = 0,22. 19,2 potência inversa do teste Seja ÿ o poder de um teste para um determinado valor p p, para sorteios aleatórios de X do parâmetro não observado ÿ e um tamanho de amostra de n. Para avaliar a confiabilidade de ÿ como uma verdadeira medida de potência, realizamos um problema inverso: Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 352 meta-distribuição de valores p e p-hacking‡ b Xÿ,p,n ÿ b ÿ1 (X) Proposição 19.4 Seja ÿc a projeção do poder do teste a partir das realizações assumidas como sendo do aluno T distribuídas e avaliadas sob o parâmetro ÿ. Nós temos 1 2 1 ÿ(ÿc)H para ÿ(ÿc) = { ÿ(ÿc)L para ÿc ÿc < > 2 onde - ÿ(ÿc)L = ÿ 1 ÿ ÿ1ÿ 1 nº 2 c1 2 1 ÿ1ÿ ( - 2 ÿ c3 c3 ) ÿ1 ) n+1 1 ÿ1 ÿ ÿ(ÿ1ÿ1)ÿ1ÿ2 ÿ ÿ(ÿ1ÿ1)ÿ1+ÿ1 ( 2 c3 ÿ 1 ÿ ÿ (ÿ1 ÿ 1) ÿ1 (19.6) n , 2 2B (1 2) n ÿ(ÿc)H = ÿ ÿ2 (1 ÿ ÿ2) ÿ ÿ ÿ 1 ÿÿ ÿ2 (ÿ ÿ(ÿ2ÿ1)ÿ2 +ÿ2 )ÿ 1 ÿ3 ÿ1+2ÿ 1c3 ÿ1+2ÿ ÿ(ÿ2ÿ1)ÿ2ÿ1 c2ÿ1 + 1 c3 ÿÿ 1 n+1 2 (19.7) ÿ ÿ (ÿ2 ÿ 1) ÿ2B ( n 2 ),2 , 2 ) onde ÿ1 = eu ÿ1 1 ÿ1 2, 2, 2ÿc ( n 2 ) , ÿ2 = I 2ÿcÿ1 ( 1 n e ÿ3 = eu ÿ1 1 2, (1,2psÿ1) ( n 2 ). 19.3 aplicação e conclusão • Pode-se ver com segurança que sob tal estocasticidade para a realização dos valoresp e a distribuição do seu mínimo, para obter o que as pessoas querem dizer com 5% de confiança (e as inferências que obtêm disso), elas precisam de um valor-p de pelo menos pelo menos uma ordem de grandeza menor. • As tentativas de replicar artigos, como o projecto de ciência aberta [49], devem considerar uma margem de erro no seu próprio procedimento e uma tendência pronunciada para resultados favoráveis (erro Tipo-I). Não deveria ser surpresa que um teste anteriormente considerado significativo falhe durante a replicação – na verdade, é a replicação de resultados considerados significativos numa margem estreita que deveria ser surpreendente. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 19.3 aplicação e conclusão 353 • O "poder" de um teste tem o mesmo problema, a menos que se reduza os valores-p ou define o teste em níveis mais elevados, como 0,99. reconhecimento Marco Avellaneda, Pasquale Cirillo, Yaneer Bar-Yam, gente simpática no twitter ... Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 H ALGUMAS CONFUSÕES INBEH DE IORAL ECONOMIA vimos anteriormente (Capítulos 3 e 11) que o problema da “superestimação EM das caudas” pelos agentes é mais atribuível ao uso de um modelo “normativo” errado por psicólogos e cientistas de decisão que são inocentes de caudas gordas. Aqui usamos dois casos ililustrativo de tal uso impróprio da probabilidade, descoberto com nossa heurística simples de induzir um efeito de segunda ordem e ver o efeito da desigualdade de Jensens no operador de expectativa. Um desses usos pouco rigorosos da probabilidade (o puzzle do prémio de capital) envolve o promotor do "cutucão", um método invasivo e sinistro concebido por psicólogos que visa manipular as decisões dos cidadãos. h.1 estudo de caso: como a aversão miópica à perda é mal especificada O chamado “quebra-cabeça do prêmio de ações”, originalmente detectado por Mehra e Prescott [169], é assim chamado porque as ações têm historicamente gerado um retorno muito alto em relação aos investimentos de renda fixa; o enigma é por que não é arbitrado. Podemos facilmente perceber que a análise ignora a ausência de ergodicidade neste domínio, como vimos no Capítulo 3: os agentes não capturam realmente os retornos do mercado incondicionalmente; é tolice usar probabilidades conjuntas e a lei dos grandes números para investidores individuais que têm apenas uma vida. Além disso, “retornos esperados positivos” para um mercado não são condição suficiente para um investidor obter uma expectativa positiva; é necessária uma certa estratégia de escalonamento de caminho no estilo Kelly ou cobertura dinâmica dependente do caminho. Benartzi e Thaler [17] afirmam que a teoria da perspectiva Kahneman-Tversky [139] explica tal comportamento devido à miopia. Isto pode ser verdade, mas tal análise desmorona sob caudas grossas. Então aqui engordamos as caudas da distribuição com a estocasticidade de, digamos, o parâmetro de escala, e podemos ver o que acontece com alguns resultados na literatura que parecem ab355 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 356 algumas confusões na economia comportamental surdos à primeira vista e, na verdade, são absurdos sob o uso mais rigoroso de análises probabilísticas. Aversão míope à perda H 1 a, 2 0,04 0,05 Figura H.1: O efeito da "utilidade" de Ha,p(t) ou teoria prospectiva do efeito de segunda ordem na variância. Aqui ÿ = 1, µ = 1 e t variável. 0,06 0,07 0,08 Valores mais altos de um 0,09 t 0,10 0,15 0,20 0,25 H 1a , 2 H1 1.6 Figura H.2: A razão (t) 1,5 Ha, 2 1 ou a degradação da 1.4 H0 “utilidade” sob efeitos de segunda ordem. 1.3 1.2 1.1 a 0,2 0,4 0,6 0,8 Tomemos a função w de avaliação da teoria do prospecto para x mudanças na riqueza x, parametrizada com ÿ e ÿ. wÿ,a (x) = x a 1xÿ0 ÿ ÿ(ÿx a ) 1x<0 Seja ÿµt,ÿ ÿ t (x) a densidade da distribuição normal com média e desvio padrão correspondentes (escalonado por t) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 h.1 estudo de caso: como a aversão miópica à perda é mal especificada 357 A "utilidade" esperada (no sentido de prospect): ÿ H0(t) = ÿ = (H.1) wÿ,ÿ (x)ÿµt,ÿ ÿ t (x) dx ÿÿ a 1 a 2 a ÿ2 ( 1ÿ 2t )ÿ 2 ( ÿ ( ÿ + 21 ) ( ÿ ÿ 2 ÿp _ t a/2 ( 1ÿ 2t )a/2 a ÿÿÿ t ÿ 1 2t ) 1F1 ( ÿ ÿ + 2ÿÿt ÿ 1 1 2 1; ; ÿ 2 tµ 2 2s 2 ) (H.2) uma+1 a ÿ 2p µG ( 2 + 1) ( ÿ ÿ+1t 2 ÿ 2t ) 1F1 ( 1 ÿ ÿ + 3; ; ÿ 2 2 a 2 uma+1 uma t + p +1 (1s 2t ) tµ 2 ( 1 ÿ 2t )a/2 2 2s 2 )) Podemos ver pela H.2 que a amostragem mais frequente do desempenho se traduz em pior utilidade. Portanto, o que Benartzi e Thaler fizeram foi tentar encontrar a “miopia” do período de amostragem que se traduz na frequência de amostragem que causa o “prêmio” – o erro é que eles perderam efeitos de segunda ordem. Agora, sob variações de ÿ com efeitos estocáticos, capturados heuristicamente, a história muda: e se houver uma probabilidade muito pequena de que a variância seja multiplicada por um grande número, com a variância total permanecendo a mesma? A chave aqui é que nem sequer estamos alterando a variância: estamos apenas mudando a distribuição para as caudas. Estamos aqui generosamente assumindo que, pela lei dos grandes números, foi estabelecido que o “quebra-cabeça dos prémios de acções” era verdadeiro e que as acções realmente superaram as obrigações. Então alternamos entre dois estados, (1 + a) ÿ2 wp p e (1 ÿ a) wp (1 ÿ p). Reescrevendo H.1 ÿ Ha,p(t) = ÿ ÿÿ wÿ,ÿ (x) ( p ÿµ t, ÿ 1+a ÿ ÿ t (x) ) dx (x) + (1 ÿ p) ÿµ t, ÿ 1ÿa ÿ ÿ t (H.3) Resultado Conclusivamente, como pode ser visto nas figuras H.1 e H.2, os efeitos de segunda ordem anulam as afirmações feitas sobre aversão à perda “míope”. Isto não significa que a miopia não tenha efeitos, mas sim que não pode explicar o “prémio de capital”, não do exterior (ou seja, a distribuição pode ter retornos diferentes, mas do interior, devido à estrutura do Kahneman- Função de valor de Tversky v(x). Comentário Usamos a heurística (1 + a) principalmente por motivos ilustrativos; poderíamos 2 usar uma distribuição completa para ÿ com resultados semelhantes. Por exemplo, a distribuição gama em c-1 e - av -c V(Va) ção com densidade f(v) = com a expectativa V correspondendo à variância C(c) utilizada na teoria do “prêmio de capital”. Reescrevendo H.3 sob essa forma, Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 358 algumas confusões na economia comportamental ÿ ÿ ÿ ÿ0 ÿÿ wÿ,ÿ (x)ÿµ t, ÿ v t(x) f(v) dv dx Que tem uma solução de formato fechado (embora um pouco demorada por aqui). Verdadeiro problema com Benartzi e Thaler É claro que o problema tem a ver com caudas grossas e com a convergência sob o LLN, que tratamos separadamente. Preferência de tempo sob erro de modelo Outro exemplo do efeito da aleatoriedade de um parâmetro – a criação de uma camada adicional de incerteza, por assim dizer. Este autor certa vez assistiu com grande horror a um Laibson [150], em uma conferência na Universidade de Columbia, apresentar a ideia de que fazer uma massagem hoje para duas amanhã, mas reverter daqui a um ano é irracional (ou algo do tipo) e precisamos remediar isso com alguma política. (Para uma revisão dos descontos temporais e das preferências intertemporais, ver [96], uma vez que os economistas tendem a transmitir aos agentes o que parece ser uma "taxa de desconto" variável, derivada de um modelo simplificado).1 Intuitivamente, e se eu introduzir a probabilidade de que a pessoa que oferece a massagem esteja cheia de bobagens? Isso claramente me faria preferir o imediatismo a quase qualquer custo e, condicionalmente à presença dele em uma data futura, inverter a preferência. É isso que modelaremos a seguir. Primeiro, o desconto no tempo tem que ter uma forma geométrica, para que a preferência não se torne negativa: o desconto linear na forma Ct, onde C é uma constante e t é o tempo no futuro, é t descartado: precisamos de algo como C ou , para extrair a taxa (1 + k), que pode ser matematicamente t simplificada em uma exponencial, levando-a ao limite de tempo contínuo. O desconto exponencial tem a forma ÿk t. Efetivamente, tal método de desconto usando um modelo superficial evita "inconsistência e de tempo", portanto, com ÿ < t: lim tÿÿ e -kt eÿk (tÿÿ) =e ÿk ÿ Agora adicione outra camada de estocasticidade: o parâmetro de desconto, para o qual usamos o símbolo ÿ, agora é estocástico. Então agora só podemos tratar H(t) como -eu tÿ(ÿ) dÿ. H(t) = ÿ e É fácil provar o caso geral que sob estocasticização simétrica em torno do centro da distribuição) intensidade ÿÿ (isto é, com probabilidades usando 12 a mesma técnica que fizemos em 4.1: 1 Farmer e Geanakoplos [89] aplicaram uma abordagem semelhante ao desconto hiperbólico. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 h.1 estudo de caso: como a aversão miópica à perda é mal especificada 359 H ' (t, ÿÿ) = 2 Hÿ (t, ÿÿ) = Hÿ (t, 0) 1 e 2 ÿt (e 1 ÿ(ÿÿÿÿ)t + e (e (ÿÿÿÿÿ)t + e ÿ(ÿ+ÿÿ)t ) (ÿÿÿÿ)t ) = cosh(ÿÿt ) Onde cosh é a função hiperbólica cosseno - que convergirá para um determinado valor onde as preferências intertemporais forem planas no futuro. Exemplo: Distribuição Gama Na distribuição gama com suporte em - a- ÿ R+ , ÿÿÿ com parâmetros ÿ e ÿ, ÿ(ÿ) = ÿ(ÿ) obtemos: Libra 1e eu e ÿ e H(t, ÿ, ÿ) = ÿ - b) ÿÿ t ( ÿ ÿal ÿÿ1 C(a) 0 dÿ = b ÿuma (1 b + t )ÿuma , então lim tÿÿ H(t, uma, b) =1 H(t ÿ ÿ, uma, b) O que significa que as preferências se tornam planas no futuro, independentemente de quão acentuadas sejam no presente, o que explica a queda na taxa de desconto na literatura económica. Além disso, falsificando a distribuição e normalizando-a, quando ÿ k - ÿ(ÿ)=e k , obtemos o chamado desconto hiperbólico obtido normativamente: 1 H(t) = 1 +kt, o que acaba por não ser a "patologia" empírica que os investigadores ingénuos afirmam ser. Acontece apenas que o modelo deles deixou passar uma camada de incerteza. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Parte VII OPTIONTRADING E PREÇOS NGUNDER FAT TA ILS Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 20 FA ILURAS DA TEORIA FINANCEIRA SEM OPÇÃO DE PREÇO † chamada "economia neoclássica", fracassa no mundo real. Como Vamos discutir por quefinanceira a teoriaprecifica das opções, conforme vista de acordo com a teoria a teoria produtos financeiros? O diretor da escola diferença de paradigma entre o apresentado por Bachelier em 1900, [6] e o financeiro moderno conhecido como Black-Scholes-Merton [24] e [171] reside em algumas suposições centrais pelas quais Bachelier estava mais próximo da realidade e da forma como os comerciantes fazem negócios e têm fez negócios durante séculos. 0,012 0,010 0,008 0,006 0,004 0,002 Figura 20.1: A cobertura erros para um portfólio de opções (sob revisão diária regime) ao longo de 3.000 dias, sob volatilidade constante Student T com expoente de cauda ÿ = 3. Tecnicamente os erros não deveriam convergir em tempo finito, pois sua distribuição tem variância infinita. 0,000 20.1 bacharel, não negro O modelo de Bachelier baseia-se numa expectativa atuarial de pagamentos finais – e não numa cobertura dinâmica. Isso significa que você pode usar qualquer distribuição! Uma prova mais formal usando Capítulo de discussão. 363 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 364 falhas da teoria financeira com precificação de opções† 0,012 0,010 0,008 0,006 0,004 Figura 20.2: Erros de hedge para uma carteira de opções (revisão diária) sob uma carteira equivalente (bastante fictícia) Mundo "Black-Scholes". 0,002 0,000 0,05 0,04 0,03 0,02 Figura 20.3 do portfólio : Erros de hedge, incluindo a quebra do mercado de ações em 1987. 0,01 0,00 a teoria da medida é fornecida no Capítulo 21 , então, por enquanto, vamos apenas obter a intuição sem muita matemática. O mesmo método foi posteriormente usado por uma série de pesquisadores, como Sprenkle [216] em 1964, Boness, [26] em 1964, Kassouf e Thorp, [253] em 1967, Thorp, [249] (publicado apenas em 1973) . Todos se depararam com o seguinte problema: como produzir um parâmetro de risco – uma taxa de desconto de activos de risco – para torná-lo compatível com a teoria da carteira? O Modelo de Precificação de Ativos de Capital exige que os títulos tenham uma taxa de retorno esperada proporcional ao seu risco. Na abordagem Black-Scholes-Merton, o preço de uma opção é derivado de hedge dinâmico de tempo contínuo, e apenas em propriedades obtidas de hedge dinâmico de tempo contínuo – descreveremos o hedge dinâmico com alguns detalhes mais adiante. Graças a este método, uma opção cai num retorno determinístico e proporciona retornos independentes do mercado; portanto, não requer nenhum prêmio de risco. 20.1.1 Distorção da Idealização O problema que temos com a abordagem Black-Scholes-Merton é que os requisitos para o hedge dinâmico são extremamente idealizados, exigindo as seguintes estritas Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 20.1 bacharel, não preto-escola 365 condições. Presume-se que o operador seja capaz de comprar e vender num mercado sem atrito, sem incorrer em custos de transação. O procedimento não leva em consideração o impacto do fluxo de ordens no preço – se um operador vender uma quantidade de ações, isso não deverá ter consequências no preço subsequente. O operador conhece a distribuição de probabilidade, que é a Gaussiana, com parâmetros fixos e constantes ao longo do tempo (todos os parâmetros não mudam). Finalmente, a restrição mais significativa: não há saltos escaláveis. Numa revisão subsequente [Merton, 1976] permite saltos, mas estes são considerados como tempo de chegada de Poisson e fixos ou, na pior das hipóteses, gaussianos. A estrutura não permite o uso de leis de potência tanto na prática quanto matematicamente. Examinemos a matemática por trás do fluxo de coberturas dinâmicas na equação Black-Scholes-Merton. Suponha que a taxa de juros livre de risco r = 0 sem perda de generalidade. O modelo canônico Black-Scholes-Merton consiste na venda de uma opção de compra e na compra de ações que fornecem uma proteção contra movimentos instantâneos no título. Assim, a carteira ÿ localmente “hedged” contra a exposição ao primeiro momento da distribuição é a seguinte: ÿ = ÿC + ÿC S ÿS (20.1) onde C é o preço da chamada e S o título subjacente. Considere a variação dos valores da carteira ÿC ÿÿ = ÿÿC + ÿS ÿS (20.2) Expandindo em torno dos valores iniciais de S, temos as mudanças na carteira em tempo discreto. A teoria das opções convencionais se aplica ao Gaussiano em que todas as ordens superiores a (ÿS) 2 e ÿt desaparece rapidamente. 2C ÿC 1 2 ÿÿÿ= ÿ ÿt ÿ ÿS ÿS 2 ÿt 2 Tomando + O ( ÿS 3 ) expectativas (20.3) de ambos os lados, podemos ver em (3) requisitos muito rigorosos sobre a finitude do momento: todos os momentos precisam convergir. Se incluirmos outro termo, ÿ 3C ÿ1 3 ÿS 6 ÿS 3 , pode ser significativo em uma distribuição de probabilidade com º n em relação a S possa diminuir muito termos cúbicos ou quárticos. Na verdade, embora a derivada acentuadamente, para opções que têm um strike K afastado do centro da distribuição, verifica-se que os momentos estão a aumentar desproporcionalmente rápido para que isso tenha um efeito atenuante. Então aqui queremos dizer que todos os momentos precisam ser finitos e perder impacto – sem aproximação. Observe aqui que o modelo de difusão por salto (Merton,1976) não causa muitos problemas, pois possui todos os momentos. E o incômodo é que uma lei de potência terá todos os momentos maiores que ÿ infinitos, fazendo com que a equação do portfólio Black-Scholes-Merton falhe. Como dissemos, a lógica da chamada solução Black-Scholes-Merton, graças ao lema de Itô, era que a carteira colapsa num retorno determinístico. Mas vejamos quão rápida ou eficazmente isto funciona na prática. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 366 falhas da teoria financeira com precificação de opções† 20.1.2 O processo de replicação real: O retorno de uma opção de compra deve ser replicado com o seguinte fluxo de hedges dinâmicos, cujo limite pode ser visto aqui, entre t e T Lim ÿtÿ0 (n=T/ÿt eu=1 ÿ ÿC ÿS (20.4) |S=St+(iÿ1)ÿt ,t=t+(iÿ1)ÿt, ( St+iÿt ÿ St+(iÿ1)ÿt ) ) Dividimos o período em n incrementos ÿt. Aqui o índice de hedge ÿC ÿS é calculado a partir do momento t +(i-1) ÿt, mas obtemos a diferença não antecipada entre o preço no momento em que o hedge foi iniciado e o preço resultante em t+ i ÿt. Supõe-se que isso torne o resultado determinístico no limite de ÿt ÿ 0. No mundo gaussiano, isso seria uma integral Itô-McKean. 20.1.3 Falha: Como os erros de hedge podem ser proibitivos. Como consequência da propriedade matemática vista acima, os erros de cobertura num ÿ cúbico parecem ser indistinguíveis daqueles de um processo de variância infinita. Além disso, esse erro tem um efeito desproporcionalmente grande nas eliminações do dinheiro. Resumindo: a cobertura dinâmica num mundo de direito de potência não elimina qualquer risco. próximo O próximo capítulo utilizará a teoria da medida para mostrar por que as opções ainda podem ser neutras ao risco. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 21 PREÇO DE OPÇÃO ÚNICA MEDIDA (NODINÂMICA HEDGING / COMPLETEMARKETS) ‡ restrições de paridade Put-Call, a medida de probabilidade para o Apresentamos a prova que sobtem suposições simples, como a avaliação de umade opção europeia a média derivada de o preço a prazo que pode, mas não tem de ser, o risco neutro, sob qualquer distribuição de probabilidade geral, contornando o argumento de cobertura dinâmica Black-Scholes-Merton, e sem a exigência de mercados completos e outras suposições fortes. Confirmamos que as heurísticas utilizadas pelos traders durante séculos são mais robustas, mais consistentes e mais rigorosas do que as sustentadas na literatura económica. Também mostramos que as opções podem ser precificadas usando distribuições de variância infinita (média finita). 21.1 plano de fundo As metodologias de avaliação de opções têm sido utilizadas pelos traders há séculos, de forma eficaz (Haug e Taleb, [126]). Além disso, as avaliações por expectativa de retorno terminal forçam a média da distribuição de probabilidade utilizada para os preços das opções a ser a do forward, graças à paridade Put-Call e, se o forward tiver um preço neutro ao risco, o mesmo acontecerá com a opção. O argumento Black-Scholes (Black e Scholes, 1973, Merton, 1973) é considerado para permitir a precificação de opções neutras ao risco graças ao hedge dinâmico, à medida que a opção se torna redundante (uma vez que seu retorno pode ser construído como uma combinação linear de dinheiro e o ativo subjacente revisado dinamicamente ao longo do tempo). Isto é um enigma, uma vez que: 1) A cobertura dinâmica não é operacionalmente viável nos mercados financeiros devido à predominância das alterações de carteira resultantes de saltos, 2) O argumento da cobertura dinâmica não se sustenta matematicamente sob caudas gordas; requer um "mundo Black-Scholes" muito específico com muitas suposições impossíveis, uma das quais requer variações quadráticas finitas, 3) Os traders usam o mesmo "argumento neutro ao risco" de Black-Scholes para a avaliação de opções sobre ativos. Capítulo de pesquisa. 367 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 368 medidas exclusivas de precificação de opções (sem hedge dinâmico/mercados completos)‡ conjuntos que não permitem replicação dinâmica, 4) Os traders negociam opções consistentemente em domínios onde os argumentos neutros ao risco não se aplicam 5) Existem limites informacionais fundamentais que impedem a convergência da integral estocástica.2 Houve alguns antecessores da presente tese de que a paridade Put-Call é uma restrição suficiente para impor alguma estrutura ao nível da média da distribuição subjacente, tais como Derman e Taleb (2005), Haug e Taleb (2010). Essas abordagens eram heurísticas, robustas, embora consideradas acenantes (Ruffino e Treussard, [207]). Além disso, mostraram que os operadores precisam de utilizar a média neutra ao risco. O que este capítulo faz é: • Vai além do “acenar” com provas formais. • Utiliza uma abordagem completamente isenta de distribuição e baseada em expectativas e prova o argumento neutro ao risco sem cobertura dinâmica e sem qualquer pressuposto distribucional. • Além da neutralidade ao risco, estabelece o caso de uma distribuição única de preços para preços de opções na ausência de tal argumento. O preço a prazo (ou futuro) pode incorporar expectativas e desviar-se do preço de arbitragem (devido, por exemplo, a limitações regulamentares ou outras), mas as opções ainda podem ser precificadas a uma distribuição correspondente à média de tal contrato a prazo. • Mostra como se pode ter praticamente um mercado de opções sem “completude” e sem que os teoremas da economia financeira sejam válidos. Estas são feitas apenas com duas restrições: "horizontal", ou seja, paridade put-call, e "vertical", ou seja, as diferentes avaliações entre os preços de exercício proporcionam uma medida de probabilidade que se revela única. A única suposição económica feita aqui é que o contrato a prazo é negociável – na ausência de um preço a prazo único, é inútil discutir o preço padrão das opções. Também exigimos que as medidas de probabilidade correspondam a distribuições com primeiro momento finito. Os trabalhos anteriores nessa direção são os seguintes. Breeden e Litzenberger [31] e Dupire [72], mostram como os spreads de opções fornecem uma medida de probabilidade única; existem artigos que estabelecem um conjunto mais amplo de relações de arbitragem entre opções, como Carr e Madan. [37] 3 No entanto 1) nenhum desses artigos fez a ponte entre opções de compra e opções de venda por meio do forward, traduzindo assim as relações de relações de arbitragem entre opções que entregam uma probabilidade distribuição na necessidade de alinhar-se com a média da distribuição do forward, portanto, o neutro ao risco (no caso do forward ser arbitrado). 2) Nem nenhum artigo mostrou que na ausência do segundo momento (digamos, infinito variação), podemos precificar opções com muita facilidade. Nossa metodologia e provas não fazem uso da variância. 3) Nosso método é muito mais simples, mais direto e robusto a mudanças nas suposições. 2 Além disso, num caso de quebra-cabeça científico, a fórmula exata chamada “Black-Scholes-Merton” foi escrita (e usada) por Edward Thorp numa derivação heurística por expectativa que não exigia cobertura dinâmica, ver Thorpe [251 ]. 3 Ver também Green e Jarrow [114] e Nachman [175]. Sabemos da possibilidade de preços neutros ao risco sem cobertura dinâmica desde Harrison e Kreps [123], mas a teoria necessita de suposições extremamente fortes – e severamente irrealistas –, tais como mercados estritamente completos e um núcleo de preços multiperíodo. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 21,2 prova 369 Não fazemos nenhuma suposição de integridade geral do mercado. As opções não são títulos redundantes e assim permanecem. A Tabela 1 resume a essência do artigo.4 5 21.2 prova Defina C(St0 , K, t) e P(St0 , K, t) como opções de compra e venda de estilo europeu com preço de exercício K, respectivamente, com vencimento t, e S0 como título subjacente nos momentos t0, t ÿ t0, e St o valor possível do título subjacente no momento t. 21.2.1 Caso 1: Encaminhar como medida neutra ao risco Defina r = t 1 tÿt0 t 1 tÿt0 ÿt0 rsds, o retorno de um fundo do mercado monetário livre de risco e ÿ = ÿsds o ÿt0 pagamento do ativo (dividendo contínuo para uma ação, investimento estrangeiro). interesse por uma moeda). Q Temos o preço futuro de arbitragem F: t (1 + r) (tÿt0) F Q (rÿÿ)(tÿt0) = S0 ÿ S0 e t (1 + ÿ) (tÿt0) (21.1) arbitragem, ver Keynes 1924. Chamamos assim F mantido tQ o preço futuro (ou a termo) obtido por P por arbitragem, à taxa neutra ao risco. Seja F o futuro que exige tum “retorno esperado” m associado ao risco, com preço futuro esperado: Ft P _ = S0(1 + m) (tÿt0) m (tÿt0) ÿ S0 e . (21.2) Observação: Por arbitragem, todos os valores negociáveis do preço a termo dado St0 precisam ser iguais para Q Ft. “Negociável” aqui não significa “negociado”, apenas sujeito à replicação de arbitragem por “cash and carry”, ou seja, tomar dinheiro emprestado e possuir o título rendendo d se o retorno a termo embutido divergir de r. 21.2.2 Derivações A seguir, consideramos F como tendo dinâmica por si só – irrelevante para saber se estamos no caso 1 ou 2 – portanto, uma medida de probabilidade única Q. 4 O famoso paradoxo de Hakkanson é o seguinte: se os mercados são completos e as opções são redundantes, porque é que alguém precisaria delas? Se os mercados estiverem incompletos, poderemos precisar de opções, mas como podemos precificá-las? Esta discussão pode ter fornecido uma solução para o paradoxo: os mercados estão incompletos e podemos precificar as opções. 5 Os preços das opções não são únicos no sentido absoluto: o prémio sobre os intrínsecos pode assumir todo um espectro de valores; acontece apenas que as restrições de paridade de venda e de compra forçam as medidas utilizadas para as opções de venda e de compra a serem as mesmas e a terem a mesma expectativa que o termo. No que diz respeito aos títulos, as opções são títulos por si só; eles apenas têm uma ligação forte com o atacante. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 370 medidas exclusivas de precificação de opções (sem hedge dinâmico/mercados completos)‡ Tabela 21.1: Principais diferenças práticas entre o argumento de hedge dinâmico e o argumento Put-Call estático paridade com a propagação das greves. Black Scholes Merton Paridade Put-Call com Spread-ing Tipo Reequilíbrio contínuo. Hedge estático interpolativo. Limite Lei dos grandes números no tempo (horizontal). Lei dos grandes números golpes (verticais). Mercado 1) Mercados Contínuos, não 1) Lacunas e saltos aceitáveis. lacunas, sem saltos. Possibilidade de contínuo Como- suposições Greves ou número aceitável de greves. Distribuição de probabilidade 2) Capacidade de tomar emprestado e emprestar 2) Capacidade de tomar emprestado e emprestar ativo subjacente para todas as datas. activo subjacente para uma única data futura. 3) Sem custos de transação no ativo 3) Baixos custos de transação em comercial. opções de negociação. Requer que todos os momentos sejam finitos. Exclui a classe de Requer finito 1 st momento (em- a variância finita é aceitável). distribuições variando lentamente Integralidade do Alcançado através de dinâmica Mercado completude Realismo de Baixo Alto Incerto; um grande salto Robusto Não obrigatório (no sentido tradicional) Suposições Convergência muda a expectativa Aptidão para a Usado apenas depois de "falsificar" Portmanteau, usando realidade desvios padrão por greve. distribuição adaptada à realidade Defina ÿ = [0, ÿ) = AK ÿ A c K c K onde AK = [0, K] e A = (K, ÿ). Considere uma classe de espaços de probabilidade padrão (simplificados) (ÿ, µi ) indexados por i, onde µi é uma medida de probabilidade, ou seja, satisfatória ÿ Oh dµi = 1. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 21,2 prova 371 Teorema 6 Para um determinado prazo T, existe uma medida única µQ que precifica opções de compra e opções de compra europeias com base na expectativa de retorno terminal. Q Esta medida pode ser neutra ao risco no sentido de que precifica o termo F não precisa t , mas ser e transmite uma taxa de retorno às ações embutidas no termo. Lema 21.1 Para um determinado prazo T, existem duas medidas µ1 e µ2 para opções de compra e opções de venda europeias com o mesmo vencimento e o mesmo título subjacente associadas à avaliação por expectativa de retorno terminal, que são únicas de modo que, para qualquer opção de compra e venda de ataque K, temos: C=ÿ Oh P=ÿ Oh fC dµ1 , (21.3) fP dµ2 , (21.4) e respectivamente, e onde fC e fP são (St ÿ K) + e (K ÿ St) + respectivamente. Prova. Para maior clareza, defina r e ÿ como 0 sem perda de generalidade. Pela arbitragem de paridade Put-Call, uma retenção positiva de uma opção de compra ("longa") e negativa de uma opção de venda ("curta") replica um termo negociável; devido às variações de P/L, usando sinal positivo para longo e sinal negativo para curto: P t C(St0 , K, t) ÿ P(St0 , K, t) + K = F (21,5) necessariamente desde FtP é negociável. A paridade Put-Call é válida para todos os strikes, então: C(St0 , K + ÿK, t) ÿ P(St0 , K + ÿK, t) + K + ÿK = F P t (21.6) para todo K ÿ ÿ 1 Agora, um spread de chamada em quantidades ÿK , expresso como C(St0 , K, t) ÿ C(St0 , K + ÿK, t), entrega $1 se St > K + ÿK (ou seja, corresponde à função do indicador 1S>K+ÿK), 0 se St ÿ K (ou 1S>K), e a quantidade vezes St ÿ K se K < St ÿ K + ÿK, ou seja, entre 0 e $1 (ver Breeden e Litzenberger, 1978[31]). Da mesma forma, considere o argumento inverso para uma opção de venda, com ÿK < St . No limite, para ÿK ÿ 0 ÿC(St0 , K, t) ÿK = ÿP(St > K) = ÿ ÿ dµ1 . EK (21.7) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 372 medida única de precificação de opções (sem hedge dinâmico/mercados completos)‡ Pelo mesmo argumento: ÿP(St0 , K, t) ÿK =ÿ dµ2 = 1 ÿ ÿ E EK (21.8) dµ2. Como intervalos semifechados geram toda a ÿ-álgebra de Borel em ÿ, isso mostra que µ1 e µ2 são únicos. Lema 21.2 As medidas de probabilidade de opções de venda e opções de compra são as mesmas, ou seja, para cada conjunto Borel A em ÿ, µ1 (A) = µ2(A). Prova. Combinando as Equações 21.5 e 21.6, dividindo por - ÿC(St0 , K, t) ÿK + 1ÿK ÿP(St0 , K, t) e tomando ÿK ÿ 0: = 1 ÿK (21.9) para todos os valores de K, então ÿE dµ1 = ÿ K EK (21.10) dµ2, portanto µ1 (AK) = µ2(AK) para todo K ÿ [0, ÿ). Sendo esta igualdade verdadeira para qualquer intervalo semifechado, ela se estende a qualquer conjunto de Borel. Lema 21.3 As opções de venda e de compra devem, por arbitragem estática, ser avaliadas da mesma forma que a medida neutra ao risco µQ do termo negociável. Prova. Ft P _ =ÿ Oh (21.11) FtdµQ ; da Equação 21.5 ÿ fC(K) dµ1 ÿ ÿ Oh Oh fP(K) dµ1 = ÿ Ft dµQ ÿ K (21.12) Oh Derivando de ambos os lados, e como fC ÿ fP = S0 + K, obtemos o RadonDerivado de Nikodym: dµQ dµ1 para todos os valores de K. =1 (21.13) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 21.3 caso em que o forward não é neutro ao risco 373 21.3 caso em que o forward não é neutro ao risco Considere o caso em que Ft é observável, negociável e use-o apenas como um título subjacente com dinâmica própria. Nesse caso, podemos ignorar completamente a dinâmica do S subjacente nominal, ou usar uma taxa log ( F S0 ) neutra e sem risco , ligando o dinheiro ao futuro, mÿ = tÿt0 . a taxa m pode incorporar prémio de risco, dificuldades de financiamento, impedimentos estruturais ou regulamentares à obtenção de empréstimos, sem qualquer efeito no resultado final. Nessa situação, pode-se mostrar que se aplicam exatamente os mesmos resultados de antes, substituindo a medida µQ por outra medida µQÿ . Os preços das opções permanecem únicos 6. 21.4 comentário Substituímos a complexidade e intratabilidade da cobertura dinâmica por um problema de interpolação simples e mais benigno, e explicamos o desempenho dos operadores de opções pré-Black-Scholes utilizando heurísticas e regras simples, contornando a estrutura dos teoremas da economia financeira. As opções podem permanecer não redundantes e os mercados incompletos: estamos apenas a defender aqui uma forma de fixação de preços de arbitragem (que inclui preços neutros ao risco ao nível da expectativa da medida de probabilidade), nada mais. Mas isto é suficiente para usarmos qualquer distribuição de probabilidade com primeiro momento finito, que inclui o Lognormal, que recupera BlackScholes. Uma última comparação. No hedge dinâmico, perder um único hedge ou encontrar um único gap (um evento de cauda) pode ser desastroso – como mencionamos, requer uma série de suposições além da matemática, além de restrições severas e altamente irrealistas sobre a matemática. . Sob a classe de distribuição de cauda gorda Além disso, o aumento da frequência das coberturas não garante a redução do risco. Além disso, o argumento padrão do hedge dinâmico requer a especificação exata do processo estocástico neutro ao risco entre t0 e t, algo econometricamente difícil de manejar e que geralmente é submetido a engenharia reversa a partir do preço das opções, como uma ferramenta de interpolação orientada para a arbitragem, e não como uma ferramenta de interpolação orientada para a arbitragem. representação do processo. Aqui, em nossa metodologia baseada na paridade Put-Call, nossa capacidade de rastrear a distribuição neutra ao risco é garantida pela adição de preços de exercício, e como as probabilidades somam 1, os graus de liberdade que a medida recuperada µQ tem na área de gap entre um o preço de exercício K e o próximo preço de exercício, K + ÿK, são severamente reduzidos, uma vez que a medida no intervalo é c limitada pela diferença ÿ dµ ÿ ÿ dµ. Por outras palavras, nenhum intervalo entre os golpes podeEafetar c significativamente a medida de probabilidade, muito menos o primeiro momento, ao contrário do que AK+ÿK acontece com a cobertura dinâmica. 6 Assumimos taxa de desconto 0 para as provas; no caso de taxa diferente de zero, os prêmios são descontados à taxa de o operador de arbitragem Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 374 medida única de precificação de opções (sem hedge dinâmico/mercados completos)‡ Na verdade, não é diferente dos métodos padrão de suavização de kernel para amostras estatísticas, mas aplicado à distribuição entre preços de exercício.7 A suposição sobre a presença de preços de exercício constitui uma condição natural: condicionada à realização de uma discussão prática sobre opções, preços de exercício de opções. precisa existir. Além disso, como é a experiência do autor, os criadores de mercado podem adicionar greves no mercado de balcão à vontade, caso necessitem de o fazer. agradecimentos Peter Carr, Marco Avellaneda, Hélyette Geman, Raphael Douady, Gur Huberman, Espen Haug e Hossein Kazemi. 7 Para métodos de interpolação da distribuição de probabilidade implícita entre golpes, ver Avellaneda et al.[4]. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 22 OPTIONTRADERS NUNCA USAM O PRETO -ESCOLAS - MER TO N FÓRMULA ÿ,‡ os negociantes de opções usam uma fórmula de precificação derivada heuristicamente que eles adaptam falsificando e alterando as caudas e assimetrias, variando um parâmetro, o desvio padrão de um gaussiano. Tal fórmula é popularmente chamada de "Black-Scholes-Merton" devido a uma descoberta homônima atribuída (embora a alteração do parâmetro de desvio padrão esteja em contradição com ela). No entanto, temos evidências históricas de que: (1) os ditos Black, Scholes e Merton não inventaram O nenhuma fórmula, apenas encontraram um argumento para tornar uma fórmula bem conhecida (e usada) compatível com o establishment da economia, removendo o parâmetro de risco através de hedge dinâmico, (2) os negociadores de opções usam (e evidentemente têm usado desde 1902) heurísticas e truques sofisticados mais compatíveis com as versões anteriores da fórmula de Louis Bachelier e Edward O. Thorp (que permite uma ampla escolha de distribuições de probabilidade) e removeu o parâmetro de risco usando a paridade put-call, (3) os traders de opções não usaram a fórmula Black-Scholes-Merton ou fórmulas semelhantes depois de 1973, mas continuaram mais com suas heurísticas bottom-up. robusto ao evento raro de alto impacto. O capítulo baseia-se em métodos comerciais históricos e em referências do século XIX e início do século XX ignoradas pela literatura financeira. É hora de parar de usar a designação errada para precificação de opções. 22.1 quebrando a cadeia de transmissão 2 Para nós, profissionais, as teorias devem surgir da prática. Isto explica a nossa preocupação com a noção “científica” de que a prática deve ajustar-se à teoria. Cobertura, precificação e negociação de opções não são filosofia nem matemática. É um ofício rico com Capítulo de pesquisa. 2 Para nós, nesta discussão, um “praticante” é considerado alguém envolvido em decisões repetidas sobre hedge de opções, ou seja, com um P/L de risco e pele no jogo, e não um quant de suporte que escreve software de precificação ou um acadêmico que fornece consultoria. 375 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 376 negociantes de opções nunca usam a fórmula black-scholes-mertonÿ,‡ traders aprendendo com traders (ou traders que copiam outros traders) e truques que se desenvolvem sob pressões evolutivas, de baixo para cima. É techne, não episteme. Se fosse uma ciência, não teria sobrevivido, pois a adequação empírica e científica das teorias de preços e de cobertura oferecidas são, veremos, na melhor das hipóteses, defeituosas e não científicas (e, na pior das hipóteses, os métodos de cobertura criam mais riscos). do que reduzem). Nossa abordagem neste capítulo é descobrir evidências históricas da techne que mostram como os traders de opções conduziam seus negócios no passado. As opções, mostraremos, têm estado extremamente ativas no mundo financeiro pré-moderno. Truques e metodologias derivadas heuristicamente na negociação de opções e na gestão de risco de livros de derivativos foram desenvolvidos ao longo do século passado e utilizados de forma bastante eficaz pelos operadores. Paralelamente, muitas derivações foram produzidas por pesquisadores matemáticos. A literatura económica, no entanto, não reconheceu estas contribuições, substituindo as redescobertas ou subsequentes reformulações feitas por (alguns) economistas. Há evidências de um problema de atribuição com a fórmula de opções BlackScholes-Merton que foi desenvolvida, usada e, adaptada de forma robusta por uma longa tradição de pesquisadores e usada heuristicamente por corretores de livros de opções. Além disso, num caso de enigma científico, a fórmula exacta chamada Black-Sholes-Merton foi escrita (e usada) por Edward Thorp que, paradoxalmente, embora robusta e realista, foi considerada pouco rigorosa. Isto levanta o seguinte: 1) A inovação Black-Scholes-Merton foi apenas um argumento financeiro neoclássico, não mais do que uma experiência mental 3 , 2) Não temos conhecimento de comerciantes que utilizem o seu argumento ou a sua versão da fórmula. É chegada a hora de dar crédito a quem ele pertence. 22.2 introdução/resumo 22.2.1 Black-Scholes foi uma discussão Os negociantes de opções chamam a fórmula que usam de fórmula Black-Scholes-Merton sem estarem cientes de que, por alguma ironia, de todas as fórmulas de opções possíveis que foram produzidas no século passado, a que é chamada de fórmula Black-Scholes-Merton (em homenagem a Black e Scholes, 1973, e Merton, 1973) é o que está mais distante do que estão usando. Na verdade, das fórmulas escritas em uma longa história, é a única fórmula frágil a saltos e eventos de cauda. Em primeiro lugar, algo parece ter-se perdido na tradução: Black e Scholes [25] e Merton [172] na verdade nunca apresentaram uma nova fórmula de opção, mas apenas um argumento económico teórico construído sobre uma nova forma de derivar, em vez de re-derivar , uma fórmula já existente e bem conhecida. O argumento, veremos, é extremamente frágil a suposições. As bases da cobertura e da fixação de preços de opções já estavam estabelecidas com muito mais firmeza antes deles. O Black-Scholes-Merton 3 Aqui questionamos a noção de confundir experiências mentais num mundo hipotético, sem poder preditivo, com a ciência ou com a prática. O facto de o argumento Black-Scholes-Merton funcionar num mundo platónico e parecer elegante não significa nada, uma vez que se pode sempre produzir um mundo platónico no qual uma certa equação funcione, ou no qual uma prova rigorosa possa ser fornecida, uma processo chamado engenharia reversa. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 22.2 introdução/resumo 377 Figura 22.1: Louis Bachelier, que inventou uma fórmula de opção baseada na expectativa. Isso é baseada em fundamentos mais rigorosos do que os Argumento de hedge dinâmico de Black-Scholes, pois não requer uma distribuição de cauda fina. Alguns as pessoas estão cientes do fato de que os Black-Scholes a chamada descoberta foi um argumento para remover a expectativa do título subjacente, não a derivação de uma nova equação. argumento, simplesmente, é que uma opção pode ser coberta usando uma determinada metodologia chamado de hedge dinâmico e depois se transformou em um instrumento livre de risco, já que a carteira não seria mais estocástica. Na verdade, o que Black, Scholes e Merton fizeram foi o marketing, encontrando uma forma de tornar uma fórmula bem conhecida palatável para o establishment económico da época, pouco mais, e de facto distorcendo a sua essência. Tal argumento requer suposições estranhas e absurdas: alguma liquidez no nível de transações, conhecimento das probabilidades de eventos futuros (no estilo neoclássico de Arrow-Debreu) e, mais criticamente, uma certa estrutura matemática que requer caudas finas, ou aleatoriedade moderada, sobre a qual, mais tarde4 . Todo o argumento é, de facto, bastante estranho e bastante inaplicável para alguém que, clinicamente e orientado pela observação, está fora da economia neoclássica convencional. Simplesmente, a dinâmica o argumento de cobertura é perigoso na prática, pois sujeita você a explosões; faz não faz sentido, a menos que você esteja preocupado com a teoria econômica neoclássica. O argumento e a equação de Black-Scholes-Merton fluem em uma teoria de equilíbrio geral de cima para baixo, construída sobre as suposições de operadores que trabalham com pleno conhecimento do distribuição de probabilidade de resultados futuros, além de uma coleção de suposições que, veremos, são altamente inválidas matematicamente, sendo a principal delas a capacidade de reduzir os riscos usando negociação contínua, que só funciona no caso muito restrito de distribuições de cauda fina. Mas não são apenas essas falhas que torná-lo inaplicável: os negociantes de opções não compram teorias, particularmente as especulativas de equilíbrio geral, que consideram muito arriscadas para eles e extremamente arriscadas. falta de padrões de confiabilidade. Uma teoria normativa simplesmente não é boa para 4 De todas as suposições equivocadas de Black Scholes que fazem com que seja um mero experimento mental, embora extremamente elegante, uma falha compartilhada com a teoria moderna de portfólio, é o conhecimento certo do futuro variância entregue para a variável aleatória (ou, equivalentemente, todas as probabilidades futuras). Isso é o que faz com que entre em conflito com a prática: a rectificação pelo mercado que engorda as caudas é uma negação da experiência mental de Black-Scholes. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 378 negociadores de opções nunca usam a fórmula black-scholes-mertonÿ,‡ tomada de decisão sob incerteza (particularmente se estiver em desacordo crónico com a evidência empírica). As pessoas podem tomar decisões baseadas em teorias especulativas, mas evitam a fragilidade das teorias ao correrem os seus riscos. No entanto, os traders profissionais, incluindo os autores (e, infelizmente, a Academia Sueca de Ciências) têm operado sob a ilusão de que foi a fórmula Black-ScholesMerton que eles realmente usaram, conforme nos disseram. Este mito foi progressivamente reforçado na literatura e nas escolas de negócios, à medida que as fontes originais foram perdidas ou consideradas anedóticas (Merton [174]). Figura 22.2: A típica “redução de risco” realizada pelo argumento Black-ScholesMerton. Estas são as variações de uma carteira com hedge dinâmico (e bastante padronizada). O BSM de fato "suaviza" as variações, mas expõe o operador a eventos de cauda massivos que lembram explosões como o LTCM. Outras fórmulas de opções são robustas ao evento raro e não fazem tais afirmações. Esta discussão apresentará a nossa compreensão ecológica e real do preço das opções e da cobertura com base no que os traders de opções realmente fazem e fizeram durante mais de cem anos. Este é um problema muito geral. Como dissemos, os negociantes de opções desenvolvem uma cadeia de transmissão de techne, como muitas profissões. Mas o problema é que a cadeia é muitas vezes quebrada porque as universidades não armazenam as competências adquiridas pelos operadores. Efetivamente, muitas implementações robustas derivadas heuristicamente foram desenvolvidas ao longo dos anos, mas o establishment da economia recusou-se a citá-las ou reconhecê-las. Isso faz com que os traders precisem reaprender o ' assunto periodicamente. O fracasso do hedge dinâmico em 1987, por empresas como Leland O'ZBrien Rubinstein, por exemplo, não parece aparecer na literatura acadêmica publicada após o evento (Merton, [174], Rubinstein,[205], Ross [ 203]); pelo contrário, a cobertura . padrão 5 dinâmica é considerada uma operação Existem elementos centrais do mundo real que podem escapar-lhes. A investigação académica sem feedback da prática (num campo prático e aplicado) pode causar os desvios que testemunhamos entre os quadros laboratoriais e ecológicos. Isto explica por que tantos académicos de finanças têm tido a tendência de produzir retornos suaves e depois explodir usando as suas próprias teorias6 . Começamos ao contrário, 5 Por exemplo, como os erros nunca ressurgem na consciência, Mark Rubinstein foi galardoado em 1995 com o prémio de Engenheiro Financeiro do Ano pela Associação Internacional de Engenheiros Financeiros. Não houve menção ao seguro de carteira e ao fracasso da cobertura dinâmica. 6 Para uma reação padrão a um evento raro, veja o seguinte: “Quarta-feira é o tipo de dia que as pessoas vão se lembrar na terra quântica por muito tempo”, disse o Sr. Rothman, Ph.D. da Universidade de Chicago. quem correu Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 22.3 mito 1: os traders não precificavam as opções antes do bsm 379 primeiro, por anos de negociação de opções, fazendo milhões de hedges e milhares de negociações de opções. Isto, em combinação com a investigação do conhecimento antigo esquecido e ignorado em precificação e negociação de opções, explicaremos alguns mitos comuns sobre precificação e hedge de opções. Na verdade, existem dois mitos: • Que tivemos que esperar pela fórmula de opções Black-Scholes-Merton para negociar o produto, definir o preço das opções e gerir os livros de opções. Na verdade, a introdução do argumento de Black, Scholes e Merton aumentou os nossos riscos e atrasou-nos na gestão de riscos. De forma mais geral, é um mito que os traders confiem em teorias, ainda menos numa teoria de equilíbrio geral, para definir o preço das opções. • Que utilizemos a fórmula de precificação de opções Black-Scholes-Merton. Nós, simplesmente não. Na nossa discussão sobre estes mitos, concentrar-nos-emos na literatura ascendente sobre a teoria das opções que tem estado escondida nos recantos escuros das bibliotecas. E isso aborda apenas questões registradas e não a prática real de negociação de opções que foi perdida. 22.3 mito 1: os traders não precificavam as opções antes do bsm Supõe-se que a teoria Black-Scholes-Merton foi o que tornou possível aos negociadores de opções calcular a sua cobertura delta (em relação ao subjacente) e precificar as opções. Este argumento é altamente discutível, tanto histórica quanto analiticamente. As opções eram negociadas activamente, pelo menos já em 1600, conforme descrito por Joseph De La Vega, implicando alguma forma de techne´n, um método heurístico para precificá-las e lidar com a sua exposição. De La Vega descreve a negociação de opções nos Países Baixos, indicando que os operadores tinham alguma experiência em preços de opções e cobertura. Ele aponta difusamente para a paridade put-call, e seu livro nem sequer foi concebido para ensinar as pessoas sobre os aspectos técnicos da negociação de opções. A nossa insistência na utilização da paridade Put-Call é crítica pela seguinte razão: A reivindicação de fama dos Black-Scholes-Merton Zs é eliminar a necessidade de um desvio baseado no risco do título subjacente para tornar a negociação neutra em termos de risco. Mas não é necessária cobertura dinâmica para isso: a simples paridade de opções de venda pode ser suficiente (Derman e Taleb, 2005), como discutiremos mais tarde. E foi esta remoção central do prémio de risco que aparentemente esteve por detrás da decisão do comité do Nobel de conceder a Merton e Scholes o (então denominado) Prémio do Banco da Suécia em homenagem a Alfred Nobel: Black, Merton e Scholes deram um contributo vital demonstrando que não é de facto necessário utilizar qualquer prémio de risco na avaliação de uma opção. Isto não significa que o prémio de risco desapareça; em vez disso, já está incluído no preço das ações. Foi por ter removido o efeito da deriva no valor da opção, através de uma experiência mental, que o seu trabalho foi originalmente citado, algo que estava mecanicamente presente em qualquer forma de negociação e conversão utilizando técnicas muito mais simples. um fundo quantitativo antes de ingressar no Lehman Brothers. "Eventos que os modelos previram que aconteceriam apenas uma vez em 10.000 anos aconteceram todos os dias durante três dias." Um "Quant Sees Shakeout For the Ages – '10,000 Years" Por Kaja Whitehouse,Wall Street Journal 11 de agosto de 2007; Página B3. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 380 negociantes de opções nunca usam a fórmula black-scholes-mertonÿ,‡ As opções têm uma história muito mais rica do que a mostrada na literatura convencional. Os contratos a prazo parecem remontar às tabuletas de argila da Mesopotâmia que datam de 1750 a.C. Gelderblom e Jonker [104] mostram que os negociantes de cereais de Amsterdão já tinham utilizado opções e contratos a prazo em 1550. No final de 1800 e no início de 1900, havia mercados de opções activos em Londres e Nova Iorque, bem como em Paris e em várias outras bolsas europeias. Ao que parece, os mercados eram mercados de opções activos e extremamente sofisticados em 1870. Kairys e Valerio (1997) discutem o mercado de opções sobre acções nos EUA na década de 1870, mostrando indirectamente que os traders eram suficientemente sofisticados para precificar eventos de cauda7 . Houve até negociações ativas de arbitragem de opções entre alguns desses mercados. Há uma longa lista de tratados em falta sobre negociação de opções: rastreamos pelo menos dez tratados alemães sobre opções escritos entre o final da década de 1800 e o episódio de hiperinflação8 . 22.4 métodos e derivações Uma fonte informativa existente, Nelson [176], diz muito: Um comerciante de opções e arbitrador, SA Nelson publicou um livro O ABC das Opções e Arbitragem com base em suas observações por volta da virada do século XX. De acordo com Nelson (1904), até 500 mensagens por hora e normalmente 2.000 a 3.000 mensagens por dia eram enviadas entre o mercado de Londres e de Nova Iorque através das empresas de cabo. Cada mensagem foi transmitida pelo sistema de transmissão em menos de um minuto. Num método heurístico que foi repetido em Dynamic Hedging [225] , Nel-son descreve de forma isenta de teoria muitos aspectos rigorosamente clínicos do seu negócio de arbitragem: o custo do envio de ações, o custo do seguro de ações, as despesas com juros, o possibilidades de trocar ações diretamente entre alguém que está comprado em títulos em Nova York e vendido em Londres e, dessa forma, economizando custos de envio e seguro, além de muitos outros truques, etc. 7 A descrição histórica do mercado é informativa até Kairys e Valerio [140] tentarem avaliar se as opções na década de 1870 estavam sub ou sobrevalorizadas (usando métodos do estilo Black-Scholes-Merton). Houve um evento final neste período, o grande pânico de setembro de 1873. Kairys e Valerio descobriram que manter opções de venda era lucrativo, mas consideram que o pânico do mercado foi apenas um evento único: "No entanto, os contratos de opções se beneficiam do pânico financeiro que atingiu o mercado em setembro de 1873. Considerando isso como um evento único, repetimos a análise para opções de venda, excluindo quaisquer contratos não vencidos emitidos antes do pânico no mercado de ações. Usando referências à literatura econômica que também concluem que as opções em geral estavam superfaturadas nas décadas de 1950, 1960 e 1970, eles concluem: "Nossa análise mostra que os contratos de opções eram geralmente superfaturados e não eram atraentes para os investidores de varejo comprarem. Eles acrescentam: ÿIEmpiricamente, descobrimos que tanto as opções de venda quanto as de compra eram regularmente superfaturadas em relação a um modelo de avaliação teórico." Esses resultados são contrariados pelo praticante Nelson (1904): “A maioria dos grandes negociantes de opções descobriu por experiência que foram os doadores, e não os tomadores, do dinheiro das opções que obtiveram a vantagem no longo prazo”. 8 Aqui está uma lista parcial: Bielschowsky, R (1892): Ueber die natureza jurídica das transações de prêmios, Bresl. Camarada-Escritor; Granichstaedten-Czerva, R (1917): As transações de prêmios na Bolsa de Valores de Viena, Frankfurt am Main; Holz, L. (1905) As transações de prêmios, tese (doutorado) – Universidade de Rostock; Kitzing, C. (1925):Transações premium: pré-prêmio, re-prêmio, depósito e transações adicionais; As transações especulativas mais sólidas com seguros contra perdas de preços, Berlim; Reader, E, (1875): Sobre a história das transações premium; Szkolny, I. (1883): Teoria e prática de transações de prêmios apresentadas de acordo com um método original., Frankfurt am Main; Autor desconhecido (1925): A essência das transações premium, Berlim: Eugen Bab & Co., negócios bancários. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 22.4 métodos e derivações 381 Figura 22.3: Espen Haug (coautor do capítulo) com Mandelbrot e este autor em 2007. O cânone formal da economia financeira não inclui fontes históricas de fora da economia, um mecanismo discutido em Taleb (2007)[227]. A paridade put-call estava de acordo com a literatura de opções formais descrita pela primeira vez por Stoll [219], mas nem ele nem outros na área sequer mencionam Nelson. Não apenas o argumento da paridade put-call foi totalmente compreendido e descrito em detalhes por Nelson, mas ele, por sua vez, faz referências frequentes a Higgins (1902) [129]. Apenas como exemplo Nelson (1904) referindo-se a Higgins (1902) escreve: Pode ser digno de nota que as chamadas são negociadas com mais frequência do que as opções, provavelmente sendo a razão pela qual a maioria dos apostadores em ações e ações estão mais inclinados a olhar para o lado positivo das coisas e, portanto, veem com mais frequência um aumento do que um aumento. queda nos preços. Esta inclinação especial para comprar opções de compra e deixar as opções de venda severamente em paz não tende, no entanto, a tornar as opções de compra caras e as opções de venda baratas, pois pode ser demonstrado que o negociante hábil em opções pode converter uma opção de venda em uma opção de compra, uma opção de compra em uma opção de compra. colocar, uma opção de compra ou mais em uma opção de venda e compra, na verdade, qualquer opção em outra, negociando contra ela nas ações. Podemos, portanto, assumir, com precisão tolerável, que a opção de compra de uma ação custa a qualquer momento o mesmo que a opção de venda dessa ação e metade do valor da opção de compra e venda. O Put-and-Call era simplesmente uma opção de venda mais uma opção de compra com o mesmo preço de exercício e maturidade, o que hoje chamaríamos de straddle. Nelson descreve a paridade put-call em muitas páginas com todos os detalhes. O hedge delta neutro do mercado estático também era conhecido naquela época, em seu livro Nelson, por exemplo, escreve: Os vendedores de opções em Londres, fruto de uma longa experiência, se venderem uma Call, compram imediatamente metade das ações contra as quais a Call é vendida; ou se uma Put for vendida; eles vendem metade do estoque imediatamente. Devemos interpretar o valor desta afirmação à luz de que as opções padrão em Londres naquela altura eram emitidas no dinheiro (como explicitamente apontado por Nelson); além disso, todas as opções padrão em Londres eram de estilo europeu. Em Londres, as opções dentro ou fora do dinheiro eram negociadas apenas ocasionalmente e eram conhecidas como fantasias. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 382 negociantes de opções nunca usam a fórmula black-scholes-mertonÿ,‡ opções. Fica bastante claro neste e no restante do livro de Nelson que os negociantes de opções estavam bem cientes de que o delta para opções no dinheiro era de aproximadamente 50%. Na verdade, as opções negociadas no dinheiro em Londres naquela época foram ajustadas para serem a termo no dinheiro, a fim de fazer opções de venda e opções de compra pelo mesmo preço. Sabemos hoje que as opções que estão no dinheiro a prazo e que não têm um prazo de maturidade muito longo têm um delta muito próximo de 50% (naturalmente menos 50% para opções de venda). As opções em Londres naquela época normalmente tinham um mês para o vencimento quando emitidas. Nelson também aponta difusamente para o delta hedging dinâmico, e que funcionou melhor na teoria do que na prática (ver Haug [125]. Fica claro a partir de todos os detalhes descritos por Nelson que as opções no início de 1900 eram negociadas ativamente e que os negociadores de opções naquela época de forma alguma se sentiu impotente em precificá-los ou protegê-los. Herbert Filer foi outro negociante de opções envolvido na negociação de opções de 1919 a 1960. Filer (1959) descreve o que deve ser considerado um mercado de opções razoavelmente ativo em Nova Iorque e na Europa no início das décadas de 1920 e 1930. Filer menciona, no entanto, que devido à Segunda Guerra Mundial não houve negociação nas Bolsas Europeias, pois estavam fechadas. Além disso, ele menciona que a negociação de opções em Londres não foi retomada antes de 1958. No início de 1900, os negociadores de opções em Londres eram considerados os mais sofisticados, de acordo com [177]. É bem possível que a Segunda Guerra Mundial e o subsequente encerramento da negociação de opções durante muitos anos tenham sido a razão pela qual os princípios robustos de arbitragem sobre opções foram esquecidos e quase perdidos, sendo parcialmente redescobertos por professores de finanças como Stoll. Anteriormente, em 1908, Vinzenz Bronzin publicou um livro derivando diversas fórmulas de precificação de opções, e uma fórmula muito semelhante à que hoje é conhecida como fórmula Black-ScholesMerton, ver também Hafner e Zimmermann (2007, 2009) [117] . Bronzin baseou a sua avaliação de opções neutras ao risco em princípios robustos de arbitragem, como a paridade put-call e a ligação entre o preço a prazo e as opções call e put, de uma forma que foi redescoberta por Derman e Taleb (2005) 9 . Na verdade, a restrição da paridade put-call é suficiente para eliminar a necessidade de incorporar um retorno futuro no título subjacente e força o alinhamento de opções ao preço a prazo10 . Novamente, em 1910, Henry Deutsch descreve a paridade put-call, mas com menos detalhes do que Higgins e Nelson. Em 1961, Reinach descreveu novamente a paridade put-call com bastante detalhe (outro texto tipicamente ignorado pelos académicos). Os traders da bolsa de valores de Nova York especializados em usar a paridade put-call para converter opções de venda em opções de compra ou opções de compra em opções de venda eram na época conhecidos como Conversores. Reinach (1961) [198]: 9 O argumento Derman Taleb(2005) [63] estava presente em [225] , mas passou despercebido. 10 Ruffino e Treussard (2006) [204] aceitam que se poderia ter resolvido o prémio de risco por acaso, sem perceber que a paridade put-call foi tão amplamente utilizada na história. Mas eles acham que é insuficiente. Na verdade, o argumento pode não ser suficiente para alguém que posteriormente complicou a representação do mundo com alguns instrumentos das finanças modernas, tais como "taxas de desconto estocásticas", ao mesmo tempo que a simplificou para a limitar à Gaussiana e permitir a cobertura dinâmica. Eles escrevem que a utilização de uma taxa de desconto não estocástica comum às opções de compra e de venda é inconsistente com a teoria moderna de precificação de ativos de capital de equilíbrio. Dado que nunca vimos um profissional utilizar uma taxa de desconto estocástica, nós, tal como os nossos predecessores de negociação de opções, sentimos que a paridade put-call é suficiente e faz o trabalho. A situação é semelhante à dos cientistas que ensinam às aves como voar e recebem crédito pelo seu desempenho subsequente, só que aqui seria dar-lhes lições de forma errada. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 22.4 métodos e derivações 383 Embora não tenha números para fundamentar a minha afirmação, estimo que mais de 60 por cento de todas as Chamadas são possíveis graças à existência de Conversores. Por outras palavras, os conversores (dealers) que funcionavam basicamente como criadores de mercado conseguiram operar e cobrir a maior parte do seu risco através da cobertura estática de opções com opções. Reinach escreveu que era um negociante de opções (Conversor) e deu exemplos de como ele e seus colegas tendiam a fazer hedge e arbitrar opções contra opções, tirando vantagem de opções embutidas em títulos conversíveis: Escritores e traders descobriram outros procedimentos para obter lucros escrevendo Puts & Calls. A maioria é muito especializada para todos, exceto para profissionais experientes. Um desses procedimentos é a propriedade de um título conversível e, em seguida, a emissão de opções de compra contra as ações nas quais os títulos são conversíveis. Se o estoque for chamado convertido e o estoque for entregue. Higgins, Nelson e Reinach descrevem a grande importância da paridade put-call e do hedge de opções com opções. Os negociadores de opções não estavam de forma alguma impotentes na cobertura ou na fixação de preços antes da fórmula Black-Scholes-Merton. Com base em princípios simples de arbitragem, conseguiram cobrir opções de forma mais robusta do que com Black-Scholes-Merton. Como já mencionado, o hedge delta estático de mercado neutro foi descrito por Higgins e Nelson em 1902 e 1904. Além disso, WD Gann (1937) discute o hedge delta neutro de mercado para opções no dinheiro, mas com muito menos detalhes do que Nelson (1904) . Gann também indica algumas formas de hedge dinâmico auxiliar. Mills (1927) ilustra como saltos e caudas gordas estavam presentes na literatura na época prémoderna da Teoria do Portfólio. Ele escreve: “(...) a distribuição pode afastar-se amplamente do tipo gaussiano devido à influência de uma ou duas mudanças extremas de preços”. 22.4.1 Fórmulas de opções e Delta Hedging O que nos leva às fórmulas de precificação de opções. O primeiro identificável foi Bachelier (1900) [5]. Sprenkle em 1961 [215] estendeu o trabalho de Bachelier para assumir o preço lognormal em vez do preço normal dos ativos distribuídos. Também evita descontos (sem efeito significativo, uma vez que em muitos mercados, especialmente nos EUA, os prémios de opções foram pagos no vencimento). James Boness (1964) [26] também assumiu um preço lognormal do ativo. Ele deriva uma fórmula para o preço de uma opção de compra que é na verdade idêntica à fórmula Black-ScholesMerton de 1973, mas a maneira como Black, Scholes e Merton derivaram sua fórmula com base no hedge delta dinâmico contínuo ou, alternativamente, com base no CAPM, eles foram capazes para ficar independente da taxa de retorno esperada. Por outras palavras, não é a fórmula em si que é considerada a grande descoberta feita por Black, Scholes e Merton, mas como a derivaram. Isto é entre vários outros também apontados por Rubinstein (2006) [206]: Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 384 negociantes de opções nunca usam a fórmula black-scholes-mertonÿ,‡ O verdadeiro significado da fórmula para a teoria financeira do investimento não reside em si mesma, mas sim na forma como foi derivada. Dez anos antes, a mesma fórmula foi derivada pelo Caso M. Sprenkle [215] e A. James Boness [26]. Samuelson (1969) e Thorp (1969) publicaram fórmulas de precificação de opções um tanto semelhantes às de Boness e Sprenkle. Thorp (2007) afirma que ele realmente tinha uma fórmula idêntica à fórmula Black-Scholes-Merton programada em seu computador anos antes de Black, Scholes e Merton publicarem sua teoria. Agora, cobertura delta. Como já mencionado, o hedge delta estático de mercado neutro foi claramente descrito por Higgins e Nelson 1902 e 1904. Thorp e Kassouf (1967) apresentaram o hedge delta estático de mercado neutro com mais detalhes, não apenas para opções no dinheiro, mas para opções com qualquer delta. No seu artigo de 1969, Thorp descreve brevemente a cobertura delta estática e neutra do mercado, também apontando brevemente na direcção de alguma cobertura delta dinâmica, não como um dispositivo central de preços, mas como uma ferramenta de gestão de risco. Filer também aponta o hedge dinâmico de opções, mas sem demonstrar muito conhecimento sobre como calcular o delta. Outro texto ignorado e esquecido é um livro/livreto publicado em 1970 por Arnold Bernhard & Co. Os autores estão claramente cientes da cobertura delta estática neutra do mercado ou do que eles chamam de cobertura equilibrada para qualquer nível no preço de exercício ou no preço do ativo. Este livro tem vários exemplos de como comprar warrants ou títulos conversíveis e construir um hedge delta neutro para o mercado, vendendo a descoberto a quantidade certa de ações ordinárias. Arnold Bern-hard & Co também publicou deltas para um grande número de warrants e obrigações convertíveis que distribuíram a investidores em Wall Street. Referindo-se a Thorp e Kassouf (1967), Black, Scholes e Merton levaram a ideia de cobertura delta um passo adiante, Black e Scholes (1973): Se a cobertura for mantida continuamente, então as aproximações acima mencionadas tornamse exatas e o retorno da posição coberta é completamente independente da alteração no valor da ação. Na verdade, o retorno da posição coberta torna-se certo. Isto nos foi apontado por Robert Merton. Esta pode ser uma ideia matemática brilhante, mas a negociação de opções não é teoria matemática. Não basta ter uma ideia teórica tão distante da realidade e que esteja longe de ser robusta na prática. O que é surpreendente é que o único princípio que os traders de opções não usam e não podem usar é a abordagem nomeada após a fórmula, que é um ponto que discutiremos a seguir. 22,5 mito 2: os comerciantes hoje usam black-scholes Os comerciantes não fazem avaliação. Primeiro, operacionalmente, um preço não é propriamente uma avaliação. A avaliação requer um quadro teórico forte com a sua fragilidade correspondente tanto aos pressupostos como à estrutura de um modelo. Para os traders, um preço produzido para comprar uma opção quando não se tem conhecimento da distribuição de probabilidade do futuro não é uma avaliação, mas um expediente. Esse preço pode mudar. Suas crenças não entram nesse preço. Também pode ser determinado por seu inventário. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 22.6 sobre a impossibilidade matemática de cobertura dinâmica 385 Esta distinção é crítica: os comerciantes são engenheiros, sejam eles limitadamente racionais (ou mesmo não interessados em qualquer forma de racionalidade probabilística), eles não estão a par da transparência informacional sobre os estados futuros do mundo e as suas probabilidades. Portanto, eles não precisam de uma teoria geral para produzir um preço, apenas de evitar arbitragens no estilo holandês contra eles e da compatibilidade com alguma restrição padrão: além da paridade de venda e compra, uma opção de compra de um determinado preço de exercício K não pode ser negociada a um preço mais baixo do que uma opção de compra K + ÿK (evitando spreads negativos de opções de compra e de venda), uma opção de compra realizada em K e uma opção de compra realizada em K + 2ÿK não pode ser mais cara do que o dobro do preço de uma opção de compra realizada em K + ÿ (borboletas negativas), spreads horizontais de calendário não podem ser negativos (quando as taxas de juros estão baixas), e assim por diante. Os graus de liberdade dos traders são assim reduzidos: eles precisam respeitar a paridade put-call e a compatibilidade com outras opções no mercado. Nesse sentido, os traders não realizam avaliação com algum núcleo de precificação até o vencimento do título, mas, sim, produzem um preço de uma opção compatível com outros instrumentos do mercado, com um tempo de manutenção estocástico. Eles não precisam de ciência de cima para baixo. 22.5.1 Quando valorizamos? Se encontrarmos traders que operam sozinhos, numa ilha deserta, tendo para alguns produzir um preço de opção e mantê-lo até ao vencimento, num mercado em que o forward está ausente, então alguma avaliação seria necessária, mas o seu livro seria minúsculo. E esta experiência mental é uma distorção: as pessoas não negociariam opções a menos que estivessem no negócio de negociar opções, caso em que precisariam de ter um livro com negociações de compensação. Pois sem negociações de compensação, duvidamos que os traders sejam capazes de produzir uma posição além de um tamanho mínimo (e insignificante), uma vez que a cobertura dinâmica não é possível. (Mais uma vez, não temos conhecimento de muitos comerciantes de opções e instituições não explodidas que tenham conseguido operar no vácuo do argumento Black ScholesMerton). É perante a impossibilidade de tal cobertura que vire a seguir. 22.6 sobre a impossibilidade matemática de cobertura dinâmica Finalmente, discutimos a grave falha no conceito de hedge dinâmico. Assume, ou melhor, exige que todos os momentos da distribuição de probabilidade existam11 . Suponha que a distribuição de retornos tenha uma propriedade livre de escala ou fractal que P(X>nx) podemos simplificar da seguinte forma: para x grande o suficiente, (ou seja, nas caudas), depende P(X>x) de n, não em x. Em títulos financeiros, digamos, onde X é um retorno diário, não há razão para P(X>20%)/P(X>10%) ser diferente de P(X>15%)/P(X>7,5 %). Essa auto-similaridade em todas as escalas gera caudas de lei de potência, ou paretianas, ou seja, acima de um ponto de cruzamento, P(X > x) = Kxÿ . Acontece, olhando para milhões de pedaços de 11 Merton (1992) parecia aceitar a inaplicabilidade da cobertura dinâmica, mas talvez pensasse que estes males seriam curados graças à sua previsão do mundo financeiro “em espiral rumo à completude dinâmica”. Quinze anos depois, nós nos afastamos disso. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 386 negociadores de opções nunca usam a fórmula black-scholes-mertonÿ,‡ dados, que tal propriedade se mantém em todos os mercados, revelando erros amostrais. Para evidências empíricas esmagadoras, ver Mandelbrot (1963), que antecede Black-ScholesMerton (1973) e o salto de difusão de Merton (1976); ver também Stanley et al. (2000) e Gabaix et al. (2003). O argumento para assumir a ausência de escala é o seguinte: a distribuição pode ter caudas finas em algum ponto (digamos, acima de algum valor de X). Mas não sabemos onde está esse ponto, estamos epistemologicamente no escuro sobre onde colocar a fronteira, o que nos obriga a usar o infinito. Algumas críticas a estas "verdadeiras caudas gordas" aceitam que tal propriedade pode ser aplicada a retornos diários, mas, devido ao Teorema do Limite Central, a distribuição é considerada gaussiana sob agregação para casos em que ÿ é considerado superior a 2. Tal O argumento não se sustenta devido aos pré-sintóticos das distribuições escaláveis: Bouchaud e Potters (2003) e Mandelbrot e Taleb (2007) argumentam que os pré-sintóticos das distribuições fractais são tais que o efeito do Teorema do Limite Central é excessivamente lento nas caudas. na verdade, irrelevante. Além disso, há erro de amostragem, pois temos menos dados para períodos mais longos, portanto, menos episódios de cauda, o que dá uma ilusão de caudas mais finas na amostra. Além disso, o argumento de que a agregação reduz as caudas não se aplica à cobertura dinâmica, na qual o operador depende necessariamente de dados de alta frequência e das suas propriedades estatísticas. Enquanto estiver livre de escala no período de hedge dinâmico, os momentos mais elevados tornam-se explosivos, infinitos para impedir a formação de uma carteira de hedge dinâmico. Simplesmente uma expansão de Taylor é impossível, pois momentos de ordem superior que importam criticamente, um dos momentos será infinito. A mecânica da cobertura dinâmica é a seguinte. Suponha que a taxa de juros livre de risco seja 0 sem perda de generalidade. O pacote canônico Black-Scholes-Merton consiste na venda de uma opção de compra e na compra de ações que fornecem uma proteção contra movimentos instantâneos no título. Assim, a carteira ÿ localmente “hedged” contra a exposição ao primeiro momento da distribuição é a seguinte: ÿ = ÿC + ÿC S ÿS onde C é o preço da chamada e S o título subjacente. Considere a mudança discreta no tempo nos valores do portfólio ÿC ÿÿ = ÿÿC + ÿS ÿS Expandindo em torno dos valores iniciais de S, temos as mudanças na carteira em tempo discreto. A teoria das opções convencionais se aplica ao Gaussiano em que todas as ordens 2 superiores a ÿS desaparecer rapidamente. Considerando as expectativas de ambos os lados, podemos ver aqui requisitos muito rigorosos quanto à finitude do momento: todos os momentos precisam convergir. Se incluirmos outro termo, de, ordem 3 ÿS, tal termo pode ser significativo em uma distribuição de probabilidade com termos cúbicos ou quárticos significativos. Na verdade, embora a n-ésima derivada em relação a S possa diminuir muito acentuadamente, para opções que têm um strike K longe do centro da distribuição, permanece que as ordens mais elevadas entregues de S estão a subir desproporcionalmente rápido para que isso carregue um efeito mitigador nas coberturas. En Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 22.6 sobre a impossibilidade matemática de cobertura dinâmica 387 queremos dizer todos os momentos – sem aproximação. A lógica da chamada solução BlackScholes-Merton, graças ao lema de Ito, era que a carteira colapsa num retorno determinístico. Mas vejamos quão rápida ou eficazmente isto funciona na prática. O processo de replicação real é o seguinte: O retorno de uma chamada deve ser replicado com o seguinte fluxo de hedges dinâmicos, cujo limite pode ser visto aqui, entre t e T: ÿC limão ÿtÿ0 (n=T/ÿt eu=1 ÿ ÿS (22.1) |S=St+(iÿ1)ÿt ,t=t+(iÿ1)ÿt, ( St+iÿt ÿ St+(iÿ1)ÿt ) ) Esta política não corresponde ao valor da opção de compra: a diferença permanece estocástica (embora, segundo Black Scholes, deveria diminuir), a menos que se viva num mundo de fantasia em que tal redução de risco seja possível. Além disso, há uma inconsistência nos trabalhos de Merton que nos deixa confusos quanto ao que a teoria considera aceitável: em Merton (1976) ele concorda que podemos usar a derivação de opções ao estilo de Bachelier na presença de saltos e descontinuidades, sem cobertura dinâmica, mas apenas quando o preço da ação subjacente não está correlacionado com o mercado. Isto parece ser uma admissão de que o argumento da cobertura dinâmica se aplica apenas a alguns títulos: aqueles que não saltam e estão correlacionados com o mercado. 22.6.1 A (confusa) Robustez do Gaussiano O sucesso da fórmula desenvolvida pela última vez por Thorp, e chamada Black-Scholes-Merton, deveu-se a um simples atributo da Gaussiana: você pode expressar qualquer distribuição de probabilidade em termos de Gaussiana, mesmo que tenha caudas grossas, variando a desvio padrão ÿ ao nível da densidade da variável aleatória. Isso não significa que você esteja usando uma Gaussiana, nem que a Gaussiana seja particularmente parcimoniosa (já que é necessário anexar um ÿ para cada nível de preço). Significa simplesmente que o gaussiano pode expressar o que você quiser se você adicionar uma função ao parâmetro ÿ, tornando-o uma função do preço de exercício e do tempo de vencimento. Esse sorriso de volatilidade, ou seja, variar um parâmetro para produzir ÿ(K), ou superfície de volatilidade, variando dois parâmetros, ÿ(S, t) é efetivamente o que foi feito de diferentes maneiras por Dupire (1994, 2005) [72, 73] e Derman [61, 64] ver Gatheral (2006 [103]). Eles assumem um processo de volatilidade não porque exista necessariamente algo como um método de ajustar os preços das opções a uma Gaussiana. Além disso, embora o gaussiano tenha um segundo momento finito (e todos os momentos superiores finitos também), você pode expressar uma escalabilidade com variância infinita usando a superfície de volatilidade gaussiana. Uma forte restrição ao parâmetro ÿ é que ele deve ser o mesmo para uma opção de venda e uma opção de compra com o mesmo strike (se ambos forem de estilo europeu), e o desvio deve ser o do forward. Na verdade, ironicamente, o sorriso da volatilidade é inconsistente com a teoria Black-ScholesMerton. Isto levou a centenas, senão milhares de artigos que tentam estender (o que era percebido como sendo) o modelo Black-Scholes-Merton para incorporar a volatilidade estocástica e a difusão por salto. Vários desses pesquisadores ficaram surpresos com o fato de tão poucos traders realmente usarem modelos de volatilidade estocástica. Não é um modelo que Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 388 negociadores de opções nunca usam a fórmula black-scholes-mertonÿ,‡ diz como deve ser o sorriso da volatilidade ou evolui ao longo do tempo; é uma cobertura método que seja robusto e consistente com uma superfície de volatilidade livre de arbitragem que evolui com o tempo. Em outras palavras, você pode usar uma superfície de volatilidade como um mapa, não como um território. No entanto, é tolice justificar Black-Scholes-Merton com base na sua utilização: repetimos que o Gaussiano proíbe o uso de distribuições de probabilidade que não sejam gaussianas enquanto as derivações de cobertura não dinâmicas (Bachelier, Thorp) não se baseiam em o Gaussiano. 22.6.2 Fluxo de Pedidos e Opções É claro que os negociantes de opções não estão necessariamente interessados na distribuição de probabilidade no momento do vencimento, visto que isso é abstrato, até mesmo metafísico para eles. Além das restrições à paridade put-call que, de acordo com as evidências, foram totalmente desenvolvido já em 1904, podemos proteger o risco de estoque em opções com outros opções. Uma implicação muito importante deste método é que se você cobrir opções com opções, então o preço das opções será em grande parte baseado na demanda e na oferta. Isto contrasta fortemente com a teoria de Black-Scholes-Merton (1973) que, baseada na mundo idealizado de movimento geométrico browniano com cobertura delta em tempo contínuo, então a demanda e a oferta de opções simplesmente não deveriam afetar o preço de opções. Se alguém quiser comprar mais opções, os formadores de mercado podem simplesmente fabricá-los por meio de hedge delta dinâmico que será um substituto perfeito para a opção em si. Isto levanta um ponto crítico: os traders de opções não estimam as probabilidades de eventos raros precificando opções fora do dinheiro. Eles apenas respondem à oferta e à demanda. A noção de distribuição de probabilidade implícita é apenas um tipo de proposição de compatibilidade com o livro holandês. 22.6.3 Bachelier-Thorp O argumento frequentemente proposto casualmente atribuindo o sucesso do volume de opções à qualidade da fórmula Black-Scholes é bastante fraca. É particularmente enfraquecido pelo facto de as opções terem tido tanto sucesso em diferentes períodos de tempo e lugares. Além disso, há evidências de que, embora tanto a Chicago Board Options Exchange como a fórmula Black-Scholes-Merton tenham surgido em 1973, o modelo foi "raramente utilizado pelos comerciantes" antes da década de 1980 (O'Connell, 2001). Quando um dos autores (Taleb) se tornou um pit trader em 1992, quase duas décadas depois de Black-Scholes-Merton, ele ficou surpreso ao descobrir que muitos traders ainda precificavam as folhas de opções gratuitamente, precificando a borboleta e a conversão, sem recorrer a qualquer fórmula. Até mesmo um livro escrito em 1975 por um acadêmico de finanças parece dar crédito a Thorpe e Kassouf (1967) – em vez de Black-Scholes (1973), embora este último estivesse presente em sua bibliografia. Auster (1975): Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 22.6 sobre a impossibilidade matemática de cobertura dinâmica 389 Sidney Fried escreveu sobre hedges de warrants antes de 1950, mas foi somente em 1967 que o livro Beat the Market, de Edward O. Thorp e Sheen T. Kassouf, explicou rigorosamente, mas de forma simples, o warrant curto/hedge comum longo para um público amplo. Concluímos com a seguinte observação. Infelizmente, todas as equações, desde a primeira (Bachelier) até a última pré-Black-Scholes-Merton (Thorp) acomodam uma distribuição sem escala. A noção de remover explicitamente a expectativa do avançado estava presente em Keynes (1924) e mais tarde em Blau (1944) – e longo, um Call short, um put do mesmo strike equivale a um forward. Essas relações de arbitragem pareciam ser bem conhecidas em 1904. Poderíamos facilmente atribuir a explosão no volume de opções à era da informática e à facilidade de processamento de transacções, somada ao longo período de crescimento económico pacífico e à ausência de hiperinflação. Pelas evidências (uma vez removida a propaganda), o desenvolvimento das finanças escolares parece ser um epifenômeno e não uma causa da negociação de opções. Mais uma vez, ensinar aos pássaros como voar não permite que alguém receba crédito subsequente. É por isso que chamamos a equação de Bachelier-Thorp. Estávamos usando-o o tempo todo e demos-lhe o nome errado, com base no método errado e com atribuição às pessoas erradas. Isto não significa que a cobertura dinâmica esteja fora de questão; simplesmente não é uma parte central do paradigma de preços. Isso levou à anotação de um certo processo estocástico que poderá ter sua utilidade, algum dia, caso os mercados espiralem em direção à completude dinâmica. Mas não no presente. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 23 PREÇOS DE OPÇÃO ABAIXO DO PREÇO LEIS: AROBUSTHEURISTI Cÿ,‡ determinado preço da opção nas caudas com strike K e estende (para Neste capítulo (de pesquisa), umacoloca heurística leva em consideração chama, todos osconstruímos golpes > K, para todosque os golpes < K) assumindo o a continuação cai no que definimos como "constante Karamata" ou "ponto Karamata" além do qual a forte lei de Pareto é válida. A heurística produz preços relativos para opções, tendo como único parâmetro o índice de cauda ÿ sob algumas restrições suaves de arbitragem. Restrições usuais, como a finitude da variância, não são necessárias. A heurística nos permite examinar a superfície da volatilidade e testar teorias de precificação e sobrepreço de opções de cauda relativa, geralmente construídas em modelos de cauda fina e modificação da fórmula de Black-Scholes. Função de sobrevivência de registro Figura 23.1: O ponto Karamata onde a função de movimento lento é substituída com segurança por uma constante L(S) = l. A constante varia quer utilizemos o preço S ou o seu retorno geométrico – mas não a inclinação assintótica que corresponde ao índice de cauda ÿ. ÿ Histórico Capítulo de pesquisa, com a equipe Universa: Brandon Yarckin, Chitpuneet Mann, Damir Delic e Mark Spitznagel. 391 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 392 precificação de opções sob leis de potência: uma heurística robustaÿ,‡ Black-Scholes Sorriso Poder da lei Preço da Opção 1.0 Figura 23.2: Mostramos um preço de opção Black-Scholes direto (volatilidade constante), um com um “sorriso” de volatilidade, ou seja, a escala aumenta nas caudas e preços de 0,8 0,6 opções de lei de potência. No caso simplificado de uma distribuição de lei de potência para o subjacente, os preços das opções são lineares em relação ao exercício. 0,4 0,2 K 115 120 125 130 23.1 introdução A classe da lei de potência é convencionalmente definida pela propriedade da função de sobrevivência, como segue. Seja X uma variável aleatória pertencente à classe de distribuições com cauda direita "lei de potência", ou seja: P(X > x) = L(x) x -a (23.1) onde L : [xmin, +ÿ) ÿ (0, +ÿ) é uma função de variação lenta, definida como limxÿ+ÿ 1 para qualquer k > 0 [22]. L(kx) eu(x) A função de sobrevivência de X pertence à classe de "variação regular" RVÿ. Mais especificamente, uma função f : R+ ÿ R+ é um índice que varia no infinito com índice ÿ (f ÿ RVÿ) quando lim tÿÿ f(tx) ÿ=x . f(t) De forma mais prática, há um ponto onde L(x) se aproxima do seu limite, l, tornando-se uma constante como na Figura 23.1 – chamamos-lhe "constante Karamata". Além desse valor, as caudas das leis de potência são calibradas usando técnicas padrão como o estimador de Hill. A distribuição nessa zona é apelidada de lei de Pareto forte por B. Mandelbrot [162],[75]. 23.2 preços de chamadas além da constante karamata Agora defina um preço de chamada europeu C(K) com um preço de exercício K e um preço +, subjacente S, K, S ÿ (0, +ÿ), como (S ÿ K) com sua avaliação realizada sob alguma medida de ÿ + probabilidade P, permitindo-nos assim precificar a opção como EP(S ÿ K) = ÿ K (S ÿ K)dP. Isso nos permite provar imediatamente o seguinte. = Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 23.2 preços de chamadas além da constante karamata 393 23.2.1 Primeira abordagem, S está na classe de variação regular Começamos com um caso simplificado, para construir a intuição. Seja S uma função de sobrevivência na classe de variação regular RVÿ conforme 23.1. Para todo K > l e ÿ > 1, K 1-a l a C(K) = (23.2) uma - 1 Observação 21 Notamos que o parâmetro l, quando derivado de um preço de opção existente, contém todas as informações necessárias sobre a distribuição de probabilidade abaixo de S = l, o que sob um determinado parâmetro ÿ torna desnecessário estimar a média, a "volatilidade" (isto é, escala) e outros atributos. Suponhamos que ÿ seja definido exogenamente (derivado de distribuições ajustadas, ou, simplesmente da experiência, em ambos os casos ÿ deve flutuar minimamente [239] ). Notamos que C(K) é invariante às calibrações de distribuição e os únicos parâmetros necessários l que, sendo constante, desaparece nas proporções. Agora considere como definido que o preço de mercado de uma opção de cauda “âncora” no mercado é Cm com exercício K1 , definido como uma opção cujo exercício tem outras opções precificadas em valor relativo. Nós a-1 simplesmente gerar todos os ataques adicionais de l = ( (ÿ ÿ 1)CmK Eq. 23.2. 1 )1/ÿ e a aplicação pode Resultado 1: Preço relativo sob distribuição para S Para K1 , K2 ÿ l, C(K2) = ( K2K1 )1ÿÿ C(K1 ). (23.3) A vantagem é que todos os parâmetros nas distribuições são eliminados: tudo o que precisamos é do preço da opção de cauda e do ÿ para construir um mecanismo de precificação único. Observação 22: Evitando confusão sobre L e ÿ O índice de cauda ÿ e a constante de Karamata l devem corresponder à distribuição atribuída para o subjacente específico. Um índice de cauda ÿ para S na classe de variação regular S-S0 conforme 23.1 levando à Eq. 23.2 é diferente daquele para r = ÿ RVÿ . Para consistência, S0 cada um deve ter seu próprio gráfico Zipf e outras representações. xÿX0 ) = Lb XÿX0 - a , e P( 1. Se P(X > x) = La(x) x > (x)o x X0 stant será - a , o ÿ conX0 mesmo, mas os vários L(.) atingirão seu nível constante em uma taxa diferente. S 2. Se rc = log S0 , não está na classe de variação regular, veja o teorema. A razão pela qual ÿ permanece o mesmo é devido ao atributo livre de escala do índice de cauda. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 394 precificação de opções sob leis de potência: uma heurística robustaÿ,‡ Teorema 7: Log de retornos Seja S uma variável aleatória com função de sobrevivência ÿ(s) = L(s)s L(.) - a é uma função de variação lenta. Seja rl o log de retorno rl = log na classe RVÿ. - Prova. Imediato. A transformação ÿrl (rl ) = L(s)s log(logÿ(s)) log(s) ÿ RVÿ, onde . é s0 ÿrl (rl ) não é . Observamos, no entanto, que na prática, embora possamos precisar de composição contínua para construir dinâmicas [229], nossa abordagem assume que tais dinâmicas estão contidas no preço da opção âncora selecionada para a análise (ou l). Além disso, não há diferença tangível entre S e SÿS0 , fora da cauda mais distante, entre log S0 S0 . 23.2.2 Segunda abordagem, S tem retornos geométricos na variação regular aula SÿS0 Apliquemos agora a casos do mundo real onde os retornos são paretianos. Considere, S0 para r > l, S = (1 + r)S0, onde S0 é o valor inicial do subjacente e r ÿ P(l, ÿ) (Distribuição Pareto I) com função de sobrevivência K > S0(1 + l) (K ÿ lS0 S0 )ÿa , (23.4) 1 uma (ÿÿ1)1/ÿC ÿ1/m (KÿS0) e ajustado para Cm usando l = S0 , o que, como antes, mostra que praticamente todas as informações sobre a distribuição estão embutidas em l. 1ÿ Seja SÿS0 na classe de variação regular. Para S ÿ S0(1 + l), S0 C(K, S0) = (lS0 )a (K ÿ S0) 1-a ÿÿ1 (23,5) Podemos assim reescrever a Eq. 23.3 para eliminar l: Resultado 2: Preço relativo sob distribuição para SÿS0 S0 Para K1 , K2 ÿ (1 + l)S0, ÿ S0 )1ÿÿ C(K1 ). C(K2) = ( K2 K1 ÿ S0 (23.6) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 23.2 preços de chamadas além da constante karamata 395 Figura 23.3: Preços de put no SP500 usando “fix K” como âncora (a partir da liquidação de 31 de dezembro de 2018 ) e gerando preços de opção usando um índice de cauda ÿ que corresponde ao mercado (azul) (“modelo), e em preços vermelhos para ÿ = 2,75. Podemos ver que os preços de mercado tendem a 1) ajustar-se a uma lei de potência (combina a volatilidade estocástica com parâmetros falsificados), 2) mas com um ÿ que afina as caudas. Isso mostra como os modelos que alegam superfaturamento das caudas são grosseiramente mal especificados . Observação 23 Ao contrário dos métodos de precificação na classe de modificação Black-Scholes (modelos estocásticos e de volatilidade local, (ver as exposições de Dupire, Derman e Gatheral, [74] [102], [60], a finitude da variância não é necessária para nosso modelo ou precificação de opções em geral, conforme mostrado em [229]. O único requisito é ÿ > 1, ou seja, finito primeiro momento. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 396 precificação de opções sob leis de potência: uma heurística robustaÿ,‡ Figura 23.4: Mesmos resultados da Figura 23.3 , mas expressos usando volatilidade implícita. Combinamos o preço com a volatilidade implícita para ataques negativos (âncora 90, 85 e 80) usando nosso modelo versus mercado, em índices. Assumimos ÿ = 2,75. Black-Scholes ÿ=2 uma = 5 ÿ=3 2 log Preço da Opção 1 0,100 Figura 23.5: A intuição do gráfico Log log para a segunda calibração 0,010 0,001 registro K 120 140 160 180 23.3 preços de venda Consideramos agora os strikes de venda (ou as opções de compra correspondentes na cauda negativa, que devem ser precificadas por meio de arbitragem de paridade de opção de venda). Ao contrário das chamadas, só podemos considerar as variações S0 , de S ÿ S0 e não os retornos logarítmicos (nem os de S considerados separadamente). Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 23,4 limites de arbitragem 397 Construímos o lado negativo com um retorno negativo para o subjacente. Seja r a taxa de retorno S = (1 ÿ r)S0, e seja r > l > 0 uma distribuição de Pareto no domínio positivo, com densidade fr(r) = ÿ l ÿ transformação e redimensionamento da PDF do subjacente: ÿÿÿ 1r . Temos por probabilística S-S0 fS(S) = ÿ ÿ(ÿ lS0 )ÿÿÿ1 lS0 ÿ S ÿ [0, (1 ÿ l)S0) 1 onde a constante de escala ÿ = ( (ÿ1)ÿ+1(l ÿÿ1) ) é definido de forma a fazer com que fs(S) integre para 1. O parâmetro ÿ, no entanto, é próximo de 1, tornando a correção insignificante, em aplicações onde ÿ ÿ t ÿ (ÿ sendo a volatilidade implícita equivalente de Black-Scholes e t o tempo até o vencimento da 12 opção). Notavelmente, tanto os parâmetros le a escala ÿ são eliminados. Resultado 3: Preço de venda Para K1 , K2 ÿ (1 ÿ l)S0, P(K2) = P(K 1 ) (ÿ1)1ÿÿS ÿÿ 0((ÿ ÿ 1)K2 + S0) ÿ (K2 ÿ S0) (ÿ1)1ÿÿS ÿÿ ((ÿ0ÿ 1)K1 + S0) ÿ (K1 ÿ S0) 1-a 1-a (23,7) 23.4 limites de arbitragem Obviamente, não há arbitragem para strikes superiores ao K1 da linha de base nas equações anteriores. Pois podemos verificar o resultado de Breeden-Litzenberger [32], onde a densidade é recuperada da segunda derivada da opção em relação a ÿ 2C(K) golpe ÿ 0. ÿK2 |KÿK1 = ÿK ÿÿÿ1L ÿ o No entanto, permanece a possibilidade de arbitragem entre os ataques K1 + ÿK, K1 e K1 ÿ ÿK violando o seguinte limite: seja BSC(K, ÿ(K)) o valor de Black-Scholes da chamada para o ataque K com volatilidade ÿ(K) uma função do strike e t tempo até o vencimento. Nós temos C(K1 + ÿK) + BSC(K1 ÿ ÿK) ÿ 2 C(K1 ), (23,8) onde BSC(K1 , ÿ(K1 )) = C(K1 ). Para que a desigualdade 23,8 seja satisfeita, precisamos ainda de uma desigualdade de spreads de chamadas, levada ao limite: ÿBSC(K, ÿ(K)) ÿC(K) |K=K1ÿ ÿK ÿK |K=K1 (23,9) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 398 precificação de opções sob leis de potência: uma heurística robustaÿ,‡ Tal arbitragem coloca um limite inferior no índice final ÿ. Assumindo taxas 0 para simplificar: 1ÿ ÿ ÿ log (K ÿ S0) + log(l) + log (S0) ÿ 2 registro + 2 log(K) ÿ 2 log (S0) 2 erfc ( tÿ(K) ) 2 ÿ 2 ÿ tÿ(K) (23.10) ÿÿÿÿÿ 1 registro(S0) - ÿ S0 ÿ tÿ' (K)K tÿ(K) 2 1 +2 log2(K)+log2 (S0) exp ( - 2 2tÿ(K) - tÿ(K) 18 ÿ 2) ÿ 2p ÿÿÿÿÿ 23,5 comentários Como podemos ver na Figura 23.5, os modelos de volatilidade estocástica e adaptações semelhantes (digamos, difusão de salto ou variações padrão de Poisson) eventualmente falham "nas caudas" fora da zona para a qual foram calibrados. Tem havido tentativas fracas de extrapolar os preços das opções usando uma distribuição de probabilidade de cauda fina falsificada em vez de uma distribuição paretiana – daí as numerosas afirmações na literatura financeira sobre O "sobrepreço" das opções de cauda combinado com algum psicolophastering sobre o "risco terrível" não é rigoroso nesta base. Os métodos propostos permitem-nos abordar tais afirmações com mais realismo. Por fim, observe que nossa abordagem não se trata de uma precificação absolutamente errada de opções de cauda, mas sim de um determinado strike mais próximo do dinheiro. agradecimentos Bruno Dupire, Peter Carr, alunos da NYU Tandon School of Engineering. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 24 FOURMIS TA KESINQUANTI TAT IVE FINANÇAS Eÿ,‡ de risco principal para um grande fundo de hedge) comenta em Quantitativo Discutimos adiretor história de Jeff Holman (que na época era, surpreendentemente, um Finanças para ilustrar quatro erros críticos que os alunos devem aprender a evitar: 1. Confundir cauda (4º momento e superior) com volatilidade (2º momento) 2. Faltando a Desigualdade de Jensen ao calcular o potencial de retorno 3. Analisando os resultados de hedge sem o desempenho do subjacente no 4. A necessidade de um numéraire em finanças. A revisão do Antifrágil feita pelo Sr. Holman (4 de dezembro de 2013) está repleta de erros factuais, lógicos e analíticos. Listaremos aqui apenas os críticos e generalizados para as comunidades de gestão de risco e finanças quantitativas; estes devem ser ensinados aos estudantes de finanças quantitativas como erros centrais a evitar, para que os quantistas iniciantes e os gestores de risco possam aprender com estas falácias. 24.1 fusão do segundo e quarto momentos É fundamental que os iniciantes não caiam no seguinte erro elementar. O Sr. Holman entende a relação do VIX (contrato de volatilidade) com apostas em “eventos de cauda” ao contrário. Reafirmemos a noção de “eventos de cauda” (vimos anteriormente no livro): significa um papel desproporcional das caudas na determinação das propriedades de distribuição, o que, matematicamente, significa um papel menor para o “corpo”. 2 Capítulo de discussão. 2 A questão está voltada para todos os usuários de planilhas: curtose, ou quarto momento em escala, a medida padrão de fattailedness, implica normalizar o quarto momento pelo quadrado da variância. 399 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 400 quatro erros em finanças quantitativasÿ,‡ Holman parece entender a última parte dos atributos da cauda gorda ao contrário. É um erro confundir o VIX com eventos finais. O VIX é principalmente afetado por opções no dinheiro que correspondem ao centro da distribuição, mais próximo do segundo momento e não do quarto (as opções no dinheiro são na verdade lineares em seu retorno e correspondem ao primeiro momento condicional) . Conforme explicado há cerca de dezessete anos em Dynamic Hedging (Taleb, 1997) (ver apêndice), na discussão sobre tais apostas de cauda, ou "apostas de quarto momento", apostar no papel desproporcional dos eventos de cauda de fattailedness é feito vendendo as opções em torno do dinheiro (o VIX) e as opções de compra nas caudas, a fim de extrair o segundo momento e alcançar neutralidade para ele (uma espécie de tornar-se "neutro em termos de mercado"). Tal neutralidade requer algum tipo de “volatilidade curta” no corpo porque maior curtose significa menor ação no centro da distribuição. Uma formulação mais matemática está na versão técnica do Incerto: caudas gordas significam “picos mais altos” para a distribuição, pois, quanto mais gordas as caudas, mais mar- 2 ( 5 ÿ ÿ 17) ÿ onde ÿ é kets passam o tempo entre µ ÿ ÿ 1 2 ( 5 ÿ ÿ 17) ÿ e µ + ÿ 1 o desvio padrão e µ a média da distribuição (usamos aqui o Gaussiano como base para facilitar a apresentação, mas o argumento se aplica a todas as distribuições unimodais com curvas em "formato de sino", conhecidas como semicôncavas). E “picos mais altos” significam menos variações que não sejam eventos de cauda, mais tempos de silêncio, e não menos. Quanto às consequências sobre a precificação de opções, o leitor pode estar interessado em um teste que costumo dar aos alunos após a primeira aula sobre derivativos: "O que acontece com as opções no dinheiro quando se engorda a cauda?", cuja resposta é que elas deveriam queda de valor. 3 Efetivamente, mas num argumento mais profundo, no artigo QF (Taleb e Douady 2013), a nossa medida de fragilidade tem uma sensibilidade oposta a eventos em torno do centro da distribuição, uma vez que, por um argumento de probabilidade de sobrevivência, o que é frágil é sensível à cauda de choques e, criticamente, não deve variar no corpo (caso contrário, seria quebrado). 24.2 faltando a desigualdade de Jensen na análise dos retornos das opções Aqui está um erro que deve ser evitado a todo custo nas discussões sobre estratégias de volatilidade ou, aliás, em qualquer coisa em finanças. Holman parece não perceber a existência da desigualdade de Jensen, que é a razão de possuir uma opção, um ponto que foi trabalhado em Antifrágil. Uma manifestação da falta do efeito de convexidade é um erro de cálculo crítico na forma como se pode ingenuamente assumir que as opções respondem ao VIX. 3 Ponto Técnico: Onde Começa a Cauda? Como vimos em 4.3, para uma classe geral de distribuição simétrica ÿ 5a+ ÿ (a+1)(17a+1)+1 a-1 é , gaussiano de volatilidade estocástica e s Mas com leis de potência, a cauda começa em: ± com ÿ infinito no caso ÿ2 o desvio padrão. A “cauda” está localizada entre cerca de 2 e 3 desvios padrão. Isto decorre da definição heurística de fragilidade como efeito de segunda ordem: a parte da distribuição é convexa a erros na estimativa da escala. Mas, na prática, como as medições históricas de DST serão tendenciosas para baixo devido aos pequenos efeitos amostrais (à medida que repetimos caudas grossas acentuando os efeitos de pequenas amostras), os desvios serão > 2-3 DSTs. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 24.3 a inseparabilidade do seguro e do segurado 401 "Um investimento de US$ 1 em 1º de janeiro de 2007 em uma estratégia de compra e rolagem de futuros de VIX de curto prazo teria atingido o pico de US$ 4,84 em 20 de novembro de 2008 - e posteriormente perderia 99% de seu valor durante os próximos quatro anos e meio, terminando abaixo de US$ 0,05 em 31 de maio de 2013." 4 Este erro no exemplo dado subestima os retornos das opções em até...várias ordens de grandeza. Holman analisa o desempenho de uma estratégia de cauda usando investimentos em opções financeiras usando o VIX (ou futuros de VIX) como proxy, o que é matematicamente errôneo devido a efeitos de segunda ordem, pois a ligação é tênue (seria como avaliar investimentos em esqui resorts analisando futuros de temperatura). Suponha uma rolagem periódica de uma estratégia de opções: uma opção 5 STD longe do dinheiro 5 ganha 16 vezes em valor se sua volatilidade implícita subir 4, mas só perde seu valor se a volatilidade chegar a 0. Para uma 10 STD é 144 vezes. E, para mostrar a aceleração, supondo que sejam negociadas, 20 opções STD em cerca de 210 mil vezes6 . Há um segundo erro crítico na discussão: os cálculos do Sr. Holman aqui excluem a recompensa da situação real de estar dentro do dinheiro. É preciso lembrar que o VIX não é um preço, mas sim uma função inversa, um índice derivado de um preço: não se compra “volatilidade” como se compra um tomate; os operadores compram opções correspondentes a essa função inversa e há não linearidades graves, muito graves no efeito. Embora mais linear do que as opções de cauda, o VIX ainda é convexo em relação à volatilidade real do mercado, em algum lugar entre a variância e o desvio padrão, uma vez que uma faixa de opções abrangendo todos os strikes deve fornecer a variância (Gatheral, 2006). O leitor pode fazer um exercício simples. Digamos que o VIX seja “comprado” a 10% – ou seja, as opções de componentes são compradas em uma combinação de volatilidades que corresponde a um VIX nesse nível. Suponha que os retornos estejam em quadrados. Devido à não linearidade, o pacote poderia beneficiar de um episódio de volatilidade de 4% seguido de um episódio de 15%, para uma média de 9,5%; O Sr. Holman acredita ou quer que o leitor acredite que estes 0,5 pontos percentuais deveriam ser tratados como uma perda quando, na verdade, as desigualdades de segunda ordem nas variações de volatilidade são mais relevantes do que o efeito de primeira ordem. 24.3 a inseparabilidade do seguro e do segurado Nunca se deve calcular o custo do seguro sem compensá-lo com retornos gerados por pacotes que não seriam adquiridos de outra forma. Mesmo que tivesse acertado o sinal sobre a volatilidade, o Sr. Holman, no exemplo acima, analisa o desempenho de uma estratégia de compra de opções para proteger um evento de cauda sem adicionar o desempenho do portfólio em si, como contar o lado do custo do seguro sem o desempenho daquilo que se está assegurando e que de outra forma não teria sido comprado. Durante o mesmo período, ele discute que o mercado subiu mais de 100%: uma abordagem saudável seria comparar dólar por dólar o que 4 Na discussão acima, o Sr. Holman também mostra evidências de retornos sombrios em opções de venda sobre índices que, como dissemos antes, respondem à volatilidade e não a eventos de cauda. Estes são chamados, na linguagem, de "otários". 5 Estamos a utilizar a volatilidade implícita como referência para o seu STD. 6 Um evento que este autor testemunhou, na liquidação de Victor Niederhoffer, opções vendidas por US$ 0,05 foram compradas de volta a US$ 38, o que levou a Refco à falência e, o que é notável, sem que as opções chegassem perto do dinheiro: foi apenas um aumento de pânico na volatilidade implícita. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 402 quatro erros em finanças quantitativasÿ,‡ um investidor teria feito isso (e, claro, se livrando desse negócio “VIX” e focando em dólares muito pequenos investidos em opções de cauda que permitiriam uma postura tão agressiva). Muitos investidores (como este autor) teriam ficado fora do mercado, ou não teriam acrescentado fundos ao mercado, sem esse seguro. 24.4 a necessidade de um numéraire em finanças Há um erro analítico mais profundo. Uma barra é definida como uma estratégia de investimento bimodal, apresentada como o investimento de uma parte de seu portfólio no que é explicitamente definido como um "repositório numérico de valor" (Antifragile), e o restante em títulos de risco (Antifragile indica que tal numéraire seria, entre outras coisas, protegido contra a inflação). Holman prossegue sem parar num discurso niilista sobre a ausência de tal numéraire sem risco (do tipo que pode levar a tal sofisma como “ele está a dizer que estamos mais seguros em terra firme do que no mar, mas e se houver um terramoto? "). A familiar derivação de Black e Scholes utiliza um ativo sem risco como base; mas a literatura desde cerca de 1977 substituiu a noção de "dinheiro" pela de numéraire, juntamente com a noção de que se pode ter moedas diferentes, o que tecnicamente permite mudanças na medida de probabilidade. Um numéraire é definido como a unidade à qual todas as outras unidades se relacionam. (Praticamente, o numéraire é uma cesta cujas variações não afetam o bem-estar do investidor.) Infelizmente, sem numéraire, não há medida de probabilidade, nem quantitativa em finanças quantitativas, pois é necessária uma unidade para a qual todo o resto é trazido de volta para. Neste discurso (emocional), o Sr. Holton não está apenas rejeitando a barra em si, mas qualquer uso do operador de expectativa com qualquer variável econômica, o que significa que ele deveria atacar as dezenas de milhares de artigos de pesquisa e a própria existência da revista Quantitative Finance. . É evidente que há uma grande densidade de outros erros ou declarações incoerentes na onda de raiva da revisão do senhor deputado Holman; mas não tenho dúvidas de que estes foram detectados pelo leitor de Finanças Quantitativas e, como dissemos, o objecto desta discussão é a prevenção de erros analíticos em finanças quantitativas. Para concluir, este autor acolhe com agrado as críticas da comunidade financeira que não são argumentos de espantalho ou, como no caso do Sr. Holmam, que violam os fundamentos do próprio campo. Apêndice 24,5 (apostando nas caudas da distribuição) Da cobertura dinâmica, páginas 264-265: Uma aposta de quarto momento é comprada ou vendida na volatilidade da volatilidade. Isso poderia ser alcançado com opções out-of-the-money ou com calendários. Exemplo: Um índice "backspread" ou spread reverso é um método que inclui a compra de opções fora do dinheiro em grandes quantidades e a venda de quantidades menores de opções no dinheiro, mas garantindo que o Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 24,5 apêndice (apostas nas caudas da distribuição) 403 Figura 24.1: Primeiro Método Extrair o Quarto Momento, de Dynamic Hedg-ing, 1997. Figura 24.2: Segundo Método para extrair o Quarto Momento, de Cobertura Dinâmica, 1997. a negociação satisfaz a regra do “crédito” (isto é, a negociação gera inicialmente um fluxo de caixa positivo). A regra do crédito é mais difícil de interpretar quando se utilizam opções dentro do dinheiro. Naquilo caso, deve-se deduzir o valor presente da parte intrínseca de cada opção usando o regra de paridade put-call para equipará-los a out-of-the-money. A negociação mostrada na Figura 24.1 foi realizada com a compra de opções de venda e opções de compra fora do dinheiro e com a venda de quantidades menores de straddles at-the-money com o mesmo vencimento. A Figura 24.2 mostra o segundo método, que envolve a compra de opções de 60 dias em alguma quantia e vendendo opções de 20 dias sobre 80% do valor. Ambas as negociações mostram o Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 404 quatro erros em finanças quantitativasÿ,‡ posição beneficiando das caudas gordas e dos picos altos. Ambas as negociações, no entanto, terão sensibilidades vega diferentes, mas próximas do vega modificado plano. Veja O corpo, os ombros e as caudas da seção 4.3 , onde assumimos que as caudas começam no nível de convexidade do segmento da distribuição de probabilidade até a escala da distribuição. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 25 TA ILRESTRIÇÕES DE RISCO E MAXIMUMENTROPIA (WD & H . GEMAN) ‡ P seleção de portfólio na literatura financeira tem essencialmente analisado sob dois pressupostos centrais: pleno conhecimento da distribuição de probabilidade conjunta dos retornos dos títulos que comporão a carteira alvo; e as preferências dos investidores são expressas através de uma função de utilidade. Na verdade mundo, as operadoras constroem carteiras sob restrições de risco que são expressas tanto pelos seus clientes como pelos reguladores e que suportam a perda máxima que pode ser gerado durante um determinado período de tempo em um determinado nível de confiança (o chamado Valor em Risco da posição). Curiosamente, na literatura financeira, uma discussão séria sobre quanto ou pouco se sabe a partir de uma estimativa probabilística ponto de vista sobre a densidade multidimensional dos retornos dos ativos parece ser de relevância limitada. Nossa abordagem, em contraste, é destacar essas questões e então adotar uma estrutura de maximização de entropia para representar a ignorância do mundo real sobre as “verdadeiras” distribuições de probabilidade, tanto univariadas quanto multivariadas. dos retornos dos títulos negociados. Neste cenário, identificamos o portfólio ideal sob uma série de restrições de risco descendente. Dois resultados interessantes são exibido: (i) as restrições da cauda esquerda são suficientemente poderosas para anular todas outras considerações da teoria convencional; (ii) a “carteira barbell” (certeza máxima/risco baixo num conjunto de participações, incerteza máxima em outro), que é bastante familiar aos comerciantes, surge naturalmente na nossa construção. 25,1 risco de cauda esquerda como restrição central da carteira Habitualmente, quando trabalham num quadro institucional, os operadores e os tomadores de risco utilizam principalmente limites de perda de cauda exigidos pela regulamentação para definir níveis de risco nos seus Capítulo de pesquisa. 405 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 406 restrições de risco de cauda e entropia máxima (wd& h. geman)‡ carteiras (obrigatoriamente para bancos desde Basileia II). Eles se baseiam em testes de estresse, stoploss, valor em risco (VaR), déficit esperado (ou seja, a perda esperada condicional sobre a perda que excede o VaR, também conhecido como CVaR), e redução de perdas semelhante métodos, em vez de utilidade. Em particular, a margem das transacções financeiras é calibrado por empresas de compensação e bolsas com base nas perdas extremas, vistas tanto probabilisticamente como através de testes de esforço. (Na terminologia de tomada de risco, um stop loss é um ordem obrigatória que tenta encerrar toda ou parte da exposição mediante um gatilho, uma certa perda nominal pré-definida. Basileia II é um nome geralmente usado para recomendações sobre leis e regulamentos bancários emitidas pelo Comitê de Supervisão Bancária da Basileia. O valor em risco, VaR, é definido como um limite de perda valor K tal que a probabilidade de que a perda na carteira ao longo do tempo determinado horizonte excede esse valor é ÿ. Um teste de estresse é um exame do desempenho mediante um desvio definido arbitrariamente nas variáveis subjacentes.) A informação incorporada na escolha da restrição é, para dizer o mínimo, uma estatística significativa sobre o apetite pelo risco e a forma da distribuição desejada. As operadoras estão menos preocupadas com as variações da carteira do que com o rebaixamento eles podem enfrentar durante uma janela de tempo. Além disso, eles ignoram a distribuição de probabilidade conjunta dos componentes da sua carteira (exceto por uma vaga noção de associação e hedge), mas pode controlar perdas organicamente com métodos de alocação baseados em risco máximo. (A ideia de substituir o risco pela variância pode parecer muito estranho para os praticantes da assunção de riscos. O objetivo da Teoria Moderna do Portfólio reduzir a variância é inconsistente com as preferências de um investidor racional, independentemente da sua aversão ao risco, uma vez que também minimiza a variabilidade no lucro domínio – exceto na situação muito estreita de certeza sobre a média futura retorno, e no caso rebuscado em que o investidor só pode investir em variáveis ter uma distribuição de probabilidade simétrica e/ou ter apenas um retorno simétrico. Os controles de stop loss e de risco de cauda violam essa simetria.) As noções convencionais de utilidade e variância podem ser usadas, mas não diretamente, pois as informações sobre elas são embutido na constante de perda de cauda. Dado que o stop loss, as abordagens VaR (e o défice esperado) e outros métodos de controlo de risco dizem respeito apenas a um segmento da distribuição, o lado negativo do domínio de perdas, podemos obter uma abordagem dupla semelhante a uma separação de portfólio, ou construção “estilo barra”, pois o investidor pode ter posturas opostas em diferentes partes da distribuição de retorno. Nossa definição de barra aqui é a mistura de duas propriedades extremas em um portfólio, como uma combinação linear de valores máximos conservadorismo para uma fração w da carteira, com w ÿ (0, 1), por um lado e risco máximo (ou alto) na fração restante (1 ÿ w). Historicamente, a teoria financeira tem preferido métodos paramétricos e menos robustos. A ideia de que um tomador de decisão tem conhecimento claro e livre de erros sobre o A distribuição de resultados futuros sobreviveu apesar da sua falta de validade prática e teórica – por exemplo, as correlações são demasiado instáveis para produzir medições precisas. É uma abordagem que se baseia em certezas distributivas e paramétricas, aquele que pode ser útil para pesquisa, mas não acomoda risco responsável tirando. (As correlações são instáveis de uma forma instável, uma vez que os retornos conjuntos dos activos são não elíptico, ver Bouchaud e Chicheportiche (2012) [42].) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 25,1 risco de cauda esquerda como a restrição central da carteira 407 Existem aproximadamente duas tradições: uma baseada na tomada de decisão altamente paramétrica pelo establishment econômico (em grande parte representado por Markowitz [166]) e pelo outro baseado em suposições um tanto esparsas e conhecido como critério de Kelly (Kelly, 1956 [142], ver Bell e Cover, 1980 [15].) (Em contraste com a abordagem de variância mínima, o método de Kelly, desenvolvido no mesmo período que Markowitz, não requer distribuição conjunta ou função de utilidade. Na prática, é necessária a proporção de lucro esperado ao retorno do pior caso ajustado dinamicamente para evitar a ruína. Obviamente, o erro do modelo é de menor consequência sob o critério de Kelly: Thorp (1969) [250], Haigh (2000) [119], Mac Lean, Ziemba e Blazenko [157]. Para uma discussão sobre diferenças entre as duas abordagens, veja a objeção de Samuelson ao critério de Kelly e ao dimensionamento logarítmico em Thorp 2010 [252].) O método de Kelly também está relacionado ao controle da cauda esquerda devido ao investimento proporcional, que reduz automaticamente a carteira em caso de perdas; mas o método original requer um pior cenário difícil e não paramétrico, ou seja, títulos que tenham um limite inferior em seu valor. variações, semelhantes a uma aposta num casino, que é algo que, em finanças, pode só pode ser realizado através de opções binárias. O critério de Kelly, além disso, requer algum conhecimento preciso dos retornos futuros, como a média. Nossa abordagem vai além do último método ao acomodar mais incerteza sobre os retornos, pelo que um operador só pode controlar a sua cauda esquerda através de derivadas e outros formas de seguros ou construção dinâmica de carteiras baseadas em stop-loss. (Xu, Wu, Jiang e Song (2014) [266] contrastam a variância média com a entropia máxima e usa entropia para construir carteiras robustas.) Em poucas palavras, fixamos as restrições às perdas, mas, por outro lado, assumimos a incerteza máxima sobre os retornos. Mais precisamente, igualamos a distribuição de retorno com a extensão máxima de entropia de restrições expressas como expectativas estatísticas sobre o comportamento da cauda esquerda, bem como como na expectativa de retorno ou retorno logarítmico na zona de não perigo. (Observação que usamos a entropia de Shannon o tempo todo. Existem outras medidas de informação, como a entropia de Tsallis [256] , uma generalização da entropia de Shannon, e a entropia de Renyi, [137] , alguns dos quais podem ser mais convenientes computacionalmente em especial casos. No entanto, a entropia de Shannon é a mais conhecida e tem um quadro de maximização. ) Aqui, o “comportamento de cauda esquerda” refere-se às restrições institucionais rígidas e explícitas discutido acima. Descrevemos a forma e investigamos outras propriedades do resultando na chamada distribuição maxent. Além de um resultado matemático que revela a ligação entre a perda de cauda aceitável (VaR) e o retorno esperado no Na estrutura gaussiana de média-variância, nossa contribuição é então dupla: 1) uma investigação da forma da distribuição de retornos da construção de portfólio sob restrições mais naturais do que aquelas impostas no método de média-variância, e 2) o uso da entropia estocástica para representar a incerteza residual. Os métodos VaR e CVaR não são isentos de erros – o VaR paramétrico é conhecido por ser ineficaz como método de controle de risco por si só. No entanto, estes métodos podem ser robustecidas por meio de construções que, ao pagar um preço de seguro, não mais dependem de suposições paramétricas. Isto pode ser feito através de contratos de derivativos ou pela construção orgânica (claramente se alguém tem 80% do seu portfólio em numéraire títulos, o risco de perder mais de 20% é zero, independentemente de todos os possíveis modelos de retornos, já que as flutuações no numéraire não são consideradas arriscadas). Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 408 restrições de risco de cauda e entropia máxima (wd& h. geman)‡ Utilizamos a “robustez pura” ou tanto o VaR como o défice zero através da “paragem brusca” ou seguro, que é o caso especial no nosso artigo do que chamámos anteriormente de construção “barbell”. Vale ressaltar que é uma ideia antiga em economia que um investidor possa construir um portfólio baseado em duas categorias de risco distintas, ver Hicks (1939) [128]. A Teoria Moderna do Portfólio propõe o teorema dos fundos mútuos ou teorema da “separação”, ou seja, que todos os investidores podem obter a carteira desejada misturando dois fundos mútuos, sendo um o ativo sem risco e outro representando a carteira ótima de média-variância que é tangente ao seu valor. restrições; ver Tobin (1958) [254], Markowitz (1959) [167] e as variações em Merton (1972) [170], Ross (1978) [202]. No nosso caso, um ativo sem risco é a parte da cauda onde o risco é definido exatamente como zero. Observe que a parte arriscada da carteira precisa ter uma variação mínima na economia financeira tradicional; para o nosso método, a representação exatamente oposta é tomada para o arriscado. 25.1.1 A barra vista por ET Jaynes A nossa abordagem de restringir apenas o que pode ser restringido (de uma forma robusta) e de maximizar a entropia noutros locais ecoa uma visão notável de ET Jaynes em “Como devemos usar a entropia na economia?” [134]: “Pode acontecer que um sistema macroeconómico não se mova em resposta (ou pelo menos não apenas em resposta) às forças que deveriam existir nas teorias actuais; pode simplesmente mover-se na direção de uma entropia crescente, conforme limitado pelas leis de conservação impostas pela Natureza e pelo Governo.” 25.2 revisitando a configuração de variância média Deixei ÿX = (X1 , ..., Xm) denotar m retornos de ativos durante um determinado período único com densidade conjunta g(ÿx), retornos médios ÿµ = (µ1 , ..., µm) e matriz de covariância m × m ÿ: ÿij = dos dados E(XiXj ) 1 ÿ i, j ÿ m. Suponha que ÿµ e ÿ possam ser estimados com segurança a partir ÿ µiµj . O retorno da carteira com pesos wÿ = (w1 , ..., wm) é então eu X = ÿ wiXi , eu=1 que tem média e variância T E(X) = wÿ ÿµ , V(X) = wÿ ÿwÿ T . Na teoria padrão do portfólio, minimiza-se V(X) sobre todos wÿ sujeito a E(X) = µ para um retorno médio desejado fixo µ. Equivalentemente, maximiza-se o retorno esperado Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 25.2 revisitando a configuração de variância média 409 E(X) sujeito a uma variância fixa V(X). Neste quadro, a variância é considerada um substituto do risco. Para estabelecer conexões com nossa abordagem centrada na entropia, consideramos dois casos padrão: (1) Mundo Normal: A distribuição conjunta g(ÿx) dos retornos dos ativos é multivariada Gaussiana N(ÿµ, ÿ). Assumir a normalidade é equivalente a assumir que g(ÿx) tem entropia máxima (Shannon) entre todas as distribuições multivariadas com as estatísticas de primeira e segunda ordem fornecidas ÿµ e ÿ. Além disso, para uma média fixa E(X), minimizar a variância V(X) é equivalente a minimizar a entropia (incerteza) de X. (Isso é verdade, uma vez que a normalidade conjunta implica que X é normal univariada para qualquer escolha de pesos). e a entropia de 2 ) variável é (1 um N (µ, ÿ H= + log(2ÿÿ2 )).) Isso é natural em um mundo com informações completas. 12 (A ideia de entropia como incerteza média está em Philippatos e Wilson (1972) [188]; ver Zhou –et al. (2013) [270] para uma revisão da entropia na economia financeira e Georgescu-Roegen (1971) [ 107] para economia em geral.) (2) Distribuição Multivariada Desconhecida: Como assumimos que podemos estimar a estrutura de segunda ordem, ainda podemos realizar o programa de Markowitz, ou seja, escolher os pesos da carteira para encontrar um desempenho médio-variância ideal, que determina E(X) = µ e V(X) 2 = ÿ distribuição do retorno X. Observe que assumindo . Contudo, não sabemos o que X é normalmente distribuído N (µ, ÿ o normal maximiza a entropia em uma dada média e 2 variância,) é equivalente a assumir que a entropia de X é maximizada, uma vez que, novamente, veja [188]. 2 A nossa estratégia é generalizar o segundo cenário, substituindo a variância ÿ por duas restrições de valor em risco de cauda esquerda e modelar o retorno da carteira como a extensão máxima de entropia destas restrições, juntamente com uma restrição no desempenho global ou no crescimento. da carteira na zona sem perigo. 25.2.1 Analisando as Restrições Deixe X ter densidade de probabilidade f(x). Em tudo o que se segue, seja K < 0 uma constante de normalização escolhida para ser consistente com a riqueza do tomador de risco. Para qualquer ÿ > 0 e ÿÿ < K, as restrições de valor em risco são: (1) Probabilidade de cauda: K f(x) dx = ÿ. P(X ÿ K) = ÿ ÿÿ (2) Déficit esperado (CVaR): E(X|X ÿ K) = ÿÿ. Supondo que (1) seja válido, a restrição (2) é equivalente a K E( XI(XÿK) ) = ÿ xf(x) dx = ÿÿÿ. ÿÿ Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 410 restrições de risco de cauda e entropia máxima (wd& h. geman)‡ Dados os parâmetros de valor em risco ÿ = (K, ÿ, ÿÿ), deixe ÿvar(ÿ) denotar o conjunto de densidades de probabilidade f que satisfazem as duas restrições. Observe que ÿvar(ÿ) é convexo: f1 , f2 ÿ ÿvar(ÿ) implica ÿ f1 + (1 ÿ ÿ)f2 ÿ ÿvar(ÿ). Posteriormente adicionaremos outra restrição envolvendo a média geral. 25.3 revisitando o caso gaussiano 2 . princípio, Suponha que assumimos que X é gaussiano com média µ e variância ÿ. Em deveria ser possível satisfazer as restrições do VaR, uma vez que temos dois parâmetros livres. Na verdade, como mostrado abaixo, as restrições da cauda esquerda determinam a média e a variância; veja a Figura 25.1. Contudo, satisfazer as restrições do VaR impõe restrições interessantes sobre µ e ÿ e leva a uma desigualdade natural do tipo “sem almoço grátis”. 0,4 Figura 25.1: Ao definir K (o valor em risco), a probabilidade ÿ de excedê-lo e o déficit ao fazê-lo, não há margem de manobra sob uma distribuição gaussiana: ÿ e µ são determinados, o que torna a construção de acordo com a teoria do portfólio menos relevante. 0,3 Área K 0,2 0,1 _ Devoluções -4 -2 2 4 Seja ÿ(ÿ) o quantil ÿ da distribuição normal padrão, –ou seja, ÿ(ÿ) = ÿÿ1 (ÿ), onde ÿ é o cdf da densidade normal padrão ÿ(x). Além disso, defina 2 1 B(ÿ) = ÿ(ÿ(ÿ)) = {ÿÿ(ÿ) ÿÿ(ÿ) ÿ 1exp 2ÿÿÿ(ÿ) 2 }. Proposição 25.1 2 Se X ÿ N(µ, ÿ ) e satisfaz as duas restrições de VaR, então a média e a variância são dado por: K ÿ ÿÿ ÿÿ + KB(ÿ) , ÿ= µ= 1 + B(ÿ) ÿ(ÿ)(1 + B(ÿ)). Além disso, B(ÿ) < ÿ1 e limÿÿ0 B(ÿ) = ÿ1. A prova está no apêndice. As restrições do VaR levam diretamente a duas equações lineares em µ e ÿ: µ + ÿ(ÿ)ÿ = K, µ ÿ ÿ(ÿ)B(ÿ)ÿ = ÿÿ. Considere as condições sob as quais as restrições do VaR permitem um retorno médio positivo µ = E(X) > 0. Primeiro, a partir da equação linear acima em µ e ÿ em termos Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 25.3 revisitando o caso gaussiano 411 de ÿ(ÿ) e K, vemos que ÿ aumenta à medida que ÿ aumenta para qualquer média fixa µ, e que µ K > 0 se e somente se ÿ > ÿ(ÿ) , –ou seja, devemos aceitar um limite inferior na variância que aumenta com ÿ, que é uma propriedade razoável. Em segundo lugar, a partir da expressão para µ na Proposição 1, temos µ > 0 ÿÿ |ÿÿ|> KB(ÿ). Consequentemente, a única forma de obter um retorno esperado positivo é acomodar um risco suficientemente grande expresso pelas várias compensações entre os parâmetros de risco ÿ que satisfaçam a desigualdade acima. (Este tipo de restrição também se aplica de forma mais geral a distribuições simétricas, uma vez que as restrições da cauda esquerda impõem uma estrutura na localização e escala. Por exemplo, no caso de uma distribuição T de Student com escala s, localização m e expoente final ÿ , a mesma relação linear entre i ÿ I 2ÿ ( ÿ s e m se ÿ1 aplica: s = (K ÿ m)ÿ(ÿ), onde ÿ(ÿ) = ÿ ÿ ÿ ÿ I 2ÿ ( ÿ o inverso do beta 1 2, ÿ1 incompleto 2, 2) 1 2 )ÿ1 ÿ1 é , onde eu regularizado função I, e é a solução de ÿ= 12 ÿs 2 Eu (kÿm) 2+ÿs 2 1 ( a2 , 2 ). 25.3.1 Uma mistura de duas normais Em muitas ciências aplicadas, uma mistura de duas normais fornece uma extensão útil e natural da própria Gaussiana; em finanças, a hipótese de distribuição mista (denotada como MDH na literatura) refere-se a uma mistura de dois normais e tem sido amplamente investigada (ver, por exemplo, Richardson e Smith (1995) [200]). H. Geman e T. Ané (1996) [2] mostram como uma mistura infinita de distribuições normais para os retornos das ações surge da introdução de um "relógio estocástico" que leva em conta a taxa desigual de chegada do fluxo de informações nos mercados financeiros. Além disso, os negociantes de opções há muito usam misturas para contabilizar caudas gordas e para examinar a sensibilidade de uma carteira a um aumento na curtose (“DvegaDvol”); ver Taleb (1997) [225]. Finalmente, Brigo e Mercurio (2002) [34] utilizam uma mistura de duas normais para calibrar a distorção nas opções de ações. Considere a mistura f(x) = ÿN(µ1 , 2 em 1 ) + (1 ÿ ÿ)N(µ2, p 2 2 ). Um caso intuitivamente simples e atraente é fixar a média geral µ e tomar ÿ = ÿ e µ1 = ÿÿ, caso em que µ2 é restrito a µÿÿÿÿ 1ÿÿ . Segue-se então que as restrições da cauda esquerda são aproximadamente satisfeitas para ÿ1 , ÿ2 suficientemente pequenas. Na verdade, quando ÿ1 = ÿ2 ÿ 0, a densidade é efetivamente composta por dois picos (normais de pequena variância) com o esquerdo centrado em ÿÿ e o direito centrado em µÿÿÿÿ 1ÿÿ . O caso extremo é uma função de Dirac à esquerda, como veremos a seguir. Stop Loss Dinâmico, Um Breve Comentário Pode-se definir um nível K abaixo do qual não há massa, com resultados que dependem da precisão da execução de tal stop. A distribuição à direita do stop loss não se parece mais com o padrão Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 412 restrições de risco de cauda e entropia máxima (wd& h. geman)‡ Gaussiano, pois constrói assimetria positiva de acordo com a distância do stop à média. Limitamos qualquer discussão adicional às ilustrações da Figura 25.2. Probabilidade Figura 25.2: Um stop loss dinâmico atua como uma barreira absorvente, com uma função Dirac no stop executado. Certo 25,4 entropia máxima Dos comentários e análises acima, fica claro que, na prática, a densidade f do retorno X é desconhecida; em particular, nenhuma teoria fornece isso. Suponhamos que podemos ajustar os parâmetros da carteira para satisfazer as restrições do VaR e talvez outra restrição no valor esperado de alguma função de X (por exemplo, a média global). Desejamos então calcular probabilidades e expectativas de interesse, por exemplo P(X > 0) ou a probabilidade de perder mais de 2K, ou o retorno esperado dado X > 0. Uma estratégia é fazer tais estimativas e previsões sob as condições mais imprevisíveis. circunstâncias consistentes com as restrições. Ou seja, use a extensão de entropia máxima (MEE) das restrições como modelo para f(x). A “entropia diferencial” de f é h(f) = ÿ ÿ f(x) ln f(x) dx. (Em geral, a integral pode não existir.) A entropia é côncava no espaço de densidades para o qual é definida. Em geral, o MEE é definido como fMEE = arg max h(f) fÿÿ onde ÿ é o espaço de densidades que satisfazem um conjunto de restrições da forma Eÿj (X) = cj , j = 1, ..., J. Assumindo que ÿ não é vazio, é bem conhecido que fMEE é único e (longe do limite de viabilidade) é uma distribuição exponencial nas funções de restrição, –ou seja, é da forma fMEE(x) = C ÿ1 experiência ÿ ÿjÿj ÿ ÿÿ j (x) ÿ onde C = C(ÿ1 , ..., ÿM) é a constante de normalização. (Esta forma vem da diferenciação de um funcional J(f) apropriado com base na entropia, e forçando a integral a ser unidade e impondo as restrições com multiplicadores de Lagrange.) Nos casos especiais abaixo, usamos esta caracterização para encontrar o MEE. para nossas restrições. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 25,4 entropia máxima 413 No nosso caso, queremos maximizar a entropia sujeita às restrições do VaR juntamente com quaisquer outras que possamos impor. Na verdade, as restrições de VaR por si só não admitem um MEE, uma vez que não restringem a densidade f(x) para x > K. A entropia pode 1ÿÿ ser tornada arbitrariamente grande permitindo que f seja identicamente C = sobre K < x < N N-K e deixando N ÿ ÿ. Suponhamos, contudo, que juntamos uma ou mais restrições ao comportamento de f que são compatíveis com as restrições do VaR no sentido de que o conjunto de densidades ÿ que satisfaz todas as restrições não é vazio. Aqui ÿ dependeria dos parâmetros VaR ÿ = (K, ÿ, ÿÿ) juntamente com os parâmetros associados às restrições adicionais. 25.4.1 Caso A: Restringindo a Média Global O caso mais simples é adicionar uma restrição ao retorno médio, ou seja, fixar E(X) = µ. Como E(X) = P(X ÿ K)E(X|X ÿ K) + P(X > K)E(X|X > K), adicionar a restrição média é equivalente a adicionar a restrição E(X|X > K) = ÿ+ onde ÿ+ satisfaz ÿÿÿ + (1 ÿ ÿ)ÿ+ = µ. Definir ÿ fÿ(x) = 1 K-x (Kÿÿÿ) exp [ ÿ Kÿÿÿ ] se x < K, ÿ 0 se x ÿ K. ÿ e ÿ f+(x) = 1 xÿK (ÿ+ÿK) exp [ ÿ ÿ+ÿK ] se x > K, ÿ 0 ÿ se x ÿ K. É fácil verificar que fÿ e f+ se integram em um. Então fMEE(x) = ÿ fÿ(x) + (1 ÿ ÿ)f+(x) é o MEE das três restrições. Primeiro, evidentemente K 1.ÿ _ÿÿ 2. ÿ 3. ÿ K ÿÿ ÿ K fMEE(x) dx = ÿ; x fMEE(x) dx = ÿÿÿ; x fMEE(x) dx = (1 ÿ ÿ)ÿ+. Portanto, as restrições são satisfeitas. Segundo, fMEE tem uma forma exponencial em nossas funções de restrição: fMEE(x) = C ÿ1 exp [ ÿ(ÿ1x + ÿ2 I(xÿK) + ÿ3x I(xÿK) ) ] . Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 414 restrições de risco de cauda e entropia máxima (wd& h. geman)‡ A forma de fÿ depende da relação entre K e o déficit esperado ÿÿ. Quanto mais próximo ÿÿ estiver de K, mais rapidamente a cauda cai. Como ÿÿ ÿ K, fÿ converge para um pico unitário em x = K (Figuras 25.3 e 25.4). Perturbador ÿ 0,4 0. 0,3 0,1 Figura 25.3: Caso A: Efeito de diferentes valores de ÿ na forma da distribuição. 0,25 0,2 0,5 0,1 -20 -10 10 20 Perturbador ÿ0,5 0,4 Figura 25.4: Caso A: Efeito de diferentes valores de ÿÿ na forma da distribuição. 0,3 0,2 0,1 -10 -5 5 10 25.4.2 Caso B: Restringindo a Média Absoluta Se, em vez disso, restringirmos a média absoluta, ou seja, E|X|= ÿ |x| f(x) dx = µ, então o MEE é um pouco menos aparente, mas ainda pode ser encontrado. Defina fÿ(x) como acima, e deixe ÿ1 exp(ÿÿ1 |x|) se x ÿ K, 2ÿexp(ÿ1K) 0 se x < K. f + (x) = { Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 25,4 entropia máxima 415 Então ÿ1 pode ser escolhido tal que ÿ ÿÿÿ + (1 ÿ ÿ) ÿ K |x| f+(x)dx = µ. 25.4.3 Caso C: Leis de Potência para a Cauda Direita Se acreditarmos que os retornos reais têm “caudas gordas”, em particular que a cauda direita decai como uma Lei de Potência em vez de exponencialmente (como acontece com uma densidade normal ou exponencial), então podemos adicionar esta restrição às restrições de VaR em vez de trabalhar com a média ou média absoluta. Tendo em vista a forma exponencial do MEE, a densidade f+(x) terá uma lei de potência, a saber 1 f+(x) = (1 + |x|) ÿ(1+a) , x ÿ K, C(s) para ÿ > 0 se a restrição for da forma E (log(1 + |X|)|X > K) = A. Além disso, novamente a partir da teoria MEE, sabemos que o parâmetro é obtido minimizando o logaritmo da função normalizadora. Neste caso, é fácil mostrar que 1 ÿ C(uma) = ÿK (1 + |x|) ÿ(1+a) dx = a (2 ÿ (1 ÿ K) -a ). Segue-se que A e ÿ satisfazem a equação 1 UMA = - a log(1 ÿ K) . 2(1 ÿ K) ÿ ÿ 1 Podemos pensar nesta equação como a determinação da taxa de decaimento ÿ para um dado A ou, alternativamente, como a determinação do valor de restrição A necessário para obter uma determinada Lei de Potência ÿ. A extensão MEE final das restrições de VaR juntamente com a restrição no log do retorno é então: 1 fMEE(x) = ÿI(xÿK) (K ÿ ÿÿ) K-x exp [ - K ÿ ÿÿ ] + (1 ÿ ÿ)I(x>K) (1 + |x|) ÿ(1+uma) C(s) , (ver Figuras 25.5 e 25.6). 25.4.4 Extensão para um cenário multiperíodo: um comentário Considere o comportamento em multiperíodos. Utilizando uma abordagem ingênua, resumimos o desempenho como se não houvesse resposta aos retornos anteriores. Podemos ver como o Caso A se aproxima da Gaussiana regular, mas não do Caso C (Figura 25.7). Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 416 restrições de risco de cauda e entropia máxima (wd& h. geman)‡ Perturbador ÿ 1,5 1 3 1,0 Figura 25.5: Caso C: Efeito de diferentes valores de na forma da distribuição de entropia máxima de cauda gorda. 2 2 5 2 0,5 3 -2 -1 1 2 3 Perturbador ÿ 1,5 1 3 Figura 25.6: Caso C: Efeito de diferentes valores de na forma da distribuição de entropia máxima de cauda gorda (K mais próximo). 2 1,0 2 5 2 3 0,5 -2 -1 1 2 3 Para o caso A, a função característica pode ser escrita: A(t) = e iKt(t(K ÿ ÿÿÿ + ÿ+(ÿ ÿ 1)) ÿ i) ÿ (Kt ÿ ÿÿt ÿ i)(ÿ1 ÿ isto(K ÿ ÿ+)) Portanto, podemos deduzir das convoluções que a função ÿA(t) n converge para a de uma Gaussiana com soma n. Além disso, a função característica do limite da média das estratégias, nomeadamente isto(ÿ++ÿ(ÿÿÿÿ+)) , limnÿÿ ÿ UMA(t/n) n = e (25.1) é a função característica do delta de Dirac, visivelmente o efeito da lei dos grandes números entregando o mesmo resultado que o Gaussiano com média ÿ+ + ÿ(ÿÿ ÿ ÿ+) . Quanto à Lei de Potência no Caso C, a convergência para Gaussiana só ocorre para ÿ ÿ 2, e de forma bastante lenta. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 25,5 comentários e conclusão 417 0,5 Figura 25.7: Retorno médio para ingênuo multiperíodo estratégia para o Caso A, que é, assumindo independência 0,4 0,3 de “dimensionamento”, como tamanho da posição não depende do desempenho passado. Eles agregam perfeitamente para um gaussiano padrão e (como mostrado na Equação (25.1)), encolher para um Dirac no valor médio. 0,2 0,1 -4 -2 2 4 6 8 10 25,5 comentários e conclusão Observamos que o stop loss desempenha um papel maior na determinação das propriedades estocásticas do que a composição da carteira. Simplesmente, a parada não é acionada por componentes, mas por variações na carteira total. Isso libera a análise de concentrando-nos em componentes individuais da carteira quando a cauda – através de derivados ou construção orgânica – é tudo o que conhecemos e podemos controlar. Para concluir, a maioria dos artigos que tratam da entropia na literatura matemática financeira utilizou a minimização da entropia como critério de otimização. Por exemplo, Fritelli (2000) [98] exibe a unicidade de uma "medida martingale de entropia mínima" sob algumas condições e mostra que a minimização da entropia é equivalente a maximizar a utilidade exponencial esperada da riqueza terminal. Temos, em vez disso, e fora de qualquer critério de utilidade, propôs a maximização da entropia como o reconhecimento da incerteza das distribuições de ativos. Abaixo do VaR e déficit esperado restrições, obtemos em geral uma "carteira barbell" como a solução ótima, estendendo para um cenário muito geral a abordagem da separação de dois fundos teorema. 25.6 apêndice/provas Prova da Proposição 1: Como X ÿ N(µ, p ÿ = P(X < K) = P(Z < 2 ), a restrição de probabilidade de cauda é Kÿµ p ) =ÿ( Kÿµ p ). Por definição, ÿ(ÿ(ÿ)) = ÿ. Por isso, K = µ + ÿ(ÿ)ÿ (25.2) Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 418 restrições de risco de cauda e entropia máxima (wd& h. geman)‡ Para a restrição de déficit, K x (x ÿ µ) exp ÿ E(X; X < k) = ÿ ÿ 2ÿÿ 2ÿ 2 (Kÿµ)/ ÿ) xÿ(x) dx = µÿ + ÿ ÿ 2 dx ÿÿ ÿÿ p = µÿ ÿ exp ÿ 2ÿ 2 ÿ 2ÿ (K ÿ µ) 2 Visto que E(X; X < K) = ÿÿÿ, e da definição de B(ÿ), obtemos ÿÿ = µ ÿ ÿ(ÿ)B(ÿ)ÿ Resolvendo (25.2) e (25.3) para µ e ÿ 2 (25.3) fornece as expressões da Proposição 1. Finalmente, por simetria com a “desigualdade da cauda superior” da normal padrão, ÿ(x) ÿ tem, para x < 0, ÿ(x) ÿ ÿx nós. Escolher x = ÿ(ÿ) = ÿÿ1 (ÿ) resulta em ÿ = P(X < ÿ(ÿ)) ÿÿB(ÿ) ou 1 + B(ÿ ) ÿ 0. Como a desigualdade da cauda superior é assintoticamente exata quando x ÿ ÿ temos B(0) = ÿ1, o que conclui a prova. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 BIBLIOGRAFIA E ÍNDICE 419 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 BIBLIOGRAFIA [1] Inmaculada B Aban, Mark M Meerschaert e Anna K Panorska. Estimativa de parâmetros para a distribuição de Pareto truncada. Jornal da Associação Estatística Americana, 101(473):270– 277, 2006. [2] Thierry Ané e Hélyette Geman. Fluxo de pedidos, relógio de transações e normalidade de retornos de ativos. O Jornal de Finanças, 55(5):2259–2284, 2000. [3] Kenneth J Arrow, Robert Forsythe, Michael Gorham, Robert Hahn, Robin Hanson, John O Ledyard, Saul Levmore, Robert Litan, Paul Milgrom, Forrest D Nelson, et al. A promessa dos mercados de previsão. Ciência, 320(5878):877, 2008. [4] Marco Avellaneda, Craig Friedman, Richard Holmes e Dominick Samperi. Calibração de superfícies de volatilidade via minimização de entropia relativa. Finanças Matemáticas Aplicadas, 4(1):37–64, 1997. [5] L. Bachelier. Teoria da especulação em: P. Cootner, ed., 1964, O caráter aleatório dos preços do mercado de ações. MIT Press, Cambridge, Massachusetts, 1900. [6] Louis Bachelier. Teoria da especulação. Gauthier-Villars, 1900. [7] Kevin P Balanda e HL MacGillivray. Curtose: uma revisão crítica. The American Statistician, 42(2):111–119, 1988. [8] Agosto A Balkema e Laurens De Haan. Tempo de vida residual na idade avançada. Os Anais de Probabilidade, páginas 792–804, 1974. [9] Agosto A Balkema e Laurens De Haan. Limite as distribuições para estatísticas de pedidos. eu. Teoria da Probabilidade e suas Aplicações, 23(1):77–92, 1978. [10] Agosto A Balkema e Laurens de Haan. Limite as distribuições para estatísticas de pedidos. ii. Teoria da Probabilidade e suas Aplicações, 23(2):341–358, 1979. [11] Shaul K Bar-Lev, Idit Lavi e Benjamin Reiser. Inferência bayesiana para o processo de lei de potência. Anais do Instituto de Matemática Estatística, 44(4):623–639, 1992. [12] Nicolau Barberis. A psicologia dos eventos de cauda: progresso e desafios. Revisão Econômica Americana, 103(3):611–16, 2013. 421 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 422 Bibliografia [13] Jonathan Barão. Pensando e decidindo, 4ª Ed. Cambridge University Press, 2008. [14] Norman C Beaulieu, Adnan A Abu-Dayya e Peter J McLane. Estimar a distribuição de uma soma de variáveis aleatórias lognormais independentes. Comunicações, Transações IEEE em, 43(12):2869, 1995. [15] Capa de Robert M Bell e Thomas M. Otimalidade competitiva do investimento logarítmico. Matemática da Pesquisa Operacional, 5(2):161–166, 1980. [16] Shlomo Benartzi e Richard Thaler. Heurísticas e preconceitos na aposentadoria comportamento de poupança. Perspectivas do Journal of Economic, 21(3):81–104, 2007. [17] Shlomo Benartzi e Richard H Thaler. Aversão míope à perda e o quebra-cabeça do prêmio de ações. O jornal trimestral de Economia, 110(1):73–92, 1995. [18] Shlomo Benartzi e Richard H Thaler. Estratégias ingênuas de diversificação em planos de poupança de contribuição definida. Revisão econômica americana, 91(1):79–98, 2001. [19] Sergei Natanovich Bernstein. Sobre a lei dos grandes números. Comunicações da Sociedade Matemática de Kharkow, 16(1):82–87, 1918. [20]Patrick Billingsley. Probabilidade e medida. John Wiley e Filhos, 2008. [21]Patrick Billingsley. Convergência de medidas de probabilidade. John Wiley & Filhos, 2013. [22] Nicholas H Bingham, Charles M Goldie e Jef L Teugels. Variação regular, volume 27. Cambridge University Press, 1989. [23] Giulio Biroli, JP Bouchaud e Marc Potters. No autovalor superior de matrizes aleatórias de cauda pesada. EPL (Cartas Eurofísicas), 78(1):10001, 2007. [24] Fischer Black e Myron Scholes. A precificação de opções e empresas passivos. 81:637–654, maio-junho de 1973. [25] Fischer Black e Myron Scholes. O preço das opções e passivos corporativos. O jornal de economia política, páginas 637–654, 1973. [26] AJ Bones. Elementos de uma teoria do valor das opções de ações. 72:163–175, 1964. [27] Jean-Philippe Bouchaud, Marc Mézard, Marc Potters, et al. Propriedades estatísticas das carteiras de ordens de ações: resultados empíricos e modelos. Finanças Quantitativas, 2(4):251–256, 2002. [28] Jean-Philippe Bouchaud e Marc Potters. Teoria do risco financeiro e precificação de derivativos: da física estatística à gestão de risco. Imprensa da Universidade de Cambridge, 2003. [29] Olivier Bousquet, Stéphane Boucheron e Gábor Lugosi. Introdução à teoria da aprendizagem estatística. Em Palestras avançadas sobre aprendizado de máquina, páginas 169–207. Springer, 2004. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Bibliografia 423 [30] George Bragues. Mercados de previsão: as possibilidades práticas e normativas para a produção social do conhecimento. Episteme, 6(1):91–106, 2009. [31] DT Breeden e RH Litzenberger. Preço das reivindicações contingentes ao estado implícito nos preços das opções. 51:621–651, 1978. [32] Douglas T Breeden e Robert H Litzenberger. Preços contingentes ao estado reivindicações implícitas nos preços das opções. Jornal de negócios, páginas 621–651, 1978. [33] Henry Brighton e Gerd Gigerenzer. Homo heuristicus e o preconceito – dilema da variância. Em Ação, Percepção e o Cérebro, páginas 68–91. Springer, 2012. [34] Damiano Brigo e Fábio Mercúrio. A dinâmica da mistura lognormal e a calibração para a volatilidade do mercado sorriem. Revista Internacional de Teoria e Finanças Aplicadas, 5(04):427–446, 2002. [35]Peter Carr. Movimento browniano limitado. Escola de Engenharia Tandon da NYU, 2017. [36] Peter Carr, Hélyette Geman, Dilip B Madan e Marc Yor. Volatilidade estocástica para processos lévy. Finanças matemáticas, 13(3):345–382, 2003. [37] Peter Carr e Dilip Madan. Posicionamento ideal em títulos derivativos. 2001. [38] Lars-Erik Cederman. Modelando o tamanho das guerras: das bolas de bilhar aos montes de areia. Revisão de Ciência Política Americana, 97(01):135–150, 2003. [39] Bikas K Chakraborty, Anirban Chakraborty, Satya R Chakravarty e Arnab Chatterjee. Econofísica da distribuição de renda e riqueza. Cambridge University Press, 2013. [40] David G. Champernowne. Um modelo de distribuição de renda. O econômico Diário, 63(250):318–351, 1953. [41] Shaohua Chen, Hong Nie e Benjamin Ayers-Glassey. Soma lognormal aproximação com uma variante da distribuição de Pearson tipo iv. Cartas de Comunicações IEEE, 12(9), 2008. [42] Rémy Chicheportiche e Jean-Philippe Bouchaud. A distribuição conjunta de o retorno das ações não é elíptico. Revista Internacional de Teoria e Aplicada Finanças, 15(03), 2012. [43] Vice-Presidente Chistyakov. Um teorema sobre somas de variáveis aleatórias positivas independentes e suas aplicações a processos aleatórios ramificados. Teoria da Probabilidade e Suas Aplicações, 9(4):640–648, 1964. [44] Pasquale Cirillo. Seus dados são realmente distribuídos por Pareto? Física A: Mecânica Estatística e suas Aplicações, 392(23):5947–5962, 2013. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 424 Bibliografia [45] Pasquale Cirillo e Nassim Nicholas Taleb. Estimativa do déficit esperado para modelos de risco operacional de média aparentemente infinita. Finanças Quantitativas, páginas 1–10, 2016. [46] Pasquale Cirillo e Nassim Nicholas Taleb. Sobre as propriedades estatísticas e o risco de conflitos violentos. Física A: Mecânica Estatística e suas Aplicações, 452:29–45, 2016. [47] Pasquale Cirillo e Nassim Nicholas Taleb. Quais são as chances de guerra? Significância, 13(2):44–45, 2016. [48] Pasquale Cirillo e Nassim Nicholas Taleb. Risco de cauda de doenças contagiosas. Física da Natureza, 2020. [49] Colaboração de Ciência Aberta et al. Estimando a reprodutibilidade da ciência psicológica. Ciência, 349(6251):aac4716, 2015. [50] Rama Cont e Peter Tankov. Modelagem financeira com processos de salto, volume 2. CRC Press, 2003. [51] Harald Cramer. Sobre a teoria matemática do risco. Centraltryckeriet, 1930. [52] George Cybenko. Aproximação por superposições de uma função sigmoidal. Matemática de controle, sinais e sistemas, 2(4):303–314, 1989. [53] Camilo Dagum. Medidas de desigualdade entre distribuições de renda com aplicações. Econometrica, 48(7):1791–1803, 1980. [54] Camilo Dagum. Modelos de distribuição de renda. Biblioteca Online Wiley, 1983. [55] Anirban DasGupta. Probabilidade para estatística e aprendizado de máquina: fundamentos e tópicos avançados. Springer Ciência e Mídia de Negócios, 2011. [56] Herbert A David e Haikady N Nagaraja. Estatísticas de pedidos. 2003. [57] Bruno De Finetti. Probabilidade, indução e estatística. 1972. [58] Bruno De Finetti. Palestras Filosóficas sobre Probabilidade: coletadas, editadas e anotadas por Alberto Mura, volume 340. Springer Science & Business Media, 2008. [59] Amir Dembo e Ofer Zeitouni. Técnicas e aplicações de grandes desvios, volume 38. Springer Science & Business Media, 2009. [60] Kresimir Demeterfi, Emanuel Derman, Michael Kamal e Joseph Zou. Um guia para swaps de volatilidade e variância. O Jornal de Derivados, 6(4):9–32, 1999. [61] Kresmir Demeterifi, Emanuel Derman, Michael Kamal e Joseph Zou. Mais do que você jamais quis saber sobre swaps de volatilidade. Documento de trabalho, Goldman Sachs, 1999. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Bibliografia 425 [62] Victor DeMiguel, Lorenzo Garlappi e Raman Uppal. Diversificação ideal versus diversificação ingênua: quão ineficiente é a estratégia de portfólio 1/n? A revisão de estudos financeiros, 22(5):1915–1953, 2007. [63] E. Derman e N. Taleb. A ilusão da replicação delta dinâmica. Finanças Quantitativas, 5(4):323– 326, 2005. [64] Emanuel Derman. A percepção de tempo, risco e retorno durante períodos de especulação. Documento de trabalho, Goldman Sachs, 2002. [65] Marco Di Renzo, Fabio Graziosi e Fortunato Santucci. Resultados adicionais sobre a aproximação da soma de potência log-normal via distribuição tipo iv de Pearson: uma fórmula geral para cálculo de log-momentos. Transações IEEE sobre Comunicações, 57(4), 2009. [66] Persi Diaconis e David Freedman. Sobre a consistência das estimativas bayesianas. Os Anais de Estatística, páginas 1–26, 1986. [67] Persi Diaconis e Sandy Zabell. Somatório fechado para distribuições clássicas: variações sobre um tema de moivre. Ciência Estatística, páginas 284–302, 1991. [68] Cornélio Frank Dietrich. Incerteza, calibração e probabilidade: as estatísticas da medição científica e industrial. Routledge, 2017. [69] Biblioteca Digital de Funções Matemáticas do NIST. http://dlmf.nist.gov/, Versão 1.0.19 de 22/06/2018. FWJ Olver, AB Olde Daalhuis, DW Lozier, BI Schneider, RF Boisvert, CW Clark, BR Miller e BV Saunders, eds. [70]Daniel Dufresne. Somas de lognormais. Em Atas da 43ª Atuarial conferência de pesquisa. Universidade de Regina, 2008. [71]Daniel Dufresne et al. A aproximação log-normal em cálculos financeiros e outros. Avanços na Probabilidade Aplicada, 36(3):747–773, 2004. [72]Bruno Dupire. Preços com um sorriso. 7(1), 1994. [73]Bruno Dupire. Precificação de opções exóticas por calibração em sorrisos de volatilidade. Em Matemática Avançada para Derivados: Conferência da Revista Risk, 1995. [74] Bruno Dupire e outros. Preços com um sorriso. Risco, 7(1):18–20. [75] Danny Dyer. Limites de probabilidade estrutural para a lei de Pareto forte. Canadian Journal of Statistics, 9(1):71–77, 1981. [76] Ido Eliazar. Espectros de desigualdade. Física A: Mecânica Estatística e suas Aplicações cações, 469:824–847, 2017. [77] Ido Eliazar. Lei de Lindy. Física A: Mecânica Estatística e suas Aplicações, 486:797–805, 2017. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 426 Bibliografia [78] Iddo Eliazar e Morrel H Cohen. Sobre a desigualdade social: analisando a disparidade entre ricos e pobres. Physica A: Mecânica Estatística e suas Aplicações, 401:148–158, 2014. [79] Iddo Eliazar e Igor M Sokolov. Maximização da heterogeneidade estatística: Da entropia de Shannon ao índice de Gini. Physica A: Mecânica Estatística e suas Aplicações, 389(16):3023– 3038, 2010. [80] Iddo I Eliazar e Igor M Sokolov. Caracterização de Gini de estatísticas de valores extremos. Physica A: Mecânica Estatística e suas Aplicações, 389(21):4462–4472, 2010. [81] Ido I Eliazar e Igor M Sokolov. Medindo a uniformidade estatística: uma visão panorâmica. Physica A: Mecânica Estatística e suas Aplicações, 391(4):1323–1353, 2012. [82] Paulo Embrechts. Modelagem de eventos extremos: para seguros e finanças, volume 33. Springer, 1997. [83] Paul Embrechts e Charles M Goldie. Nas caudas de convolução. Processos estocásticos e suas aplicações, 13(3):263–278, 1982. [84] Paul Embrechts, Charles M Goldie e Noël Veraverbeke. Subexponencialidade e divisibilidade infinita. Teoria da Probabilidade e Campos Relacionados, 49(3):335–347, 1979. [85] MÉmile Borel. Probabilidades contáveis e suas aplicações aritméticas. Rendiconti del Circolo Matematico di Palermo (1884-1940), 27(1):247–271, 1909. [86]Michael Falk e outros. Ao testar o índice de valor extremo através do método pot. Os Anais de Estatística, 23(6):2013–2035, 1995. [87] Michael Falk, Jürg Hüsler e Rolf-Dieter Reiss. Leis dos pequenos números: extremos e acontecimentos raros. Springer Ciência e Mídia de Negócios, 2010. [88] Kai-Tai Fang. Distribuições com contornos elípticos. Enciclopédia de Estatística Ciências, 2006. [89] Doyne James Farmer e John Geanakoplos. O desconto hiperbólico é racional: valorizar o futuro distante com taxas de desconto incertas. 2009. [90] J Doyne Farmer e John Geanakoplos. Leis de potência na economia e em outros lugares. No Instituto Santa Fé, 2008. [91] William Feller. 1971, uma introdução à teoria da probabilidade e suas aplicações, vol. 2. [92] William Feller. Uma introdução à teoria das probabilidades. 1968. [93] Baruch Fischhoff, John Kadvany e John David Kadvany. Risco: Um tempo muito curto introdução. Imprensa da Universidade de Oxford, 2011. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Bibliografia 427 [94] Ronald Aylmer Fisher e Leonard Henry Caleb Tippett. Formas limitantes da distribuição de frequência do maior ou menor membro de uma amostra. Em Mathematical Proceedings of the Cambridge Philosophical Society, volume 24, páginas 180– 190. Imprensa da Universidade de Cambridge, 1928. [95] Andrea Fontanari, Pasquale Cirillo e Cornelis W Oosterlee. De perfis de concentração a mapas de concentração. novas ferramentas para o estudo de distribuições de perdas. Seguros: Matemática e Economia, 78:13–29, 2018. [96] Shane Frederick, George Loewenstein e Ted O'donoghue. Desconto de tempo e preferência de tempo: uma revisão crítica. Jornal de literatura econômica, 40(2):351–401, 2002. [97] David Um Libertado. Notas sobre o argumento do livro holandês “. Notas de aula, Departamento de Estatística, Universidade de Berkley em Berkley, http://www. Estado. Berkeley. edu/˜ censo/ dutchdef. pdf, 2003. [98] Marco Fritelli. A medida martingale de entropia mínima e o problema de avaliação em mercados incompletos. Finanças matemáticas, 10(1):39–52, 2000. [99] Xavier Gabaix. Leis de potência em economia e finanças. Relatório técnico, NaBureau Nacional de Pesquisa Econômica, 2008. [100] Xavier Gabaix. Leis de potência em economia: uma introdução. Jornal de EcoPerspectivas econômicas, 30(1):185–206, 2016. [101] Armengol Gasull, Maria Jolis e Frederic Utzet. Nas constantes normativas para máximos normais. Jornal de Análise Matemática e Aplicações, 422(1):376–396, 2015. [102] Jim Reunião. A superfície da volatilidade: um guia prático. John Wiley & Filhos, 2006. [103] Jim Reunião. A superfície da volatilidade: um guia prático. Nova York: John Wiley & Sons, 2006. [104] Oscar Gelderblom e Joost Jonker. Amsterdã como o berço da moderna negociação de futuros e opções, 1550-1650. William Goetzmann e K. Geert Rouwen-horst, 2005. [105] Andrew Gelman e Hal Stern. A diferença entre “significativo” e “não significativo” não é em si estatisticamente significativa. O Estatístico Americano, 60(4):328–331, 2006. [106] Donald Geman, Hélyette Geman e Nassim Nicholas Taleb. Restrições de risco de cauda e entropia máxima. Entropia, 17(6):3724, 2015. [107] Nicholas Georgescu-Roegen. A lei da entropia e o processo econômico, 1971. Cambridge, Mass, 1971. [108] Gerd Gigerenzer e Daniel G Goldstein. Raciocinando de maneira rápida e frugal: modelos de racionalidade limitada. Revisão psicológica, 103(4):650, 1996. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 428 Bibliografia [109] Gerd Gigerenzer e Peter M Todd. Heurísticas simples que nos tornam inteligentes. BoiFord University Press, Nova York, 1999. [110] Corrado Gini. Variabilidade e mutabilidade. Reimpresso em Memórias de metodologia estatística (Ed. Pizetti E, Salvemini, T). Roma: Livraria Eredi Virgilio Veschi, 1912. [111] BV Gnedenko e AN Kolmogorov. Distribuições Limite para Somas de Variáveis Aleatórias Independentes (1954). [112] Charles M. Goldie. Distribuições subexponenciais e caudas de variação dominada. Journal of Applied Probability, páginas 440–442, 1978. [113]Daniel Goldstein e Nassim Taleb. Não sabemos bem do que estamos falando quando falamos de volatilidade. Jornal de Gestão de Portfólio, 33(4), 2007. [114] Richard C Green, Robert A Jarrow, et al. Abrangência e integralidade em mercados com reivindicações contingentes. Jornal de Teoria Econômica, 41(1):202–210, 1987. [115] Emil Julius Gümbel. Estatísticas de extremos. 1958. [116] Laurens Haan e Ana Ferreira. Teoria do valor extremo: uma introdução. Série Springer em Pesquisa Operacional e Engenharia Financeira (, 2006. [117] Wolfgang Hafner e Heinz Zimmermann. Descoberta incrível: Vincenz Modelos de precificação de opções da Bronzin. 31:531–546, 2007. [118] Torben Hagerup e Christine Rüb. Uma visita guiada aos limites de Chernoff. Cartas de processamento de informações, 33(6):305–308, 1990. [119] John Haigh. O critério Kelly e comparações de apostas em apostas de spread. Journal of the Royal Statistical Society: Série D (The Statistician), 49(4):531–539, 2000. [120]Peter Hall. Sobre a taxa de convergência dos extremos normais. Jornal de Probabilidade Aplicada, 16(2):433–439, 1979. [121] Mahmoud Hamada e Emiliano A Valdez. Capm e precificação de opções com distribuições de contorno elíptico. Jornal de Risco e Seguros, 75(2):387–409, 2008. [122] Godfrey Harold Hardy, John Edensor Littlewood e George Pólya. Desigualcidades. Imprensa da universidade de Cambridge, 1952. [123] J Michael Harrison e David M Kreps. Martingales e arbitragem em mercados de valores mobiliários multiperíodos. Journal of Economic Theory, 20(3):381–408, 1979. [124] Trevor Hastie, Robert Tibshirani e Jerome Friedman. Os elementos da aprendizagem estatística: mineração de dados, inferência e previsão, série springer em estatística, 2009. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Bibliografia 429 [125] Espen G. Haug. Derivados: Modelos em Modelos. Nova York: John Wiley & Sons, 2007. [126] Espen Gaarder Haug e Nassim Nicholas Taleb. Os negociantes de opções usam heurísticas (muito) sofisticadas, nunca a fórmula black-scholes-merton. Journal of Economic Behavior & Organization, 77(2):97–106, 2011. [127] Friedrich August Hayek. O uso do conhecimento na sociedade. A revisão econômica americana, 35(4):519–530, 1945. [128] John R. Hicks. Valor e capital, volume 2. Clarendon press Oxford, 1939. [129] Leonard R. Higgins. O colocar e ligar. Londres: E. Wilson., 1902. [130] Wassily Hoeffding. Desigualdades de probabilidade para somas de variáveis aleatórias limitadas. Jornal da associação estatística americana, 58(301):13–30, 1963. [131] PJ Huber. Estatísticas robustas. Wiley, Nova York, 1981. [132] Sua Majestade James Hung, Robert T O'Neill, Peter Bauer e Karl Kohne. O comportamento do valor p quando a hipótese alternativa é verdadeira. Biometria, páginas 11–22, 1997. [133] Rob J Hyndman e Anne B Koehler. Outra análise das medidas de precisão das previsões. Jornal internacional de previsão, 22(4):679–688, 2006. [134] E.T. Jaynes. Como devemos usar a entropia na economia? 1991. [135] Johan Ludwig William Valdemar Jensen. Sobre funções convexas e desigualdades entre valores médios. Acta Matemática, 30(1):175–193, 1906. [136] Hedegaard Anders Jessen e Thomas Mikosch. Funções que variam regularmente ções. Publicações do Instituto de Matemática, 80(94):171–192, 2006. [137] Petr Jizba, Hagen Kleinert e Mohammad Shefaat. Transferência de informações de Rényi entre séries temporais financeiras. Physica A: Mecânica Estatística e suas Aplicações, 391(10):2971–2989, 2012. [138] Valen E Johnson. Padrões revisados para evidências estatísticas. Anais da Academia Nacional de Ciências, 110(48):19313–19317, 2013. [139] Daniel Kahneman e Amos Tversky. Teoria do prospecto: uma análise de decisões situação sob risco. Econometrica, 47(2):263–291, 1979. [140] Joseph P Kairys Jr e Nicholas Valerius III. O mercado de ações opções na década de 1870. The Journal of Finance, 52(4):1707–1723, 1997. [141] Ioannis Karatzas e Steven E Shreve. Movimento browniano e cálculo estocástico springer-verlag pesado. Nova York, 1991. [142] John L. Kelly. Uma nova interpretação da taxa de informação. Teoria da Informação, Transações IRE em, 2(3):185–189, 1956. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 430 Bibliografia [143] Gideão Keren. Julgamentos de calibração e probabilidade: Conceitual e questões metodológicas. Acta Psicológica, 77(3):217–273, 1991. [144] Christian Kleiber e Samuel Kotz. Distribuições estatísticas de tamanho em economia e ciências atuariais, volume 470. John Wiley & Sons, 2003. [145] Andrei Nikolaevich Kolmogorov. Sobre os fundamentos lógicos da teoria das probabilidades. Dentro Teoria da probabilidade e estatística matemática, páginas 1–5. Springer, 1983. [146] Andrey Kolmogorov. Sobre a determinação empírica de uma lei de discontribuição. Inst. Ital. Actuari, Giorn., 4:83–91, 1933. [147] Samuel Kotz e Norman Johnson. Enciclopédia de Ciências Estatísticas. Wiley, 2004. [148] Kozlov VV, Madsen T e Sorokin AA. Médias ponderadas de variáveis aleatórias fracamente dependentes. MATEMÁTICA DA UNIVERSIDADE DE MOSCOVO BUL-LATIN C/C DA UNIVERSIDADE DE MATEMÁTICA WESTNIK-MOSCOVO, 59(5):36, 2004. [149] Jean Laherrere e Didier Sornette. Distribuições exponenciais estendidas em natureza e economia:“caudas gordas” com escamas características. The European Physical Journal B-Condensed Matter and Complex Systems, 2(4):525–539, 1998. [150]David Laibson. Ovos de ouro e descontos hiperbólicos. O Jornal Trimestral final de Economia, 112(2):443–478, 1997. [151] Deli Li, M Bhaskara Rao e RJ Tomkins. A lei do logaritmo iterado e teorema do limite central para estatísticas l. Relatório técnico, PENSILVÂNIA CENTRO DO PARQUE UNIVERSITÁRIO ESTADUAL UNIV PARA ANÁLISE MULTIVARIADA, 1997. [152] Sarah Lichtenstein, Baruch Fischhoff e Lawrence D Phillips. Calibração de probabilidades: O estado da arte. Em Tomada de decisão e mudança em humanos assuntos, páginas 275–324. Springer, 1977. [153] Sarah Lichtenstein, Paul Slovic, Baruch Fischhoff, Mark Layman e Barbara Combs. Frequência julgada de eventos letais. Journal of experimental Psychology: Human learning and memory, 4(6):551, 1978. [154] Michel Loève. Teoria da probabilidade. Fundações. Sequências aleatórias. Nova Iorque: Companhia D. Van Nostrand, 1955. [155] Philip Lundberg. I. Representação aproximada da função de probabilidade. II. Resseguro de riscos coletivos. Tese acadêmica... de Filip Lundberg,... Almqvist e Obras de Impressão de Wiksell, 1903. [156] HL MacGillivray e Kevin P Balanda. Misturas, mitos e curtose. Communications in StatisticsSimulation and Computation, 17(3):789–802, 1988. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Bibliografia 431 [157] LC MacLean, William T Ziemba e George Blazenko. Crescimento versus segurança na análise dinâmica de investimentos. Ciência de Gestão, 38(11):1562–1585, 1992. [158] Dhruv Madeka. Previsão precisa dos resultados eleitorais. Pré-impressão arXiv arXiv:1704.02664, 2017. [159] Spyros Makridakis, Evangelos Spiliotis e Vassilios Assimakopoulos. A competição m4: resultados, conclusões, conclusão e caminho a seguir. Jornal Internacional de Previsão, 34(4):802–808, 2018. [160] Spyros Makridakis e Nassim Taleb. Tomada de decisão e planejamento sob baixos níveis de previsibilidade, 2009. [161] Benoit Mandelbrot. Uma nota sobre uma classe de funções de distribuição distorcida: Análise e crítica de um artigo de ha simon. Informação e Controle, 2(1):90–99, 1959. [162] Benoit Mandelbrot. A lei da taxa de pareto e a distribuição de renda. Revisão Econômica Internacional, 1(2):79–106, 1960. [163] Benoit Mandelbrot. A distribuição de renda paretiana estável quando o expoente aparente está próximo de dois. Revisão Econômica Internacional, 4(1):111–115, 1963. [164] Benoit B. Mandelbrot. Novos métodos em economia estatística. Em Fractals and Scaling in Finance, páginas 79–104. Springer, 1997. [165] Benoît B Mandelbrot e Nassim Nicholas Taleb. Salto aleatório, não aleatório caminhada, 2010. [166]Harry Markowitz. Seleção de portfólio*. O jornal de finanças, 7(1):77–91, 1952. [167]Harry M Markowitz. Seleção de portfólio: diversificação eficiente de investimentos, volume 16. Wiley, 1959. [168] RARD Maronna, Douglas Martin e Victor Yohai. Estatísticas robustas. John Wiley & Filhos, Chichester. ISBN, 2006. [169] R. Mehera e EC Prescott. O prêmio de capital: um quebra-cabeça. Diário de Economia Monetária, 15:145–161, 1985. [170] Robert C. Merton. Uma derivação analítica da fronteira eficiente do portfólio. Jornal de análise financeira e quantitativa, 7(4):1851–1872, 1972. [171]Robert C. Merton. A relação entre preços de venda e de compra: Comentário. 28(1):183– 184, 1973. [172]Robert C. Merton. Teoria da precificação racional de opções. 4:141–183, primavera de 1973. [173]Robert C. Merton. Precificação de opções quando os retornos das ações subjacentes são descontados tênue. 3:125–144, 1976. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 432 Bibliografia [174] Robert C Merton e Paul Anthony Samuelson. Finanças em tempo contínuo. 1992. [175] David C. Nachman. Extensão e integridade com opções. A revisão de estudos financeiros, 1(3):311–328, 1988. [176] SA Nelson. O ABC das Opções e Arbitragem. A Biblioteca de Wall Street, Nova York., 1904. [177] SA Nelson. O ABC das Opções e Arbitragem. Nova York: Biblioteca de Wall Street., 1904. [178] Hansjörg Neth e Gerd Gigerenzer. Heurísticas: Ferramentas para um mundo incerto. Tendências emergentes nas ciências sociais e comportamentais: um recurso interdisciplinar, pesquisável e vinculável, 2015. [179] Donald J. Newman. Um seminário sobre problemas. Springer Ciência e Mídia de Negócios, 2012. [180] Hong Nie e Shaohua Chen. Aproximação da soma lognormal com distribuição de Pearson tipo iv. Cartas de Comunicações IEEE, 11(10), 2007. [181] John P Nolan. Parametrizações e modos de distribuições estáveis. Estatisticas & letras de probabilidade, 38(2):187–195, 1998. [182] Bernt Oksendal. Equações diferenciais estocásticas: uma introdução com aplicações. Springer Ciência e Mídia de Negócios, 2013. [183] Joel Owen e Ramon Rabinovitch. Sobre a classe das distribuições elípticas e suas aplicações à teoria da escolha de carteiras. The Journal of Finance, 38(3):745–752, 1983. [184] T. Mikosch P. Embrechts, C. Kluppelberg. Modelagem de Eventos Extremos. Springer, 2003. [185] Vilfredo Pareto. A curva de renda. Travaux de Sciences Sociales, páginas 299–345, 1896 (1964). [186] O. Peters e M. Gell-Mann. Avaliando apostas usando dinâmica. Caos, 26(2), 2016. [187] T Pham-Gia e TL Hung. A média e os desvios absolutos medianos. Modelagem Matemática e Computacional, 34(7-8):921–936, 2001. [188] George C Philippatos e Charles J Wilson. Entropia, risco de mercado e seleção de carteiras eficientes. Economia Aplicada, 4(3):209–220, 1972. [189] Charles Phillips e Alan Axelrod. Enciclopédia de Guerras:(Conjunto de 3 volumes). EmFobase Pub., 2004. [190]James Pickands III. Inferência estatística usando estatísticas de ordem extrema. o Anais de Estatística, páginas 119–131, 1975. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Bibliografia 433 [191] Thomas Piketty. Capital no século 21, 2014. [192] Thomas Piketty e Emmanuel Saez. A evolução dos rendimentos de topo: uma perspectiva histórica e internacional. Relatório técnico, National Bureau of Economic Research, 2006. [193] Iosif Pinelis. Função característica da parte positiva de uma variável aleatória e resultados relacionados, com aplicações. Cartas de Estatística e Probabilidade, 106:281–286, 2015. [194]Steven Pinker. Os melhores anjos da nossa natureza: por que a violência diminuiu. CanetaGuin, 2011. [195]Dan Pirjol. A integral logística-normal e suas generalizações. Jornal de Matemática Computacional e Aplicada, 237(1):460–469, 2013. [196] EJG Pitman. Funções de distribuição subexponencial. J. Austral. Matemática. Soc. Ser. A, 29(3):337–347, 1980. [197] Svetlozar T Rachev, Young Shin Kim, Michele L Bianchi e Frank J Fabozzi. Modelos financeiros com processos Lévy e agrupamento de volatilidade, volume 187. John Wiley & Sons, 2011. [198] Anthony M. Reinach. A natureza das opções de venda e chamadas. Nova York: The Bookmailer, 1961. [199] Lewis F Richardson. Frequência de ocorrência de guerras e outros quartéis fatais rels. Natureza, 148(3759):598, 1941. [200] Matthew Richardson e Tom Smith. Um teste direto da hipótese da mistura de distribuições: Medindo o fluxo diário de informações. Jornal de Análise Financeira e Quantitativa, 29(01):101– 116, 1994. [201] Christian Robert e George Casella. Métodos estatísticos de Monte Carlo. Springer Mídia de ciência e negócios, 2013. [202] Stephen A Ross. Separação de fundos mútuos na teoria financeira – as distribuições de separação. Journal of Economic Theory, 17(2):254–286, 1978. [203] Stephen A Ross. Finanças neoclássicas. Imprensa da Universidade de Princeton, 2009. [204] Francesco Rubino, Antonello Forgione, David E Cummings, Michel Vix, Donatella Gnuli, Geltrude Mingrone, Marco Castagneto e Jacques Marescaux. O mecanismo de controle do diabetes após cirurgia de bypass gastrointestinal revela um papel do intestino delgado proximal na fisiopatologia do diabetes tipo 2. Anais de cirurgia, 244(5):741–749, 2006. [205] Mark Rubinstein. Rubinstein sobre derivativos. Livros de risco, 1999. [206] Mark Rubinstein. Uma História da Teoria dos Investimentos. Nova York: John Wiley & Sons, 2006. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 434 Bibliografia [207] Doriana Ruffino e Jonathan Treussard. 'As ilusões da replicação dinâmica' de Derman e Taleb: um comentário. Finanças Quantitativas, 6(5):365–367, 2006. [208] Harold Sackrowitz e Ester Samuel-Cahn. Valores de P como variáveis aleatórias – valores de p esperados. O Estatístico Americano, 53(4):326–331, 1999. [209] Gennady Samorodnitsky e Murad S Taqqu. Processos aleatórios não gaussianos estáveis: modelos estocásticos com variância infinita, volume 1. CRC Press, 1994. [210]D Schleher. Séries gram-charlier generalizadas com aplicação à soma de variáveis log-normais (corresp.). Transações IEEE sobre Teoria da Informação, 23(2):275–280, 1977. [211] Jun Shao. Estatística Matemática. Springer, 2003. [212] Herbert A Simon. Em uma classe de funções de distribuição distorcida. Biometria, 42(3/4):425–440, 1955. [213] SK Singh e GS Maddala. Uma função para distribuição de renda por tamanho: resposta. Econometrica, 46(2), 1978. [214] Didier Sornette. Fenômenos críticos em ciências naturais: caos, fractais, auto-organização e desordem: conceitos e ferramentas. Springer, 2004. [215] CM Polvilhar. Preços garantidos como indicadores de expectativas e preferências. Ensaios de Economia de Yale, 1(2):178–231, 1961. [216] CM Polvilhar. Preços garantidos como indicadores de expectativas e preferências: em P. Cootner, ed., 1964, The Random Character of Stock Market Prices,. MIT Press, Cambridge, Massachusetts, 1964. [217] AJ Stam. Variação regular da cauda de uma distribuição de probabilidade subordinada. Avanços na Probabilidade Aplicada, páginas 308–327, 1973. [218] Stephen M Stigler. Lei da eponímia de Stigler. Transações da Academia de Ciências de Nova York, 39(1 Série II):147–157, 1980. [219] Hans R Stoll. A relação entre os preços das opções de venda e de compra. The Journal of Finance, 24(5):801–824, 1969. [220] Cass R Sunstein. Grupos deliberativos versus mercados de previsão (ou o desafio de Hayek a Habermas). Episteme, 3(3):192–213, 2006. [221] Giitiro Suzuki. Um estimador consistente para o desvio médio da distribuição do tipo Pearson. Anais do Instituto de Matemática Estatística, 17(1):271–285, 1965. [222] E. Schechtman S. Yitzhaki. A Metodologia Gini: Uma cartilha sobre uma metodologia estatística. Springer, 2012. [223] NN Taleb e R Douady. Definição matemática, mapeamento e detecção de (anti)fragilidade. Finanças Quantitativas, 2013. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Bibliografia 435 [224] Nassim N Taleb e G Martin. A ilusão de caudas finas sob agregação (uma resposta a Jack Treynor). Revista de Gestão de Investimentos, 2012. [225] Nassim Nicholas Taleb. Hedge Dinâmico: Gerenciando Opções Vanilla e Exóticas. John Wiley & Sons (Série Wiley em Engenharia Financeira), 1997. [226] Nassim Nicholas Taleb. Incerto: Antifrágil, O Cisne Negro , Enganado pelo acaso, o leito de Procusto, pele em jogo. Random House e Pinguim, 2001-2018. [227] Nassim Nicholas Taleb. Cisnes negros e os domínios da estatística. The American Statistician, 61(3):198–200, 2007. [228] Nassim Nicholas Taleb. Erros, robustez e o quarto quadrante. International Journal of Forecasting, 25(4):744–759, 2009. [229] Nassim Nicholas Taleb. A finitude da variância é irrelevante na prática de Finança quantitativa. Complexidade, 14(3):66–76, 2009. [230] Nassim Nicholas Taleb. Antifrágil: coisas que ganham com a desordem. Aleatório Casa e Pinguim, 2012. [231] Nassim Nicholas Taleb. Quatro pontos que os gerentes de risco iniciantes devem aprender dos erros de Jeff Holman na discussão do antifrágil. Pré-impressão arXiv arXiv:1401.2524, 2014. [232] Nassim Nicholas Taleb. A meta-distribuição dos valores p padrão. arXiv pré-impressão arXiv:1603.07532, 2016. [233] Nassim Nicholas Taleb. Expoente de cauda estocástica para leis de potência assimétricas. Pré-impressão do arXiv arXiv:1609.02369, 2016. [234] Nassim Nicholas Taleb. Previsões eleitorais como martingales: uma arbitragem abordagem. Finanças Quantitativas, 18(1):1–5, 2018. [235] Nassim Nicholas Taleb. De quantos dados você precisa? uma métrica operacional préassintótica para cauda gorda. Jornal Internacional de Previsão, 2018. [236] Nassim Nicholas Taleb. Pele no jogo: assimetrias ocultas na vida cotidiana. Penguin (Londres) e Random House (NY), 2018. [237] Nassim Nicholas Taleb. Incerto Técnico, Vol 1: As Consequências Estatísticas de Fat Tails, artigos e comentários. Monografia, 2019. [238] Nassim Nicholas Taleb. Aplicações erradas e interpretações erradas comuns de correlação na ciência social. Pré-impressão, Tandon School of Engineering, Nova York Universidade, 2020. [239] Nassim Nicholas Taleb. As consequências estatísticas das caudas gordas. STEM Academic Press, 2020. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 436 Bibliografia [240] Nassim Nicholas Taleb, Elie Canetti, Tidiane Kinda, Elena Loukoianova e Christian Schmieder. Uma nova medida heurística de fragilidade e riscos de cauda: aplicação a testes de estresse. Fundo Monetário Internacional, 2018. [241] Nassim Nicholas Taleb e Pasquale Cirillo. Incerteza epistêmica ramificada manchado e espessura das caudas. Pré-impressão do arXiv arXiv:1912.00277, 2019. [242] Nassim Nicholas Taleb e Raphael Douady. Sobre os vieses de superaditividade e estimativa de contribuições quantílicas. Physica A: Mecânica Estatística e suas Aplicações, 429:252–260, 2015. [243] Nassim Nicholas Taleb e Daniel G Goldstein. O problema está além da psicologia: o mundo real é mais aleatório do que as análises de regressão. International Journal of Forecasting, 28(3):715– 716, 2012. [244] Nassim Nicholas Taleb e George A Martin. Como prevenir outras crises financeiras. Revisão SAIS de Assuntos Internacionais, 32(1):49–60, 2012. [245] Nassim Nicholas Taleb e Avital Pilpel. Os problemas epistemológicos da gestão de riscos. Daniele Pace (ed.) "Economia do risco. Antologia de escritos sobre risco e decisão econômica", Giuffre, Milão, 2004. [246] Nassim Nicholas Taleb e Constantine Sandis. A heurística skin in the game para proteção contra eventos de cauda. Revisão de Economia Comportamental, 1:1–21, 2014. [247] NN Taleb e J Norman. Ética da precaução: Risco individual e sistêmico, 2020. [248] Jozef L Teugels. A classe de distribuições subexponenciais. Os Anais da Probabilidade, 3(6):1000– 1011, 1975. [249] Eduardo Thorp. Uma derivação corrigida do modelo de opções black-scholes. Baseado em uma conversa privada com Edward Thorp e em uma cópia de um artigo de 7 páginas que Thorp escreveu por volta de 1973, com a ressalva de que entendi Ed. Thorp corretamente., 1973. [250] Edward O. Thorp. Sistemas de jogo ideais para jogos favoráveis. Jornal do Instituto Internacional de Estatística, páginas 273–293, 1969. [251] Edward O. Thorp. Extensões do modelo de opção black-scholes. Anais da 39ª Sessão do Instituto Internacional de Estatística, Viena, Áustria, páginas 522–29, 1973. [252] Edward O. Thorp. Compreendendo o critério de Kelly. The Kelly Capital Growth Investment Criterion: Theory and Practice', World Scientific Press, Singapura, 2010. [253] Edward O. Thorp e ST Kassouf. Vença o mercado. Nova York: Aleatório Casa, 1967. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Bibliografia 437 [254]James Tobin. Preferência pela liquidez como comportamento face ao risco. A revisão dos estudos econômicos, páginas 65–86, 1958. [255] Jack L. Treynor. Insights – o que Taleb pode aprender com Markowitz? Jornal de Gestão de Investimentos, 9(4):5, 2011. [256] Constantino Tsallis, Celia Anteneodo, Lisa Borland e Robert Osorio. Mecânica estatística e economia não extensiva. Physica A: Mecânica Estatística e suas Aplicações, 324(1):89–100, 2003. [257] Vladimir V Uchaikin e Vladimir M Zolotarev. Chance e estabilidade: distribuições estáveis e suas aplicações. Walter de Gruyter, 1999. [258] Aad W Van Der Vaart e Jon A Wellner. Convergência fraca. Em Convergência fraca e processos empíricos, páginas 16–28. Springer, 1996. [259] Willem Rutger van Zwet. Transformações convexas de variáveis aleatórias, volume 7. Centro de Matemática, 1964. [260]SR Srinivasa Varadhan. Grandes desvios e aplicações, volume 46. SIAM, 1984. [261]SR Srinivasa Varadhan. Processos estocásticos, volume 16. American Mathematical Soc., 2007. [262] José A Villaseñor-Alva e Elizabeth González-Estrada. Um teste de qualidade de ajuste de bootstrap para a distribuição de Pareto generalizada. Estatística Computacional e Análise de Dados, 53(11):3835–3841, 2009. [263] Érico Weisstein. Wolfram MathWorld. Wolfram Research www.wolfram.com, 2017. [264] Rafael Weron. Distribuições estáveis de impostos revisitadas: índice de cauda> 2 não exclui o regime de impostos estáveis. Jornal Internacional de Física Moderna C, 12(02):209– 223, 2001. [265] Heath Windcliff e Phelim P Boyle. O quebra-cabeça do investimento previdenciário 1/n. Jornal Atuarial Norte-Americano, 8(3):32–45, 2004. [266] Yingying Xu, Zhuwu Wu, Long Jiang e Xuefeng Song. Um método de entropia máxima para um problema de portfólio robusto. Entropy, 16(6):3401–3415, 2014. [267] Yingying Yang, Shuhe Hu e Tao Wu. A probabilidade final do produto de variáveis aleatórias dependentes de domínios máximos de atração. Cartas de Estatística e Probabilidade, 81(12):1876–1882, 2011. [268] Jay L. Zagorsky. Você tem que ser inteligente para ser rico? o impacto do QI na riqueza, na renda e nas dificuldades financeiras. Inteligência, 35(5):489–501, 2007. [269] IV Zaliapin, Yan Y Kagan e Federic P Schoenberg. Aproximando a distribuição das somas de Pareto. Geofísica Pura e Aplicada, 162(6-7):1187–1228, 2005. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 438 Bibliografia [270] Rongxi Zhou, Ru Cai e Guanqun Tong.Aplicações da entropia em finanças: Uma revisão. Entropia, 15(11):4909–4931, 2013. [271] Vladimir M. Zolotarev. Distribuições estáveis unidimensionais, volume 65. American Mathematical Soc., 1986. [272] V. M. Zolotarev. Sobre um novo ponto de vista dos teoremas limites levando em conta grandes desviosr. Traduções selecionadas em Estatística Matemática e Probabilidade, 9:153, 1971. Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 ÍNDICE ÿ métrica, 146 De Finetti, 243 Distribuição degenerada, 26, 42, 89, Antifragilidade, 93, 399 Impressão ruim (outlier falso), 33 Regra de Bayes, 55 122, 131 Dose-resposta (curva S), 59 Cobertura dinâmica, 18 Métodos Bayesianos, 57 Beta (finanças), 31 Bimodalidade, 122 Cisne Negro, 15, 23, 43, 52, 59, 73, 91, 204, 221, Econometria, 50, 52, 199, 203, 204 Autovalores, 105, 114, 124 Distribuição elíptica (Elipticalidade), 9, 25, 110 306, 323 Problema do Cisne Negro, 42, 45 Black-Scholes, 367, 376, 387, 402 Inicialização, 313 Pontuação de Brier, 235, 240, 245 Distribuição empírica, 33, 208 Entropia, 112, 407 Probabilidades ergódicas, 123 Ergodicidade, 37, 40, 62 Calibração especializada, 213 Princípio da catástrofe, 25 Distribuição de valor extremo, 162, 163 Teorema do limite central (CLT), 8, 29, 129, 151, Teoria dos valores extremos, 37, 49, 145, 161, 253, 155, 188, 304, 323, 386 Função característica, 67, 69, 77, 78, 287, 288, 293, 297, 307, 319 109, 121, 130, 131, 133, 135 , 141, 149, 155 , 183, 256, 339, 416 Classe Fréchet, 161, 288, 311 Fragilidade, 59 Escala característica, 50, 93, 218 Fughedabaudit, 26 Desigualdade de Chebyshev, 128 Chernoff com destino, 177 Variância gama, 69 Anel de citação, 11, 304 Modelos econométricos GARCH, 2, 51, 185, 203 Suporte compacto, 27 Concavidade/Convexidade, 58, 59, 72, 74, 93 Convolução, 141 Pandemia de COVID-19, 49, 50, 100, 173 Condição de Cramer, 28, 40 CVaR, Valor Condicional em Risco, 13, 171, 221, 283, 335, 337, 406, 407 Teorema de Gauss-Markov, 33 Teorema do limite central generalizado (GCLT), 28, 129, 256, 269 Distribuição generalizada de valores extremos ção, 163 Distribuição generalizada de Pareto, 167 Distribuição generalizada de Pareto (GPD), 313 439 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Índice 440 Coeficiente de Gini, 36 Mandelbrot, Benoit, 7, 55, 84, 145, 156, 190, 271, 284, 297, 323, 386, Cisnes Cinzentos, 16, 95 392 Heterocedasticidade, 66, 101 Distribuição de Marchenko-Pastur, 35, 154 Propriedades ocultas, 31 Desigualdade de Markov, 178 Cauda escondida, 17 Martingale, 237, 238, 243 Dimensões mais altas (cauda grossa), 106, 110 Domínio máximo de atração, 14, 161, 162, 311 Transformada de Hilbert, 141 absoluto, 74–76, 141, 146, 148, 301, 325 Média- Desvio médio Desigualdade de Hoeffding, 179 teoria do portfólio de variância, 23, 32, 110, 153, 185, 364 , 378, 405 , Independência, 9, 112 406, 409 Mediocristão vs. Inseparabilidade da probabilidade, 230 Extremistão, Invisibilidade do gerador, 42 QI, 118 10, 21, 22, 43, 47, 63, 89, 90 Transformada de Mellin, 71 Metadistribuição, Lema de Itô, 241-243, 365, 387 55 , 347 Método dos momentos, 35 Teoria Moderna Desigualdade de Jensen, 65-67, 76, 80, 196, 224, 230, 355, 400 do Portfólio (Markowitz), 152, 153, 187, 407, 408 Gráfico MS, 14, 139, 187, 193 Pedidos de subsídio de desemprego (salto na variável), 99 Métrica Kappa, 8, 143 Ponto Karamata, 10, 391 Distribuição estável multivariada, 10, 112 Informação mútua, 112 Aversão à perda míope, 356, 357 Teorema de Representação Karamata, 338 Curtose, 2, 68, 121, 136, 144, 148 , 152, 159 , 187 , 192 , 399, 400 Constantes de normatização, 162 Princípio do grande desvio, 177 Normas L p , 141 Teoria do grande desvio, 36 Dinheiro, 402 Lei dos grandes números (LLN), 8, 26, 357 Lei dos grandes números (fraco vs. forte), 127 Lei dos grandes números para momentos superiores, 14, 139, 188, 193 Lei dos números médios, 8, 127, 142, 143 Pandemias, 12, 48, 282 Paretian, Paretianidade, 6, 93, 111, 130, 135 , 181 , 254, 260, 262, 264, 288, 293, 300, 305, 338 Pareto, Vilfredo, 271 Pico acima do limite, 307 Peso problemático, 203 Levy, Paulo, 129 Problema de peso (confusão), 204 Efeito Lindy, 92 Teorema de Picklands-Balkema-de Haan, Regressão linear sob caudas gordas, 116 166 Família em escala de localização, 66, 262 Inferência pseudoestatística de Pinker, 34 Distribuição Log-Pareto, 99, 100 Saltos de Poisson, 204 Gestão de Capital de Longo Prazo (LTCM), 55 Popper, Karl, 44 Lei de potência, 7, 36, 65, 82 , 89, 93, 108 , 136, Lucrécio (falácia), 91, 170 Falácia de Lucrécio, 161 143, 145 , 147–149, 151, 181, 182 , 187 , 193, 271 , 273 , 288 , 297, 299, 300, 302 , 329, 336, 338, 415, Aprendizado de Máquina, 207 416 Licenciado para Rodrigo Machine Translated by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864 Índice 441 329, 335, 336, 339, 341, 343, 411 Bacia da lei de potência, 136 Pré-sintóticos, 8, 12 Análise de componentes principais, 35 O rabo abana o efeito cachorro, 23 Lei da pseudopotência, 336 Probabilidade de transição, 123 Pseudo-empirismo, 12 Pseudo-empirismo (inferência pseudo-estatística), Teorema da aproximação universal, 207 12, 35, 47-49 Pseudoconvergência, 83 Valor em Risco (VaR), 2, 13, 203, 221, 405, 406, 410 existia a lei Psicometria, 118 de Wijk, 191 R-quadrado, 33, 117 Derivado de Radon-Nikodym, 168 Matrizes aleatórias, 113, 114, 154 Classe de variação regular, 95 Busca de aluguel, 12, 185 Resíduos (regressão), 117 Paridade de Risco, 110 Estatísticas robustas, 32 Ruína, 37 Média de sombra, 31, 290 Momento sombra, 17 Razão de Sharpe (coeficiente de variação), 2, 31 Sigmóide, 208 Pele no jogo, 13, 64, 204, 205, 232, 247, 376 Função de variação lenta, 7, 50, 94, 149, 181, 182, 273, 288, 300, 336, 339, 340, 392, 394 SP500, 50, 159, 185, 197, 395, 396 Distribuição estável (estável de Lévy), 10, 110, 129, 189 Processo estocástico, 241–243, 365, 387 Volatilidade estocástica, 68, 71, 75, 84, 101, 102, 136, 152, 185, 187, 188 , 336, 387, 400 Estocástica (de variância), 67 Estocástica, 13, 119 Lei de Pareto forte, 391 Classe subexponencial, 10 Subexponencialidade, 10 Dependência da cauda, 17 Expoente da cauda, 26, 34, 57, 73, 82, 95, 96, 111, 144, 145, 150, 151, 193 , 253, 281, 284, 300, 304, Violência (ilusão de entrada), 35, 283, 317 von Neumann, João, 55 Distribuição em semicírculo de Wigner, 113, 114 Winsorizando, 32 O governante de Wittgenstein, 15, 55, 197