Uploaded by Rodrigo Policena Bocatto

Statistical Consequences of Fat Tails compressed-traduzido

advertisement
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
O LINCER TÉCNICO DE COLETA
ESTATÍSTICA
CONSEQUÊNCIAS DAS CAUDAS GORDURAS
Pré-assintóticos, epistemologia e aplicações do mundo real
Artigos e comentários
NASSIM NICHOLAS TALEB
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Este formato é baseado na Tese Clássica de André Miede, com adaptação da Ars Classica de Lorenzo Pantieri.
Com imensa gratidão ao André e ao Lorenzo.
STEM Academic Press opera sob um conselho estilo periódico acadêmico e publica livros contendo material
revisado por pares nas ciências matemáticas e quantitativas. Os autores devem disponibilizar gratuitamente as
versões eletrônicas ao público em geral.
A Scribe Media ajudou a organizar o processo de publicação; agradecimentos especiais a Tucker Max, Ellie
Cole, Zach Obront e Erica Hoffman.
Consequências estatísticas de caudas gordas: pré-assintóticos, epistemologia e aplicações
do mundo real (coleção técnica de incerto)
Palavras-chave: Estatística Matemática/Análise de Risco/Teoria de Probabilidade
ISBN 978-1-5445-0805-4
ÿc Nassim Nicholas Taleb, 2020. Todos os direitos
reservados 10 9 8 7 6 5 4 3
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
iii
COAUTORES
1
Pasquale Cirillo (Capítulos 13, 15 e 16 )
Raphael Douady (Capítulo 14)
Andrea Fontanari (Capítulo 13)
Hélyette Geman (Capítulo 25)
Donald Geman (Capítulo 25)
Aspen Haug (Capítulo 22 )
A equipe da Universa Investments (Capítulo 23 )
1 Os artigos utilizados aqui são [45, 46, 47, 48, 95, 106, 126, 165, 224 , 227, 228, 229 , 231 , 232, 233, 234, 243, 244,
245]
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4
Sem sobreposição
EMPÍRICO CÉTICO
Montaigne
TRADIÇÃO (Filosofia)
(ensaio
método)
Pirro de Ellis e os pirrônicos "aplicados"
Pequeno
sobreposição
Menódoto de Nicomédia, Sexto
Pareto, Lévy (I)
Empírico, Enesidemo de Cnossos,
Mandelbrot (eu)
Antíoco de Laodicéia, Heródoto de Tarso,...
Polya, Feller
Algazel
ACADEMIA
Zolotarev, Taqku
Almôndegas
Samorodnisky
Escola Algazelista (Nicolas
d'Autrecourt, etc.)
Probabilidade
PROBLEMA moderno de INDUÇÃO
em Epistemologia:
Simon Foucher
Bayes, Peirce,
Bayle, Huet, Hume, Mill, Russell, Ayer,
Empirismo Negativo
Complexidade
Brochard-Favier-Popper
Teoria
Hayek
Algema
Goodman...
Ramsey, Carnap,
Levi, Kyburgh,
Econofísica
Jeffreys, ...
Modelos de Perda
Sobreposição limitada
/SEGURO (I)
para psicologia
de indução,
Heurística e
Vieses/Decisão
Teoria/Psicologia da
Probabilidade
Economia da Incerteza
ÉTICA
ESTOCÁSTICO
Knightiano
Pele no
Problema de Agência, SEGURO (II)
Contrato
Teoria
(escolástica)
Pedra de
Matemático
jogo
ASSIMETRIA
Finança
/FRAGILIDADE/
/Derivado
CONVEXIDADE
Jean Oliveira
Teoria/Stochas
Cálculo de tiques
Não há sobreposição entre
Heurísticas e preconceitos
TONYISMO GORDO
e caudas gordas
Mundo real
História do comerciante
A "incerteza knightiana" é muito
Pele no jogo
grosseira em termos matemáticos
Ergodicidade
e filosóficos para ser conectada.
Nenhuma sobreposição
visível
Não há sobreposição entre a economia
entre concavidade/
fragilidade e contração e
da incerteza e a
caudas gordas/
ceticismo/indução
ergodicidade
Genealogia do projeto Incerto com ligações às diversas tradições de investigação.
Nenhuma
sobreposição no
TONYISMO
tratamentos
unc
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
em
Matemática
Filosofia
Ciências Sociais
Sem sobreposição
Teoria Jurídica
Montaigne
CAUDAS GORDURAS
(ensaio
método)
(Matemática)
Mundo real
Pareto, Lévy (I)
Mandelbrot (eu)
Polya, Feller
ACADEMIA
Zolotarev, Taqku
Almôndegas
Samorodnisky
Valor extremo
Quase nenhuma
Teoria
sobreposição entre LDT e Fat Tails
icismo
Gnedenko, Resnick
(Condição de Cramer para
Embrechts, Balkema
momentos exponenciais)
de Haan, Picklands,
Complexidade
-Popper
Teoria
Hayek
Algema
Econofísica
Paulo Levy (II),
PROBLEMAS DE RUÍNA/GRANDE
Mandelbrot (II)
Cramer, Lundberg, Denbo,
CONVERGÊNCIA
Zeitouni, Varadhan, etc.
LEIS
Modelos de Perda
/SEGURO (I)
De Moivre, Markov
Bienaymé, Chebyc
Olá, Bernstein,
Kolmogorov,
S
ESTOCÁSTICO
Lujin, Berry,
No ensaio, Petrov,
e
Irmãos Nagayev,
Matemático
SIMETRIA
Finança
FRAGILIDADE/
/Derivado
ONVEXIDADE
Mikosch
Teoria/Stochas
Cálculo de tiques
TONYISMO
todo o mundo
Pouca sobreposição entre
Conhecimento do Adicionador
leis de convergência
no jogo
(LLN) e o
rgodicidade
problema filosófico
CC disponível sob licença Creative Commons
Não há sobreposição na literatura entre
o mundo das ideias e FAT
TONYISMO exceto alguns
tratamentos de incerteza
ecológica
(cont. da página esquerda).
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
CONTEÚDO
Os capítulos não técnicos são indicados com uma estrela *; Os capítulos de discussão são indicados com um †; adaptação de
artigos publicados ("revisados por pares") com um ‡.
Enquanto os capítulos são indexados por algarismos arábicos, os minicapítulos expositivos e muito breves (a meio caminho entre os apêndices)
e capítulos completos) usam letras como A, B, etc.
1 prólogoÿ,†
1
5
2 glossário, definições e notações
2.1 Notações Gerais e Símbolos Frequentemente
Utilizados 2.2 Catálogo Raisonné de Conceitos Gerais e
Idiossincráticos 2.2.1 Lei de Potência Classe P 7
8
2.2.2 Lei dos Grandes Números (Fraca)
8
2.2.3 O Teorema do Limite Central (CLT)
5
7
8
2.2.4 Lei dos Números Médios ou Pré-sintóticos
2.2.5 Métrica Kappa 8
9
2.2.6 Distribuição elíptica
9
2.2.7 Independência estatística
2.2.8 Distribuição estável (estável de
Lévy) 2.2.9 Distribuição estável
10
multivariada 2.2.10 Ponto Karamata
10
10
10
13 _
11
11
12
12
12
13
2.2.19 Aparência no Jogo 13
2.2.20 Gráfico MS
14
2.2.21 Domínio Máximo de Atração, MDA 14
2.2.22 Substituição de Integral na literatura de psicologia
2.2.23 Inseparabilidade de Probabilidade (outro erro comum)
14
15
15
2.2.24 A Régua de
Wittgenstein 2.2.25 Cisnes Negros 15
2.2.26 A distribuição empírica não é empírica
2.2.27 A cauda oculta
17
16
vii
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
viii Conteúdo
2.2.28 Momento de Sombra 17
2.2.29 Dependência da Cauda 17
17
2.2.30 Metaprobabilidade
2.2.31 Cobertura Dinâmica 18
i fat tails e seus efeitos, uma introdução
19
ÿ,‡
3 uma visão geral não técnica - a palestra da faculdade de Darwin 3.1 Sobre a
rabo: uma intuição 3.3 Uma categorização (mais
21
21
diferença entre caudas finas e grossas 3.2 Cães que abanam o
23
25
avançada) e suas consequências 3.4 As principais consequências e como elas
se relacionam com o livro 30
3.4.1 Previsão 3.4.2 A
37
Lei dos Grandes Números 39
3.5 Epistemologia e Assimetria Inferencial 41
3.6 Empirismo ingênuo: O Ebola não deve ser comparado às quedas de
Escadas
46
49
3.6.1 Como alguns riscos multiplicativos são
dimensionados 3.7 Cartilha sobre Leis de Potência (quase sem matemática)
3.9 Bayesiano Schmayesiano 3.10
50
52
3.8 Onde estão as propriedades ocultas?
56
X vs F(X): exposições a X confundidas com conhecimento sobre X 57
3.11 Ruína e Dependência do Caminho 60
3.12 O que fazer? 63
4 caudas gordas univariadas, nível 1, momentos finitos† 65
65
4.1 Uma heurística simples para criar caudas levemente gordas
4.1.1 Uma heurística de preservação de variância 67
68
4.1.2 Engorda de caudas com variância distorcida 4.2 A
volatilidade estocástica gera leis de potência? 70
4.3 O corpo, os ombros e as caudas 4.3.1 Os cruzamentos
71
72
e o efeito túnel.
4.4 Caudas Gordas, Desvio Médio e Normas Ascendentes 75
75
4.4.1 Os erros comuns 4.4.2
Algumas análises 76
4.4.3 Efeito das caudas mais gordas na "eficiência" do STD vs MD 78
4.4.4 Momentos e a desigualdade da média de poder 79
4.4.5 Comentário: Por que deveríamos retirar o desvio padrão agora! 82
4.5 Visualizando o Efeito do Aumento de p nas Iso-Normas 86
89
5 nível 2: subexponenciais e leis de potência
89
5.0.1 Revisitando as classificações
5.0.2 O que é uma distribuição de probabilidade limítrofe?
91
5.0.3 Vamos inventar uma distribuição 92
5.1 Nível 3: Escalabilidade e Leis de Potência 93
5.1.1 Escalável e Não Escalável, Uma Visão Mais Profunda das Caudas
Gordas 5.1.2 Cisnes Cinzentos 95
5.2 Algumas Propriedades das Leis de Potência 96
5.2.1 Somas de variáveis 5.2.2
Transformações
96
97
93
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Conteúdo ix
5.3 Leis de potência em formato de sino versus leis de potência
sem formato de sino 98 5.4 Potências interpolativas de leis de potência:
99
um exemplo 99 5.5 Caudas supergordas: a distribuição
Log-Pareto 5.6 Volatilidade pseudo-estocástica: uma investigação 100
6 caudas grossas em dimensões superiores† 105 6.1
Caudas grossas em dimensões superiores, momentos finitos 106 6.2
Cauda gorda conjunta e elipticidade das distribuições 108 6.3 Student
multivariado T 110
6.3.1 Elipticalidade e Independência sob Caudas Grossas 111
6.4 Caudas gordas e informações mútuas 112 6.5
Caudas gordas e matrizes aleatórias, um interlúdio rápido 114 6.6
Correlação e variância indefinida 114 6.7 Resíduos de
cauda gorda em modelos de regressão linear 116
um caso especial de caudas grossas 119 a.1
Multimodalidade e caudas grossas, ou o modelo de guerra e paz 119 a.2
Probabilidades de transição: o que pode quebrar irá quebrar 123
ii a lei dos números médios 125
7 distribuições de limite, uma consolidaçãoÿ,† 127 7.1
Atualização: O LLN fraco e forte 127 7.2 Limite central
em ação 129
7.2.1 A Distribuição Estável 129 7.2.2 A Lei
dos Grandes Números para a Distribuição Estável 130
7.3 Velocidade de Convergência do CLT: Explorações Visuais 131 7.3.1
Convergência Rápida: a Dist. Uniforme. 131 7.3.2
Convergência semi-lenta: a exponencial 132 7.3.3 O Pareto
lento 133 7.3.4 O Pareto meio
cúbico e sua bacia de convergência 135 7.4 Cumulantes e Convergência
135 7.5 Atualização Técnica: Versões
Tradicionais do CLT 137 7.6 A Lei de grandes números para momentos
mais elevados 138
7.6.1 Momentos Superiores 138 7.7
Desvio Médio para Distribuições Estáveis 141
8 de quantos dados você precisa? uma métrica operacional para cauda gorda‡ 143 8.1 Introdução e
definições 144 8.2 A métrica 146 8.3 Bacia de
convergência estável
como referência 148 8.3.1 Equivalência para distribuições
estáveis 149 8.3.2 Significância prática para suficiência
amostral 149
8.4 Consequências técnicas 151 8.4.1
Algumas estranhezas com distribuições assimétricas 151 8.4.2 Taxa
de convergência de uma distribuição T de Student para a bacia gaussiana
151 8.4.3 O
lognormal não é nem fino nem cauda gorda 152 8.4.4 O Kappa pode
ser negativo ? 152 8.5 Conclusão e
Consequências 152
8.5.1 Pseudo-Estabilização do Portfólio 153
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
x Conteúdo
8.5.2 Outros Aspectos da Inferência Estatística 154 8.5.3 Comentário
Final 154 8.6 Apêndice, Derivações e
Provas 154
8.6.1 Student Cúbico T (Bacia Gaussiana) 154 8.6.2 Somas
Lognormais 156 8.6.3 Exponencial 158
8.6.4 Kappa Negativo, Curtose
Negativa 159
ÿ,†
9 valores extremos e caudas ocultas
161
9.1 Introdução preliminar ao EVT 161 9.1.1 Como qualquer
cauda de lei de potência leva a Fréchet 163 9.1.2 Caso gaussiano 164 9.1.3
Teorema de Picklands-Balkema-de
Haan 166 9.2 A cauda invisível para uma lei de potência 167 9.2.1
Comparação com a Distribuição Normal 170 9.3 Apêndice: A
Distribuição Empírica Não é Empírica 170
b a taxa de crescimento e o resultado não estão na mesma classe de distribuição 173 b.1 O quebra-cabeça 173
b.2 As pandemias são
realmente de cauda gorda 176
c o princípio do grande desvio, em resumo 177 d calibração sob
paretianidade 181
d.1 Distribuição do Expoente da cauda da amostra 183 10 "é o que
é": diagnosticando o sp500† 185 10.1 Paretianidade e Momentos 185 10.2
Testes de Convergência 187 10.2.1 Teste 1:
Curtose sob Agregação 187 10.2.2
Rebaixamentos Máximos 188
10.2.3 Kappa Empírico 189 10.2.4 Teste
2: Excesso de Expectativa Condicional 190 10.2.5 Teste 3Instabilidade de 4 10.2.6 Teste 4:
º
momento 192
Gráfico MS 192 10.2.7 Registros e
Extremos 194 10.2.8 Assimetria cauda direitaesquerda 197
10.3 Conclusão: É o que é 197
e o problema com a econometria 199
e.1 Desempenho de Estimadores de Risco Paramétricos Padrão 200 e.2 Desempenho
de Estimadores de Risco Não Paramétricos Padrão 202
f considerações sobre aprendizado de máquina 207
f.0.1 Calibração via Ângulos 209
iii previsões, previsões e incertezas 211
11 calibração de probabilidade sob caudas gordas
‡
213
11.1 Resultados Contínuos vs. Discretos: Definições e Comentários 214 11.1.1 Longe do
Verbalístico 215 11.1.2 Não há "colapso", "desastre"
ou "sucesso" definidos sob caudas gordas 218
11.2 Superestimação espúria da probabilidade da cauda em psicologia 219
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Conteúdo xi
11.2.1 Caudas finas 220
11.2.2 Caudas gordas 220
11.2.3 Conflações 221 11.2.4
Incerteza distributiva 224
11.3 Calibração e calibração incorreta 225 11.4
Métricas de pontuação 225 11.4.1
Derivando distribuições 228 11.5 Funções de
recompensa não verbalísticas/aprendizado de máquina 229 11.6 Conclusão: 232
11.7 Apêndice: Provas e
Derivações 232
11.7.1 Distribuição da contagem binária P (p) (n) 232 11.7.2
Distribuição da pontuação Brier 233 12 previsões
eleitorais como martingales: uma abordagem de arbitragem‡ 235
12.0.1 Principais resultados 237
12.0.2 Organização 238 12.0.3
Uma discussão sobre neutralidade de risco 240 12.1 A
avaliação estilo Bachelier 240 12.2 Processo de
Martingale duplo limitado 242 12.3 Relação com o avaliador
de probabilidade de De Finetti 243 12.4 Conclusão e comentários 245
iv estimadores de desigualdade sob caudas gordas 249
13 estimativa de gini sob variância infinita
‡
251
13.1 Introdução 251 13.2
Assintótica do Estimador Não Paramétrico sob Variáveis Infinitas
ança 255
13.2.1 Uma rápida recapitulação sobre variáveis aleatórias ÿ-estáveis 256
13.2.2 O limite assintótico ÿ-estável do índice de Gini 257 13.3 O estimador de
máxima verossimilhança 258 13.4 Uma ilustração paretiana
259 13.5 Correção de pequenas amostras
262 13.6 Conclusões 265
14 sobre os vieses de superaditividade e estimativa de contribuição quantílica
butões
‡
271
14.1 Introdução 271 14.2
Estimativa para distribuições de cauda de Pareto não misturadas 273 14.2.1 Viés
e convergência 273 14.3 Uma desigualdade
sobre agregação de desigualdade 276 14.4 Distribuições mistas para o
expoente de cauda 279 14.5 Uma soma total maior é acompanhada
por aumentos em ÿq 282 14.6 Conclusão e Pró por Estimativa da concentração 282
14.6.1 Métodos robustos e uso de dados exaustivos 283 14.6.2 Como devemos
medir a concentração? 283
v papéis de momentos de sombra 285
momentos de sombra de fenômenos de média aparentemente infinita
15.1 Introdução 287
‡ 287 15
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
xii Conteúdo
15.2 A distribuição dupla 288 15.3
De volta a Y: a média sombra (ou média populacional) 290 15.4
Comparação com outros métodos 293 15.5
Aplicações 294
16 na cauda risco de conflito violento (com p. cirillo)‡ 297
16.1 Introdução/Resumo 297 16.2
Discussão estatística resumida 300 16.2.1
Resultados 300 16.2.2
Conclusão 301 16.3
Discussão metodológica 302 16.3.1
Método de reescalonamento 302
16.3.2 Expectativa por condicionamento (menos rigoroso)
303 16.3.3 Confiabilidade dos dados e efeito sobre Estimativas
de cauda 304 16.3.4 Definição de um
"evento" 305 16.3.5 Eventos
ausentes 306 16.3.6 Viés de
sobrevivência 306 16.4
Análise de dados 306 16.4.1 Picos
acima do limite 307 16.4.2 Lacunas em séries e
autocorrelação 308 16.4.3
Análise de cauda 309 16.4.4 Uma visão
alternativa do Maxima 311 16.4.5
Análise completa de dados 311 16.5 Testes adicionais
de robustez e confiabilidade 312
16.5.1 Bootstrap para o GPD 312 16.5.2 Perturbação
entre limites de estimativas 313 16.6 Conclusão: o mundo é mais
inseguro do que parece? 314 16,7 Agradecimentos 316
g quais são as chances de uma terceira guerra mundial?ÿ,† 317
vi artigos de metaprobabilidade 321 17
como caudas grossas emergem da incerteza epistêmica recursiva† 323 17.1 Métodos
e Derivações 324
17.1.1 Incertezas em camadas 324
17.1.2 Integrais de ordem superior no caso gaussiano padrão 325
17.1.3 Efeito em pequenas probabilidades
329 17.2 Regime 2: Casos de parâmetros decaindo a(n) 331
17.2.1 Regime 2-a; “Sangria” de Erro de Ordem Superior
331 17.2.2 Regime 2-b; Segundo método, uma taxa de erro não multiplicativa
332 17.3 Distribuição limite 333
18 expoente de cauda estocástica para leis de potência assimétricas† 335
18.1 Antecedentes 336
18.2 Distribuições Unicaudais com Alfa Estocástico 336
18.2.1 Casos Gerais 336
18.2.2 Desigualdade Alfa Estocástica 337
18.2.3 Aproximações para a Classe P 338 18.3
Somas de Leis de Potência 339
18.4 Distribuições Estáveis Assimétricas 340
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Conteúdo xiii
18,5 Distribuição de Pareto com distribuição lognormal ÿ 341 18,6
Distribuição de Pareto com distribuição gama Alfa 342 18,7 A Lei de
Potência Limitada em Cirillo e Taleb (2016) 342 18,8 Comentários
Adicionais 343 18,9 Agradecimentos
343
19 meta-distribuição de valores p e p-hacking‡ 345
19.1 Provas e derivações 347 19.2
Potência Inversa do Teste 351 19.3
Aplicação e Conclusão 352
h algumas confusões na economia comportamental 355
h.1 Estudo de caso: Como a aversão miópica à perda é mal especificada 355
vii negociação de opções e precificação sob caudas gordas 361
20 falhas da teoria financeira com precificação de opções† 363 20.1
Bachelier, não Black-Scholes 363
20.1.1 Distorção da idealização 364 20.1.2 O
processo real de replicação: 366 20.1.3 Falha:
como erros de hedge podem ser proibitivos. 366 21 medida única de
precificação de opções (sem hedge dinâmico/mercados completos)‡ 367
21.1 Antecedentes 367
21.2 Prova 369
21.2.1 Caso 1: Forward como medida neutra ao risco 369
21.2.2 Derivações 369
21.3 Caso em que o Forward não é neutro ao risco 373 21.4
comentário 373 22
traders de opções nunca usam a fórmula black-scholes-mertonÿ,‡ 375
22.1 Quebrando a cadeia de transmissão 375 22.2
Introdução/Resumo 376 22.2.1 BlackScholes foi um argumento 376 22.3 Mito 1: Os
traders não precificavam opções antes do BSM 379 22.4 Métodos e
Derivações 380 22.4.1 Fórmulas de
opções e Delta Hedging 383
22.5 Mito 2: Os traders hoje usam Black-Scholes 384
22.5.1 Quando avaliamos? 385
22.6 Sobre a impossibilidade matemática do hedge dinâmico 385 22.6.1 A
(confusa) robustez do gaussiano 387 22.6.2 Fluxo de pedidos
e opções 388 22.6.3 Bachelier-Thorp 388
23 precificação de opções sob
leis de potência: uma heurística robustaÿ,‡ 391
23.1 Introdução 392 23.2
Preço de chamadas além da constante Karamata 392
23.2.1 Primeira abordagem, S está na classe de variação regular
393 23.2.2 Segunda abordagem, S tem retornos geométricos na classe
de variação regular
394 23.3 Preço de venda
396 23.4 Limites de arbitragem 397
23,5 Comentários 398
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
xiv Conteúdo
24 quatro erros em finanças quantitativasÿ,‡ 399
24.1 Conflação do segundo e quarto momentos 399 24.2
Faltando a desigualdade de Jensen na análise dos retornos das opções
400 24.3 A inseparabilidade do seguro e do segurado 401
24.4 A necessidade de um Numéraire em finanças 402
24.5 Apêndice (Apostas nas caudas da distribuição) 402
25 restrições de risco de cauda e entropia máxima (wd& h. geman)‡ 405
25.1 Risco de cauda esquerda como restrição central da
carteira 405 25.1.1 O Barbell visto por ET Jaynes 408
25.2 Revisitando a configuração de variância média
408 25.2.1 Analisando as restrições 409
25.3 Revisitando o Caso Gaussiano 410
25.3.1 Uma mistura de duas normais 411
25.4 Entropia máxima 412
25.4.1 Caso A: Restringindo a média global 413 25.4.2
Caso B: Restringindo a média absoluta 414 25.4.3 Caso
C: Leis de potência para a cauda direita 415 25.4. 4
Extensão para um cenário de vários períodos: um comentário
415 25,5 Comentários e conclusão 417
25,6 Apêndice/Provas 417
Bibliografia e Índice 419
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
1 PRÓLOGO Eÿ,†
Quanto menos você entende o mundo, mais
fácil é tomar uma decisão.
5
Figura 1.1: O problema não é a consciência das “caudas gordas”, mas a falta de compreensão das suas
consequências. Dizer “é cauda gorda” implica muito mais do que mudar o nome da distribuição, mas uma
revisão geral das ferramentas estatísticas e dos tipos de decisões tomadas. Crédito Stefan Gasic.
A ideia principal por trás do projeto Incerto é que embora haja muita incerteza e
opacidade sobre o mundo, e uma incompletude de informação e compreensão, há
pouca, ou nenhuma, incerteza sobre quais ações devem ser tomadas com base em
tal incompletude, em qualquer situação.
T
este livro consiste em 1) artigos publicados e 2) comentários (sem censura), sobre
classes de distribuições estatísticas que geram eventos extremos e como devemos
lidar com eles tanto para inferência estatística quanto para decisão
fazendo. A maioria das estatísticas "padrão" vem de teoremas projetados para caudas finas:
Capítulo de discussão.
1
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
2 prólogoÿ,†
Figura 1.2: Complicação
sem insight: a clareza
mental de muitos
profissionais que usam
estatística e ciência de
dados sem uma
compreensão dos
conceitos centrais, do que se trata fundam
Crédito: Wikimedia Commons.
eles precisam ser adaptados pré-sintoticamente a caudas gordas, o que não é trivial – ou mesmo abandonado por
completo.
Tantas vezes foi dito a este autor que é claro que sabemos disso ou da maleta bestial, nada de novo sobre caudas
gordas por um professor ou profissional que acabou de produzir uma análise usando "variância", "GARCH", "curtose"
, "Índice de Sharpe" ou "valor em
risco", ou produziu alguma "significância estatística" que claramente não é significativa.
De forma mais geral, este livro baseia-se na série de vários volumes do autor, Incerto [226] e no programa de
investigação técnica associado, que trata de como viver no mundo real, um mundo com uma estrutura de incerteza
que é demasiado complicada para nós.
O Incerto tenta conectar cinco campos diferentes relacionados às probabilidades e extremos da cauda: matemática,
filosofia, ciências sociais, teoria dos contratos, teoria da decisão e o mundo real. Se você se pergunta por que a
teoria dos contratos, a resposta é: a teoria das opções baseia-se na noção de contratos contingentes e probabilísticos
concebidos para modificar e partilhar classes de exposições nas caudas da distribuição; de certa forma, a teoria das
opções é a teoria matemática dos contratos. A teoria da decisão não trata de compreender o mundo, mas de sair dos
problemas e garantir a sobrevivência. Este ponto é o tema do próximo volume do Incerto Técnico, com o título
provisório provisório Convexidade, Risco e Fragilidade.
uma palavra sobre terminologia
"Caudas grossas" é frequentemente usado em contextos acadêmicos. Para nós, aqui, corresponde a uma “curtose
muito mais elevada do que a gaussiana” – para estar em conformidade com a linguagem dos profissionais de finanças.
Quanto às "Caudas Gordas", preferimos reservá-las tanto para caudas extremamente grossas quanto para pertencer
à classe da lei de potência (que mostramos no Capítulo 8 e não pode ser desemaranhada). Para muitos, pretendese que seja uma definição mais restrita, limitada a “leis de potência” ou “variações regulares” – mas preferimos
chamar “leis de potência” de “leis de potência” (quando estamos bastante
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
prólogoÿ,† 3
Figura 1.3: A resposta clássica: um “substituto” é algo que não prejudica a procura de renda. Crédito:
Stefan Gasic.
certeza sobre o processo), então o que chamamos de “caudas gordas” pode às vezes ser
tecnicamente “caudas extremamente grossas” para muitos.
Para evitar ambiguidade, evitamos designações como “caudas pesadas” ou “caudas longas”.
Os próximos dois capítulos esclarecerão.
agradecimentos
Além dos coautores mencionados anteriormente, o autor agradece Zhuo Xi, Jean-Philippe
Bouchaud, Robert Frey, Spyros Makridakis, Mark Spitznagel, Brandon Yarkin, Raphael Douady,
Peter Carr, Marco Avellaneda, Didier Sornette, Paul Em-brechts, Bruno Dupire, Jamil Baz, Damir
Delic, Yaneer Bar-Yam, Diego Zviovich, Joseph Norman, Ole Peters, Chitpuneet Mann, Harry Crane
–e, claro, fim- menos 13 discussões realmente intermináveis com o grande Benoit Mandelbrot.
Editores voluntários de mídia social, como Maxime Biette, Caio Vinchi, Jason Thorell e Petri Helo,
corrigiram muitos erros de digitação. Kevin Van Horn enviou uma extensa lista de erros de digitação
e possíveis confusões de notação.
Alguns dos artigos que viraram capítulos foram apresentados em conferências; o autor agradece
a Lauren de Haan, Bert Zwart e outros pelos comentários sobre problemas relacionados a valores
extremos. Agradecimentos mais específicos serão feitos em capítulos individuais. Como sempre, o
autor gostaria de expressar sua gratidão à equipe do restaurante Naya em NY.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4 prólogoÿ,†
T
seu autor apresentou o presente livro e os pontos principais na
conferência mensal Bloomberg Quant, em Nova York, em setembro
de 2018. Após a palestra, um proeminente professor de finanças
matemáticas veio me ver. “Este é um Taleb muito típico”, disse ele.
"Você mostra o que está errado, mas não oferece muitos
substitutos”.
Claramente, nos negócios ou em qualquer coisa sujeita aos rigores do mundo real,
ele teria sido demitido. Pessoas que nunca estiveram envolvidas no jogo [236] não
conseguem compreender a necessidade da suspensão circunstancial da crença e o
valor informativo da falta de confiabilidade para a tomada de decisões: não dê a um
piloto uma métrica errada, aprenda a fornecer apenas informações confiáveis; informar
ao piloto que o avião está com defeito salva vidas. Nem conseguem obter o
desempenho superior da via negativa – a ciência popperiana funciona por remoção.
O falecido David Freedman tentou, sem sucesso, domar modelos estatísticos insípidos
e enganosos, amplamente superados pelo “nada”.
Mas acontece que os vários capítulos e artigos aqui oferecem soluções e
alternativas, exceto que estas não são as mais confortáveis para alguns, pois exigem
algum trabalho matemático para rederivações para condições de cauda gorda.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
2
T
GLOSSÁRIO, DEFINIÇÕES
, E
N VOCÊ TOMA ÍONS
Este é um catálogo raisonné dos principais tópicos e notações.
As notações são sempre redefinidas no texto; esta é uma ajuda para o leitor
aleatório. Alguns capítulos extraídos de artigos terão notações específicas,
conforme especificado. Observe que, embora nossa terminologia possa estar
em desacordo com a de alguns grupos de pesquisa, ela visa permanecer
consistente.
2.1 notações gerais e símbolos usados com frequência
P é o símbolo de probabilidade; normalmente em P(X > x), X é a variável aleatória, x
é a realização. Definições mais formais da teoria da medida de eventos e outras questões francesas
estão no Capítulo 11 e em outros lugares onde tal formalismo faz
senso.
E é o operador de expectativa.
V é o operador Variância.
M é o desvio médio absoluto que é, quando centrado, centrado em torno do
média (em vez da mediana).
ÿ(.) ef(.) são geralmente reservados para a PDF (função de densidade de probabilidade) de uma
distribuição pré-especificada. Em alguns capítulos, é feita uma distinção entre fx(x) e fy(y),
particularmente quando X e Y seguem duas distribuições separadas.
n geralmente é reservado para o número de somas.
p geralmente é reservado para a ordem momentânea.
rv é a abreviação de variável aleatória.
F(.) é reservado para o CDF (função de distribuição cumulativa P(X < x), F(.), ou
S é a função de sobrevivência P(X > x).
5
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
6 glossário, definições e notações
ÿ indica que uma variável aleatória é distribuída de acordo com uma certa lei especificada.
ÿ(t) = E(e itXs ) é a função característica de uma distribuição. Em algumas discussões, o
argumento t ÿ R é representado como ÿ. Às vezes ÿ é usado.
D
ÿ denota convergência na distribuição, como segue. Seja X1 , X2 ,. . . , Xn seja uma sequência
D
de variáveis aleatórias; Xn ÿ X significa que o CDF Fn para Xn tem o seguinte limite:
limnÿÿ Fn(x) = F(x)
para todo x real para o qual F é contínuo.
P
ÿ denota convergência em probabilidade, ou seja, para ÿ > 0, temos, usando o mesmo
sequência como antes
limnÿÿ Pr(|Xn ÿ X| > ÿ) = 0.
como
ÿ denota convergência quase certa, a forma mais forte:
P ( limnÿÿ Xn = X ) = 1.
Sn é normalmente uma soma para n somas.
ÿ e ÿs: normalmente tentaremos usar ÿs ÿ (0, 2] para denotar o expoente final da distribuição
limitante e estável platônica e ÿp ÿ (0, ÿ) o equivalente paretiano (pré-sintótico) correspondente,
mas apenas em situações onde há pode haver alguma ambigüidade. ÿ simples deve ser entendido
no contexto.
2
N (µ1 , ÿ1 ) a distribuição gaussiana com média µ1 e variância ÿ L(., .) ou LN 1 .
(., .) é a distribuição Lognormal, com PDF f (L) (.) tipicamente parametrizada ÿ 1 ) X
aqui como L(X0 ÿ
1
p2
2
2p .
0.
, ÿ) para obter uma média X0 e variância ( e
S(ÿS, ÿ, µ, ÿ) é a distribuição estável com índice de cauda ÿs em (0, 2], índice de simetria ÿ em
ÿ1, 1), parâmetro de centralidade µ em R e escala ÿ > 0.
P é a classe da lei de potência (veja abaixo).
S é a classe subexponencial (veja abaixo).
ÿ(.) é a função delta de Dirac.
ÿ(.) é a função teta de Heaviside.
erf(.), a função de erro, é a integral da distribuição gaussiana erf(z) =
ÿ dte-t 2 . erfc(.), é a função de erro complementar 1 ÿ er f(.).
2
ÿ Pi
Com
0
ÿ.ÿp é uma norma definida para (aqui um vetor real) X = (X1 , . . ., Xn)
ÿ
ÿXÿpÿ ( 1 n n i=1|xi | p )1/p . Observe o valor absoluto neste texto.
T
,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
2.2 catálogo raisonné de conceitos gerais e idiossincráticos 7
ÿ
1F1 (.; .; .) é a função hipergeométrica confluente de Kummer: 1F1 (a; b; z) = ÿ k=0
2F˜ 2 é a função hipergeométrica generalizada regularizada: 2F˜ 2(., .;
ÿ
e pFq(a; b; z) tem expansão em série ÿ símbolok=0
(a1)k ...(ap)k
(b1)k ...(bp)k
e
kz ! k
obrigado .
.,
2F2(a;b;z) .; .) =
(ÿ(b1)...ÿ(bq)) z k/k!, onde (aq)(.) é o Pockham-
mer.
n-1
eu=1 ( 1 ÿ aqi ) .
(aq)(.) é o símbolo Q-Pochhammer (aq)n = ÿ
2.2 catálogo raisonné de conceitos gerais e idiossincráticos
Em seguida vem a duplicação da definição de alguns temas centrais.
2.2.1 Lei de Potência Classe P
A classe da lei de potência é convencionalmente definida pela propriedade da função de sobrevivência,
como segue. Seja X uma variável aleatória pertencente à classe de distribuições com cauda direita "lei
de potência", ou seja:
-a
P(X > x) = L(x) x
(2.1)
onde L : [xmin, +ÿ) ÿ (0, +ÿ) é uma função de variação lenta, definida como
lim
xÿ+ÿ
L(kx)
=1
eu(x)
para qualquer k > 0 [22].
A função de sobrevivência de X pertence à classe de "variação regular" RVÿ.
Mais especificamente, uma função f : R+ ÿ R+ é um índice que varia no infinito com índice ÿ (f ÿ RVÿ)
quando
lim
f(tx)
ÿ=x
.
f(t) tÿÿ
Mais praticamente, existe um ponto onde L(x) se aproxima do seu limite, l, tornando-se uma constante
– que chamamos de "constante Karamata" e o ponto é apelidado de "ponto Karamata". Além desse
valor, as caudas das leis de potência são calibradas usando técnicas padrão como o estimador de Hill.
A distribuição naquela zona é apelidada de lei de Pareto forte por B. Mandelbrot[162],[75].
O mesmo se aplica, quando especificado, à cauda esquerda.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8 glossário, definições e notações
2.2.2 Lei dos Grandes Números (Fraca)
A apresentação padrão é a seguinte. Seja X1 , X2 ,. . . Xn é uma sequência infinita de variáveis
aleatórias independentes e distribuídas de forma idêntica (integráveis por Lebesgue) com valor
esperado E(Xn) = µ (embora se possa relaxar um pouco as suposições de iid). A média amostral
1
Xn = (X1 + · · · + Xn) converge para o valor
esperado, Xn ÿ µ, para n ÿ ÿ.
n
A finitude da variância não é necessária (embora, é claro, os momentos superiores finitos
acelerem a convergência).
A lei forte é discutida quando necessário.
2.2.3 O Teorema do Limite Central (CLT)
A versão Padrão (Lindeberg-Lévy) do CLT é a seguinte. Suponha uma sequência de variáveis
2
aleatórias iid com E(Xi ) = µ e V(Xi ) = ÿ < +ÿ, e Xn a média amostral para n. Então, à medida que
n se aproxima do infinito, a soma das variáveis aleatórias ÿ n(Xnµ) converge em distribuição para
a Gaussiana [20] [21]:
d
ÿ n ( Xn ÿ µ )
ÿÿ N ( 0, ÿ 2 ) .
A convergência na distribuição aqui significa que o CDF (função de distribuição cumulativa) de ÿ
n converge pontualmente para o CDF de N (0, ÿ) para cada z real,
ÿ n(Xn ÿ µ)
limnÿÿ P (ÿ n(Xn ÿ µ) ÿ z ) = limnÿÿ P [
p
ÿ
Com
ÿ]=ÿ(
Com
p
),
ÿ>0
onde ÿ(z) é o CDF normal padrão avaliado em z.
Existem muitas outras versões da CLT, apresentadas conforme necessário.
2.2.4 Lei dos Números Médios ou Pré-assintóticos
Este é praticamente o tema central deste livro. Estamos interessados no comportamento da
variável aleatória para n grande, mas não muito grande ou assintótico. Embora não seja um
grande problema para o Gaussiano devido à convergência extremamente rápida (tanto pelo LLN
quanto pelo CLT), este não é o caso para outras variáveis aleatórias.
Veja Kappa a seguir.
2.2.5 Métrica Kappa
A métrica aqui não deve ser interpretada no sentido matemático de uma função de distância,
mas sim no seu sentido de engenharia, como uma medida quantitativa.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
2.2 catálogo raisonné de conceitos gerais e idiossincráticos 9
Kappa, em [0, 1], desenvolvido por este autor aqui, no Capítulo 8, e no artigo [235], mede o
comportamento pré-sintótico ou uma variável aleatória; é 0 para o Gaussiano considerado como
referência e 1 para um Cauchy ou um rv que não tem média.
Seja X1 , . . . , Xn são variáveis aleatórias iid com média finita, ou seja E(X) < +ÿ.
+ X2 + desvio absoluto . . . + Xn seja uma soma parcial. Seja M(n) = E(|Sn ÿ E(Sn)|) o Seja Sn = X1
médio esperado da média para n somas (lembre-se de que não usamos a mediana, mas centralizamos
em torno da média) . Defina a "taxa" de convergência para n somas adicionais começando com n0:
1
ÿn0,n :
M(n)
M(n0)
2ÿÿn0 ,n
= ( n n0 )
, n0, n = 1, 2, ...,
(2.2)
n > n0 ÿ 1, portanto
ÿ(n0, n) = 2 ÿ
log(n) ÿ log(n0)
(2.3)
registro M(n0)
( M(n) ).
Além disso, para os valores da linha de base n = n0 + 1, usamos a abreviatura ÿn0 .
2.2.6 Distribuição Elíptica
Diz-se que X, ap × 1 vetor aleatório tem uma distribuição elíptica (ou com contorno elíptico) com
parâmetros de localização µ, uma matriz não negativa ÿ e alguma função escalar ÿ se sua função
característica for da forma exp(itÿµ )ÿ(tÿt ÿ ).
Em palavras práticas, deve-se ter uma única matriz de covariância para que a distribuição conjunta
seja elíptica. Mudança de regime, covariâncias estocásticas (correlações), tudo isso evita que as
distribuições sejam elípticas. Portanto, mostraremos no Capítulo 6 que uma combinação linear de
variáveis seguindo distribuições de cauda fina pode produzir propriedades explosivas de cauda
grossa quando a elipticalidade é violada. Isto (além da cauda gorda) invalida grande parte das
finanças modernas.
2.2.7 Independência estatística
A independência entre duas variáveis X e Y com PDFs marginais f(x) e f(y) e PDF conjunta f(x, y) é
definida pela identidade:
f(x, y)
= 1,
f(x)f(y)
independentemente do coeficiente de correlação. Na classe de distribuições elípticas, a gaussiana
bivariada com coeficiente 0 é independente e não correlacionada. Isto não se aplica ao Student T ou
ao Cauchy em suas formas multivariadas.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
10 glossário, definições e notações
2.2.8 Distribuição Estável (Lévy estável)
Esta é uma generalização da CLT.
Seja X1 , . . . , Xn sejam variáveis aleatórias independentes e distribuídas de forma idêntica.
Considere a soma deles Sn. Nós temos
Sn ÿ an ÿ
D
Xs, bn
(2.4)
onde Xs segue uma distribuição estável S, an e bn são constantes normativas, e, to ÿ denota
serão
D
convergência na distribuição (a distribuição de X como n ÿ ÿ). repito, as propriedades de S
definidas e exploradas mais adequadamente no próximo capítulo.
Consideremos por enquanto que uma variável aleatória Xs segue uma distribuição estável (ou ÿestável), simbolicamente Xs ÿ S(ÿs, ÿ, µ, ÿ), se sua função característicaÿ(t) = E(e itXs ) for do tipo
forma:
2 )sgn(t))) quando ÿs ÿ= 1.
ÿ(t) = e (iµtÿ|tÿ| ÿs (1ÿiÿ tan( ÿÿÿs
(2.5)
As restrições são ÿ1 ÿ ÿ ÿ 1 e 0 < ÿs ÿ 2.
2.2.9 Distribuição Estável Multivariada
Um vetor aleatório X = (X1 , . . . , Xk ) mas T diz-se que tem a distribuição estável multivariada
se toda combinação linear de seus componentes Y = a1X1 + · · · + akXk tem uma distribuição
estável. Ou seja, para qualquer vetor constante a ÿ Rk a variável aleatória, Y = a TX deve ter uma
distribuição estável univariada.
2.2.10 Ponto Karamata
Veja aula de lei de potência
2.2.11 Subexponencialidade
A fronteira natural entre o Mediocristão e o Extremistão ocorre na classe subexponencial que possui
a seguinte propriedade:
Seja X = X1 , . . . , Xn será uma sequência de variáveis aleatórias independentes e distribuídas de
forma idêntica com suporte em (R+ ), com função de distribuição cumulativa F.
A classe subexponencial de distribuições é definida por (ver [248], [196]):
limão
xÿ+ÿ
onde F
ÿ2 ÿ=F
1 - F *2 (x)
=2
1 ÿ F(x)
(2.6)
ÿ F é a distribuição cumulativa de X1 + X2, a soma de duas cópias independentes
de X. Isto implica que a probabilidade de a soma X1 + X2 exceder um valor x é duas vezes a
probabilidade de qualquer uma delas separadamente exceder x. Assim, cada
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
2.2 catálogo raisonné de conceitos gerais e idiossincráticos 11
sempre que a soma excede x, para valores suficientemente grandes de x, o valor da soma é devido a
um ou outro exceder x – o máximo sobre as duas variáveis – e a outra contribui de forma insignificante.
De forma mais geral, pode-se mostrar que a soma de n variáveis é dominada pelo máximo dos valores
sobre essas variáveis da mesma forma. Formalmente, as duas propriedades a seguir são equivalentes
à condição subexponencial [43],[84].
Para um dado n ÿ 2, seja Sn = ÿ
n
i=1xi e Mn = max1ÿiÿn xi
P(Sn>x)
a) limxÿÿ = n, P(X>x)
b) limxÿÿ
P(Sn>x) = 1.
P(Mn>x)
Assim, a soma Sn tem a mesma magnitude que a maior amostra Mn, o que é outra forma de dizer que
as caudas desempenham o papel mais importante.
Intuitivamente, os eventos de cauda em distribuições subexponenciais deveriam declinar mais
lentamente do que uma distribuição exponencial para a qual grandes eventos de cauda deveriam ser irrelevantes.
Na verdade, pode-se mostrar que as distribuições subexponenciais não têm momentos exponenciais:
ÿ
ÿ0
e
ÿx
dF(x) = +ÿ
(2.7)
para todos os valores de ÿ maiores que zero. Contudo, o inverso não é verdadeiro, uma vez que as
distribuições não podem ter momentos exponenciais, mas não satisfazem a condição subexponencial.
2.2.12 Aluno T como Procurador
Usamos o estudante T com ÿ graus de liberdade como uma conveniente distribuição de lei de potência
bicaudal. Para ÿ = 1 torna-se Cauchy e, claro, Gaussiano para ÿ ÿ ÿ.
O aluno T é a principal lei de potência em forma de sino, ou seja, a PDF é contínua e suave,
aproximando-se assintoticamente de zero para x grande negativo/positivo, e com um único máximo
unimodal (além disso, a PDF é quase côncava, mas não côncavo).
2.2.13 Anel de Citação
Um mecanismo altamente circular pelo qual o destaque acadêmico é alcançado graças a discussões
onde os artigos são considerados proeminentes porque outras pessoas os citam, sem filtragem externa,
fazendo com que a pesquisa se concentre e fique presa em "cantos", áreas focais sem significado real.
Isto está ligado ao funcionamento do sistema acadêmico na ausência da supervisão de um adulto ou da
filtragem de pele no jogo.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
12 glossário, definições e notações
E
exemplo de campos que são, praticamente, fraudes no sentido de que
seus resultados não são portáveis para a realidade e servem apenas para alimentar
artigos adicionais que, por sua vez, produzirão mais artigos: Teoria Financeira
Moderna, econometria (particularmente para variáveis macro), processos
GARCH, psicometria, controle estocástico
modelos em finanças, economia comportamental e finanças, tomada de decisões sob
incerteza, macroeconomia e um pouco mais.
2.2.14 Aluguel na academia
Existe um conflito de interesses entre um determinado pesquisador e o assunto em questão.
consideração. A função objetivo de um departamento acadêmico (e pessoa)
torna-se coleta de citações, homenagens, etc. em detrimento da pureza do assunto:
por exemplo, muitas pessoas ficam presas nos cantos da pesquisa porque é mais benéfico
para suas carreiras e para seu departamento.
2.2.15 Pseudoempirismo ou Problema Pinker
Discussão de “evidências” que não são estatisticamente significativas ou uso de métricas que
são pouco informativos porque não se aplicam às variáveis aleatórias em consideração – como, por
exemplo, fazer inferências a partir das médias e correlações
para variáveis de cauda gorda. Este é o resultado de:
i) o foco na educação estatística em variáveis gaussianas ou de cauda fina,
ii) a ausência de conhecimento probabilístico aliada à memorização de termos estatísticos,
iii) completa ignorância sobre dimensionalidade,
todos os quais são predominantes entre os cientistas sociais.
Exemplo de pseudo-empirismo: comparar a morte por ações terroristas ou epiepidemias como o ebola (cauda gorda) até quedas de escadas (cauda fina).
Este “positivismo” confirmatório é uma doença da ciência moderna; isso quebra
sob dimensionalidade e cauda gorda.
Na verdade, não é necessário distinguir entre variáveis de cauda grossa e variáveis gaussianas
para perceber a falta de rigor nestas atividades: critérios simples de significância estatística não são
atendidos – nem esses operadores compreendem a noção de um conceito como
significado.
2.2.16 Pré-sintóticos
A estatística matemática está amplamente preocupada com o que acontece com n = 1 (onde
n é o número de somas) e n = ÿ. O que acontece no meio é o que nós
chamamos de mundo real – e o foco principal deste livro. Algumas distribuições (digamos aquelas
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
2.2 catálogo raisonné de conceitos gerais e idiossincráticos 13
com variância finita) têm comportamento gaussiano assintoticamente, para n = ÿ, mas não
para n extremamente grande, mas não infinito.
2.2.17 Estocástica
Tornar um parâmetro determinístico estocástico, (i) de forma simples, ou (ii) através de uma
distribuição contínua ou discreta mais complexa.
(i) Seja s o parâmetro determinístico; estocasticizamos (estilo básico) criando um Bernouilli
de dois estados com p probabilidade de assumir o valor s1 , 1 ÿ p de assumir o valor s2. Uma
transformação preserva a média quando ps1 + (1 ÿ p)s2 = s, ou seja, preserva a média do
parâmetro s. Mais geralmente, pode ser preservado de maneira semelhante, etc.
(ii) Podemos usar uma distribuição de probabilidade completa, normalmente uma Gaussiana
se a variável for bicaudal, e a Lognormal ou exponencial se a variável for unicaudal (raramente
, torna
uma lei de potência). Quando s é o desvio padrão, pode-se estocasticizar s onde ele 2se
"volatilidade estocástica", com uma variância ou desvio padrão normalmente denominado
"Vvol".
2.2.18 Valor em Risco, VaR Condicional
A expressão matemática do Valor em Risco, VaR, para uma variável aleatória X com função
de distribuição F e limite ÿ ÿ [0, 1]
VaRÿ(X) = ÿ inf {x ÿ R : F(x) > ÿ},
e o correspondente CVar ou défice esperado ES no limiar ÿ:
ESÿ(X) = E ( ÿX |Xÿÿ VaRÿ(X) )
ou, no domínio positivo, considerando a cauda de X em vez da cauda de ÿX.
De forma mais geral, o défice esperado para o limiar K é E(X|X>K).
2.2.19 Aparência no Jogo
Um mecanismo de filtragem que obriga os cozinheiros a comerem a sua própria comida e a
ficarem expostos a danos em caso de falha, expulsando assim pessoas perigosas do sistema.
Áreas que têm influência no jogo: encanamento, odontologia, cirurgia, engenharia, atividades
onde os operadores são avaliados por resultados tangíveis ou sujeitos à ruína e à falência.
Campos onde as pessoas não têm qualquer participação no jogo: campos académicos circulares
onde as pessoas dependem da avaliação dos pares em vez das pressões de sobrevivência da realidade.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
14 glossário, definições e notações
2.2.20 Gráfico MS
O gráfico MS, “máximo para soma”, nos permite ver o comportamento do LLN para um
determinado momento, considerar a contribuição da observação máxima para o total, e ver como
ela se comporta à medida que n aumenta. Para um rv X, uma abordagem para detectar se E(X
p ) existe consiste em examinar a convergência de acordo com a lei dos grandes números (ou
melhor, a ausência de), observando o comportamento dos momentos mais elevados em uma
determinada amostra. Uma abordagem conveniente é o gráfico de Máximo para Soma, ou
gráfico MS, conforme mostrado na Figura 10.3.
O MS Plot depende de uma consequência da lei dos grandes números [184] quando se trata
do máximo de uma variável. Para uma sequência X1 , X2, ..., Xn de variáveis aleatórias iid não
negativas, se para p = 1, 2, 3, . . . , E[X p ] < ÿ, então
Rpp _=M
n/Snp ÿ como 0
n
como n ÿ ÿ, onde S
p
n
=
n
ÿ
XI
p
_
p
n
é a soma parcial, e M
= máx(X
p
1 , ...,
Xnp ) o
eu=1
máximo parcial. (Observe que podemos ter X como o valor absoluto da variável aleatória caso o
rv possa ser negativo para permitir que a abordagem seja aplicada a momentos ímpares.)
2.2.21 Domínio Máximo de Atração, MDA
A distribuição de valores extremos diz respeito à do rv máximo, quando x ÿ x onde x
ÿ
,
ÿ
= sup{x : F(x) < 1} (o "ponto final" direito da distribuição) está no domínio máximo de
atração, MDA [116]. Em outras palavras,
máx(X1 , X2, ... Xn)
P
ÿx
ÿ
.
2.2.22 Substituição de Integral na literatura de psicologia
A literatura verbalística faz a seguinte fusão. Seja K ÿ R+ um limite, f(.) uma função de densidade
e pK ÿ [0, 1] a probabilidade de excedê-lo, e g(x) uma função de impacto. Seja I1 o retorno
esperado acima de K:
ÿ
I1 = ÿ K
g(x)f(x)dx,
e Seja I2 o impacto em K multiplicado pela probabilidade de exceder K:
ÿ
I2 = g(K) ÿ K
f(x)dx = g(K)pK.
A substituição vem da fusão de I1 e I2, que se torna uma identidade se e somente se g(.) for
constante acima de K (digamos g(x) = ÿK(x), a função teta de Heaviside).
Para g(.) uma função variável com primeira derivada positiva, I1 pode estar próximo de I2 apenas
sob distribuições de cauda fina, e não sob distribuições de cauda gorda.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
2.2 catálogo raisonné de conceitos gerais e idiossincráticos 15
2.2.23 Inseparabilidade da Probabilidade (outro erro comum)
Seja F : A ÿ [0, 1] uma distribuição de probabilidade (com derivada f) e g : R ÿ R uma função
mensurável, o "recompensa"". Claramente, para Aÿ um subconjunto de A:
ÿA' g(x)dF(x) = ÿ
f(x)g(x)dx
A'
ÿ= ÿA' f(x)dx g (ÿ Aÿ dx )
Em termos discretos, com ÿ(.) uma função de massa de probabilidade:
ÿ
ÿ(x)g(x) ÿ= ÿ
x ÿAÿ
xÿAÿ
ÿ(x)g( 1
n
ÿ
xÿAÿ
(2.8)
x)
= probabilidade do evento × recompensa do evento médio
A ideia geral é que a probabilidade é o núcleo de uma equação e não um produto final
por si só, fora das apostas explícitas.
2.2.24 A Régua de Wittgenstein
A “régua de Wittgenstein” é o seguinte enigma: você está usando a régua para
medir a mesa ou usando a mesa para medir a régua? Bem, depende dos resultados.
Suponha que existam apenas duas alternativas: uma distribuição gaussiana e uma distribuição de lei de
potência. Mostramos que um grande desvio, digamos um "seis sigma", indica que a distribuição é uma
lei de potência.
2.2.25 Cisnes Negros
Os Cisnes Negros resultam da incompletude do conhecimento com efeitos que podem ter muitas
consequências em domínios de cauda gorda.
Basicamente, são coisas que estão fora do que você pode esperar e modelar, e trazem grandes
consequências. A ideia é não prevê-los, mas ser convexo (ou pelo menos não côncavo) em
relação ao seu impacto: a fragilidade a uma determinada classe de eventos é detectável, e até
mesmo mensurável (através da aferição de efeitos de segunda ordem e da assimetria de
respostas), enquanto os atributos estatísticos desses eventos pode permanecer indefinido.
É difícil explicar aos modeladores que precisamos aprender a trabalhar com coisas que
nunca vimos (ou imaginamos) antes, mas é o que é1 .
Observe a dimensão epistêmica: os cisnes negros dependem do observador: um
cisne negro para o peru é um cisne branco para o açougueiro. 11 de setembro foi um negro
1 Como Paul Portesi gosta de repetir (atribuindo ou talvez atribuindo erroneamente a este autor): “Você não viu o
outro lado da distribuição".
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16 glossário, definições e notações
Cisne para as vítimas, mas não para os terroristas. Esta dependência do observador é uma
propriedade central. Um modelo probabilístico “objetivo” do Cisne Negro não é apenas impossível,
mas anula o propósito, devido ao caráter incompleto da informação e de sua disseminação.
Cisnes Cinzentos: Grandes desvios que são consequenciais e têm uma frequência muito baixa,
mas permanecem consistentes com as propriedades estatísticas, são chamados de "Cisnes Cinzentos".
Mas é claro que o "acinzentamento" depende do observador: um Cisne Cinzento para alguém
que utiliza uma distribuição de lei de potência será um Cisne Negro para estatísticos ingénuos
irremediavelmente presos e entrando em estruturas e representações de cauda fina.
Repitamos: não, não se trata de caudas gordas; acontece que caudas gordas os tornam piores.
A conexão entre caudas gordas e Cisnes Negros reside no impacto exagerado de grandes desvios
nos domínios de cauda gorda.
2.2.26 A distribuição empírica não é empírica
A distribuição empírica, ou função de sobrevivência F(t) é a seguinte: Seja X1 , . . . Xn sejam variáveis
aleatórias reais independentes e distribuídas de forma idêntica com a função de distribuição
cumulativa comum F(t).
Fn(t) =
1 n
n ÿ 1xiÿt ,
eu=1
onde 1A é a função do indicador.
Pelo teorema de Glivenko-Cantelli, temos convergência uniforme da norma máxima para uma
distribuição específica – a Kolmogorov-Smirnoff – independentemente da distribuição inicial. Nós
temos:
como.
sup
tÿR
Fn(t) ÿ F(t)
ÿÿ 0;
(2.9)
esta convergência independente da distribuição diz respeito a probabilidades, claro, e não a momentos
– um resultado que este autor trabalhou e generalizou para o "momento oculto" acima do máximo.
Notamos o resultado principal (generalizado por Donsker em uma ponte browniana, uma vez que
sabemos que os extremos são 0 e 1)
ÿ n ( Fn(t) ÿ F(t) ) Dÿ N (0, F(t)(1 ÿ F(t)))
(2.10)
“A distribuição empírica não é empírica” significa que, uma vez que as distribuições empíricas são
necessariamente censuradas no intervalo [xmin, xmax], para caudas gordas isto pode trazer enormes
consequências porque não podemos analisar caudas gordas no espaço de probabilidade, mas no
espaço de retorno.
Veja ainda a entrada na cauda oculta (próxima).
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
2.2 catálogo raisonné de conceitos gerais e idiossincráticos 17
2.2.27 A cauda oculta
Considere Kn o máximo de uma amostra de n variáveis independentes distribuídas de forma
idêntica; Kn = máx (X1 , X2, ..., Xn). Seja ÿ(.) a densidade da distribuição subjacente. Podemos
decompor os momentos em duas partes, sendo o momento “oculto” acima de K0.
Kn
E(X p ) = ÿ
ÿ
xpÿ (x)dx
eu
+ ÿ Kn
µL,p
xpÿ (x)dx
ÿK, p
onde µL é a parte observada da distribuição e µK a oculta (acima de K).
Por Glivenko-Cantelli, a distribuição de µK,0 deveria ser independente da distribuição inicial de X,
mas os momentos mais elevados não, portanto, há um pequeno problema com os testes do estilo
Kolmogorov-Smirnoff.
2.2.28 Momento de Sombra
Isso é chamado neste livro de estimativa de “plug-in”. Isso não é feito medindo a média da amostra
diretamente observável, que é tendenciosa sob distribuições de cauda gorda, mas usando
parâmetros de máxima verossimilhança, digamos, o expoente da cauda ÿ, e derivando a média da
sombra ou momentos mais elevados.
2.2.29 Dependência da Cauda
Sejam X1 e X2 duas variáveis aleatórias não necessariamente na mesma classe de distribuição.
Seja Fÿ(q) o CDF inverso para a probabilidade q, ou seja, Fÿ(q) = inf{x ÿ R : F(x) ÿ q}, ÿu a
dependência da cauda superior é definida como
lim qÿ1
ÿ
ÿ
P (X2 > F 2 (q)|X1 > F 1 (q)) ÿu =
(2.11)
O mesmo acontece com o índice de dependência da cauda inferior.
2.2.30 Metaprobabilidade
Comparar duas distribuições de probabilidade por meio de alguns truques que incluem parâmetros
de estochasticização. Ou estocasticize um parâmetro para obter a distribuição de um preço de
compra, uma métrica de risco como VaR (ver entrada), CVaR, etc., e verifique a robustez ou
convexidade da distribuição resultante.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
18 glossário, definições e notações
2.2.31 Cobertura Dinâmica
O pagamento de uma opção de compra europeia C sobre um S subjacente com prazo de
vencimento indexado em T deve ser replicado com o seguinte fluxo de hedges dinâmicos, cujo
limite pode ser visto aqui, entre o tempo presente t e T:
ÿC
limão
ÿtÿ0 (n=T/ÿt
ÿeu=1
ÿS
(2.12)
|S=St+(iÿ1)ÿt ,t=t+(iÿ1)ÿt, ( St+iÿt ÿ St+(iÿ1)ÿt ) )
ÿC
ÿS é calculado a
Dividimos o período em n incrementos ÿt. Aqui o índice de hedge
partir do momento t +(i-1) ÿt, mas obtemos a diferença não antecipada entre o preço no
momento em que o hedge foi iniciado e o preço resultante em t+ i ÿt.
Supõe-se que isso torne o resultado determinístico no limite de ÿt ÿ 0. No mundo gaussiano,
isso seria uma integral Ito-McKean.
Mostramos onde esta replicação nunca é possível em um ambiente de cauda gorda, devido
às propriedades pré-samptóticas especiais.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Parte I
GORDURA TA ILS E SEUS EFEITOS
,
UMA INTRODUÇÃO
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3 ANON -TECHNICALOVERVI EW - THE
POR RW INCOLLEGELECTURA ÿ,‡
Abyssus abyssum invocat maravilha,
não se pergunte, leitor
Salmos
T
Este capítulo apresenta uma apresentação não técnica, porém abrangente,
de todas as consequências estatísticas do projeto de caudas grossas.
Ele comprime as ideias principais em um só lugar. Principalmente, ele
fornece uma lista de mais de uma dúzia de consequências de caudas
grossas na inferência estatística.
3.1 sobre a diferença entre caudas finas e grossas
Começamos com a noção de caudas grossas e como ela se relaciona com os extremos usando os
dois domínios imaginários do Mediocristão (caudas finas) e do Extremistão (caudas grossas).
Capítulo de pesquisa e discussão.
Uma versão mais curta deste capítulo foi apresentada no Darwin College, Cambridge (Reino Unido) em 27 de
janeiro de 2017, como parte da Série de Palestras sobre Extremos do Darwin College. O autor estende os mais
calorosos agradecimentos ao DJ Needham e Julius Weitzdörfer, bem como aos seus assistentes invisíveis que
transcreveram a palestra com paciência e precisão em um texto coerente. O autor também agradece a Susan
Pfannenschmidt e Ole Peters que corrigiram alguns erros. Jamil Baz me convenceu a acrescentar mais
comentários ao capítulo para acomodar economistas e econometristas que, nunca se sabe, poderão
eventualmente se identificar com alguns deles.
21
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
22 uma visão geral não técnica – a palestra da Darwin College
ÿ,‡
• No Mediocristão, quando uma amostra em consideração se torna grande, nenhuma
observação isolada pode realmente modificar as propriedades estatísticas.
• No Extremistão, as caudas (os eventos raros) desempenham um papel desproporcionalmente
grande na determinação das propriedades.
Outra forma de visualizar:
Suponha um grande desvio X. • No
Mediocristão, a probabilidade de amostragem superior a X duas vezes em um
linha é maior que a amostragem superior a 2X uma vez.
• No Extremistão, a probabilidade de amostragem superior a 2X uma vez é maior do que a
probabilidade de amostragem superior a X duas vezes consecutivas.
Vamos selecionar aleatoriamente duas pessoas no Mediocristão; suponhamos que obtemos uma altura
combinada (muito improvável) de 4,1 metros – um evento de cauda. De acordo com a distribuição
gaussiana (ou melhor, seus irmãos unicaudais), a combinação mais provável das duas alturas é 2,05
metros e 2,05 metros. Não 10 centímetros e 4 metros.
Simplesmente, a probabilidade de exceder 3 sigmas é 0,00135. A probabilidade de exceder 6 sigmas,
o dobro, é 9,86 × 10ÿ10. A probabilidade de ocorrência de dois eventos 3-sigma é 1,8 × 10ÿ6 . Portanto,
a probabilidade de ocorrência de dois eventos 3-sigma é consideravelmente maior do que a probabilidade
de um único evento 6-sigma.
Isso está usando uma classe de distribuição que não tem cauda gorda.
A Figura 3.1 mostra que à medida que estendemos a razão da probabilidade de dois eventos 3-sigma
dividida pela probabilidade de um evento 6-sigma, para a probabilidade de dois eventos 4-sigma dividida
pela probabilidade de um evento 8-sigma, ou seja , quanto mais avançamos na cauda, vemos que um
grande desvio só pode ocorrer através de uma combinação (uma soma) de um grande número de desvios
intermediários: o lado direito da Figura 3.1. Em outras palavras, para que algo ruim aconteça, é necessário
que venha de uma série de eventos muito improváveis, e não de um único. Esta é a lógica do Mediocristão.
Vamos agora passar para o Extremistão e selecionar aleatoriamente duas pessoas com uma riqueza
combinada de 36 milhões de dólares. A combinação mais provável não é US$ 18 milhões e US$ 18
milhões. Deve ser aproximadamente US$ 35.999.000 e US$ 1.000.
Isto realça a nítida distinção entre os dois domínios; para a classe de distribuições subexponenciais, é
mais provável que a ruína venha de um único evento extremo do que de uma série de episódios ruins.
Esta lógica sustenta a teoria clássica do risco, tal como delineada pelo atuário Filip Lundberg no início do
século XX [155] e formalizada na década de 1930 por Harald Cramer [51], mas esquecida pelos
economistas nos últimos tempos. Para a segurabilidade, as perdas devem ser mais prováveis de resultar
de muitos eventos do que de um único evento, permitindo assim a diversificação,
Isto indica que o seguro só pode funcionar no Mediocristão; você nunca deve assinar um contrato de
seguro ilimitado se houver risco de catástrofe. O ponto é chamado de princípio da catástrofe.
Como vimos anteriormente, com distribuições de cauda grossa, os eventos extremos afastados do
centro da distribuição desempenham um papel muito importante. Os Cisnes Negros não são “mais livres”
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.2 cães abanando o rabo: uma intuição 23
"quente" (como é comumente mal interpretado), eles têm mais consequências. A distribuição de
cauda mais gorda tem apenas um desvio extremo muito grande, em vez de muitos desvios da
norma. A Figura 4.4 mostra que se tomarmos uma distribuição como a Gaussiana e começar a
engordar suas caudas, então o número de desvios de um desvio padrão cai. A probabilidade de
um evento permanecer dentro de um desvio padrão da média é de 68 por cento. À medida que
as caudas engordam, para imitar o que acontece nos mercados financeiros, por exemplo, a
probabilidade de um evento permanecer dentro de um desvio padrão da média aumenta para
entre 75 e 95 por cento. Portanto, observe que à medida que engordamos as caudas, obtemos
picos mais altos, ombros menores e uma maior incidência de um desvio muito grande. as
probabilidades precisam somar 1 (mesmo na França). O aumento da massa em uma área leva à
diminuição em outra.
S (K)
Figura 3.1: Razão de funções
de sobrevivência S(.) para
duas ocorrências de tamanho
K por uma de 2K para uma
distribuição gaussianaÿ .
Quanto maior o K, isto é,
2
S (2K )
25.000
20.000
15.000
10.000
5.000
1
2
3
4
K (em ÿ)
quanto mais estamos na
cauda, maior a probabilidade
de o evento vir de duas
2
,
realizações independentes
de
K (portanto, P(K) e menor a
probabilidade
de um único evento de
magnitude 2K. ÿIsto é uma
falsificação da simplicidade
pedagógica. A abordagem
mais rigorosa seria comparar
2 ocorrências de tamanho K
com 1 ocorrência de tamanho
2K mais 1 desvio regular – mas o gráfico final nã
3.2 cães abanando o rabo: uma intuição
O rabo abana o efeito de cachorro
Centralmente, quanto mais grossas as caudas da distribuição, mais o rabo abana o
cachorro, ou seja, a informação reside nas caudas e menos no “corpo” (a parte central) da
distribuição. Efetivamente, para fenômenos de cauda muito grossa, todos os desvios
tornam-se informacionalmente estéreis, exceto os grandes.
O centro torna-se apenas ruído. Embora a ciência “baseada em evidências” possa ainda não
entender isso, sob tais condições, não há evidências no corpo.
Esta propriedade também explica o funcionamento lento da lei dos grandes números em certos
domínios, uma vez que os desvios da cauda, onde reside a informação, são –por definição–
cru.
A propriedade explica por que, por exemplo, um milhão de observações de cisnes brancos não
confirmam a inexistência de cisnes negros, ou por que um milhão de observações confirmatórias
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
24 uma visão geral não técnica - a palestra da Darwin College
2.4
2.2
2,0
Figura 3.2: Isodensidades para
dois gaussianos independentes
distribuições.
A linha
mostra x + y = 4,1. Visivelmente
a probabilidade máxima
é para x = y = 2,05.
1,8
1.6
1.4
1.4
1.6
1,8
2,0
2.2
2.4
50
40
Figura 3.3: Isodensidades para
duas caudas grossas independentes
distribuições (no poder
aula de direito). A linha mostra
30
x + y = 36. Visivelmente, a
probabilidade máxima é para
x = 36 ÿ ÿ ou y = 36 ÿ ÿ,
com ÿ indo para 0 como a soma
x + y torna-se maior.
+=
20
10
0
0
10
20
30
40
50
observações contam menos do que uma única observação desconfirmatória. Vamos vinculá-lo ao
Assimetrias ao estilo Popper mais adiante neste capítulo.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.3 uma categorização (mais avançada) e suas consequências 25
x+y=36
40
Figura 3.4: Mesma
representação da Figura 3.1,
mas referente a distribuições
de leis de potência com
apoio na reta real; podemos
ver as isodensidades
parecendo cada vez mais
uma cruz para probabilidades
cada vez mais baixas. Mais
tecnicamente, há uma perda de elipticalidade.
20
0
-20
-20
0
20
40
Também explica por que nunca se deve comparar variáveis aleatórias impulsionadas pelas
caudas (por exemplo, pandemias) com aquelas impulsionadas pelo corpo (por exemplo, o
número de pessoas que se afogam na piscina). Ver Cirillo e Taleb (2020) [48] para as implicações
políticas dos riscos sistémicos.
3.3 uma categorização (mais avançada) e suas consequências
Vamos agora considerar os graus de cauda espessa de uma forma casual (vamos nos
aprofundar cada vez mais neste livro). A classificação é por gravidade.
Distribuições:
Cauda Grossa ÿ Subexponencial ÿ Lei de Potência (Paretiana)
Primeiro, existem caudas grossas de nível básico. Esta é qualquer distribuição com caudas
mais grossas que a Gaussiana, ou seja, com mais observações dentro de ±1 desvio padrão do que
1
ÿ 2 ) ÿ 68,2%3 e com curtose (função do quarto momento central)
.
superior a 3 4
herdar (
Em segundo lugar, existem distribuições subexponenciais que satisfazem a nossa experiência
mental anterior (aquela que ilustra o princípio da catástrofe). A menos que entrem na classe das
leis de potência, as distribuições não são realmente de cauda grossa porque não têm
dte-t 2 .
0
3 A função de erro erf é a integral da distribuição gaussiana erf(z) = ÿ2 ÿ ÿ 4 O
momento de ordem p para uma variável aleatória X é a expectativa de uma potência ap de X, E(X p ).
Com
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
26 uma visão geral não técnica - a palestra da Darwin College
Figura 3.5: A lei dos grandes
números, é quanto tempo leva
leva para a média amostral
estabilizar, funciona muito mais
lentamente no Extremistão (aqui
uma distribuição de Pareto com
1,13 expoente de cauda,
cor-
respondendo ao "Pareto
80-20". Ambos têm o
mesmo desvio médio absoluto.
Observe que o mesmo se aplica
a outras formas de amostragem,
como a teoria do portfólio.
impactos monstruosos de eventos raros. Em outras palavras, eles podem ter todos os momentos
.
Nível três, o que é chamado por uma variedade de nomes, lei de potência ou membro da
classe regular variável, ou classe "Caudas de Pareto"; estes correspondem a caudas realmente grossas
mas a fattailedness depende da parametrização do seu índice de cauda. Sem
entrando em um índice de cauda por enquanto, considere que haverá algum momento que será
infinito, e momentos superiores a esse também serão infinitos.
Vamos agora trabalhar de baixo para cima no quadro central em
Figura 3.7. No canto inferior esquerdo temos a distribuição degenerada onde existe
é apenas um resultado possível, ou seja, sem aleatoriedade e sem variação. Então, acima
nisso, existe a distribuição de Bernoulli que tem dois resultados possíveis, não mais.
Então, acima dele estão os dois gaussianos. Existe o Gaussiano natural (com
suporte em menos e mais infinito) e gaussianas que são alcançadas adicionando
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.3 uma categorização (mais avançada) e suas consequências 27
LLN de cauda gorda
LLN Gaussiano
2,0
2,0
1,5
1,5
n=1
n=1
1,0
n=30
0,5
-4
-2
n=30
1,0
0,5
2
4
-4
-2
0
2
4
Figura 3.6: O que acontece com a distribuição de uma média à medida que o número de observações n aumenta?
Esta é a mesma representação da Figura 3.5 vista no espaço de distribuição/probabilidade. A distribuição de cauda
gorda não se comprime tão facilmente quanto a gaussiana. Você precisa de uma amostra muito, muito maior. É o
que é.
LIMITE CENTRAL - PARA O ENSAIO DE BERRY
ÿÿ1
Fuhgetabaudit
Lévy-Estável ÿ<2
ÿ1
ÿ supercúbico ÿ 3
Subexponencial
CRAMER
DOENÇA
Gaussiano da aproximação da rede
Fino - Cauda de Convergência para Gaussiana
COMPACTAR
Bernoulli
APOIAR
Degenerar
LEI DOS GRANDES NÚMEROS (FRACA)
QUESTÕES DE CONVERGÊNCIA
Figura 3.7: O quadro de caudas grossas, ao longo das diversas classificações para fins de convergência (ou seja,
convergência para a lei dos grandes números, etc.) e gravidade dos problemas inferenciais. As Leis de Potência
estão em branco, o restante em amarelo. Ver Embrechts et al [82].
passeios aleatórios (com suporte compacto, mais ou menos, a menos que tenhamos somas infinitas)5 .
São animais completamente diferentes, pois um pode entregar o infinito e o outro
5 Suporte compacto significa que a variável aleatória de valor real X realiza realizações em um intervalo limitado,
2 ÿx
digamos [a, b],(a, b], [a, b), etc. A gaussiana tem um declínio exponencial e que acelera com desvios , então
algumas pessoas como Adrien Douady consideram-no efetivamente um suporte compacto.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
28 uma visão geral não técnica – a palestra da Darwin College
ÿ,‡
não pode (exceto assintoticamente). Então, acima dos gaussianos estão as distribuições na
classe subexponencial que não são membros da classe da lei de potência. Esses membros têm
todos os momentos. A classe subexponencial inclui o lognormal, que é uma das coisas mais
estranhas nas estatísticas porque às vezes nos engana. Em baixa variação, tem cauda fina; em
alta variação, ele se comporta como uma cauda muito grossa. Algumas pessoas consideram
uma boa notícia o fato de os dados não serem paretianos, mas lognormais; não é necessariamente
assim. O Capítulo 8 aborda as propriedades estranhas do lognormal.
Ser membro da classe subexponencial não satisfaz a chamada condição de Cramer, permitindo
a segurabilidade, como ilustramos na Figura 3.1, lembre-se do experimento mental no início do
capítulo. Mais tecnicamente, a condição de Cramer significa que existe a expectativa do
exponencial da variável aleatória.6
Uma vez que saímos da zona amarela, onde a lei dos grandes números (LLN) em grande parte
, eentão
funciona7,
o teorema
encontramos
do limiteproblemas
central (CLT)
de convergência.
eventualmenteEntão
acabam
aquifuncionando8
temos o que ,chamamos
de leis de potência.
Nós os classificamos pelo índice de cauda ÿ, que veremos mais adiante; por enquanto, quanto
menor o índice da cauda, mais gordas serão as caudas. Quando o índice da cauda é ÿ ÿ 3,
chamamos-o de supercúbico (ÿ = 3 é cúbico). Essa é uma fronteira informal: a distribuição não tem
outro momento além do primeiro e do segundo, o que significa que tanto as leis dos grandes
números quanto o teorema do limite central se aplicam em teoria.
Depois, há uma classe com ÿ ÿ 2 que chamamos de Levy-Stable para simplificar (embora inclua
distribuições de leis de potência semelhantes com ÿ menor que 2 não explicitamente nessa
classe; mas em teoria, à medida que somamos variáveis, a soma termina subiu nessa classe, e
não na gaussiana, graças a algo chamado teorema generalizado do limite central, GCLT). A
partir daqui estamos cada vez mais em apuros porque não há variação. Para 1 ÿ ÿ ÿ 2 não há
variância, mas existe desvio médio absoluto (ou seja, as variações médias tomadas em valor
absoluto).
Mais acima, no segmento superior, não há média. Nós o chamamos de Fuhgetaboudit. Se você
vir algo nessa categoria, você vai para casa e não fala sobre isso.
A abordagem tradicional dos estatísticos às caudas grossas tem sido afirmar que assumem
uma distribuição diferente, mas continuam a fazer negócios como de costume, usando as mesmas
métricas, testes e declarações de significância. Quando saímos da zona amarela, para a qual
foram desenhadas técnicas estatísticas (já então), as coisas já não funcionam como planeado. A
próxima seção apresenta uma dúzia de problemas, quase todos terminais. Seremos um pouco
mais técnicos e usaremos alguns jargões.
6 Ponto técnico: Seja X uma variável aleatória. A condição de Cramer: para todo r > 0,
E(e rX) < +ÿ,
onde E é o operador de expectativa.
7 Tomemos por enquanto a seguinte definição para a lei dos grandes números: ela afirma aproximadamente que se
uma distribuição tem uma média finita, e você adiciona variáveis aleatórias independentes extraídas dela — isto é,
sua amostra fica maior — você eventualmente converge para a média . Com que rapidez? essa é a questão e o tema
deste livro.
8 Abordaremos ad nauseam o teorema central do limite, mas aqui está a intuição inicial. Ele afirma que variáveis
aleatórias independentes somadas com n com segundo momento finito acabam parecendo uma distribuição
gaussiana. Bela história, mas quão rápido? As leis de potência no papel precisam de uma infinidade de tais somas,
o que significa que elas nunca chegam realmente ao Gaussiano. O Capítulo 7 trata das distribuições limitantes e
responde à questão central: “quão rápido?” tanto para CLT quanto para LLN. Quão rápido é importante porque no
mundo real temos algo diferente de n igual ao infinito.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.3 uma categorização (mais avançada) e suas consequências 29
Resumo do problema com estatísticas excessivamente padronizadas
S
A estimativa estatística é baseada em dois elementos: o teorema do limite
central (que se presume funcionar para somas "grandes", tornando assim
tudo convenientemente normal) e o da lei dos grandes números, que
reduz a variância da estimativa como um aumenta o tamanho da
amostra. Contudo, as coisas não são tão simples; existem advertências.
No Capítulo 8, mostramos como a amostragem depende da distribuição e varia muito
dentro da mesma classe. Como mostrado por Bouchaud e Potters em [27] e Sornette em
[214], as caudas para alguma variância finita, mas momentos infinitos mais elevados
podem, sob soma, convergir para o Gaussiano dentro de ± ÿ n log n, ou seja, o centro do
a distribuição dentro dessa banda torna-se gaussiana, mas as partes remotas, essas
caudas, não - e as partes remotas determinam muitas das propriedades.
A vida acontece nos pré-sintóticos.
Infelizmente, na entrada sobre estimadores na monumental Encyclopedia of Statistical
Science [147], W. Hoeffding escreve:
"A distribuição exata de uma estatística é geralmente altamente
complicada e difícil de trabalhar. Daí a necessidade de aproximar a
distribuição exata por uma distribuição de uma forma mais simples, cujas
propriedades sejam mais transparentes. Os teoremas do limite da teoria das
probabilidades fornecem uma ferramenta importante para tais aproximações.
Em particular, os teoremas clássicos do limite central afirmam que a soma
de um grande número de variáveis aleatórias independentes é distribuída
aproximadamente normalmente sob condições gerais. Na verdade, a
distribuição normal desempenha um papel dominante entre os limites
possíveis. Para citar o texto de Gnedenko e Kolmogorov [[111], Cap. 5]:
"Considerando
que para a convergência de funções de distribuição de somas
de variáveis independentes para a lei normal apenas restrições
de um tipo muito geral, além daquela de sendo infinitesimais
(ou assintoticamente constantes), devem ser impostas às somas,
para a convergência para outra lei limite algumas propriedades
muito especiais são exigidas das somas".
Além disso, muitas estatísticas comportam-se assintoticamente como
somas de variáveis aleatórias independentes. Tudo isso ajuda a explicar a
importância da distribuição normal como uma distribuição assintótica”.
Agora, e se não atingirmos a distribuição normal, já que a vida acontece antes da
assíntota? É disso que trata este livro.a
a O leitor é convidado a consultar uma entrada de “estimativa estatística” em qualquer livro didático ou
enciclopédia online. As probabilidades são de que a noção de “o que acontece se não atingirmos a assíntota”
nunca será discutida – como nas 9.500 páginas da monumental Enciclopédia de Estatística. Além disso,
pergunte a um usuário regular de estatísticas sobre quantos dados são necessários para tal ou qual
distribuição e não se surpreenda com a resposta. O problema é que as pessoas têm muitas ferramentas
estatísticas predefinidas em suas cabeças, ferramentas que elas nunca tiveram que redesenhar. O lema aqui
é: “as estatísticas nunca são padrão”.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
30 uma visão geral não técnica – a palestra da Darwin College
sim
sim
15
15
10
10
5
5
x
20
x
20
40
60
80
100
40
60
80
100
5
5
10
Figura 3.8: Na presença de caudas grossas, podemos ajustar linhas de regressão marcadamente diferentes ao mesmo
história (o teorema de Gauss-Markov - necessário para permitir métodos de regressão linear - não se aplica
não mais). Esquerda: uma regressão regular (ingênua). À direita: uma linha de regressão que tenta acomodar o
grande desvio - um "rácio de cobertura", por assim dizer, que protege o agente de um grande desvio, mas
desvia os pequenos. Perder o maior desvio pode ser fatal. Observe que a amostra não inclui
a observação crítica, mas foi adivinhada usando métodos de "média sombra".
3.4 as principais consequências e como elas se vinculam ao livro
Figura 3.9: Medidas de desigualdade como o Gini
coeficiente requer métodos completamente diferentes
de estimativa sob caudas grossas, como veremos em
Parte III. A ciência é difícil.
Aqui estão algumas consequências de sair da zona amarela, a estatística
zona de conforto:
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.4 as principais consequências e como elas se relacionam com o livro 31
Consequência 1
A lei dos grandes números, quando funciona, funciona muito lentamente no mundo real.
Isso é mais chocante do que você pensa, pois cancela a maioria dos estimadores estatísticos. Consulte
a Figura 3.5 neste capítulo para obter uma ilustração. O assunto é tratado no Capítulo 8 e as
distribuições são classificadas de acordo.9
Consequência 2
A média da distribuição raramente corresponderá à média da amostra; terá um efeito persistente
de pequena amostra (para baixo ou para cima), especialmente quando a distribuição for
distorcida (ou unilateral).
Este é outro problema de insuficiência de amostra. Na verdade, não existe uma distribuição unicaudal
muito grossa em que a média da população possa ser adequadamente estimada diretamente a partir
da média da amostra – eventos raros determinam a média, e estes, sendo raros, exigem muitos dados
para aparecer10 . Considere que algumas leis de potência (como aquela descrita como “80/20” na
linguagem comum têm 92% das observações abaixo da média verdadeira). Para que a média da
amostra seja informativa, precisamos de muito mais dados do que necessitamos (os especialistas em
economia ainda não compreendem isto, embora os traders tenham uma compreensão intuitiva do
ponto). O problema é discutido brevemente mais adiante em 3.8, e mais formalmente nos capítulos
“sombra média”, Capítulos 15 e 16. Além disso, introduziremos a noção de propriedades ocultas em
3.8. É claro que, da mesma forma, a variância provavelmente será subestimada.
Consequência 3
Métricas como desvio padrão e variância não são utilizáveis.
Eles falham fora da amostra – mesmo quando existem; mesmo quando todos os momentos existem.
Discutido em detalhes no Capítulo 4. É um erro científico que a noção de desvio padrão (muitas vezes
confundido com desvio médio por seus usuários) tenha encontrado seu caminho como uma medida de
variação, pois é muito estreitamente precisa no que pretende ser. fazer, na melhor das circunstâncias.
Consequence 4
Beta, Sharpe Ratio e outras métricas financeiras banais comuns não são informativas.
9 O que chamamos de pré-sintóticos é o comportamento de uma soma ou sequência quando n é grande, mas não infinito. Isso é
(mais ou menos) o foco deste livro.
10 A média da população é a média se amostrarmos toda a população. A média amostral é, obviamente, o que temos diante de
nós. Às vezes, como acontece com a riqueza ou com as baixas de guerra, podemos ter toda a população, mas a média da
população não é a da amostra. Nessas situações utilizamos o conceito de “média sombra”, que é a expectativa determinada
pelo processo ou mecanismo de geração de dados.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
32 uma visão geral não técnica – a palestra da Darwin College
ÿ,‡
Figura 3.10: Representamos
graficamente o rácio de
Sharpe dos fundos de
cobertura no eixo horizontal,
calculado até à crise de
2008 e as suas perdas
subsequentes expressas
em desvio padrão durante
a crise. O índice de Sharpe
não apenas falha
completamente em prever
o desempenho fora da
amostra, mas também pode
ser visto como um preditor
fraco de fracasso. Cortesia
de Raphael Douady.
Isto é uma simples consequência do ponto anterior.11 Ou requerem muito mais dados, muito mais
ordens de grandeza, ou algum modelo diferente daquele que está a ser utilizado, do qual ainda não
temos conhecimento. A Figura 3.4 mostra que o índice de Sharpe, que deveria prever o desempenho,
falha fora da amostra – ele age exatamente ao contrário da intenção. No entanto, ainda é usado
porque as pessoas podem ser loucas por números.
Praticamente todas as variáveis económicas e seguranças financeiras são de cauda grossa.
Dos 40 mil títulos examinados, nenhum parecia ser de cauda fina. Esta é a principal fonte de
fracasso nas finanças e na economia.
Os teóricos financeiros afirmam algo altamente pouco rigoroso como “se os dois primeiros
momentos existirem, então a teoria da carteira de média-variância funciona, mesmo que a distribuição
tenha caudas grossas” (eles acrescentam algumas condições de elipticalidade que discutiremos mais
tarde). O principal problema é que mesmo que exista variância, não sabemos o que ela pode ser com
uma precisão aceitável; obedece a uma lei lenta de grandes números porque o segundo momento de
uma variável aleatória é necessariamente mais grosso do que a própria variável. Além disso, as
correlações ou covariâncias estocásticas também representam uma forma de caudas grossas (ou
perda de elipticalidade), o que invalida essas métricas.
Praticamente qualquer artigo de economia que utilize matrizes de covariância é suspeito.
Os detalhes estão no Capítulo 4 para o caso univariado e no Capítulo 6 para situações multivariadas.
Consequência 5
Estatísticas robustas não são robustas e a distribuição empírica não é empírica.
11 Grosso modo, Beta é uma métrica que mostra quanto se espera que um ativo A se mova em resposta a um
movimento no mercado geral (ou em um determinado benchmark ou índice), expressa como a razão entre a
covariância entre A e o mercado sobre a variância do mercado.
O índice de Sharpe expressa o retorno médio (ou retorno excedente) de um ativo ou estratégia dividido pelo seu
desvio padrão.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.4 as principais consequências e como elas se relacionam com o livro 33
A história da minha vida. Assim como o jornal oficial soviético se chamava Pravda, que significa
“verdade” em russo, quase como uma piada, estatísticas robustas são como uma espécie de
pegadinha, exceto que a maioria dos profissionais não tem conhecimento disso.
Primeiro, estatísticas robustas buscam medidas que possam lidar com eventos de cauda –
grandes observações – sem mudar muita coisa. Esta é uma ideia errada de robustez: uma métrica
que não muda em resposta a um evento final pode estar a mudar precisamente porque não é
informativa. Além disso, estas medidas não ajudam nos retornos esperados. Em segundo lugar, as
estatísticas robustas são geralmente associadas a um ramo denominado estatística “não
paramétrica”, sob a impressão de que a ausência de parâmetros tornará a análise menos
dependente da distribuição. Este livro mostra por toda parte que faz as coisas
pior.
A Winsorização dos dados, ao remover valores discrepantes, distorce a operação de expectativa
e na verdade reduz a informação – embora fosse uma boa ideia verificar se o valor discrepante é
real ou um valor discrepante falso do tipo que chamamos em finanças de “impressão ruim”. " (algum
erro administrativo ou falha no computador).
A chamada “distribuição empírica” (não paramétrica) não é nada empírica (pois representa
erroneamente os retornos esperados nas caudas), como mostraremos no Capítulo 10 – este é pelo
menos o caso da forma como é usada em finanças. e gerenciamento de riscos.
Tomemos por enquanto a seguinte explicação: os máximos futuros são mal monitorados pelos
dados passados sem alguma extrapolação inteligente.
Considere alguém pensando em construir um sistema de proteção contra inundações com diques.
A distribuição “empírica” obtida ingenuamente mostrará o pior nível de inundação do passado, os
máximos do passado. Qualquer nível pior terá probabilidade zero (ou mais). Mas, por definição, se
fosse um máximo passado, teria de ter excedido o que era um máximo passado antes de se tornar
um, e a distribuição empírica o teria perdido. Para caudas grossas, a diferença entre os máximos
passados e os máximos esperados no futuro é muito maior do que para caudas finas.
Consequência 6
A regressão linear de mínimos quadrados não funciona (falha do teorema de Gauss-Markov).
Veja a Figura 3.8 e o comentário. A lógica por trás do método de minimização de mínimos quadrados
é o teorema de Gauss-Markov, que requer explicitamente uma distribuição de cauda fina para
permitir que a linha que atravessa os pontos de dados seja única. Portanto, ou precisamos de
muitos, muitos dados para minimizar os desvios quadráticos (em outras palavras, o teorema de
Gauss-Markov se aplica, mas não para nossas situações pré-sintóticas, pois o mundo real tem
dados finitos, não infinitos), ou podemos ' t porque o segundo momento não existe. Neste último
caso, se minimizarmos os desvios médios absolutos (MAD), como vemos em 4.1, não só poderemos
ainda estar a enfrentar uma insuficiência de dados para uma convergência adequada, como a
inclinação do desvio pode não ser única.
Discutimos o ponto com alguns detalhes em 6.7 e mostramos como caudas grossas produzem
2
coeficiente de determinação mais alto na amostra (R efeito an ) que a real porque deveria ser 0.
2 Mas
de amostra pequena de caudas grossas. Quando a variância é infinita, R
porque as amostras são necessariamente finitas, ela mostrará, enganosamente, números mais altos
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
34 uma visão geral não técnica – a palestra da Darwin College
do que 0. Efetivamente, para concluir, sob caudas grossas, R muitas
2 é inútil, pouco informativo e
vezes (como acontece com os estudos de QI) é totalmente fraudulento.
Consequência 7 Os
métodos de máxima verossimilhança podem funcionar bem para alguns parâmetros da distribuição (boas
notícias).
Tome uma lei de potência. Podemos estimar um parâmetro para sua forma, o expoente final (para o qual usamos o
símbolo ÿ neste livro12), que, adicionando algum outro parâmetro (a escala), nos conecta de volta à sua média
consideravelmente melhor do que fazê-lo diretamente por amostragem. O significativo.
Exemplo: A média de uma distribuição de Pareto simples com valor mínimo L e expoente final ÿ e PDF ÿL ÿx ÿÿÿ1
a
uma função de ÿ. Então podemos obter que é L ÿÿ1 , conhecido.
a partir desses dois parâmetros, um dos quais já pode ser
Isso é o que chamamos de estimador "plug-in". Pode-se estimar ÿ com um erro baixo com auxílio visual (ou usando
métodos de máxima verossimilhança com baixa variância - é distribuído inversamente gama) e, em seguida, obter a
média. É melhor que a observação direta da média.
Vale a pena enfatizar a lógica:
O expoente final ÿ captura, por extrapolação, o desvio de baixa probabilidade não observado nos dados,
mas que desempenha uma participação desproporcionalmente grande na determinação da média.
Esta abordagem generalizada aos estimadores também é aplicada a Gini e outros estimadores de desigualdade.
Assim, podemos produzir estimadores mais confiáveis (ou pelo menos menos confiáveis) para, digamos, uma
função do expoente final em algumas situações. Mas, claro, nem todos.
Agora, uma questão do mundo real se justifica: o que fazemos quando não temos um estimador confiável? Melhor
ficar em casa. Não devemos expor-nos a danos na presença de fragilidade, mas ainda podemos tomar decisões
arriscadas se estivermos fadados a perdas máximas (Figura 3.4).
Consequência 8 A
lacuna entre o empirismo desconfirmatório e confirmatório é maior do que em situações cobertas por
estatísticas comuns, ou seja, a diferença entre ausência de evidência e evidência de ausência torna-se
maior. (O que é chamado de ciência “baseada em evidências”, a menos que seja rigorosamente contestador,
é geralmente interpolativo, livre de evidências e não científico.)
A partir de uma polêmica que o autor teve com o linguista cognitivo e escritor científico
Steven Pinker: fazer pronunciamentos (e gerar teorias) a partir de variações recentes nos dados não é aceitável, a
menos que se cumpram alguns padrões de significância,
12 Para esclarecer a terminologia: neste livro, o expoente da cauda, comumente escrito ÿ , é o limite do quociente do log
da função de sobrevivência em excesso de K sobre log K, que seria 1 para Cauchy. Alguns pesquisadores usam ÿ ÿ 1
da função de densidade correspondente.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.4 as principais consequências e como elas se relacionam com o livro 35
que requer mais dados sob caudas grossas (a mesma lógica do LLN lento).
Afirmar que “a violência diminuiu” porque o número de pessoas mortas em guerras diminuiu em
relação ao ano ou década anterior não é uma afirmação científica: uma afirmação científica distinguese de uma anedota porque visa afectar o que acontece fora da amostra, daí o conceito de significância
estatística.
Repitamos que afirmações não estatisticamente significativas não são do domínio da ciência. No
entanto, dizer que a violência aumentou após uma única observação pode ser uma afirmação
rigorosamente científica. A prática de leitura em estatística descritiva pode ser aceitável sob caudas
finas (já que os tamanhos das amostras não precisam ser grandes), mas nunca o é sob caudas
grossas, exceto, para repetir, na presença de um grande desvio.
Consequência 9
A análise de componentes principais (PCA) e a análise fatorial provavelmente produzirão
fatores e cargas espúrios.
Este ponto é um pouco técnico; adapta a noção de insuficiência amostral a grandes vetores aleatórios
vistos através da técnica de redução de dimensão chamada análise de componentes principais
(PCA). A questão é uma versão dimensionalmente superior da nossa lei do grande número de
complicações. A história é melhor explicada na Figura 3.26, que mostra a acentuação do que se
chama de “Efeito Wigner”, a partir da insuficiência de dados para o PCA. Além disso, para ser técnico,
observe que a distribuição de Marchenko-Pastur não é aplicável na ausência de um quarto momento
finito (ou, como foi mostrado em [ 23], para o expoente da cauda superior a 4).13
Figura 3.11: Sob caudas grossas
(à esquerda), os erros são
terminais. Sob caudas finas (à
esquerda) podem ser ótimas
experiências de aprendizado.
Fonte: Você teve um emprego.
Consequência 10
O método dos momentos (MoM) não funciona. Momentos superiores não são informativos ou
não existem.
O mesmo se aplica ao GMM, o método generalizado do momento, coroado com um Prémio do Banco
da Suécia conhecido como Nobel. Esta é uma longa história, mas consideremos por enquanto que a
estimativa de uma determinada distribuição por correspondência de momentos falha se os momentos
mais altos não forem finitos, então cada amostra fornece um momento diferente – como veremos em
breve com o 4 momento do SP500.
13 Para ser ainda mais técnico, os componentes principais são independentes quando as correlações são 0. No entanto,
para distribuições de cauda gorda, como veremos mais tecnicamente em 6.3.1, a ausência de correlação não implica
independência.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
36 uma visão geral não técnica - a palestra da Darwin College
ÿ,‡
Simplesmente, momentos mais elevados para distribuições de cauda grossa são explosivos. Particularmente
em economia.
Consequência 11
Não existe um grande desvio típico.
Condicionada a ter um movimento “grande”, a magnitude de tal movimento não é convergente, especialmente
sob caudas grossas sérias (a classe de caudas da Lei de Potência). Isto está associado ao princípio da
catástrofe que vimos anteriormente. No mundo gaussiano, a expectativa de um movimento, desde que o
movimento exceda 4 desvios padrão, é de cerca de 4 desvios padrão. Para uma Lei de Potência será um
múltiplo disso. Chamamos isso de propriedade de Lindy e é discutida no Capítulo 5 e particularmente no
Capítulo 11.
Consequência 12 O
coeficiente de Gini deixa de ser aditivo.
Os métodos de medição de dados amostrais para Gini são interpolativos – na verdade, eles têm o mesmo
problema que vimos anteriormente com a média amostral subestimando ou superestimando a média verdadeira.
Aqui surge uma complexidade adicional à medida que o Gini se torna superaditivo sob caudas grossas. À
medida que o espaço amostral cresce, as medições convencionais de Gini dão a ilusão de grandes
concentrações de riqueza. (Por outras palavras, a desigualdade num continente, digamos na Europa, pode ser
superior à desigualdade média ponderada dos seus membros). O mesmo se aplica a outras medidas de
concentração, tais como o 1% mais rico tem x por cento da riqueza total, etc.
Não se trata apenas de Gini, mas de outras medidas de concentração, como o facto de 1% do topo possuir
x% da riqueza total, etc. As derivações estão nos Capítulos 13 e 14.
Consequência 13 A
teoria dos grandes desvios não se aplica a caudas grossas. Quero dizer, isso realmente não se aplica.
Eu realmente quero dizer que isso não se aplica14. Os métodos por trás do princípio do grande desvio (Varadan
[260] , Dembo e Zeituni [59], etc.) serão muito úteis no mundo de cauda fina. E só lá. Veja a discussão e
derivações no Apêndice C , bem como os capítulos do teorema do limite, particularmente o Capítulo 7.
Consequência 14 Os
riscos das opções financeiras nunca são mitigados pela cobertura dinâmica.
Isto pode ser técnico e desinteressante para pessoas não financeiras, mas toda a base da cobertura financeira
por detrás do Black-Scholes assenta na possibilidade e necessidade de
14 Não confunda a teoria dos grandes desvios LDT, com a teoria dos valores extremos, EVT, que abrange todas as classes principais
de distribuições
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.4 as principais consequências e como elas se relacionam com o livro 37
hedge dinâmico, ambos os quais serão mostrados como errôneos nos Capítulos 20 , 21 e 22. O declínio
exponencial necessário dos desvios em relação ao centro exige que a distribuição de probabilidade esteja
fora da classe subexponencial. Novamente, estamos falando de algo relacionado à condição de Cramer –
tudo se resume a esse momento exponencial.
Lembre-se de que o autor tem sido um negociante de opções e, para os negociadores de opções, a
cobertura dinâmica não é a forma como os preços são derivados – e tem sido assim, como demonstrado por
Haug e pelo autor, durante séculos.
Consequência 15 A
previsão no espaço de frequência diverge do retorno esperado.
E também:
Consequência 16
Muitas das afirmações na literatura sobre psicologia e tomada de decisão relativas à "superestimação
da probabilidade da cauda" e ao comportamento irracional em relação a eventos raros vêm do malentendido por parte dos pesquisadores sobre o risco da cauda, confusão de probabilidade e
recompensas esperadas, uso indevido de probabilidade distribuições e ignorância da teoria dos
valores extremos (EVT).
Esse ponto é explorado na próxima seção aqui e em um capítulo inteiro (Capítulo ??): a noção tola de foco
na frequência em vez de na expectativa pode ter um efeito moderado sob caudas finas; não sob caudas
grossas. As Figuras 3.12 e 3.13 mostram o efeito.
Consequência 17
Os problemas de ruína são mais agudos e a ergodicidade é necessária sob caudas grossas.
Isso é um pouco técnico, mas explicado no final deste capítulo.
Vamos discutir alguns dos pontos.
3.4.1 Previsão
Em Fooled by Randomness (2001/2005), pergunta-se ao personagem qual era mais provável que um
determinado mercado subisse ou descesse até o final do mês. Maior, disse ele, muito mais provável. Mas
então foi revelado que ele estava fazendo negociações que beneficiariam se aquele mercado específico
caísse. Isto, claro, parece ser paradoxal para os não-probabilistas, mas muito comum para os comerciantes,
particularmente sob distribuições não padronizadas (sim, é mais provável que o mercado suba, mas se cair,
cairá muito mais). Isto ilustra a confusão comum entre uma previsão e uma exposição (uma previsão é um
resultado binário, uma exposição tem resultados mais matizados e depende da distribuição completa). Este
exemplo mostra um dos erros extremamente elementares de falar sobre probabilidade apresentada como
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
38 uma visão geral não técnica - a palestra da Darwin College
Frequência Correta
1,0
0,8
0,6
0,4
Calibração perfeita
sobre
0,2
sob
Previsão
0,2
0,4
0,6
0,8
1,0
Figura 3.12: Calibração probabilística conforme vista na literatura psicológica. O eixo x mostra o
probabilidade estimada produzida pelo previsor, o eixo y das realizações reais, portanto, se um clima
previsor prevê 30% de chance de chuva, e a chuva ocorre 30% das vezes, eles são considerados "calibrados".
Acreditamos que a calibração no espaço de frequência (probabilidade) é um exercício acadêmico (no mau sentido de
a palavra) que desvia os resultados da vida real fora das apostas binárias restritas. É particularmente falacioso
sob caudas grossas. O ponto é discutido detalhadamente no Capítulo 11.
MisCalibration correspondente em probabilidade
1,0
0,8
0,6
0,4
0,2
0,2
0,4
0,6
0,8
1,0
Calibração incorreta na recompensa
4000
3.000
2000
1000
0
0
1000
2000
3.000
4000
Figura 3.13: Como o erro de calibração na probabilidade corresponde ao erro de calibração no retorno sob potência
leis. A distribuição em consideração é Pareto com índice de cauda ÿ = 1,15. Novamente, a questão é
discutido detalhadamente no Capítulo 11.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.4 as principais consequências e como elas se relacionam com o livro 39
números únicos, não distribuições de resultados, mas quando nos aprofundamos no assunto,
ocorrem muitos problemas menos óbvios ou menos conhecidos do tipo paradoxal.
Simplesmente, é opinião do autor, que não é rigoroso falar em “probabilidade” como produto
final, ou mesmo como “fundamento” de decisões.
No mundo real não se paga em probabilidade, mas em dólares (ou em sobrevivência, etc.).
Quanto mais gordas as caudas, mais precisamos nos preocupar com o espaço de retorno –
diz o ditado: “probabilidade de pântano de retorno” (ver quadro). Pode-se estar errado com
muita frequência se o custo for baixo, desde que se seja convexo em relação ao retorno (ou
seja, obtenha grandes ganhos quando se está certo). Além disso, pode-se fazer previsões
com 99,99% de precisão e mesmo assim falir (na verdade, é mais provável que falam: os
fundos com registos impecáveis foram aqueles que faliram durante a derrota de 2008-2009
15). Um ponto que pode ser técnico para quem está fora das finanças quantitativas: é a
diferença entre uma opção vanilla e um binário correspondente do mesmo strike, conforme
discutido em Dynamic Hedging [225]: contra-intuitivamente, a cauda espessa reduz o valor
do binário e aumenta o da baunilha. Isto é expresso pelo ditado do autor: “Nunca vi um
previsor rico”. Examinaremos em profundidade em 4.3.1 , onde mostramos que engordar as
caudas faz com que a probabilidade de eventos superiores a 1 desvio padrão diminua - mas
as consequências aumentem (em termos de contribuição para os momentos, digamos, efeito
na média ou outras métricas). ).
A Figura 3.12 mostra a extensão do problema.
Observação 1
Os erros de previsão probabilística ("calibração") estão em uma classe de probabilidade diferente daquelas
verdadeiras variações de P/L do mundo real (ou retornos verdadeiros).
A "calibração", que é uma medida de quão precisas são as previsões de alguém,
está no espaço de probabilidade - entre 0 e 1. Qualquer medida padrão de tal
calibração será necessariamente de cauda fina (e, no mínimo, de cauda extrafina, uma
vez que é é limitado) – se a variável aleatória sob tal previsão é de cauda grossa ou
não. Por outro lado, os retornos no mundo real podem ser grossos, portanto a
distribuição de tal “calibração” seguirá a propriedade da variável aleatória.
Mostramos derivações completas e provas no Capítulo 11.
3.4.2 A Lei dos Grandes Números
Vamos agora discutir a lei dos grandes números, que é a base de muitas estatísticas.
A lei dos grandes números diz-nos que à medida que adicionamos observações a média
torna-se mais estável, sendo a taxa em torno de ÿ n. A Figura 3.5 mostra que são necessárias
muito mais observações sob uma distribuição de cauda gorda (no lado direito) para que a
média se estabilize.
A “equivalência” não é simples.
15 R. Douady, dados de Risk Data sobre fundos que ruíram na crise de 2008, comunicação pessoal
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
40 uma visão geral não técnica - a palestra da Darwin College
P
ÿ,‡
Probabilidade de pântanos de Ayoff no Extremistão: Para ver a principal
diferença entre o Mediocristão e o Extremistão, considere o evento de um
acidente de avião. Muita gente vai perder a vida, algo muito triste, digamos
entre 100 e 400 pessoas, então o acontecimento é contabilizado como um
episódio ruim, único. Para previsão e gestão de riscos, trabalhamos para
minimizar essa probabilidade para torná-la insignificante.
Agora, considere um tipo de acidente de avião que matará todas as pessoas que já
viajaram no avião, até mesmo todos os passageiros que já viajaram de avião no passado.
Todos. É o mesmo tipo de evento? O último evento ocorre no Extremistão e, para estes,
não falamos sobre probabilidade, mas focamos na magnitude do evento.
• Para o primeiro tipo, a gestão consiste em reduzir a probabilidade – a frequência –
de tais eventos. Lembre-se de que contamos eventos e pretendemos reduzir a sua
contagem.
• Para o segundo tipo, consiste em reduzir o efeito caso tal evento ocorra. Não
contamos eventos, medimos impacto.
Se você acha que o experimento mental é um pouco estranho, considere que os bancos
dos centros monetários perderam em 1982 mais dinheiro do que jamais ganharam em sua
história, a indústria de poupança e empréstimos (agora desaparecida) o fez em 1991, e
todo o sistema bancário perdeu. cada centavo já ganho em 2008-9. Pode-se testemunhar
rotineiramente que as pessoas perdem tudo o que ganharam cumulativamente num único
evento de mercado. O mesmo se aplica a muitos setores (por exemplo, montadoras e
companhias aéreas).
Mas os bancos tratam apenas de dinheiro; consideremos que, para as guerras, não
podemos nos permitir o foco ingênuo na frequência dos eventos sem levar em conta a
magnitude, como fez o escritor científico Steven Pinker em [194], discutido no Capítulo 16.
Isso sem sequer examinar os problemas de ruína (e não ergodicidade). apresentado no
final desta seção. Mais tecnicamente, é necessário satisfazer a condição de Cramer de
não subexponencialidade para uma contagem de eventos (considerados pelo valor
nominal) para que a probabilidade bruta tenha algum significado. A analogia do avião foi
proposta pelo perspicaz Russ Robert durante um de seus podcasts Econtalk com o autor.
Um dos fenómenos estatísticos mais conhecidos é o 80/20 de Pareto, por exemplo, vinte por
cento dos italianos possuem 80 por cento das terras. A Tabela 3.1 mostra que, embora sejam
necessárias 30 observações no Gaussiano para estabilizar a média até um determinado nível,
são necessárias 1.011 observações no Pareto para reduzir o erro amostral na mesma quantidade
(assumindo que a média existe).
Apesar de ser trivial de calcular, poucas pessoas o computam. Você não pode fazer afirmações
sobre a estabilidade da média da amostra com uma distribuição de cauda grossa. Existem outras
maneiras de fazer isso, mas não a partir de observações da média amostral.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.5 epistemologia e assimetria inferencial 41
Figura 3.14: A vida é uma questão de recompensas e não de previsões, e a diferença aumenta no Extremistão.
(Por que "Gabish" em vez de "capisce"? Gabish é a pronúncia recriada de Siculo-Galabrez (Cal-abrese); o "p"
costumava soar como um "b" e o "g" como um kof semítico, um duro K, de Púnico. Muito
como capicoli é "gabagool".)
Tabela 3.1: Nÿ correspondente , ou quantas observações para obter uma queda no erro em torno da média
para uma distribuição ÿ-estável equivalente (a medida é discutida com mais detalhes no Capítulo 8). O
O caso gaussiano é o ÿ = 2. Para o caso com caudas equivalentes a 80/20 é necessário pelo menos mais 1011
dados do que o gaussiano.
a
n/D
Simétrico
1Fughedabudit
ÿ=±
na
1
2
n aÿ=±1
Unicaudal enviesado
-
-
9
8
6,09 × 1012
5
4
574.634
895.952
1,88 × 106
11
8
5.027
6.002
8.632
3
2
567
613
737
13
8
165
171
186
7
4
75
77
79
15
8
44
44
44
2
30.
30
30
2,8 × 1013 1,86 × 1014
3.5 epistemologia e assimetria inferencial
Definição 3.1 (Assimetria nas distribuições)
É muito mais fácil para um criminoso fingir ser uma pessoa honesta do que para uma pessoa honesta
fingir ser um criminoso. Da mesma forma, é mais fácil para uma distribuição de cauda gorda fingir ser magra
distribuição de cauda fina para fingir ser de cauda grossa.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
42 uma visão geral não técnica - a palestra da Darwin College
efeitos
efeitos
Mais dados mostram
Caso
não degenerescência
aparentemente degenerado
Variação Adicional
x
1
2
3
4
x
10
20
30
40
Figura 3.15: O Problema da Máscara (ou Assimetria Central na Inferência). À esquerda, um
variável aleatória degenerada assumindo valores aparentemente constantes, com um histograma produzindo um Dirac
grudar. Não se pode descartar a não degenerescência. Mas o enredo certo exibe mais de uma realização. Aqui
pode-se descartar a degeneração. Esta assimetria central pode ser generalizada e colocar algum rigor
declarações como “não rejeitar”, pois a noção do que é rejeitado precisa ser refinada. Podemos usar o
assimetria para produzir regras rigorosas.
Princípio 3.1 (Epistemologia: a invisibilidade do gerador.)
• Não observamos distribuições de probabilidade, apenas realizações.
• Uma distribuição de probabilidade não pode dizer se a realização pertence a ela.
• Você precisa de uma distribuição de metaprobabilidade para discutir eventos finais (isto é,
a probabilidade condicional da variável pertencer a uma determinada distribuição versus
outras).
Examinemos agora as consequências epistemológicas. A Figura 3.15 ilustra
o Problema da Máscara (ou Assimetria Central na Inferência). À esquerda está um
variável aleatória degenerada assumindo valores aparentemente constantes com um histograma
produzindo um bastão de Dirac.
Sabemos, pelo menos desde Sexto Empírico, que não podemos descartar a degenerescência, mas há
situações em que podemos excluir a não-degeneração. Se eu ver
uma distribuição que não tem aleatoriedade, não posso dizer que não seja aleatória. Ou seja, nós
não posso dizer que não existem Cisnes Negros. Vamos agora adicionar uma observação. Eu posso agora
veja que é aleatório e posso descartar a degeneração. Posso dizer que não é "não aleatório".
No lado direito, vimos um Cisne Negro, portanto, a afirmação de que,
não existem Cisnes Negros está errado. Este é o empirismo negativo que sustenta
Ciência ocidental. À medida que coletamos informações, podemos descartar coisas. A distribuição à
direita pode ocultar-se como a distribuição à esquerda, mas a distribuição à
direita não pode ser ocultada como a distribuição à esquerda (marque). Isso nos dá uma maneira muito fácil
maneira de lidar com a aleatoriedade. A Figura 3.16 generaliza o problema para como podemos
eliminar distribuições.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.5 epistemologia e assimetria inferencial 43
dist 1
"Verdadeiro"
dist 2
distribuição
dist 3
dist 4
dist 5
Distribuições
Aquilo não pode ser
distância 6
descartado
distância 7
distância 8
dist 9
dist 10
dist 11
dist 12
Distribuições
descartado
distância 13
dist 14
Observado
Gerando
Distribuição
Distribuições
Observável
O VÉU
Inobservável
Figura 3.16: “O véu probabilístico”. Taleb e Pilpel [245] abordam a questão do ponto de vista
epistemológico com o experimento mental do "véu", pelo qual um observador recebe dados (gerados por
alguém com "informação estatística perfeita", isto é, produzindo-os a partir de um gerador de séries temporais ).
O observador, não conhecendo o processo de geração, e baseando a sua informação apenas em dados
e dados, teria que apresentar uma estimativa das propriedades estatísticas (probabilidades, média,
variância, valor em risco, etc.). É claro que o observador que tem informações incompletas sobre o
gerador e não tem uma teoria confiável sobre a que os dados correspondem sempre cometerá erros, mas
esses erros têm um certo padrão. Este é o problema central da gestão de riscos.
Se observarmos um evento de 20 sigma, podemos descartar que a distribuição seja de cauda fina.
Se não observarmos um grande desvio, não podemos descartar que não seja de cauda grossa, a
menos que entendamos muito bem o processo. É assim que podemos classificar as distribuições.
Se reconsiderarmos a Figura 3.7 , podemos começar a ver desvios e a excluir progressivamente a
partir do fundo. Essas classificações são baseadas em como as distribuições podem entregar eventos finais.
Classificar distribuições (por ordem ou prioridade para fins de inferência) torna-se muito simples.
Considere a lógica: se alguém lhe disser que existe um evento dez sigma, é muito mais provável que
essa pessoa tenha a distribuição errada do que que você realmente tenha um evento dez sigma
(refinaremos o argumento mais adiante neste capítulo). Da mesma forma, como vimos, as distribuições
de cauda grossa não apresentam muitos desvios da média.
Mas de vez em quando você obtém um grande desvio. Portanto, podemos agora descartar o que
não é mediocristão. Podemos descartar onde não estamos; podemos descartar o Mediocristão.
Posso dizer que esta distribuição é densa por eliminação. Mas não posso garantir que seja de cauda
fina. Este é o problema do Cisne Negro.
Aplicação do problema Maquerade: o mercado de ações da Argentina antes e depois de 12 de
agosto de 2019 Para uma ilustração da assimetria de inferência aplicada
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
44 uma visão geral não técnica - a palestra da Darwin College
ÿ,‡
Figura 3.17: A solução de Popper para o
problema da indução é a assimetria:
baseando-se no empirismo confirmatório,
ou seja, o foco em “descartar” o que não
funciona, através do estilo negativa.
Estendemos esta abordagem à inferência
estatística com o véu probabilístico,
excluindo progressivamente classes
inteiras de distribuições.
Rigor Científico e Assimetrias pela Escola Russa de Probabilidade
probabilidade sem cair na armadilha de fornecer informações ingênuas
cálculos sujeitos a erro de modelo. Há um maravilhoso
consciência da assimetria ao longo das obras do russo
Não se pode escola
acreditar
no rigor
das afirmações
sobre
asiática
de probabilidade
– e matemáticas
a assimetria aqui
é análoga
à ideia de Popper no espaço matemático.
Membros de três gerações: PL Chebyshev, AA Markov, AM Lya-punov,
SN Bernshtein (ou seja, Bernstein), EE Slutskii, NV Smirnov, LN
Bol'shev, VI Romanovskii, AN Kolmogorov, Yu.V. Linnik e a nova
geração: V. Petrov, AN Nagaev, A. Shyrayev e mais alguns.
Eles tinham algo bastante potente na história do pensamento científico: pensavam
em desigualdades, não em igualdades (os mais famosos: Markov, Chebyshev,
Bernstein, Lyapunov). Eles usaram limites, não estimativas. Até mesmo a sua
versão central do limite era uma questão de limites, que exploraremos mais tarde,
vendo o que acontece fora dos limites. Eles estavam totalmente à parte da nova
geração de usuários que pensam em termos de probabilidade precisa – ou pior,
cientistas sociais mecanicistas. Seu método acomoda o ceticismo e o pensamento
unilateral: "A é > x, AO(x) [Big-O: "de ordem" x], em vez de A = x.
Para aqueles que trabalham na integração do rigor matemático na assunção de riscos, eles
fornecem uma excelente fonte. Sempre conhecemos um lado, não o outro. Conhecemos o
valor mais baixo que estamos dispostos a pagar pelo seguro, não necessariamente o limite
superior (ou vice-versa).a
a A maneira como isso conecta a assimetria à robustez é a seguinte. É robusto o que não produz variabilidade
através da perturbação dos parâmetros da distribuição de probabilidade. Se houver mudança, mas com
assimetria, ou seja, uma resposta côncava ou convexa a tais perturbações, a classificação é fragilidade e
antifragilidade, respectivamente, ver [223].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.5 epistemologia e assimetria inferencial 45
Figura 3.18: O Problema da Indução. O
problema filosófico da indução enumerativa,
expresso no
pergunta:
"Quantos cisnes brancos você
precisa contar antes de descartar o
ocorrência futura de um negro?"
mapeia surpreendentemente perfeitamente para o nosso
problema do funcionamento da lei de
grandes números:
"De quantos dados você precisa antes de
fazer uma determinada afirmação com
uma taxa de erro aceitável?"
Acontece que a própria natureza da inferência
estatística repousa sobre uma definição clara
e uma medida quantitativa do
mecanismo indutivo. Acontece que,
sob caudas grossas, precisamos consideravelmente
mais dados; como veremos nos capítulos
7 e 8 existe uma maneira de avaliar o
velocidade relativa do mecanismo indutivo,
mesmo que em última análise o problema de
a indução não pode ser perfeitamente resolvida.
O problema da indução é geralmente atribuído
erroneamente a Hume, [227] .
Figura 3.19: Um discurso para mostrar
que a Filosofia Cética é de Grande
Uso na Ciência por François de La
Mothe Le Vayer (1588-1672), aparentemente
fonte do Bispo Huet. Cada
vez que encontro um pensador original que
descobri a solução cética para
o problema do Cisne Negro, acontece
que ele pode estar apenas criticando um
antecessor – não de forma maliciosa, mas
esquecemos de cavar até as raízes. Como
insistimos, o “problema de Hume” tem pouco a ver
fazer com Hume, que carregou o pesado
Dicionário de vários volumes de Pierre
Bayle (seus antecessores) em toda a
Europa. Eu pensei que era Huet quem estava
à medida que se escava, novos antecessores surgem
.
aos parâmetros de uma distribuição, ou como uma distribuição pode se disfarçar como tendo
caudas mais finas do que realmente tem, considere o que sabíamos sobre o argentino
mercado antes e depois da grande queda de 12 de agosto de 2019 (mostrado na Figura 3.21).
Usando esse raciocínio, qualquer incerteza futura nos parâmetros deveria tornar as caudas mais gordas,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
46 uma visão geral não técnica - a palestra da Darwin College
ÿ
ÿ
ÿÿÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿÿ
ÿÿÿ
ÿÿÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿ ÿÿÿÿÿ
ÿÿÿ ÿÿÿÿÿ
ÿÿÿÿ ÿÿÿÿÿ
ÿÿÿÿ ÿÿÿÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿÿ
Figura 3.20: Não é possível “aceitar” caudas finas, é muito fácil rejeitar caudas finas. Uma distribuição
podem produzir saltos e dias tranquilos não ajudam a descartar sua ocorrência.
P>
0,100
ANTES
0,050
0,010
ÿ = 4,3556
0,005
Figura 3.21: Um único dia
0,001
revela as verdadeiras caudas de
5.×10-4
uma distribuição. Ações da Argentina
mercado antes e depois de agosto
x
0,05
0,10
0,20
0,50
12, 2019. Você pode de repente
revise as caudas como mais grossas
(parâmetro inferior ÿ), nunca
o inverso – seria necessário
P>
DEPOIS
0,100
muito, muito tempo para isso
Surpresa
acontecer. Dados obtidos
0,050
obrigado a Diego Zviovich.
0,010
0,005
ÿ = 2,48323
0,001
5.×10-4
x
0,05
0,10
0,20
0,50
não mais fino. Rafal Weron, em [264], mostrou como temos maior probabilidade de superestimar
o índice de cauda ao ajustar uma distribuição estável (menor significa caudas mais gordas).
3.6 empirismo ingênuo: o ebola não deve ser comparado às quedas de
escadas
Vamos ilustrar um dos problemas do pensamento de cauda fina no domínio de cauda gorda
com um exemplo do mundo real. As pessoas citam os chamados dados “empíricos” para nos dizer que estamos
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.6 empirismo ingênuo: o ebola não deve ser comparado a quedas de escadas 47
Figura 3.22: Empirismo ingênuo: nunca compare
variáveis de cauda grossa com variáveis de cauda
fina, uma vez que as médias não pertencem à
mesma classe de distribuições. Este é um erro
generalizado cometido pela The Economist, mas
muito comum no chamado discurso erudito. Até a
Royal Statistical Society caiu nessa quando
contratou uma pessoa de “comunicação de risco”
com formação em sociologia ou jornalismo para administrá-la.
É tolice preocupar-se com o Ébola quando apenas dois americanos morreram de Ébola em 2016.
Dizem-nos que deveríamos preocupar-nos mais com as mortes por diabetes ou com as pessoas
enroladas nos lençóis. Vamos pensar nisso em termos de cauda. Se lemos no jornal que 2 mil
milhões de pessoas morreram subitamente, é muito mais provável que tenham morrido de ébola
do que de fumar, de diabetes ou de se enroscarem nos lençóis?
Princípio 3.2
Não compararás um processo multiplicativo de cauda gorda no Extremistão na classe
subexponencial com um processo de cauda fina do Mediocristão, particularmente um que
tenha limites de Chernoff.
Esta é uma simples consequência do princípio da catástrofe que vimos anteriormente, conforme
ilustrado na Figura 3.1.
Infelizmente, poucas pessoas "baseadas em evidências" conseguem (no momento em que este artigo foi escrito) o efeito de abanar o rabo e
o cachorro.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
48 uma visão geral não técnica - a palestra da Darwin College
ÿ,‡
Figura 3.23: Empirismo Ingênuo (Não Estatístico) de Bill Gates: o fundador da Microsoft1 está promovendo e financiando o
desenvolvimento do gráfico acima, mas ao mesmo tempo afirma que o clima está causando um risco existencial, sem
perceber que seus argumentos são conflitantes, uma vez que os riscos existenciais estão necessariamente ausentes nos
dados passados. Além disso, uma leitura mais atenta dos gráficos mostra que o cancro, as doenças cardíacas e o Alzheimer,
sendo doenças da idade, não requerem a atenção por parte dos jovens adultos e das pessoas de meia-idade, algo que o
terrorismo e as epidemias justificam.
Outra falha lógica é que o terrorismo é precisamente baixo devido à atenção que merece. Relaxe sua vigilância e ela
poderá ficar fora de controle. O mesmo se aplica ao homicídio: os medos levam à segurança.
Se este mapa mostra alguma coisa, é a racionalidade das pessoas comuns com um bom detector de risco de cauda, em
comparação com a ignorância dos “especialistas”. As pessoas estão mais calibradas com as consequências e propriedades
das distribuições do que afirmam os psicólogos.
1 A Microsoft é uma empresa de tecnologia que ainda existia no momento em que este artigo foi escrito.
Figura 3.24: Devido à lentidão da lei dos grandes números, sob caudas grossas, o passado do passado não se parece com
o futuro do passado; consequentemente, o passado de hoje não se assemelhará ao futuro de hoje. As coisas são mais
fáceis sob caudas finas. Crédito Stefan Gasic.
É um empirismo ingénuo comparar estes processos, sugerir que nos preocupamos
demasiado com o ébola (epidemias ou pandemias) e muito pouco com a diabetes. Na verdade
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.6 empirismo ingênuo: o ebola não deve ser comparado a quedas de escadas 49
Figura 3.25: Cuidado com o lobista que usa argumentos
pseudo-empíricos. "Comunicações de risco"
shills como o sujeito aqui, com um jornalismo
histórico, são contratados por empresas como a Monsanto
(e empresas de automóveis e tabaco) para envolver
em campanhas difamatórias em seu nome usando “ciência”,
“argumentos empíricos” e “evidências”,
e minimizam os “medos públicos” que consideram irracionais.
Organizações de lobby penetram em tais
centros como "Harvard Center for Risk Analysis"
com um nome acadêmico sofisticado que ajuda a convencer
o leigo. A linha de argumentação dos shills, comumente,
gira em torno de “nenhuma evidência de dano”
e "racionalidade". Outros jornalistas, por sua vez, defendem
tais argumentos devido à sua capacidade de
influenciar os estatisticamente ingênuos. Probabilístico e
a alfabetização sobre riscos, o conhecimento estatístico e o
jornalismo sofreram muito com a disseminação de
equívocos de não-cientistas ou, pior, de não-estatísticos.
é o contrário. Preocupamo-nos demasiado com a diabetes e muito pouco com
ebola e outras doenças com efeitos multiplicativos. Isso é um erro de raciocínio
isso vem de não entender caudas grossas – infelizmente é cada vez mais comum.
O que é pior, tais erros de raciocínio são promovidos pela psicologia empírica
o que não parece ser empírico. Também é usado por shills para passagem da indústria
para "comunicadores de risco" que nos vendem pesticidas e nos dizem para não nos preocuparmos porque
os danos parecem ser mínimos nos dados anteriores (ver Figura ).
O raciocínio correto geralmente está ausente na teoria da decisão e nos círculos de risco fora dos
ramos da teoria dos valores extremos e dos trabalhos do grupo ABC
em Max Planck de Berlim, dirigido por Gerd Gigerenzer [108] , que diz que
os instintos e ensinamentos de sua avó não devem ser ignorados e, quando ela
recomendações entram em conflito com psicólogos e teóricos da decisão, geralmente é o
psicólogos e teóricos da decisão que não são rigorosos. Uma simples olhada no resumo do “autor
mais citado” Baruch Fishhoff em Risk: a Very Short Introduction [93]
não mostra nenhum esforço para separar as duas classes de distribuição. O problema ligado
à “calibração de risco” e “calibração probabilística” mal compreendida pelos psicólogos e discutida
mais tecnicamente no Capítulo 11 , que discute a calibração especializada
sob caudas grossas.16
3.6.1 Como alguns riscos multiplicativos são dimensionados
A abordagem “baseada em evidências” ainda é muito primitiva para lidar com
efeitos (e gestão de risco) e certamente causou muitos danos
com a pandemia de COVID-19 para permanecer utilizável fora de um único paciente
problemas. Um dos problemas é a tradução entre indivíduos e colectivos.
16 A escola Gigerenzer não está imune a erros, como evidenciado pela sua má compreensão dos riscos de
COVID-19 no início de 2020 – a diferença entre o Mediocristão e o Extremistão ainda não os atingiu.
Mas este autor está otimista de que isso acontecerá.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
50 uma visão geral não técnica - a palestra da Darwin College
risco activo (outro é a descaracterização das provas e a associação com a ausência de provas).
No início da pandemia de COVID-19, muitos epidemiologistas, inocentes da probabilidade,
compararam o risco de morte provocado pela pandemia com o de afogamento numa piscina. Para
um único indivíduo, isto pode ter sido verdade (embora a COVID-19 tenha rapidamente se revelado
a principal fonte de mortalidade em muitas partes, e mais tarde tenha causado 80% das mortes na
cidade de Nova Iorque). Mas, dependendo da ocorrência de 1.000 mortes, as chances de a causa
ser afogamento em piscinas são mínimas.
Isso ocorre porque o seu vizinho ter COVID aumenta as chances de você contraí-lo, enquanto o
seu vizinho se afogar na piscina dele ou dele não aumenta a sua probabilidade de se afogar (na
verdade, como acidentes de avião, diminui a chance de outras pessoas se afogarem).
Este problema de agregação é discutido em termos mais técnicos com elipticidade, ver Secção
6.8 – as distribuições conjuntas já não são elípticas, fazendo com que a soma tenha cauda gorda
mesmo quando as variáveis individuais são de cauda fina.
Também é discutido como um problema de ética [247]: ao contrair a doença você causa mais
mortes do que as suas. Embora o risco de morte por uma doença contagiosa possa ser menor do
que, digamos, por um acidente de carro, torna-se psicopático seguir a "racionalidade" (isto é,
modelos de racionalidade de primeira ordem), pois você acabará por causar danos sistêmicos e
até mesmo, eventualmente , certa automutilação.
3.7 cartilha sobre leis de potência (quase sem matemática)
Vamos agora discutir a intuição por trás da Lei de Pareto. É simplesmente definido como: digamos que X
é uma variável aleatória. Para uma realização x de X suficientemente grande, a probabilidade de exceder
2x dividida pela probabilidade de exceder x "não é muito diferente" da probabilidade de exceder 4x
dividida pela probabilidade de exceder 2x, e assim por diante. Esta propriedade é chamada de
"escalabilidade".17 Portanto, se tivermos uma
distribuição de Pareto (ou estilo Pareto), a proporção de pessoas com US$ 16 milhões em comparação
com US$ 8 milhões é a mesma que a proporção de pessoas com US$ 2 milhões e US$ 8 milhões. 1
milhão. Existe uma desigualdade constante. Esta distribuição não possui escala característica o que a
torna muito fácil de entender. Embora esta distribuição muitas vezes não tenha média nem desvio padrão,
ainda podemos entendê-la – na verdade
podemos entendê-lo muito melhor do que com distribuições estatísticas mais padronizadas.
mas. Mas porque isso não significa que temos que abandonar os livros de estatística e
fazer algo mais sólido, mais rigoroso, mesmo que pareça menos matemático.
17 Para colocar um pouco de matemática mínima: seja X uma variável aleatória pertencente à classe de distribuições
com cauda direita de "lei de potência":
P(X > x) = L(x) x
-a
onde L : [xmin, +ÿ) ÿ (0, +ÿ) é uma função de variação lenta, definida como limxÿ+ÿ Podemos transformar e
aplicar ao domínio negativo.
(3.1)
L(kx)
eu(x)
= 1 para qualquer k > 0.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.7 cartilha sobre leis de potência (quase sem matemática) 51
Tabela 3.2: Um exemplo de lei de potência
Mais rico que 1 milhão
1 em 62,5
Mais rico que 2 milhões
1 em 250
1 em 1.000
Mais rico que 4 milhões
Mais rico que 8 milhões
1 em 4.000
1 em 16.000
1 em?
Mais rico que 16 milhões
Mais rico que 32 milhões
4
Tabela 3.3: Curtose de uma única observação para dados financeiros
Segurança
Silver
Máx. ( Xtÿÿti
ÿ
n
eu=0
n
) eu=0
X4tÿÿti
Máx. Q anos.
0,94
SP500 0,79 CrudeOil 0,79 Short
Sterling 0,75 Óleo de aquecimento
46.
56.
26.
0,74 Nikkei 0,72 FTSE 0,54 JGB 0,48
17.
Eurodollar Depo 1M 0,31 Açúcar 0,3
ienes
31.
23.
25.
24.
19.
48.
Bovespa
0,27
0,27
38.
16.
Eurodollar Depo 3M 0,25 CT 0,25
28.
DAX 0,2
48.
18.
Uma distribuição de Pareto não tem momentos superiores: os momentos ou não existem ou
tornar-se estatisticamente cada vez mais instável. Então, a seguir, passamos para um problema
com economia e econometria. Em 2009, peguei 55 anos de dados e analisei
quanto da curtose (uma função do quarto momento) veio do maior
observação –ver Tabela 3.3. Para um gaussiano, a contribuição máxima sobre o
mesmo intervalo de tempo deve ser em torno de 0,008 ± 0,0028. Para o S&P 500 foi cerca de
80 por cento. Isso nos diz que não sabemos nada sobre a curtose desses
títulos. Seu erro amostral é enorme; ou pode não existir, então a medição é
fortemente dependente da amostra. Se não sabemos nada sobre o quarto momento,
não sabemos nada sobre a estabilidade do segundo momento. Isso significa que não estamos
em uma classe de distribuição que nos permite trabalhar com a variância, mesmo que ela exista.
A ciência é difícil; o financiamento quantitativo também é difícil.
Para a prata, em 46 anos, 94% da curtose veio de uma única observação.
Não podemos utilizar métodos estatísticos padrão com dados financeiros. GARCH (um método
popular na academia) não funciona porque estamos lidando com quadrados. O
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
52 uma visão geral não técnica - a palestra da Darwin College
ÿ,‡
a variância dos quadrados é análoga ao quarto momento. Não sabemos a variação. Mas
podemos trabalhar facilmente com distribuições de Pareto. Eles nos fornecem menos
informações, mas, mesmo assim, são mais rigorosos se os dados não forem limitados ou se
houver alguma variável aberta.
A Tabela 3.3, para dados financeiros, desmascara todos os livros didáticos universitários que
usamos atualmente. Muita econometria que trata de quadrados sai pela janela. Isto explica por
que razão os economistas não conseguem prever o que está a acontecer – estão a utilizar
métodos errados e a construir intervalos de confiança errados. Funcionará dentro da amostra,
mas não funcionará fora dela – e as amostras são, por definição, finitas e sempre terão
momentos finitos. Se dissermos que a variância (ou curtose) é infinita, não observaremos nada
que seja infinito dentro de uma amostra.
A análise de componentes principais, PCA (ver Figura 3.26) é um método de redução de
dimensão para big data e funciona perfeitamente com caudas finas (pelo menos às vezes).
Mas se não houver dados suficientes, existe uma ilusão de qual é a estrutura. À medida que
aumentamos os dados (as n variáveis), a estrutura torna-se plana (algo chamado em alguns
círculos de "efeito Wigner" para matrizes aleatórias, em homenagem a Eugene Wigner - não
confunda com as descobertas de Wigner sobre o deslocamento de átomos sob radiação). Na
simulação, os dados que não possuem absolutamente nenhuma estrutura: os componentes
principais (PCs) devem ser todos iguais (assintoticamente, à medida que os dados se tornam
grandes); mas o efeito de amostra pequena faz com que os PCs ordenados mostrem uma
inclinação decrescente. Temos correlação zero na matriz. Para uma distribuição de cauda
espessa (a seção inferior), precisamos de muito mais dados para que a correlação espúria seja
eliminada, ou seja, a redução de dimensão não funciona com caudas grossas.
3.8 onde estão as propriedades ocultas?
O texto a seguir resume tudo o que escrevi em O Cisne Negro (uma mensagem que de alguma
forma levou mais de uma década para ser transmitida sem distorção). As distribuições podem
ser unicaudais (esquerda ou direita) ou bicaudais. Se a distribuição tiver uma cauda grossa, ela
pode ter uma cauda grossa ou duas caudas. E se houver uma cauda de cauda grossa, pode ser
cauda esquerda de cauda grossa ou cauda direita de cauda grossa.
Veja a Figura 3.28 para a intuição: se for de cauda grossa e olharmos para a média amostral,
observaremos menos eventos de cauda. O erro comum é pensar que podemos ingenuamente
derivar a média na presença de distribuições unicaudais. Mas existem eventos raros e invisíveis
que, com o tempo, serão preenchidos. Mas, por definição, são eventos de baixa probabilidade.
É mais fácil ser enganado pela aleatoriedade sobre a qualidade do desempenho com
uma série temporal de volatilidade curta (inclinada à esquerda, exposta a perdas
acentuadas) do que com uma volatilidade de cauda longa (inclinada à direita, exposta a
ganhos acentuados). A volatilidade simplesmente curta superestima o desempenho
(enquanto a outra o subestima (ver Figura 3.28). Esta é outra versão da assimetria
atribuída a Popper que vimos anteriormente neste capítulo.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.8 onde estão as propriedades ocultas? 53
0,20
0,15
0,10
0,05
0,00
10.000
8.000
6.000
4000
2000
0
Figura 3.26: PCAs espúrias sob caudas grossas: um experimento de Monte Carlo que mostra como correlações e covariâncias espúrias
são mais agudas sob caudas grossas. Componentes principais classificados por variância para 30 variáveis gaussianas não correlacionadas
(acima), n = 100 (sombreado) e 1000 pontos de dados (transparentes), e componentes principais classificados por variância para 30
variáveis estáveis distribuídas (abaixo, com cauda 2 , simetria ÿ = 1, centralidade µ = 0, escala ÿ = 1), com mesmo n = 100 (sombreado)
3
uma =
en = 1000 (transparente). Ambas são variáveis "não correlacionadas" distribuídas de forma idêntica. Podemos ver a estrutura do
PCA "mais plana" com o Gaussiano à medida que n aumenta (a diferença entre os PCAs diminui). Tal achatamento não ocorre em tempo
razoável sob caudas mais grossas.
O truque é estimar a distribuição e depois derivar a média (o que implica extrapolação). Isso é chamado
neste livro de estimativa de “plug-in”, consulte a Tabela 3.4. Isso não é feito medindo a média da amostra
diretamente observável, que é tendenciosa sob distribuições de cauda gorda. É por isso que, fora de uma
crise, os bancos parecem obter grandes lucros. Depois, de vez em quando, perdem tudo e mais e têm de ser
socorridos pelo contribuinte. A maneira como lidamos com isso é diferenciando a média verdadeira (que
chamo de “sombra”) da média realizada, como no Tableau da Tabela 3.4.
Também podemos fazer isso para que o coeficiente de Gini estime o coeficiente "sombra" em vez de
do que aquele ingenuamente observado.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
54 uma visão geral não técnica - a palestra da Darwin College
Figura 3.27: Uma assimetria central: a diferença entre ausência de evidência e evidência de
a ausência é agravada por caudas grossas. Requer uma compreensão mais elaborada de eventos aleatórios
-ou um mais naturalista. (Por favor, não atribua aqui pontos de QI como equivalentes aos usados em
psicometria comum: a suspeita é que pessoas com pontuações altas em testes de QI não conseguem obter a assimetria.
O QI aqui deve ser interpretado como inteligência “real”, não aquela daquele teste. ) Cortesia Stefan
Gásico.
Isto é o que queremos dizer quando dizemos que a distribuição “empírica” não é “empírica”. Em
outras palavras: 1) existe uma divisão entre população e amostra
atributos e, 2) mesmo dados históricos exaustivos devem ser vistos como mera amostragem
de um fenômeno mais amplo (o passado está na amostra; a inferência é o que funciona a partir
13
amostra).
Tabela 3.4: Média sombra vs. média amostral e sua relação para diferentes limiares mínimos. O
a média sombra é obtida por meio de máxima verossimilhança, ML (a partir de estimadores de plug-in). Em negrito os valores
para o limite de 145k . Dados redimensionados. De Cirillo e Taleb [46]. Os detalhes são explicados nos capítulos
16 e 13.
L Média da Amostra ML Razão Média
9,82
9,079 × 106 3,11 × 107 10K
3,43
25 mil ×
3,69
106 3,62 × 107 1,12 × 107 4,11 ×
50 mil
107 1,34 × 107 4,74 × 107 1,66
3,67
100 mil
× 107 6,31 × 107 2,48 × 107
3,53
200 mil
8,26 × 10 7
3,79
500 mil
3.31
Depois de descobrirmos a distribuição, podemos estimar a média estatística.
Isso funciona muito melhor do que medir diretamente a média amostral. Para um Pareto
distribuição, por exemplo, 98% das observações estão abaixo da média. Há um preconceito
na média observada. Mas uma vez que sabemos que temos uma distribuição de Pareto,
deve ignorar a média amostral e procurar outro lugar. Os capítulos 13 e 15 discutem
as técnicas.
Observe que o campo da Teoria dos Valores Extremos [115] [82] [116] concentra-se nas propriedades
da cauda, não na média ou na inferência estatística.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.8 onde estão as propriedades ocultas? 55
A RÉGUA DE WITTGENSTEIN: FOI REALMENTE UM “EVENTO 10 SIGMA”?
Ital Management" (LTCM) provou ter uma vida muito curta; faliu devido a
alguns desvios nos mercados - aqueles "de uma
natureza inesperada". A perda foi um grande negócio porque dois dos sócios
No verão de 1998,
o fundo de
hedge denominado
"Longcomercializado
Term Capreceberam
o Prêmio
Riksbank sueco,
como o "Nobel" em
economia. Mais significativamente, o fundo abrigava um grande número de professores de
finanças; o LTCM tinha imitadores entre os professores (em pelo menos sessenta PhDs em
finanças explodiram durante esse período em negociações semelhantes às do LTCM e devido
a métodos de gerenciamento de risco idênticos. Pelo menos dois dos sócios afirmaram que se
tratava de um evento "10 sigma" (10 desvios padrão), portanto, deveriam ser absolvidos de
todas as acusações de incompetência (fui testemunha em primeira mão de duas dessas
declarações).
Apliquemos o que o autor chama de “régua de Wittgenstein”: você está usando a régua para
medir a mesa ou usando a mesa para medir a régua?
Suponha, para simplificar, que existam apenas duas alternativas: uma distribuição gaussiana
e uma distribuição de lei de potência. Para o Gaussiano, o "evento" que definimos como a
função de sobrevivência de 10 desvios padrão é 1 em 1,31 × 10ÿ23. Para a lei de potência da
mesma escala, uma distribuição T de Student com expoente final 2, a função de sobrevivência
é 1 em 203.
Qual é a probabilidade dos dados serem gaussianos condicionais a um evento 10 sigma, em
comparação com essa alternativa?
P(A)P(B|A)
Começamos com a regra de Bayes. P(A|B) = . Substitua P(B) = P(A)P(B|A) + P(B)
P(A)P(B|A) e aplique ao nosso caso.
P(Gaussiano|Evento) =
P(Gaussiano)P(Evento|Gaussiano)
(1 ÿ P(Gaussiano))P(Evento|NãoGaussiano) + P(Gaussiano)P(Evento|Gaussiano)
P (Gaussiano) P (Gaussiano | Evento) 2
0,5
× 10ÿ21
0,999
2 × 10ÿ18 2 × 10ÿ17 2 × 10ÿ16
0,9999
2 × 10ÿ15
0,99999
0,999999
1
1
Moral: Se houver uma pequena probabilidade, < 10ÿ10, de que os dados possam não ser
gaussianos, pode-se rejeitar firmemente a gaussianidade em favor da distribuição de cauda grossa.
A heurística é rejeitar a gaussianidade na presença de qualquer evento > 4 ou > 5 STDs –
veremos ao longo do livro por que patches como a variância condicional são inadequados e
podem ser totalmente fraudulentos.a
a O grande Benoit Mandelbrot costumava ser extremamente crítico em relação aos métodos que dependiam de uma
Gaussiana e adicionavam saltos ou outros truques ad hoc para explicar o que acontecia nos dados (digamos, o
processo de difusão de saltos de Merton [173]) – sempre é possível ajustar saltos ex publicar. Ele costumava citar
o ditado atribuído a John von Neumann: “Com quatro parâmetros posso ajustar um elefante, e com cinco posso
fazê-lo mexer a tromba”.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
56 uma visão geral não técnica - a palestra da Darwin College
ÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿ ÿÿÿÿ ÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿ
-ÿÿÿ
-ÿÿÿ
-ÿÿÿ
-ÿÿ
-ÿÿ
-ÿÿ
-ÿÿ
ÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿ ÿÿÿÿ ÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿ
ÿÿ
ÿÿ
ÿÿ
ÿÿ
ÿÿÿ
ÿÿÿ
ÿÿÿ
Figura 3.28: Shadow Mean em ação: Abaixo: Problema Inverso do Peru – O evento raro invisível é
positivo. Quando você olha para uma série temporal positivamente distorcida (antifrágil) e faz (não paramétrica)
inferências sobre o invisível, você perde as coisas boas e subestima os benefícios. Acima de
problema oposto. A área preenchida corresponde ao que não costumamos ver em amostras pequenas, desde
insuficiência de pontos de dados. Curiosamente, a área sombreada aumenta com o erro do modelo (devido ao
convexidade das probabilidades da cauda em relação à incerteza).
3,9 schmayesiano bayesiano
Na ausência de informações confiáveis, os métodos Bayesianos podem ser de pouca ajuda. Esse
O autor tem enfrentado, desde a publicação de O Cisne Negro, inúmeras questões relativas ao
uso de algo vagamente bayesiano para resolver problemas sobre o desconhecido sob caudas
grossas. Como não se pode fabricar informações além do que é
disponível, nenhuma técnica, Bayesiana ou Schmayesiana pode ajudar. A chave é aquela
precisa de um anterior confiável, algo que não é facilmente observável (ver Diaconis e Fried-man
[66] para a dificuldade de um agente em formular um anterior).
Um problema é a velocidade de atualização, como abordaremos no Capítulo 7, que é altamente
dependente da distribuição. O erro na literatura da expectativa racional é
acredito que dois observadores fornecidos com a mesma informação necessariamente
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.10 x vs f(x): exposições a x confundidas com conhecimento sobre x
convergem para a mesma visão. Infelizmente, as condições para que isso aconteça em tempo real
ou aconteça são bastante específicas.
É claro que se pode usar métodos bayesianos (sob antecedentes adequados) para a estimativa
de parâmetros se 1) se tiver uma ideia clara sobre a faixa de valores (digamos, de classes de
universalidade ou outras bacias estáveis) e 2) esses parâmetros seguirem um padrão tratável.
distribuição com baixa variância, como, digamos, o expoente final de uma distribuição de Pareto
(que é distribuída inversamente gama), [11].
risco oral e busca de renda na educação financeira: um dos
M
A experiência mais deprimente que esse autor teve foi quando ministrou um
curso sobre Fat Tails na Universidade de Massachusetts Amherst, na escola
de negócios, durante uma breve passagem por lá. Um estudante de
doutorado em finanças disse sem rodeios que gostou das ideias, mas que
uma carreira em educação financeira exigia “o salário mais alto do país” (isto é, entre todas
as outras especialidades da educação). Ele preferiu usar métodos de Markowitz (mesmo
que eles falhassem em domínios de cauda gorda), pois estes eram usados por outros
professores, o que lhe permitiu publicar seus artigos e conseguir um emprego bem
remunerado.
Fiquei enojado, mas previ que ele teria posteriormente uma carreira de muito sucesso
escrevendo artigos não-artigos. Ele fez.
3.10 x vs f(x): exposições a x confundidas com conhecimento sobre
x
Considere X uma variável aleatória ou não aleatória e F(X) a exposição, o retorno, o efeito de X
sobre você, o resultado final. (X geralmente tem dimensões superiores, mas vamos supor, para
simplificar, que seja uma variável unidimensional simples).
Os profissionais e os que assumem riscos observam frequentemente a seguinte desconexão: as
pessoas (não-praticantes) falam X (com a implicação de que os profissionais devem preocupar-se
com X na gestão dos seus negócios) enquanto os profissionais pensam em F(X), nada mais que F(X).
E a confusão direta desde Aristóteles entre X e F(X) tem sido crônica, conforme discutido em
Antifrágil [230] , que é escrito em torno desse tema. Às vezes as pessoas mencionam F(X) como
utilidade, mas perdem o retorno total. E a confusão está em dois níveis: um, confusão simples;
segundo, na literatura sobre ciência da decisão, ver a diferença e não perceber que agir em F(X) é
mais fácil do que agir em X.
• A variável X pode ser o desemprego no Senegal, F1 (X) é o efeito sobre os resultados
financeiros do FMI e F2(X) é o efeito sobre a sua avó (que presumo ser mínimo).
• X pode ser o preço de uma ação, mas você possui uma opção sobre ela, então F(X) é a sua
exposição um valor de opção para X, ou, ainda mais complicado, a utilidade da exposição
ao valor da opção.
57
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
58 uma visão geral não técnica - a palestra da Darwin College
ÿ,‡
• X pode ser mudanças na riqueza, F(X) a maneira convexa-côncava como isso afeta o
seu bem-estar. Pode-se ver que F(X) é muito mais estável ou robusto que X (possui
caudas mais finas).
Funções convexas vs. lineares de uma variável X Considere a Fig. 3.30; confundir F(X)
(na vertical) e X (na horizontal) é cada vez mais significativo quando F(X) é não linear. Quanto
mais convexo F(X), mais as propriedades estatísticas e outras de F(X) serão divorciadas
daquelas de X. Por exemplo, a média de F(X) será diferente de F(Média deX), pelo método
de Jensen desigualdade. Mas, para além da desigualdade de Jensen, a diferença de riscos
entre os dois será cada vez mais considerável. Quando se trata de probabilidade, quanto
mais não-linear F, menos as probabilidades de X importam em comparação com as de F.
Moral da história: concentre-se em F, que podemos alterar, em vez de na medição das
propriedades indescritíveis de X.
Distribuição de probabilidade de X
Distribuição de probabilidade de F(X)
Figura 3.29: O Problema da Conflação X (variável aleatória) e F(X) uma função dela (ou payoff). Se F(X) for
convexo não precisamos saber muito sobre isso – torna-se um problema acadêmico. E é mais seguro focar
na transformação de F(X) do que de X.
Figura 3.30: O Problema da Conflação: uma transformação convexo-côncava de um X de cauda grossa
produz uma distribuição de cauda fina (acima). Uma transformação sigmoidal (abaixo) que é limitada por uma
distribuição em (ÿÿ, ÿ) produz uma distribuição ArcSine, com suporte compacto.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
59
3.10 x vs f(x): exposições a x confundidas com conhecimento sobre x
Limitações do conhecimento O que é crucial, as nossas limitações de conhecimento aplicam-se a X
e não necessariamente a F(X). Não temos controle sobre X, temos algum controle sobre F(X).
Em alguns casos, um controle muito, muito grande sobre F(X).
Transformação Côncavo-Convexa
Distribuição de x
Distribuição de f(x)
Figura 3.31: Uma transformação côncavo-convexa (do estilo de um probit –um CDF inverso para o
gaussiano– ou de um logit) torna as caudas da distribuição de f(x) mais espessas
O perigo do tratamento do problema do Cisne Negro é o seguinte: as pessoas se concentram em X
("prever X"). O que quero dizer é que, embora não compreendamos X, podemos lidar com isso
trabalhando em F que podemos compreender, enquanto outros trabalham na previsão de X, o que
não podemos porque pequenas probabilidades são incomputáveis, particularmente em domínios de
cauda grossa. F(x) é como o resultado final afeta você.
A distribuição de probabilidade de F(X) é marcadamente diferente daquela de X, particularmente
quando F(X) é não linear. Precisamos de uma transformação não linear da distribuição de X para
obter F(X). Tivemos que esperar até 1964 para iniciar uma discussão sobre “transformações convexas
de variáveis aleatórias”, Van Zwet (1964)[259] –já que o tema não parecia importante antes.
Onipresença das curvas S F é quase sempre não-linear (na verdade não conheço nenhuma exceção
à não-linearidade), muitas vezes “curva em S”, ou seja, convexa-côncava (para uma função crescente).
Veja a discussão mais longa em F.
Fragilidade e Antifragilidade Quando F(X) é côncavo (frágil), erros sobre X podem se traduzir
em valores negativos extremos para F(X). Quando F(X) é convexo, fica-se amplamente imune
a variações negativas severas. Em situações de tentativa e erro, ou com opção, não precisamos
entender tanto de X quanto da nossa exposição aos riscos. Simplesmente as propriedades
estatísticas de X são inundadas pelas de H. O ponto principal do Antifrágil é que a exposição é
mais importante do que a noção ingénua de “conhecimento”, isto é, a compreensão de X.
Quanto mais não linear F, menos as probabilidades de X importam na distribuição de
probabilidade do pacote final F.
Muitas pessoas confundem as probabilidades de X com as de F. Estou falando sério: toda a
literatura repousa em grande parte neste erro. Pelo amor de Baal, concentre-se em F, não em
X.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
60 uma visão geral não técnica - a palestra da Darwin College
B
é melhor ser convexo do que certo: no outono de 2017, uma empresa faliu
apostando contra a volatilidade – eles estavam prevendo uma volatilidade real
do mercado menor (em vez de variância) do que a “esperada” pelo mercado.
Eles estavam corretos na previsão, mas faliram mesmo assim. Eles
eram muito côncavos na função de recompensa. Lembre-se de que x é
não f(x) e que no mundo real quase não há f(x) linear.
O exemplo a seguir pode nos mostrar como. Considere o seguinte resultado na figura abaixo. A
2
função de recompensa é f(x) = 1 ÿ x
diário,
ou seja, se x se mover em até 1 unidade (digamos, desvio padrão), há
um lucro, perdas além. Este é um contrato típico denominado “swap de variância”.
f(x)=1-x2
4
2
x
-3
-2
-1
1
2
3
-2
-4
Agora considere os dois tipos de sucessões de desvios de x para 7
dias (expressos em desvios padrão).
Sucessão 1 (caudas finas): {1, 1, 1, 1, 1, 0, 0}. Variação média= 0,71. P/L = 2.
Sucessão 2 (caudas grossas): {0, 0, 0, 0, 0, 0, 5}. Variação média= 0,71 (igual).
P/L=ÿ18 (quebra, realmente faliu).
Em ambos os casos, eles previram corretamente, mas a concentração da volatilidade – a gordura
de coroas – fez uma enorme diferença.
Isto explica, em poucas palavras, por que, no mundo real, os “maus” previsores podem fazer
grandes traders e tomadores de decisão e vice-versa – algo que todo operador
sabe apenas que a literatura de "previsão" matematicamente e praticamente pouco sofisticada,
séculos atrás da prática, erra.
3.11 ruína e dependência do caminho
Terminemos com a dependência da trajetória e a probabilidade temporal. Nossas bisavós
entendi caudas grossas. Estes não são tão assustadores; descobrimos como sobreviver
tomando decisões racionais baseadas em propriedades estatísticas profundas.
A dependência do caminho é a seguinte. Se eu passar minhas camisas e depois lavá-las, recebo
resultados muito diferentes em comparação com quando lavo minhas camisas e depois as passo.
Meu primeiro trabalho, Dynamic Hedging [225], foi sobre como os traders evitam a "absorção
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.11 ruína e dependência do caminho 61
barreira", uma vez que uma vez que você está falido, você não pode mais continuar: qualquer coisa
que acabe falindo perderá todos os lucros passados.
Os físicos Ole Peters e Murray Gell-Mann [186] lançaram uma nova luz sobre este ponto e
revolucionaram a teoria da decisão, mostrando que uma crença fundamental desde o desenvolvimento
da teoria da probabilidade aplicada na economia estava errada. Eles salientaram que todos os
manuais de economia cometem este erro; a única exceção são os teóricos da informação como
Kelly e Thorp.
Vamos explicar as probabilidades do conjunto.
Suponha que 100 de nós, selecionados aleatoriamente, vamos a um cassino e jogamos. Se a 28ª
pessoa estiver arruinada, isso não terá impacto no 29º jogador. Assim, podemos calcular o retorno
do casino utilizando a lei dos grandes números, tomando os retornos das 100 pessoas que jogaram.
Se fizermos isso duas ou três vezes, obteremos uma boa estimativa de qual é a “vantagem” do
cassino. O problema surge quando a probabilidade de conjunto é aplicada a nós como indivíduos.
Não funciona porque se um de nós vai ao cassino e no dia 28 está arruinado, não existe dia 29. É
por isso que Cramer mostrou que o seguro não poderia funcionar fora do que ele chamou de
"condição de Cramer", que exclui possível ruína de choques únicos. Da mesma forma, nenhum
investidor individual alcançará o retorno alfa no mercado porque nenhum investidor tem bolsos
infinitos (ou, como observou Ole Peters, está a viver a sua vida através de universos paralelos
ramificados).
Só podemos obter o retorno no mercado sob condições estritas.
A probabilidade de tempo e a probabilidade de conjunto não são iguais. Isso só funciona se os
tomadores de risco tiverem uma política de alocação compatível com o critério Kelly
Figura 3.32: Probabilidade de conjunto
versus probabilidade de tempo. O
tratamento pelos traders de opções é
feito através da barreira absorvente.
Tradicionalmente, tratei isso em
Dynamic Hedging [225] e Antifragile
[223] como a fusão entre X (uma
variável aleatória) e f(X) uma função
do referido rv, que pode incluir um estado absorvente.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,‡
62 uma visão geral não técnica - a palestra da Darwin College
Figura 3.33: Uma hierarquia para
sobrevivência. As entidades de
nível superior têm uma expectativa
de vida mais longa, portanto o risco
de cauda é mais importante para elas.
Entidades inferiores como você
e eu somos renováveis.
[142],[250] usando registros. Peters escreveu três artigos sobre probabilidade temporal (um com Murray GellMann) e mostrou que muitos paradoxos desapareceram.
Vejamos como podemos trabalhar com isso e o que há de errado com a literatura.
Se incorrermos visivelmente num pequeno risco de ruína, mas tivermos uma exposição frequente, a probabilidade
irá para um ao longo do tempo. Se andarmos de moto corremos um pequeno risco de ruína, mas se andarmos
muito nessa moto reduziremos a nossa esperança de vida. A maneira de medir isso é:
Princípio 3.3 (Repetição de exposições)
Concentre-se apenas na redução da expectativa de vida da unidade, assumindo exposição repetida a
uma determinada densidade ou frequência.
Até agora, as finanças comportamentais tiram conclusões da estática e não da dinâmica, e portanto perdem o
panorama. Aplica compensações fora do contexto e desenvolve o consenso de que as pessoas superestimam
irracionalmente o risco de cauda (portanto, precisam ser “incentivadas” a assumir mais dessas exposições).
Mas o evento catastrófico é uma barreira absorvente.
Nenhuma exposição de risco pode ser analisada isoladamente: os riscos acumulam-se. Se andarmos de moto,
fumarmos, pilotarmos o nosso próprio avião a hélice e nos juntarmos à máfia, estes riscos somam-se a uma
morte prematura quase certa. Os riscos de cauda não são um recurso renovável.
Todo tomador de risco que conseguiu sobreviver entende isso. Warren Buffett entende isso. A Goldman
Sachs entende isso. Eles não querem riscos pequenos, querem risco zero, porque essa é a diferença entre a
empresa sobreviver e não sobreviver durante vinte, trinta, cem anos. Esta atitude face ao risco de cauda pode
explicar que a Goldman Sachs tem 149 anos – funcionou como sociedade de responsabilidade ilimitada durante
aproximadamente os primeiros 130 anos, mas foi resgatada uma vez em 2009, depois de se ter tornado um
banco. Isto não está na literatura da teoria da decisão, mas nós (pessoas com
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
3.12 o que fazer? 63
pele no jogo) pratique todos os dias. Pegamos numa unidade, olhamos quanto tempo de vida desejamos
que ela tenha e vemos até que ponto a esperança de vida é reduzida por repetidas
exposição.
Observação 2: Psicologia da tomada de decisão A
literatura psicológica concentra-se em exposições de um único episódio e em análises de custobenefício estritamente definidas. Algumas análises rotulam as pessoas como paranóicas por
superestimarem pequenos riscos, mas não entendem que se tivéssemos a menor tolerância
para riscos coletivos de cauda, não teríamos sobrevivido nos últimos milhões de anos.
A seguir, consideremos a estratificação, a razão pela qual os riscos sistémicos estão numa categoria
diferente dos riscos individuais e idiossincráticos. Observe a pirâmide (invertida) na Figura 3.33: o pior
cenário não é a morte de um indivíduo. É pior se sua família, amigos e animais de estimação morrerem.
É pior se você morrer e seu arquiinimigo sobreviver. Coletivamente, eles têm mais expectativa de vida
perdida devido a um evento terminal.
Portanto, existem camadas. O maior risco é que todo o ecossistema morra. O princípio da precaução
estrutura a ideia de risco para as unidades que se espera que sobrevivam.
Ergodicidade, neste contexto, significa que sua análise para probabilidade de conjunto se traduz em
probabilidade de tempo. Caso contrário, ignore completamente a probabilidade do conjunto.
3.12 o que fazer?
Para resumir, primeiro precisamos de fazer uma distinção entre o Mediocristão e o Ex-tremistão, dois
domínios separados que quase nunca se sobrepõem. Se não conseguirmos fazer essa distinção, não
teremos nenhuma análise válida. Em segundo lugar, se não fizermos a distinção entre probabilidade
temporal (dependente do caminho) e probabilidade de conjunto (independente do caminho), não
teremos uma análise válida.
A próxima fase do projeto Incerto é compreender a fragilidade, a robustez e, eventualmente, a
antifragilidade. Uma vez que sabemos que algo tem cauda gorda, podemos usar a heurística para ver
como uma exposição ali reage a eventos aleatórios: quanto uma determinada unidade é prejudicada
por eles. É muito mais eficaz focar em estar isolado dos danos de eventos aleatórios do que tentar
descobri-los nos detalhes necessários (como vimos, os erros inferenciais sob caudas grossas são
enormes). Portanto, é mais sólido, muito mais sábio, mais ético e mais eficaz concentrar-se em
heurísticas e políticas de detecção, em vez de fabricar propriedades estatísticas.
A coisa bonita que descobrimos é que tudo o que é frágil tem de apresentar uma exposição côncava
[223] semelhante – se não idêntica – ao retorno de uma opção curta, ou seja, uma exposição negativa
à volatilidade. É não linear, necessariamente. Tem que ter danos que acelerem com intensidade, até
quebrar. Se eu pular 10 metros, me machucarei mais de 10 vezes do que se pular um metro. Essa é
uma propriedade necessária da fragilidade. Precisamos apenas observar a aceleração nas caudas.
Construímos heurísticas eficazes de testes de estresse com base em uma propriedade semelhante a
uma opção [240].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
64 uma visão geral não técnica - a palestra da Darwin College
ÿ,‡
No mundo real, queremos coisas simples que funcionem [109]; queremos impressionar
nosso contador e não nossos colegas. (Meu argumento na última edição do Incerto, Skin in
the Game é que os sistemas julgados pelos pares e não pela evolução apodrecem devido à
supercomplicação). Para sobreviver, precisamos ter técnicas claras que correspondam às
nossas intuições processuais.
O novo foco é como detectar e medir a convexidade e a concavidade. Isso é muito, muito
mais simples que a probabilidade.
próximo
Os próximos três capítulos examinarão as intuições técnicas por trás das caudas grossas em
forma de discussão, numa linguagem não muito formal. Derivações e provas formais vêm
posteriormente com as adaptações dos artigos da revista.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4 UNI VA RI AT E FAT TA ILS
, NÍVEL 1
,
FINITEM OM ENT S†
els de caudas gordas com mais ênfase nas intuições e heurísticas
Os próximos dois capítulos são organizados da seguinte forma. Nós olhamos para três níveis
do que diferenças matemáticas formais, que serão apontadas
mais tarde nas discussões dos teoremas do limite. Os três níveis são:
• Caudas gordas, nível de entrada (mais ou menos), ou seja, momentos finitos
• Classe subexponencial
• Aula de Lei de Potência
O nível um será o mais longo, pois o usaremos para construir intuições. Enquanto
esta abordagem é a menos usada em trabalhos de matemática (caudas gordas geralmente são
associado a leis de potência e comportamento limite), é confiável
analiticamente e praticamente. Podemos obter as consequências imediatas da cauda gorda com
pouco esforço, o equivalente a uma derivada funcional que fornece uma boa compreensão das
sensibilidades locais. Por exemplo, como comerciante, o autor
foi capaz de obter a maior parte do efeito da cauda gorda com uma heurística simples de calcular
a média dos preços das opções entre duas volatilidades, o que se mostrou suficiente, apesar
da sua simplicidade.
4.1 uma heurística simples para criar caudas levemente gordas
Alguns lembretes sobre a convexidade e a desigualdade de Jensen:
Seja A um conjunto convexo em um espaço vetorial em R, e seja ÿ : A ÿ R uma função; ÿ
, ÿt ÿ [0, 1] :
é chamado convexo se ÿx1 , x2 ÿ A
ÿ (tx1 + (1 ÿ t)x2) ÿ tÿ (x1) + (1 ÿ t)ÿ (x2)
Capítulo de discussão.
65
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
66 caudas gordas univariadas, nível 1, momentos finitos†
Figura 4.1: Como a volatilidade
aleatória cria caudas mais
grossas devido à convexidade
de algumas partes da densidade
em relação à escala da distribuição.
Para uma variável aleatória X e ÿ(.) uma função convexa, pela desigualdade de Jensen[135]:
ÿ(E[X]) ÿ E[ÿ(X)].
Observação 3: Caudas gordas e desigualdade
de Jensen Para uma distribuição gaussiana (e, membros da família de distribuições
em escala de localização), as probabilidades da cauda são convexas para a escala da
distribuição, aqui o desvio padrão ÿ 2 ). Isto nos permite engordar as caudas por meio de "stochas(e para a variância ÿ ticando" o desvio padrão ou a variância, verificando assim o efeito
da desigualdade de Jensen na distribuição de probabilidade.
Heterocedasticidade é o termo técnico geral frequentemente usado em análises de séries
temporais para caracterizar um processo com escala flutuante. Nosso método “estocástica”,
isto é, perturba a variância ou o desvio padrão2 da distribuição sob a restrição de conservação
da média.
2 “Volatilidade” na linguagem quântica significa desvio padrão, mas “volatilidade estocástica” geralmente é estocástica
variação.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.1 uma heurística simples para criar caudas levemente gordas 67
Mas observe que qualquer processo de cauda pesada, mesmo uma lei de potência, pode ser descrito
em uma amostra (isto é, um número finito de observações necessariamente discretizadas) por um
processo gaussiano simples com variação de variância, um processo de mudança de regime ou uma
combinação de mais gaussiana. uma série de saltos variáveis (embora não seja aquele em que os saltos
sejam de tamanho igual, veja o resumo em [174]).3 Este
método também nos permitirá responder à grande questão: "onde estão as caudas?"
começar?" em 4.3.
Seja f( ÿ a, x) a densidade da distribuição normal (com média 0) em função da variância para um
determinado ponto x da distribuição.
1
Compare f ( 1 2 (ÿ 1 ÿ a + ÿ a + 1) , x ) com
2 ( f (ÿ 1 ÿ a, x ) + f (ÿ a + 1, x )); a difiA diferença entre os dois será devida à desigualdade de Jensen. Assumimos a constante média, mas a
2 idade p discussão funciona tão bem se apenas assumimos a constante ÿ - é um longo debate se
devemos colocar uma restrição na variância média ou no desvio padrão, mas 1) não importa muito,
desde que permaneçamos consistentes; 2) para nossos propósitos ilustrativos, aqui não há nenhuma
diferença fundamental real.
Como os momentos mais altos aumentam sob caudas gordas, embora não necessariamente nas mais
baixas, deveria ser possível simplesmente aumentar a cauda gorda (através do quarto momento),
mantendo os momentos mais baixos (os dois ou três primeiros) invariantes. 4
4.1.1 Uma heurística de preservação de variância
2
4
Mantenha E ( X ) constante e aumente a distribuição) , "estocásticando" a variância de ) medida em
4
E ( X , já que E ( X
amostras – E (X
2
) é em si análogo à variância de E (X
4
2
ÿE (X
2 ))2 ) então vamos
) é o equivalente não central de E (( X
focam na versão mais simples fora das situações em que isso importa. Além disso, faremos a
"estocástica" de uma forma mais envolvente nas seções posteriores do capítulo.
Uma heurística eficaz para obter alguma intuição sobre o efeito da engorda das caudas consiste em
simular uma variável aleatória definida com média 0, mas com o seguinte truque de engorda da cauda
com preservação da variância: a variável aleatória segue uma distribuição N( 0, ÿ ÿ 1 ÿ a) com
probabilidade p = probabilidade restante
12 ,com
12
e N( 0, ÿ ÿ 1 + a ) com o
0 ÿ a < 1.
A função característica5 é
1ÿ (t, a) = e 2
-
12
(1+uma)t 2ÿ 2 ( 1 + e em2ÿ 2 )
(4.1)
3 Os saltos para tal processo podem ser simplesmente modelados como um regime caracterizado por uma Gaussiana com
baixa variância e média extremamente grande (e baixa probabilidade de ocorrência), portanto, tecnicamente, os saltos de
Poisson são Gaussianos mistos.
4 Para repetir o que afirmamos no capítulo anterior, a literatura às vezes separa “caudas gordas” de “caudas pesadas”,
sendo o primeiro termo reservado para leis de potência, o segundo para distribuição subexponencial (sobre a qual, mais
tarde). Fugiu disso. Simplesmente chamamos de "Fat Tails" algo com uma curtose maior que a Gaussiana, mesmo
quando a curtose não está definida. A definição é funcional conforme utilizada pelos praticantes de fat tails, ou seja,
traders de opções e se presta à operação de “engordar as caudas”, como veremos nesta seção.
5 Observe que não há diferença entre funções características e geradoras de momento quando a média é 0,
uma propriedade que será útil em capítulos posteriores e mais técnicos.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
68 caudas gordas univariadas, nível 1, momentos finitos†
Momentos estranhos são nulos. O segundo momento é preservado desde
M(2) = (ÿeu)
2
2
ÿt ,2ÿ(t)|0 = p
(4.2)
e o quarto momento
M(4) = (ÿeu)
4
2
4
ÿt ,4ÿ|0= 3 (uma + 1) p
(4.3)
2
o que coloca a curtose tradicional em 3 (a + 1) (assumindo que não removemos 3 para comparar com a
gaussiana). Isso significa que podemos obter um “a implícito da curtose”.
O valor de a é aproximadamente o desvio médio do parâmetro de volatilidade estocástica "volatilidade da
volatilidade" ou Vvol em uma forma mais completamente parametrizada.
Limitações da heurística simples Esta heurística, embora útil para a construção da intuição, tem poderes
limitados, pois só pode aumentar a curtose para duas vezes a de uma Gaussiana, por isso deve ser usada
apenas pedagogicamente, para obter alguma intuição sobre os efeitos da heurística simples. convexidade.
A Seção 4.1.2 apresentará uma técnica mais envolvente.
Observação 4: Picos
Como mostra a Figura 4.4 : as caudas gordas manifestam-se com picos mais elevados, uma
concentração de observações em torno do centro da distribuição.
Isso geralmente é mal compreendido.
4.1.2 Engorda de caudas com variação distorcida
Podemos melhorar a heurística de cauda gorda em 4.1 (que limitou a curtose ao dobro da Gaussiana) da
seguinte maneira. Alternamos entre Gaussianos com variância:
2
(1 + a), com probabilidade p
2p . (1
{p
(4.4)
+ b), com probabilidade 1 ÿ p
p
com p ÿ [0, 1) e b = ÿa 1ÿp , dando uma
função característica:
ÿ(t, uma) = peÿ
com curtose
3((1ÿa 2 )pÿ1)
1
2 2
t
2 (a+1)p
-
ÿ (p ÿ 1) e
p 2t
2(ap+pÿ1)
2(pÿ1)
permitindo assim estados polarizados e alta curtose, preservando toda a
variância pÿ1 .
Assim, com, digamos, p = 1/1000, e o correspondente máximo possível a = 999, a curtose pode atingir um
nível tão alto quanto 3.000.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.1 uma heurística simples para criar caudas levemente gordas 69
Esta heurística aproxima muito bem o efeito nas probabilidades de um lognormal
ponderação para a função característica
ÿ
ÿ(t, V) = ÿ
2v
-
e
Vv2
(log(v)ÿv0+ 2)2
2Vv2
-
2
dv
(4.5)
ÿ 2ÿvVv
0
onde v é a variância e Vv é a variância de segunda ordem, muitas vezes chamada de volatilidade da
volatilidade. Graças à integração por partes podemos usar a transformada de Fourier para obter todas as
variedades de resultados (ver Gatheral [102]). Mas a ausência de uma distribuição de forma fechada pode
ser remediada da seguinte forma, com a utilização de distribuições para a variância que sejam analiticamente
mais tratáveis.
1
Pr.
Gama4, 4
Gama 1,1 vs. Variância Estocástica Lognormal
1,0
vs. Variância Estocástica Lognormal, ÿ4
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
EM
1
2
4
3
1
5
2
4
3
5
Figura 4.2: Variância Estocástica: Distribuição gama e Lognormal de mesma média e variância.
Variância Gama A distribuição gama aplicada à variância de uma Gaussiana é um atalho útil
para uma distribuição completa da variância, o que nos permite ir além do escopo restrito da
heurística [36]. É mais fácil de manipular analiticamente do que o Lognormal.
Suponha que a variância do Gaussiano siga uma distribuição gama.
-
em
ÿa(v) =
V com média V e variância ÿ
a
aÿ1 ( V a )ÿa e
de
EM
C(a)
. A Figura 4.2 mostra a correspondência com um lognormal com
mesmos dois primeiros momentos em que calibramos o lognormal para significar
1 2log
( aV3
aV+1) e desvio padrão ÿ ÿ log ( aV aV+1) . A distribuição final torna-se (uma vez
novamente, assumindo a mesma média de uma situação de volatilidade fixa:
ÿ
então, V(x) = ÿ0
e
-
(xÿµ)
2v
2
ÿa(v)dv, ÿ
2ÿ ÿ v
(4.6)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
70 caudas gordas univariadas, nível 1, momentos finitos†
Gaussiano com variação gama
Figura 4.3: Variância
Estocástica usando
distribuição Gama
perturbando ÿ na
equação 4.7.
4
2
2
0
4
Naquela hora:
3
24 -
a
2a2
a
1+
4V-
a
2
1
-
4 |x ÿ µ|
1a- _
2 Ka ÿ 1
2 ( ÿ 2 xÿµ|
ÿ a| ÿ V .)
fÿ,V(x) =
ÿÿ (uma)
(4.7)
onde Kn(z) é a função Bessel K, que satisfaz a equação diferencial ÿy ( n Vamos agora nos
22+z
) + z 2y “ + zyÿ = 0.
aprofundar nas diferentes formas de volatilidade estocástica.
4.2 a volatilidade estocástica gera leis de potência?
Ainda não definimos leis de potência; tome por enquanto a condição de que pelo menos um dos
momentos seja infinito.
E a resposta: depende se estamos estocastizando ÿ ou ÿ do outro.
ou 1 ou 1
p
2
por um lado,
2 p.
Suponha que a distribuição base seja a Gaussiana, a variável aleatória X ÿ N (µ, ÿ).
Agora, existem diferentes maneiras de tornar ÿ, a escala, estocástica. Observe que, como ÿ não é
negativo, precisamos que ele siga alguma distribuição unicaudal.
2 • Podemos fazer ÿ
(ou, possivelmente ÿ) seguem uma distribuição Lognormal. Não produz
soluções de forma fechada, mas podemos obter os momentos e verificar que não é uma lei
de potência.
2
• Podemos fazer ÿ
(ou ÿ) seguem uma distribuição gama. Ele rende fechado
formar soluções, como vimos no exemplo acima, na Eq. 4.7.
• Podemos fazer
1
2 p.
• Podemos fazer
1
2p .
—o parâmetro de precisão—segue uma distribuição gama.
segue uma distribuição lognormal.
Os resultados mostrados na Tabela 4.1 provêm das seguintes propriedades simples de funções
de densidade e operadores de expectativa. Seja X qualquer variável aleatória com
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.3 o corpo, os ombros e as caudas 71
Tabela 4.1: Transformações para volatilidade estocástica. Podemos ver pela densidade das transformações
1
se tivermos uma lei de potência em mãos. LN, N , G e P que são Lognormal, Normal, Gamma e
x
ou ÿ1
x distribuições de Pareto, respectivamente.
distribuição
1
p(x)
(mÿlog(x))2
2s
-
e
LN (m,s)
p ( 1x )
p(
(m+log(x))2
2s
-
e
2 ÿ 2ÿsx
ÿ x)
(m+2log(x))2
2s 2
-
ÿ2
e- p
sexo
2 ÿ 2ÿsx
2
2
-
e
N (m,s)
(mÿx)
2s
2
aÿ1
b ÿax e ÿ(a)
ÿ2
Pi
2s 2
e
sx3
2 ÿ 2ÿsx2
-
ÿaÿ1
b ÿax e
xb
1
1
-
ÿ2aÿ1
2b ÿax e ÿ(a) 2ÿÿ1 bx2
caixa
ÿ(a)
1ÿxÿÿ
ÿÿÿ1
ÿx
P(1, uma)
-
2s
e
2 ÿ 2ÿs
G(a,b)
(mÿ 1 x2 )
(m ÿ 1x )
-
2ÿx
Tabela 4.2: Os momentos p das possíveis distribuições de variância
distribuição
E (X p )
LN (m,s)
emp + 2p 2
E((
P(1, uma)
bp ( a)p
ÿ
ÿÿp
E((
)p)
1
2s
G(a, b)
1
X
1ÿ X
_
)p)
1
e 2p (ps2ÿ2m)
e 8p (ps2ÿ4m)
(ÿ1)p b ÿp
(1ÿa)p , p < a fughedabaudit
2ÿ
, p < uma
2ÿ+p
um a + p
PDF f(.) na família de escala de localização, e ÿ qualquer variável aleatória com PDF g(.); X e ÿ são
considerados independentes. Visto que pelos resultados padrão, os momentos de ordem p para o produto
X
e a razão
eu
são:
E ( (Xÿ) p ) = E (X p ) E (ÿ p )
e
E ((
ÿ )p) = E (( 1 ÿ )p) E(X p ).
(através da transformada de Mellin).
Observe que como propriedade da família em escala de
x
1l fx
x_
_
eu
eu
) = fx(
x
eu
) então, por exemplo, se
( ÿ N (0, p).
localização, x ÿ N (0, 1) (ou seja, normalmente distribuída), então
p
4.3 o corpo, os ombros e as caudas
Onde começam as caudas?
Assumimos que as caudas começam no nível de convexidade do segmento da distribuição de
probabilidade até a escala da distribuição – em outras palavras, afetadas pelo efeito da volatilidade
estocástica.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
72 caudas gordas univariadas, nível 1, momentos finitos†
4.3.1 Os Crossovers e o Efeito Túnel.
Observe na Figura 4.4 uma série de zonas de cruzamento, invariantes a a. As distribuições
chamadas de "formato de sino" têm uma forma convexa-côncava-convexa (ou quase côncava).
Seja X uma variável aleatória com distribuição com PDF p(x) de uma classe geral
de todas as PDFs contínuas unimodais de um parâmetro pÿ com suporte D ÿ R e
parâmetro de escala ÿ. Seja p(.) quase côncavo no domínio, mas nem convexo nem
côncavo. A função de densidade p(x) satisfaz: p(x) ÿ p(x + ÿ) para todo ÿ > 0, e
ÿ
com x ÿ = argmaxx p(x)
x > x ÿ e p(x) ÿ p(x ÿ ÿ) para todo x < x
p (ÿ x + (1 ÿ ÿ) y) ÿ min (p(x), p(y)).
A- Se a variável for “bicaudal”, ou seja, seu domínio de suporte D= (-ÿ,ÿ), e onde p
d (x) ÿ p(x,ÿ+ÿ)+p(x,ÿÿÿ) ,
2
1. Existe um túnel interno de "pico alto", AT= ( a2, a3) para o qual o ÿ -perturbado ÿ
da distribuição de probabilidade p d (x)ÿp(x) se x ÿ ( a2, a3)
2. Existem túneis externos, as “caudas”, para as quais p d (x)ÿp(x) se x ÿ (ÿÿ, a1 )
ou x ÿ (a4 , ÿ)
3. Existem túneis intermediários, os "ombros", onde p (a1 , a2 )
ou x ÿ (a3, a4 )
d
(x)ÿ p(x) se x ÿ
0,6
“Pico”
(a2, a3
0,5
“Ombros”
0,4
a1, a2,
a3, a4
0,3
a
Cauda direita
Cauda esquerda
0,2
0,1
a1
4
2
a2
a3
a4
2
4
Figura 4.4: Onde começam as caudas? Mais e mais gordo falham através da perturbação do parâmetro de escala ÿ
para um Gaussiano, tornado mais estocástico (em vez de ser fixo). Algumas partes da distribuição de probabilidade
ganham densidade, outras perdem. Eventos intermediários são menos prováveis, eventos de cauda e desvios
moderados são mais prováveis. Podemos identificar os cruzamentos de a1 a a4. As "caudas" propriamente ditas
começam em a4 à direita e a1 à esquerda.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.3 o corpo, os ombros e as caudas 73
O Problema do Cisne Negro: Como vimos, não se trata apenas de que os eventos nas
caudas das distribuições sejam importantes, aconteçam, desempenhem um papel
importante, etc. computável, não confiável para qualquer uso eficaz. A implicação é que os
Cisnes Negros não vêm necessariamente de caudas gordas; O problema pode resultar de
uma avaliação incompleta dos eventos finais.
ÿ 2p (x)
Seja A = {ai} o conjunto de soluções { x :
ÿÿ 2 |a= 0} .
Para o Gaussiano (µ, ÿ), as soluções obtidas definindo a segunda derivada em
relação a ÿ como 0 são:
-
e
2 (xÿµ)
2s 2 ( 2s
4 2 - 5p
2
(x ÿ µ)
+ (x ÿ µ)
4
) = 0,
ÿ 2ÿÿ7
que produz os seguintes cruzamentos:
2
2
(4.8)
{a1 , a2, a3, a4} = { µ ÿ ÿ 1 ( 5 ÿ ÿ 17) ÿ, µ ÿ ÿ 1 ( 5 + ÿ 17) ÿ, µ + ÿ 1
2
2 ( 5 ÿ ÿ 17) ÿ, µ + ÿ 1
( 5 + ÿ 17) p }
Na figura 4.4, os cruzamentos para os intervalos são numericamente {ÿ2,13ÿ, ÿ0,66ÿ, 0,66ÿ, 2,13ÿ}.
Quanto a uma lei de potência simétrica(como veremos mais adiante) a Distribuição T de Student
masção com escala s e expoente final ÿ:
uma+1
2
x2
p(x) ÿ
( aum+ é2 )
1
2, 2 )
ÿ ÿsB ( uma
ÿ 5ÿÿ ÿ (ÿ+1)(17ÿ+1)+1
a-1
{a1 , a2, a3, a4} = { -
é
,
-
ÿ 5a+ ÿ (a+1)(17a+1)+1
a-1
ÿ2
,
ÿ2
ÿ 5aÿ ÿ (a+1)(17a+1)+1
a-1
é
,
ÿ 5a+ ÿ (a+1)(17a+1)+1
a-1
ÿ2
onde B(.) é a função Beta B(a, b) = ÿ(a+b)
é
ÿ(a)ÿ(b)
ÿ2
1
= ÿ 0 dttaÿ1 (1 ÿ t) b-1 .
Quando o Aluno é “cúbico”, ou seja, ÿ = 3:
{a1 , a2, a3, a4} = { ÿ ÿ 4 ÿ ÿ 13s, ÿ ÿ 4 + ÿ 13s, ÿ 4 ÿ ÿ 13s, ÿ 4 + ÿ 13s }
é
}
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
74 caudas gordas univariadas, nível 1, momentos finitos†
Em resumo, onde começa a cauda?
Para uma classe geral de distribuições simétricas com leis de potência, a cauda começa ÿ 5ÿ+ ÿ (ÿ+1)
é
a-1
em: ± (17ÿ+1)+1
ÿ2
, com ÿ infinito no caso gaussiano de volatilidade estocástica
onde s é o desvio padrão. A "cauda" está localizada entre cerca de 2
e 3 desvios padrão. Isto decorre da nossa definição: qual parte da distribuição é convexa
aos erros na estimativa da escala.
Mas, na prática, como as medições históricas de DST serão tendenciosas para baixo devido
aos pequenos efeitos amostrais (à medida que repetimos caudas grossas acentuando os efeitos
de pequenas amostras), os desvios serão > 2-3 DSTs.
3,0
2
11
ÿxÿ
Pi
+2
Figura 4.5: Comparamos o
comportamento de ÿ K + x 2
e K + |x|. A diferença entre
as duas funções de
ponderação aumenta para
valores grandes da variável
aleatória x, o que explica a
divergência das duas (e,
mais geralmente, dos
momentos mais elevados) sob caudas gordas
1 + x2
2,5
2,0
1,5
x
-3
-2
-1
1
2
3
Podemos verificar que quando ÿ ÿ ÿ, os cruzamentos passam a ser gaussianos. Por exemplo,
para a1 :
é
ÿ 5ÿÿ ÿ (ÿ+1)(17ÿ+1)+1
limÿÿÿ ÿ
a-1
= ÿ ÿ 1 2 (5 ÿ ÿ 17)s
ÿ2
B- Para alguma distribuição unicaudal que possui um "formato de sino" de formato convexocôncavo-convexo, sob algumas condições, os mesmos 4 pontos de cruzamento são válidos. O
Log-normal é um caso especial.
1
2
( 2µÿ ÿ 2 ÿ 5ÿ 2ÿ ÿ 17ÿ 2 )
{a1 , a2, a3, a4} = { e 2
e
(1 2µÿ ÿ 2 ÿÿ 17ÿ 2+5ÿ 2 )
,e
,
1
2
( 2µ+ ÿ 2 ÿ 5ÿ 2ÿ ÿ 17ÿ 2 )
1
,e 2 ( 2µ+ ÿ 2 ÿÿ 17ÿ 2+5ÿ 2 )}
Parâmetros Estocásticos O problema das distribuições elípticas é que elas não mapeiam o
retorno dos títulos, devido à ausência de uma única variância em qualquer momento, ver
Bouchaud e Chicheportiche (2010) [42]. Quando a balança do dis-
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4,4 caudas gordas, desvio médio e normas crescentes 75
as atribuições dos indivíduos se movem, mas não em conjunto, a distribuição deixa de ser
elíptica. A Figura 6.2 mostra o efeito da aplicação do equivalente aos métodos de volatilidade
estocástica: a correlação estocástica mais incômoda. Em vez de perturbar a matriz de
correlação ÿ como uma unidade como na seção 6, perturbamos as correlações com efeito
surpreendente.
4.4 caudas gordas, desvio médio e normas crescentes
A seguir discutiremos o uso brutal do desvio padrão e sua interpretação.
4.4.1 Os Erros Comuns
Começamos observando o desvio padrão e a variância como propriedades de momentos
mais elevados. Agora, o que é desvio padrão? Parece que a mesma confusão sobre caudas
gordas poluiu a nossa compreensão do desvio padrão.
A diferença entre o desvio padrão (assumindo média e mediana de
2 e desvio médio absoluto MAD =
1n ÿ|xi |
0 para simplificar) ÿ = ÿ 1 n ÿx
aumenta sob caudas gordas, como pode ser visto na Figura 4.5 . Isso pode fornecer
uma abordagem conceitual para a noção.
eu
Dan Goldstein e o autor [113] colocam a seguinte questão aos profissionais de investimento
e estudantes de pós-graduação em engenharia financeira – pessoas que trabalham com
riscos e desvios o dia todo.
Uma ação (ou fundo) tem um retorno médio de 0%. Movimenta em média 1% ao dia em valor
absoluto; o movimento médio para cima é de 1% e o movimento médio para baixo é de 1%.
Isso não significa que todos os movimentos ascendentes sejam de 1% – alguns são de 0,6%, outros de 1,45% e assim
por diante.
Suponha que vivamos no mundo gaussiano, no qual os retornos (ou movimentos percentuais
diários) podem ser modelados com segurança usando uma distribuição normal. Suponha que
um ano tenha 256 dias úteis. Qual é o seu desvio padrão dos retornos (que
STDMAD
1.7
Figura 4.6: A relação STD/
MAD para os retornos diários
do SP500 nos últimos 47 anos,
visto com uma janela móvel
mensal. Podemos considerar
ÿ 1,253 (como
1.6
1,5
1.4
2
o nível ÿ ÿ
aproximadamente o valor dos
desvios gaussianos), como
1.3
1.2
ponto de corte para cauda gorda.
1.1
Tempo
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
76 caudas gordas univariadas, nível 1, momentos finitos†
ÿ
é, dos movimentos percentuais), o AIJsigma que é usado para volatilidade em
aplicações financeiras?
Qual é o desvio padrão diário?
Qual é o desvio padrão anual?
Como o leitor pode ver, a questão descreve o desvio médio. E as respostas estavam
esmagadoramente erradas. Para a pergunta diária, quase todos responderam 1%. No entanto,
uma variável aleatória gaussiana que tem um movimento percentual diário em termos
absolutos de 1% tem um desvio padrão superior a isso, cerca de 1,25%. Deve chegar a 1,7%
nas distribuições empíricas. A resposta mais comum para a pergunta anual foi cerca de 16%,
o que representa cerca de 80% do que seria a resposta verdadeira.
Os profissionais estavam dimensionando a volatilidade diária para a volatilidade anual
multiplicando por ÿ 256, o que é correto, desde que se tenha a volatilidade diária correta.
Portanto, os sujeitos tendiam a fornecer MAD como intuição para DST. Quando profissionais
envolvidos nos mercados financeiros e continuamente expostos a noções de volatilidade falam
sobre desvio padrão, eles usam a medida errada, o desvio médio absoluto (MAD) em vez do
desvio padrão (STD), causando uma subestimação média entre 20 e 40%. Em alguns
mercados, pode chegar a 90%. Além disso, os respondentes raramente pareciam compreender
imediatamente o erro quando este lhes era apontado. No entanto, quando solicitados a
apresentar a equação do desvio padrão, eles efetivamente a expressaram como a raiz média
do desvio quadrático médio. Alguns ficaram intrigados porque não sabiam da existência do
MAD.
Porque é que isto é relevante: Aqui temos decisores a andar por aí a falar sobre “volatilidade”
e sem saberem bem o que isso significa. Notamos alguns trechos na imprensa financeira
nesse sentido em que o jornalista, ao tentar explicar o “VIX”, ou seja, o índice de volatilidade,
comete o mesmo erro. Até o site do departamento de comércio definiu mal a volatilidade.
Além disso, há uma subestimação, uma vez que o MAD é, pela desigualdade de Jensen,
inferior (ou igual) ao STD.
Como a proporção aumenta Para um gaussiano a proporção é ÿ 1,25, e aumenta a partir daí com
caudas grossas.
Exemplo: pegue uma distribuição de cauda extremamente grossa, com , observações são
,
n = 106 todos -1, exceto um único de 106
X = { ÿ1, ÿ1, ..., ÿ1, 106 } .
O desvio médio absoluto, MAD (X) = 2. O desvio padrão STD (X)=1000.
A razão entre o desvio padrão e o desvio médio é 500.
4.4.2 Algumas análises
A proporção para caudas finas Como uma heurística útil, considere a proporção h:
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.4 caudas gordas, desvio médio e normas crescentes 77
h = ÿ E (X2) ,
E(|X|)
onde E é o operador de expectativa (sob a medida de probabilidade de preocupação e
X é uma variável centrada tal E(x) = 0); a proporção aumenta com a cauda gorda
1
p.
p ))
da distribuição; (O caso geral corresponde a E(|x|) , p > 1, sob(E(x
a condição de que a
distribuição tenha momentos finitos até n, e o caso especial aqui n = 2).6
Simplesmente, x p é um operador de ponderação que atribui um peso,
pÿ1 ,
que é grande para
x valores grandes de X e pequeno para valores menores.
O efeito é devido ao diferencial de convexidade entre ambas as funções, |X| é peçalinear sábio e perde o efeito de convexidade, exceto por uma zona ao redor da origem.
Desvio Médio versus Desvio Padrão, mais técnico Por que [REDIGIDO] a ciência
estatística escolheu STD em vez de Desvio Médio? Aqui está a história, com derivações
analíticas aparentemente não disponíveis na literatura. Em Huber [131]:
Houve uma disputa entre Eddington e Fisher, por volta de 1920, sobre os
méritos relativos de dn (desvio médio) e Sn (desvio padrão). Fisher então
apontou que para observações exatamente normais , Sn é 12% mais eficiente
que dn, e isso pareceu resolver a questão. (Minha ênfase)
Vamos derivar novamente e ver o que Fisher quis dizer.
Seja n o número de somas:
Eficiência Relativa Assintótica (ARE) = limnÿÿ (V(Std)E(Padrão)2 / V E(Comida)
(louco) 2 )
Suponha que temos certeza de que Xi , os componentes da amostra, seguem uma
distribuição gaussiana, normalizada para média = 0 e desvio padrão de 1.
Erro de Desvio Padrão Relativo A função característica ÿ1 (t) da distribuição
2
ÿ
2 butão de x : ÿ1 (t) = ÿ
-
e
x
2
+fechar2
ÿ
2ÿ f , a pdf para n somas torna-se:
1
fZ(z) =
ÿÿ
ÿÿ
. Com o desvio quadrático z = x
1 ÿ 1ÿ2isto
1
ÿ
2ÿÿ _
dx =
exp(ÿitz) (
ÿ 1 ÿ 2it )n dt =
n
2ÿ2e
-
zn 2 de
2
ÿ1
, z > 0.
C ( n2 )
6 A palavra momento “infinito” é muito ambígua, é melhor apresentar o problema como momento “indefinido” no
sentido de que depende da amostra e não se replica externamente. Digamos que, para uma distribuição
bicaudal (ou seja, com suporte na linha real), a designação de variância “infinita” pode ser aplicada ao quarto
momento, mas não ao terceiro.
2
,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
78 caudas gordas univariadas, nível 1, momentos finitos†
21ÿ
Agora pegue y = ÿ z, fY(y) =
n
2e
2
2 z n-1
Com
-
, z > 0, que corresponde ao Chi
C( n2 )
Distribuição com n graus de liberdade. Integrando para obter a variância: Vstd(n) = V(Std)
2
2 ) ÿ 2ÿ( n+1 2 )
n- _ 2ÿ( n+1
2 . E, com a média igualando ÿ( n 2 ) ÿ( n
,
2)
Nós temos
2
=
E(Padrão)2
nÿ( n
2
ÿ 1.
2 ) 2ÿ( n+1 2 )
Função característica de erro de desvio médio relativo novamente para |x| é o de uma distribuição
Normal dobrada, mas vamos refazê-la:
ÿ
ÿ2(t) = ÿ
-
0ÿ2
e- p
x2
2
+
t
2
itx = e
toneladas
-
2 ( 1 + eu erfi (
2 )), onde erfi é o erro imaginário
ÿ
função é f(iz)/i.
O primeiro momento: M1 = ÿi
M2 1
Pi
2n 2 ( 1 + i erfi
2
-
.
ÿ 2n )))n t=0 = ÿ 2
t
( ÿt 2 ( e 2n 2 ( 1 + eu erfi ( ÿ 2n )))n t=0
2ÿ2
O segundo momento, M2 = (ÿi)
E(Comida)
toneladas
-
ÿt 1 ( e
Por isso, V (louco)2 = M2-M21 =
t
2
ÿ
toneladas
=
2n+ÿÿ 2ÿn
.
ÿÿ2
2n .
Finalmente, a eficiência relativa assintótica para um gaussiano
2
2)
2
SÃO = limnÿÿ
n ( nÿ( n2 )
ÿ2 )
C( n+1 ÿ ÿ 2
=
1
ÿÿ2
ÿ 0,875
o que significa que o desvio padrão é 12,5% mais “eficiente” do que o desvio médio, condicionado
aos dados serem gaussianos e esses caras acreditaram no argumento. Exceto que a menor
contaminação aumenta a proporção. Mostraremos mais tarde por que a Norma ÿ 2 não é apropriada
para quase nada; mas por enquanto vamos dar uma olhada no quão frágil é a DST.
4.4.3 Efeito das caudas mais gordas na "eficiência" do STD vs MD
Considere um modelo de mistura padrão para volatilidade com um salto ocasional com probabilidade
p. Alternamos entre gaussianas (mantendo a média constante e central em 0) com:
2
V(x) = { p
(1 + uma)
2p .
com probabilidade p
com probabilidade (1 ÿ p)
Para facilitar, uma simples simulação de Monte Carlo serviria. Usando p = 0,01 e n = 1000...
A Figura 4.8 mostra como a=2 causa degradação. Uma presença mínima de valores discrepantes
torna o MAD mais “eficiente” que o STD. Pequenos “outliers” de 5 desvios padrão fazem com que o
MAD seja cinco vezes mais eficiente.7
7 A maneira natural é centralizar o MAD em torno da mediana; achamos mais informativo para muitos de nossos propósitos
aqui (e para a teoria da decisão) centralizá-lo em torno da média. Notaremos quando a centralização estiver em torno da
média.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.4 caudas gordas, desvio médio e normas crescentes 79
Figura 4.7: Harald Cramér, da
condição Cramer, e o problema da
ruína.
RÉ
8
Figura 4.8: Uma simulação
do índice de eficiência
relativa do desvio padrão
sobre o desvio médio ao
injetar um tamanho de
salto ÿ (1 + a) × ÿ, como
um múltiplo de ÿ o desvio padrão.
6
4
2
a
5
10
15
4.4.4 Momentos e a desigualdade da média de poder
Seja X ÿ (xi)n
eu=1,
n i=1|xi | p
ÿXÿpÿ ( ÿ n )1/p
20
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
80 caudas gordas univariadas, nível 1, momentos finitos†
Figura 4.9: Desvio médio
(azul) versus desvio padrão
(amarelo) para uma lei de
potência de variância finita.
O resultado é esperado (MD
é a distribuição mais fina),
complicado pelo fato de que
o desvio padrão tem uma
0,15
0,10
0,05
0,00
1
2
4
3
5
variância infinita, uma vez
que o quadrado de uma
variável aleatória Paretiana
com expoente ÿ é Paretiano
com1 2um expoente de ÿ.
Neste exemplo, o desvio
médio do desvio padrão é 5 vezes maior.
0,035
0,030
0,025
Figura 4.10: Para um
Gaussiano, há uma pequena
diferença na distribuição
0,020
entre MD e STD (ajustando
para a média para fins de
visualização).
0,015
0,010
0,005
0,000
0,6
0,7
0,8
0,9
1.1
1,0
Para qualquer 1 ÿ p < q a seguinte desigualdade é válida:
ÿ
p ÿeu=1
n
(4.9)
ÿ wi |xi | q
eu=1
wi |xi | p ÿ q ÿ n
onde os pesos positivos somarão a unidade. (Observe que evitamos p < 1 porque
não satisfaz a desigualdade triangular).
Prova. A prova para p e q positivos é a seguinte: Defina a seguinte função: f:
q
R + ÿ R + ; f(x) = x p . f é uma função potência, então tem uma segunda derivada:
p ) ( q ÿp 1 ) x
f ”(x)=(q
q
ÿ2p
_
que é estritamente positivo dentro do domínio de f , já que q > p, f é convexo. Por isso,
n
p
pela desigualdade de Jensen: f ( ÿeu=1 wix e ) ÿ ÿ
n
eu=1 com f(x
p ), então
eu
p
ÿ
q ÿeu=1
n
p
wix eu
n
ÿ ÿ i=1 wix
depois de elevar ambos os lados à potência de 1/q (uma função crescente, já que 1/q é
positivo), obtemos a desigualdade.
q
eu
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.4 caudas gordas, desvio médio e normas crescentes 81
O que é crítico para o nosso exercício e para o estudo dos efeitos das caudas gordas é que, para uma
determinada norma, a dispersão dos resultados aumenta os valores. Por exemplo, considere uma
distribuição plana, X= {1, 1}. ÿXÿ1 =ÿXÿ2 =... =ÿXÿn = 1. Perturbar enquanto preserva
ÿXÿ1 , X = { 1
3
2 , 2 } produz normas mais elevadas crescentes:
{ÿXÿn }
5
n=1
ÿ5
= {1,
ÿ5 61
ÿ4 41
ÿ3
,
2
,
(4.10)
,
2
7 2 2/3
2 4/5 }.
Tentando novamente, com uma difusão mais ampla, obtemos valores ainda mais elevados das normas, X =
7
{ 14 , 4 } ,
ÿ
ÿ
{||X||n}
5
n=1
2
3 ÿ 43
5
=
1,
ÿÿÿ
4
,
2
ÿ4 1201
,
ÿ5 2101
,
4
2 × 2 3/5
ÿÿÿ
.
(4.11)
ÿÿÿ
ÿÿÿ
Assim, podemos ver (removendo restrições e/ou permitindo valores negativos) como os momentos
mais elevados se tornam rapidamente explosivos.
Uma propriedade bastante útil com leis de potência com momento infinito:
n
ÿXÿÿ = sup (|xi |)
(4.12)
eu=1
Caso Gaussiano Para um Gaussiano, onde x ÿ N(0, ÿ), como assumimos que a média é
0 sem perda de generalidade,
Seja E(X) o operador de expectativa para X,
E ( X 1/p )
E(|X|)
pÿ3 = 2
2 ((ÿ1)p + 1) ÿ pÿ1ÿ ( p + 1 2 )
ou alternativamente
E (X p )
E(|X|)
página 2
1 = 22
2 (pÿ3) (1 + (ÿ1)p ) ( 1 p 2 )1
ÿ
onde ÿ(z) é a função gama de Euler; ÿ(z) = ÿ a razão é 0. Para 0
momentos pares:
E (X
2
)
= ÿp 2
E (|X|)
p
por isso
ÿ E (X2)
E (|X|)
=
DST
Médico
= ÿp 2
C ( p +21)
zÿ 1t
(4.13)
e -tdt. Para momentos estranhos,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
82 caudas gordas univariadas, nível 1, momentos finitos†
3p .
Quanto ao quarto momento, é igual a 3 ÿÿ 2
.
Para uma distribuição da Lei de Potência com expoente final ÿ=3, digamos um Estudante T
ÿ E (X2)
E (|X|)
=
DST
=
Pi
2
Médico
Voltaremos a outras métricas e definições de caudas gordas com distribuições da Lei de
Potência quando os momentos são ditos “infinitos”, ou seja, não existem. Nossa heurística
de usar a razão entre os momentos e o desvio médio funciona apenas na amostra, não
fora dela.
Caso Pareto Para uma distribuição Pareto padrão com valor mínimo (e escala) ÿ ÿ
euÿ ÿ2
L, PDF f(x) = ÿL ÿx ÿÿÿ1 e desvio padrão
DST
Médico
umaÿ1 ,
1
=
2 ÿ ÿ ÿ 2(ÿ ÿ 1)ÿÿ1ÿ
1 - um
Nós temos
,
(4.14)
2
centralizando em torno da média.
Momentos "infinitos" Momentos infinitos, digamos variância infinita, sempre se manifestam
como números computáveis na amostra observada, produzindo momentos finitos de todas
as ordens, simplesmente porque a amostra é finita. Uma distribuição, digamos, Cauchy,
com médias indefinidas sempre fornecerá uma média mensurável em amostras finitas;
mas amostras diferentes fornecerão meios completamente diferentes. As Figuras 4.11 e
4.12 ilustram o efeito “deriva” dos momentos com o aumento da informação.
X
MT
UMA, x
4
3
Figura 4.11: Média de uma
série com média indefinida
(Cauchy).
2
1
T
2000
4000
6.000
8.000
10.000
1
2
4.4.5 Comentário: Por que deveríamos retirar o desvio padrão agora!
A noção de desvio padrão confundiu hordas de cientistas; é hora de retirá-lo do uso
comum e substituí-lo pelo mais eficaz, de desvio médio. O desvio padrão, STD, deveria
ser deixado para matemáticos, físicos e
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.4 caudas gordas, desvio médio e normas crescentes 83
X
MT
2
UMA, x
4,0
Figura 4.12: A raiz quadrada
do segundo momento de
uma série com variância
infinita. Observamos
pseudoconvergência antes de um salto.
3.5
3,0
T
2000
4000
6.000
8.000
10.000
estatísticos matemáticos derivando teoremas de limite. Não há razão científica para utilizálo em investigações estatísticas na era do computador, pois faz mais mal do que bem especialmente com a crescente classe de pessoas nas ciências sociais que aplicam
mecanicamente ferramentas estatísticas a problemas científicos.
Digamos que alguém acabou de lhe pedir para medir as “variações médias diárias” da
temperatura da sua cidade (ou do preço das ações de uma empresa, ou da pressão arterial
do seu tio) nos últimos cinco dias. As cinco alterações são: (-23, 7, -3, 20, -1). Como você
faz isso?
Você faz todas as observações: eleva ao quadrado, calcula a média do total e depois tira
a raiz quadrada? Ou você remove o sinal e calcula a média? Pois existem sérias diferenças
entre os dois métodos. O primeiro produz uma média de 15,7, o segundo 10,8. O primeiro é
tecnicamente chamado de desvio quadrático médio. O segundo é o desvio médio absoluto,
MAD. Corresponde à “vida real” muito melhor que a primeira – e à realidade. Na verdade,
sempre que as pessoas tomam decisões depois de receberem o número do desvio padrão,
elas agem como se fosse o desvio médio esperado.
Tudo se deve a um acidente histórico: em 1893, o grande Karl Pearson introduziu o termo
“desvio padrão” para o que era conhecido como “raiz do erro quadrático médio”. A confusão
começou então: as pessoas pensavam que isso significava um desvio médio. A ideia pegou:
sempre que um jornal tentava clarificar o conceito de “volatilidade” do mercado, definia-o
verbalmente como desvio médio, mas produzia a medida numérica do desvio padrão (maior).
Mas não são apenas os jornalistas que caem no erro: lembro-me de ter visto documentos
oficiais do Departamento de Comércio e da Reserva Federal participando na fusão, até
mesmo reguladores em declarações sobre a volatilidade do mercado. O que é pior, Goldstein
e eu descobrimos que um grande número de cientistas de dados (muitos com PhDs)
também ficam confusos na vida real.
Tudo vem de uma terminologia ruim para algo não intuitivo. Por um fenômeno psicológico
chamado substituição de atributos, algumas pessoas confundem MAD com DST
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
84 caudas gordas univariadas, nível 1, momentos finitos†
porque o primeiro é mais fácil de lembrar – este é "Lindy"8, como é bem conhecido pelos trapaceiros
e ilusionistas.
1) MAD é mais preciso em medições de amostras e menos volátil que STD, pois é um peso natural,
enquanto o desvio padrão usa a própria observação como seu próprio peso, conferindo grandes pesos
a grandes observações, superando assim os eventos de cauda.
2) Freqüentemente usamos STD em equações, mas na verdade acabamos reconvertendo-o dentro
do processo em MAD (digamos, em finanças, para precificação de opções). No mundo gaussiano, DST
é cerca de 1,25 vez MAD, ou seja, ÿÿ 2 . Mas nos ajustamos com a volatilidade estocástica
onde o DST costuma chegar a 1,6 vezes o MAD.
3) Muitos fenômenos e processos estatísticos têm "variância infinita" (como a popular regra de Pareto
80/20), mas têm desvios médios finitos e, às vezes, muito bem comportados. Sempre que existe a
média, existe MAD. O inverso (MAD infinito e STD finito) nunca é verdadeiro.
4) Muitos economistas rejeitaram modelos de “variância infinita”, pensando que estes significavam
“desvio médio infinito”. Triste mas verdadeiro. Quando o grande Benoit Mandel-brot propôs os seus
modelos de variância infinita há cinquenta anos, os economistas surtaram por causa da fusão.
É triste que um ponto tão insignificante possa levar a tanta confusão: as nossas ferramentas
científicas estão muito à frente das nossas intuições casuais, o que começa a ser um problema
para a ciência. Assim, termino com uma declaração de Sir Ronald A. Fisher: “O estatístico
não pode fugir à responsabilidade de compreender o processo que aplica ou recomenda”.
Nota A teoria usual é que se variáveis aleatórias X1 , . . . , Xn são independentes, então
V(X1 + · · · + Xn) = V(X1 ) + · · · + V(Xn).
pela linearidade da variância. Mas então assume que não se pode usar outra métrica e então, por
simples transformação, torná-la aditiva9 . Como veremos, para o
Gaussiano md(X) = ÿ 2
é 2 , etc.
Pi
ÿ —para o Student T com 3 graus de liberdade, o fator
pág.
8 Ver uma definição de "Lindy" em 5.0.2 9 Por
exemplo, a precificação de opções na fórmula Black-Scholes é feita usando variância, mas o preço é mapeado diretamente para MAD; um straddle no
dinheiro é apenas um desvio médio condicional. Então, traduzimos MAD em desvio padrão e depois de volta para MAD
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.4 caudas gordas, desvio médio e normas crescentes 85
1,0
p=1
0,5
Figura 4.13: Normas crescentes e círculo/
quadrado unitário: valores da iso-norma
p=3
2
0,0
p
x2| dentro
p )1/p = 1. Notamos a área ( |x1| + |
da norma (ou seja, satisfazendo a norma ÿ 1),
p=2
p=4
-0,5
=ÿ
4ÿ p )2
( p+1 com v(1) = 2 e v(ÿ) = 4. v(p)
( p+2 p ) ,
p=ÿ
-1,0
-1,0
-0,5
0,0
0,5
1,0
Figura 4.14: Normas
ascendentes e cubo unitário:
valores da iso-norma
( | p + |x2| p + |x3| p )1/p =
3
x1| 1 para p = 1,
2 , 2, 3, 4 e
ÿ. O volume que satisfaz a
norma da desigualdade ÿ 1
aumenta para 43 para p = 1,
4p3
_
para p = 2 (a esfera
3
unitária), para
2 para p = ÿ
(o cubo unitário), um
aumento muito maior do
que na Figura 4.13 . Podemos
ver a operação da maldição
da dimensionalidade no
volume cada vez menor
para p = 1, em relação ao máximo quando p
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
86 caudas gordas univariadas, nível 1, momentos finitos†
ÿ
Normas e Dimensionalidade
CEO
Registro
1
CEO
Figura 4.15: A maldição da
dimensionalidade, com aplicações
yuuuuge em áreas estatísticas,
particularmente erro de modelo
em dimensões superiores.
À medida que d aumenta, a
proporção de 1 V sobre V ÿ
10142
1092
aumenta. Se para d = 2 for 2 já
são seis algarismos para d = 9.
1042
Registro
5
10
50
d 100
4.5 visualizando o efeito do aumento de p nas iso-normas
Considere a região R (n) a
(P)
definido como X = (x1, . . . , xn) :ÿ ( ÿ
n
x
eu = 1 eu
p
)1/p ÿ 1, com
fronteira definida pela identidade. À medida que a norma aumenta, calculamos a seguinte medida da
bola:
1
EMp
n =ÿ...ÿ
XÿR
(n)
(n)
1dX =
( 4ÿ ( 1 +
p ))n
ÿ ( np+ 1 )
As Figuras 4.13 e 4.14 mostram dois efeitos.
A primeira é como as normas emergentes ocupam uma parcela maior do espaço.
A segunda nos dá uma dica da maldição da dimensionalidade, útil em muitas circunstâncias (e,
principalmente, para erros de modelo). Compare as figuras 4.13 e 4.14: você notará que no primeiro
caso, para d = 2, p = 1, m ocupa metade da área do quadrado,
com p = ÿ tudo isso. A proporção das normas é 2 . Mas1 para d = 3, p = 1 ocupa 2 3 do espaço
4/3 =
(novamente, p = ÿ ocupa todo ele). A proporção de momentos mais altos para momentos mais baixos
aumenta com a dimensionalidade, como pode ser visto na Figura 4.15.
16
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
4.5 visualizando o efeito do aumento de p nas iso-normas 87
em geral. Para uma intuição mais geral sobre probabilidade, o indispensável Borel [85]. Kolmogorov [145], Loeve [154], Feller
[92],[91]. Para a teoria da medida, Billingsley [20].
Leitura Adicional : Paramos aqui e apresentamos livros de probabilidade
Para subexponencialidade Pitman [196], Embrechts e Goldie (1982) [83], Embrechts (1979, que parece estar próximo de sua tese de doutorado) [84],
Chistyakov (1964) [43], Goldie (1978) [ 112] e Teugels [248].
Para distribuições de valores extremos Embrechts et al [82], De Haan e
Ferreira [116].
Para distribuições estáveis Uchaikin e Zolotarev [257], Zolotarev [271],
Samorindsky e Taqqu [209].
Processos estocásticos Karatsas e Shreve [141], Oksendal [182], Varadhan
[261].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
5NÍVEL 2: SUBEXPONENCIAISAND
P OW ERL AW S
Este capítulo apresenta brevemente as classes subexponencial versus lei de
potência como "verdadeiras caudas gordas" (já definidas no Capítulo 3) e
apresenta algumas rugas associadas a elas. Subexponencialidade (sem
escalabilidade), isto é, pertencer à classe subexponencial, mas não à lei de
potência, é uma categoria pequena (das distribuições comuns, apenas a exponencial
limítrofe - e distribuições associadas ao gama, como a de Laplace - e a queda lognormal
nessa classe) .
T
5.0.1 Revisitando as classificações
A Tabela 5.1 analisa as classificações do Capítulo 3. Lembre-se de que as distribuições de
probabilidade variam entre cauda extremamente fina (Bernoulli) e cauda extremamente gorda.
Entre as categorias de distribuições que muitas vezes se distinguem devido às propriedades de
convergência dos momentos estão:
1. Ter um suporte compacto (mas não degenerado)
2. Subgaussiana
3. Subexponencial 4.
Lei de Potência com expoente maior que 2 5. Lei
de Potência com expoente menor ou igual a 2. Em particular, as distribuições da Lei de
Potência têm uma média finita apenas se o expoente for maior que 1, e têm um variância
finita somente se o expoente exceder 2
6. Lei de Potência com expoente menor que 1
O nosso interesse é distinguir entre casos em que os eventos de cauda dominam os impactos,
como uma definição formal da fronteira entre as categorias de distribuições a serem
consideradas como Mediocristão e Extremistão.
Centralmente, uma distribuição subexponencial é o corte entre caudas “finas” e “gordas”.
É definido da seguinte forma.
89
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
90 nível 2: subexponenciais e leis de potência
Tabela 5.1: Distribuições de classificação
Aula
Descrição
Verdadeiras caudas finas
Suporte compacto (por exemplo: Bernouilli,
Binomial)
Caudas finas
Gaussiana alcançada organicamente através
da soma das caudas finas verdadeiras, pelo
Limite Central; suporte compacto, exceto no
limite n ÿ ÿ Aproximação gaussiana de um
Convencional Fino
fenômeno natural Maior curtose que a
caudas
gaussiana, mas
Caudas gordas iniciais
convergência rápida para a gaussiana sob
soma (por exemplo, lognormal)
Subexponencial
ÿ supercúbico
As condições de Cramer não são válidas para
Variância infinita
t > 3, ÿ ed(Fx) = +ÿ , ÿ e
Alíquota Estável ÿ < 2 ÿtxdF(x) =
ÿtx
+ÿ
Primeiro mês indefinido
Fuhgetaboutdit
mento
A matemática é nítida: a probabilidade de excedência ou função de sobrevivência precisa ser
exponencial em um e não no outro. Onde fica a fronteira?
A fronteira natural entre o Mediocristão e o Extremistão ocorre na classe subexponencial que possui
a seguinte propriedade:
Seja X = X1 , . . . , Xn será uma sequência de variáveis aleatórias independentes e distribuídas de
forma idêntica com suporte em (R+ ), com função de distribuição cumulativa F.
A classe subexponencial de distribuições é definida por (ver [248], [196]):
1-F
*2
limão
xÿ+ÿ
ÿ2 onde F
=F
(x)
=2
1 ÿ F(x)
(5.1)
' ÿ F é a distribuição cumulativa de X1 + X2, a soma de duas cópias independentes
de X. Isto implica que a probabilidade de a soma X1 + X2 exceder um valor x é duas vezes a
probabilidade de qualquer uma delas separadamente exceder x. Assim, sempre que a soma excede x,
para valores suficientemente grandes de x, o valor da soma é devido a um ou outro exceder x – o
máximo sobre as duas variáveis – e a outra contribui de forma insignificante.
De forma mais geral, pode-se mostrar que a soma de n variáveis é dominada pelo máximo dos
valores sobre essas variáveis da mesma forma. Formalmente, as duas propriedades a seguir são
equivalentes à condição subexponencial [43],[84].
n
Para um dado n ÿ 2, seja Sn = ÿ i=1xi e Mn = max1ÿiÿn xi P(Sn>x) a)
P(X>x)
limxÿÿ
=n,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
nível 2: subexponenciais e leis de potência 91
b) limxÿÿ
P(Sn>x)
P(Mn>x)
= 1.
Assim, a soma Sn tem a mesma magnitude que a maior amostra Mn, o que é outra forma de dizer que
as caudas desempenham o papel mais importante.
Intuitivamente, os eventos de cauda em distribuições subexponenciais deveriam declinar mais
lentamente do que uma distribuição exponencial para a qual grandes eventos de cauda deveriam ser irrelevantes.
Na verdade, pode-se mostrar que as distribuições subexponenciais não têm nenhum movimento exponencial.
comentários:
ÿ0
ÿ
e
ÿx
dF(x) = +ÿ
(5.2)
para todos os valores de ÿ maiores que zero. No entanto, o inverso não é verdadeiro, uma vez que as
distribuições não podem ter momentos exponenciais, mas não satisfazem a condição subexponencial.
Notamos que se optarmos por indicar desvios como valores negativos da variável x, o mesmo resultado
vale por simetria para valores negativos extremos, substituindo x ÿ +ÿ por x ÿ ÿÿ. Para variáveis bicaudais,
podemos considerar separadamente os domínios positivos e negativos.
5.0.2 O que é uma distribuição de probabilidade limítrofe?
A melhor maneira de descobrir uma distribuição de probabilidade é... inventar uma. Na verdade, na
próxima seção, 5.0.3, construiremos uma que seja a fronteira exata entre caudas finas e grossas por
construção. Considere por enquanto que as propriedades são as seguintes:
Seja F a função de sobrevivência. Temos F : R ÿ [0, 1] que satisfaz
lim
xÿ+ÿ
F(x)
n
= 1,
F(nx)
(5.3)
e
lim
xÿ+ÿ
limão
F(x) = 0
F(x) = 1
xÿÿÿ
Nota: outra propriedade da demarcação é a ausência da falácia de Lucrécio no Cisne Negro,
mencionada anteriormente (ou seja, os extremos futuros não serão semelhantes aos extremos passados
sob caudas gordas, e tal dissimilaridade aumenta com caudas gordas):
Vejamos as propriedades de demarcação por enquanto. Seja X uma variável aleatória que vive em (0,
ÿ) ou (ÿÿ, ÿ) e E o operador de expectativa na distribuição (física) do "mundo real". Por resultados
clássicos [82]:
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
92 nível 2: subexponenciais e leis de potência
1
limão
Kÿÿ
(5.4)
E(X|X>K) = ÿ
K
• Se ÿ = 1
, Diz-se que X pertence à classe D1 de cauda fina e possui uma escala
característica
• Se ÿ > 1
, Diz-se que X está na classe de variação regular de cauda gorda D2 e
não possui escala característica
• Se
limão
E(X|X>K) ÿ K = µ
Kÿÿ
onde µ > 0, então X está na classe exponencial limítrofe
O primeiro caso é chamado de “efeito Lindy” quando a variável aleatória X é sobrevivida
pelo tempo. O assunto é examinado fora deste projeto de cauda gorda. Veja a exposição
de Iddo Eliazar [77].
PDF
0,5
0,4
Figura 5.1: Comparando a
distribuição inventada (no limite
0,3
da subexponencialidade) com
a Gaussiana da mesma
variância (k = 1). Não é preciso
Inventado
Gaussiano
0,2
muito para mudar de
propriedades gaussianas para
propriedades subexponenciais.
0,1
x
1
2
4
3
5.0.3 Vamos inventar uma distribuição
Embora a distribuição exponencial esteja no limite da classe subexponencial, mas com suporte em [0,
ÿ), podemos construir uma distribuição limítrofe com suporte em (ÿÿ, ÿ), como segue
1
. Encontre funções de sobrevivência F : R ÿ [0, 1] que satisfaçam:
F(x)
ÿx ÿ 0, limite
xÿ+ÿ
2
= 1, F ' (x) ÿ 0
F(2x)
e
limão
F = 0.
xÿ+ÿ
lim
xÿÿÿ
F = 1.
1 A distribuição de Laplace, que duplica a exponencial em ambos os lados, não se ajusta à propriedade, pois a razão entre o quadrado e o dobro é
12 .
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
5.1 nível 3: escalabilidade e leis de potência 93
Vamos supor uma função candidata como sigmóide, usando a tangente hiperbólica
F K 1 (x)
=2
(1 ÿ tanh(kx)) , ÿ > 0.
Podemos usar isso como uma distribuição de kernel (misturamos mais tarde para modificar a curtose).
Seja f(.) a função densidade:
ÿF(x)
f(x) = ÿ ÿx
=
1
2
ksech2 (kx).
(5.5)
A função característica:
( ÿ(t) =
ÿtcsch
2k
ÿt
2k
)
.
(5.6)
Dado que tudo é real, podemos adivinhar que a média é 0 – assim como todos os momentos ímpares.
O segundo momento será lim (ÿi) ÿt 2 tÿ0
2ÿ2
ÿtcsch( ÿt2k ) =
14h _
E o quarto mês- 12k 2
2k
4 mento: lim (ÿi) ÿt 4 ÿ
4
tÿ0
ÿtcsch( ÿt
2k ) 2k
=
7ÿ 4
portanto a curtose será 240k 4 ,
21
5 . A distribuição
ção que inventamos tem caudas ligeiramente mais grossas que a gaussiana.
5.1 nível 3: escalabilidade e leis de potência
Agora entramos no assunto sério.
Por que leis de poder? Existem muitas teorias sobre por que as coisas deveriam ser leis de potência,
como uma espécie de exceção à forma como as coisas funcionam probabilisticamente. Mas parece que
a ideia oposta nunca é apresentada: as leis de potência deveriam ser a norma, e o Gaussiano um caso
especial ([223]), efetivamente o tópico do Antifrágil e o próximo volume do Incerto Técnico), devido ao
côncavo-convexo respostas (uma espécie de amortecimento da fragilidade e da antifragilidade, trazendo
robustez e, portanto, afinando as caudas).
5.1.1 Escalável e não escalável, uma visão mais profunda das caudas gordas
Até agora, para a discussão sobre caudas gordas, permanecemos no caso dos momentos finitos. Para
um
PX>nK determinada classe de distribuições, aquelas com momentos finitos, depende de n e PX>K
PX>nK PX>K
K. Para uma distribuição sem escala, com K "nas caudas", ou seja, grande o suficiente, depende
de n e não de K. Estas últimas distribuições carecem de escala característica e acabarão tendo uma
cauda paretiana, ou seja, para x grande suficiente, PX>x = Cxÿÿ onde ÿ é a cauda e C é uma constante
de escala.
Nota: Podemos ver pela diferença de escala entre Student e Pareto que a definição convencional de
uma distribuição caudal da Lei de Potência é expressa mais
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
94 nível 2: subexponenciais e leis de potência
registrar Px
Estudante (3)
0,1
104
107
Gaussiano
1010
LogNormal-2
1013
registro x
2
5
10
20
Figura 5.2: Três Tipos de Distribuições. À medida que atingimos o resultado, o Student permanece escalável enquanto o
O Lognormal padrão mostra uma posição intermediária antes de acabar obtendo um infinito
inclinação em um gráfico log-log. Mas cuidado com o lognormal, pois ele pode trazer algumas surpresas (Capítulo 8)
.
Tabela 5.2: Escalabilidade, comparando funções/leis de potência que variam regularmente com outras distribuições
ÿ1
k P(X > k)
P(X>k)
P(X>2k )
P(X > k)
ÿ1
P(X>k)
P(X>2k )
ÿ1
P(X > k)
P(X>k)
P(X>2k )
(Gaussiano)
(Gaussiano)
Aluno(3)
Aluno (3) Pareto(2)
2
44
720
14.4
4.9
8
4
4
31600.
5,1 × 1010
71,4
6.8
64
4
6
1,01 × 109
5,5 × 1023
216
7.4
216
4
8
1,61 × 1015
9 × 1041
491
7.6
512
4
9 × 1065
940
7.7
1000
4
fughedabaudit 1610
7,8
1730
4
fugidobaudit 2530
7,8
2740
4
fughedabaudit 3770
7,9
4100
4
fugidobaudit 5350
7,9
5830
4
fughedabaudit 7320
7,9
8.000
4
10 1,31 × 1023
12 5,63 × 1032
14 1,28 × 1044
16 1,57 × 1057
18 1,03 × 1072
20 3,63 × 1088
formalmente como P(X > x) = L(x)x
satisfaz o seguinte:
-a
Pareto (2)
onde L(x) é uma "função de variação lenta", que
L(tx)
limxÿÿ
eu(x)
=1
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
5.1 nível 3: escalabilidade e leis de potência 95
para todas as constantes t > 0.
logP>x
Para x grande o suficiente, converge para uma constante, ou seja, o expoente final logx -ÿ. Um
escalável deve produzir a inclinação ÿ nas caudas em um gráfico log-log, como x ÿ ÿ.
Compare com o Gaussiano (com STD ÿ e média µ), pegando o PDF desta vez
em vez do log de probabilidade de excedência (f(x)) =
que vai para ÿÿ mais rápido que ÿ log(x) para ±x ÿ ÿ.
(xÿµ)
2ÿ 2
2
ÿ log(ÿ ÿ 2ÿ) ÿ ÿ 2s122 x
Até agora, isso nos dá a intuição da diferença entre classes de distribuições.
Apenas os escaláveis têm caudas gordas "verdadeiras", já que outros se transformam em gaussianos sob soma.
E o expoente da cauda é assintótico; talvez nunca cheguemos lá e o que veremos será uma versão
intermediária disso. A figura acima foi extraída de distribuições platônicas prontas para uso; na
realidade, os processos são muito mais confusos, com alternâncias entre expoentes à medida que os
desvios aumentam.
Definição 5.1 (a classe P)
A classe P de leis de potência (variação regular) é definida para rv X da seguinte forma:
P = {X : P(X > x) ÿ L(x) x
-a
}
(5.7)
5.1.2 Cisnes Cinzentos
Figura 5.3: O gráfico representa o log log
da GBP, a moeda britânica. Podemos ver
o “Cisne Cinzento” do Brexit (ou seja, o
salto da moeda quando foram divulgados
os inesperados resultados do referendo);
quando visto usando uma lei de potência,
o grande desvio é bastante consistente
com a propriedade estatística
laços.
Por que usamos o Student T para simular leis de potência simétricas? Por conveniência, apenas
por conveniência. Não é que acreditemos que o processo gerador seja o Estudante T. Simplesmente,
o centro da distribuição não importa muito para as propriedades envolvidas em certas classes de
tomada de decisão.
Quanto menor o expoente, menos o centro desempenha um papel. Quanto maior o expoente, mais o
estudante T se assemelha ao Gaussiano e mais justificado será seu uso.
Métodos mais avançados envolvendo o uso de leis de Levy podem ajudar no caso de assimetria,
mas o uso de duas distribuições de Pareto diferentes com duas distribuições diferentes
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
96 nível 2: subexponenciais e leis de potência
ÿ>ÿ
ÿ
Figura 5.4: Vendas de livros: o
ÿÿÿ
near tail pode ser robusto para
estimativa de vendas a partir da classificação
e vice-versa – funciona
bem e mostra robustez
ÿÿÿÿ
contanto que não se calculem
expectativas gerais ou
momentos superiores não
truncados.
a=ÿÿÿ
ÿÿÿÿÿ
ÿÿ-ÿ
ÿ
ÿÿÿ
ÿÿÿ
ÿÿÿ
ÿ
10
200
400
600
10
20
30
800
1000
Figura 5.5: A Turquia
Problema, onde nada em
as propriedades passadas parecem
indicar a possibilidade de
o pulo.
40
50
expoentes, um para a cauda esquerda e outro para a direita fariam o trabalho
(sem complicações desnecessárias).
Questões de estimativa Observe que existem muitos métodos para estimar o expoente de cauda ÿ
a partir de dados, o que é chamado de "calibração. No entanto, veremos, o expoente de cauda ÿ
expoente é bastante difícil de adivinhar, e sua calibração está marcada por erros, devido a
a insuficiência de dados nas caudas. Em geral, os dados mostrarão uma cauda mais fina do que
deveria.
Voltaremos ao assunto com mais profundidade em capítulos posteriores.
5.2 algumas propriedades das leis de potência
Duas propriedades centrais.
5.2.1 Somas de variáveis
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
5.2 algumas propriedades das leis de potência 97
Propriedade 1: Expoente final de uma soma
Seja X1 , X2, . . . Xn serão variáveis aleatórias nem independentes nem distribuídas de forma idêntica,
cada Xi seguindo uma distribuição com um expoente de cauda assintótico diferente ÿi (assumimos que
variáveis aleatórias fora da classe da lei de potência terão um alfa assintótico = +ÿ). Suponhamos ainda
que estamos preocupados com a cauda direita da distribuição (o argumento permanece idêntico
quando o aplicamos à cauda esquerda). Veja [99] para mais detalhes.
n
Considere a soma ponderada Sn = ÿ
eu=1
wiXi , com todos os pesos wi estritamente positivos.
Considere ÿs o expoente final da soma.
Para todo wi > 0,
ÿs = min(ÿi ).
Claramente, se ÿ2 ÿ ÿ1 e w2 > 0,
log ( w1x ÿÿ2limxÿÿ
) ÿÿ1 log(x)
+ w2x
= a2.
A implicação é que adicionar uma única soma com média, variância ou momentos superiores indefinidos (ou
infinitos) faz com que a soma total tenha média, variância ou momentos superiores indefinidos (ou infinitos).
Princípio 5.1 (Leis de Potência + Caudas Finas = Leis de Potência)
A mistura de leis de potência distribuídas e variáveis de cauda fina resulta em leis de potência, independentemente
da composição.
5.2.2 Transformações
A segunda propriedade, embora pareça benigna, pode ser muito mais irritante:
Propriedade
2 Seja X uma variável aleatória com expoente final ÿ. O expoente final de X p é
a.
p
Isso nos diz que a variância de uma variável aleatória de variância finita com expoente final < 4 será infinita.
Na verdade, veremos que isso causa problemas para modelos de volatilidade estocástica, quando o processo
real pode, na verdade, ter variância infinita.
Isto nos dá uma dica, sem muito esforço técnico, de como uma transformação convexa de uma variável
aleatória engrossa a cauda.
Prova. A abordagem geral é a seguinte. Seja p(.) uma função de densidade de probabilidade e ÿ(.) uma
transformação (com algumas restrições). Temos a distribuição da variável transformada (assumindo que o
suporte é conservado – permanece o mesmo):
(ÿ (x)) = ÿÿ
p ( ÿ (ÿ1) (x) ) p
( ÿ (ÿ1) (x) )
.
(5.8)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
98 nível 2: subexponenciais e leis de potência
Suponha que x > l e l sejam grandes (ou seja, um ponto onde a função de variação lenta "deixa
de variar" dentro de alguma ordem de x). A PDF para esses valores de x pode ser escrita como
p(x) ÿ Kxÿÿÿ1 . Considere y = ÿ(x) = x p : a função inversa de y = x p é
1
x=y
p.
. Aplicando ao denominador na Eq. 5,8, obtemos
1xp _
1-p
p
.
_
-
Integrando acima de l, a função de sobrevivência será: P(Y > y) ÿ y
a
p
.
5.3 leis de potência em forma de sino versus leis de potência sem forma de sino
O efeito da função de variação lenta, um estudo de caso Quanto mais gordas as caudas,
menos o “corpo” importa para os momentos (que eventualmente se tornam infinitos). Mas para leis
de potência com caudas mais finas, a zona que não é lei de potência (a parte que se move
lentamente) desempenha um papel - "variando lentamente" é definida mais ou menos formalmente
em 5.1.1,18.2.2 e 5.1.1. Esta seção mostrará como distribuições aparentemente iguais podem ter
formatos diferentes.
Vamos comparar uma distribuição de Pareto duplo com o seguinte PDF:
ÿÿ (1 + x)
fP(x) =
ÿÿÿ1
xÿ0
ÿÿ
ÿÿÿ1
ÿÿ ÿ(1 ÿ x)
x<0
para um Student T com mesmo parâmetro de centralidade 0, parâmetro de escala s e PDF
a
fS(x) =
1 (ÿÿÿ1) 2
x2
ÿ/2 ( ÿ+ 2é )
1
ÿ
=
(C(a))(C(b))
C(a+b)
onde B(.) é a função beta de Euler, B(a, b) =
sB( ÿ22, )
1aÿ1t
0
ÿt )
bÿ1 dt. (1
Temos duas maneiras de comparar distribuições. fp(x) •
Equalizando pela proporção da cauda: definindo limxÿÿ =fs(x)
1 para obter a mesma proporção da cauda, nós
1ÿ a
obtenha a distribuição "cauda" equivalente com s = ( ÿ
1
2,
2B ( uma
2 ))1/a .
2
)
P
• Equalizando por desvios padrão (quando finito): temos, com ÿ > 2, E(X
1ÿ a
2a 2ÿ3a +2
e E(X
2
uma
S ( uma ) =
=
1
2,
2B ( uma
a-2
2 ) )2/a
.
P ) = ÿ k ÿ E(X2 S
Então poderíamos definir ÿ E(X2
2ÿ ÿ2/ ÿB( ÿ ) k 2ÿ ,
a-1
1 )
2
ÿ2/uma
}.
Por fim, temos a comparação semi-côncavo em formato de sino versus o duplo-convexo angular
como visto na Figura 5.6.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
5.4 poderes interpolativos de leis de potência: um exemplo 99
PDF
3,0
2,5
2,0
fp(.)
1,5
fs (.)
Figura 5.6: Comparando dois
leis de potência simétrica de
mesmo expoente, um com um
função breve de variação lenta,
o outro com função estendida.
Todos os momentos
eventualmente se tornar o mesmo
apesar das diferenças centrais
em sua forma para
1,0
pequenos desvios.
0,5
x
-4
-2
2
4
5.4 poderes interpolativos de leis de potência: um exemplo
Considere os pedidos de subsídio de desemprego durante a pandemia da COVID-19: o desemprego aumentou
muitos dos chamados desvios padrão em março de 2020. Mas será que o salto foi uma exceção?
Talvez se você olhar para 5.7 e pensar como alguém treinado em caudas finas. Mas não
realmente. Como mostra a Figura 5.8 , o expoente da cauda praticamente não muda. A escala de
a distribuição talvez possa variar, mas o expoente é evidentemente robusto para observações fora da amostra.
Registrar alterações em pedidos de seguro-desemprego
2,5
2,0
Figura 5.7: Pedidos de subsídio de desemprego:
1,5
parece que o salto é uma
surpresa... mas apenas para
economistas não treinados. Como a Fig.
5,8 mostra, não deveria ser.
1,0
E para os olhos treinados (um
la Benoit Mandelbrot), as
variações foram suaves, mas
0,5
certamente nunca gaussianas.
0,0
5,5 caudas supergordas: a distribuição log-pareto
A mãe de todas as caudas gordas, a distribuição log-Pareto, não está presente em comum
listas de distribuições, mas podemos redirecioná-las aqui. O log-Pareto é o Paretiano
análogo da distribuição lognormal.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
100 nível 2: subexponenciais e leis de potência
P>
0,100
0,050
Figura 5.8: Gráfico de Zipf para
pedidos de subsídio de desemprego:
0,010
não precisámos do salto abrupto
0,005
durante a pandemia da COVID-19
(último ponto à direita) para perceber
que se tratava de uma lei de potência.
0,001
5.×10-4
x
0,1
0,2
0,5
Observação 5: Redescobrindo a distribuição log-Pareto
Se X ÿ P(L, ÿ) a distribuição de Pareto com PDF f (P) (x) = ÿL ÿx ÿÿÿ1 função , x ÿ L e
de sobrevivência S (P) (x) = L ÿx ÿÿ ÿ , então:
e
X
LP(L, ÿ) o distribuição log-Pareto com PDF
ÿL ÿlog ÿÿÿ1 (x)
(x)
= (LP)
f
x
,xÿe
eu
e função de sobrevivência
S (LP) (x) = Lÿ log ÿÿ (x)
Enquanto para uma lei de potência regular, temos uma inclinação linear assintótica no gráfico loglog, ou seja,
log (L ÿx ÿÿ )
= ÿuma,
limxÿÿ log(x)
a inclinação de um log-Pareto vai para 0:
log (L
a
log(x) ÿa )
= 0,
limxÿÿ log(x)
e claramente nenhum momento pode existir independentemente do valor do parâmetro final ÿ.
A diferença entre comportamentos assintóticos é visível na Figura 5.9.
5.6 Volatilidade pseudo-estocástica: uma investigação
Mencionamos anteriormente no Capítulo 3 que uma afirmação “10 sigma” significa que não
estamos no mundo gaussiano. Também discutimos o problema da não observabilidade das
distribuições de probabilidade: observamos dados, não geramos processos.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
5.6 volatilidade pseudo-estocástica: uma investigação 101
Registro S(x)
10
Pareto
5
Log-Pareto
Figura 5.9: Comparando
gráficos log-log para as
funções de sobrevivência do
Pareto e log-Pareto
1
0,50
0,10
0,05
Registro x
5
10
50
100
Portanto, é fácil ser enganado por uma lei de potência, confundindo-a com um processo
heterocedástico. Em retrospectiva, podemos sempre dizer: "a volatilidade condicional foi elevada, pelo menos
tal desvio padrão não é mais um 10 sigma, mas um mero desvio de 3 sigma".
A maneira de desmascarar essas afirmações é raciocinar com a ajuda de um problema inverso:
como uma lei de potência com escala constante pode se disfarçar como um processo
heterocedástico. Veremos no Apêndice como a dependência da econometria na heterocedasticidade
(ou seja, variância móvel) tem defeitos graves, uma vez que a variância dessa variância não
tem uma estrutura.
pág.22
100
80
60
40
20
t
500
1000
1500
2000
2500
Figura 5.10: Volatilidade realizada de 22 dias (ou seja, correspondente a mensal) (desvio padrão)
para retornos distribuídos de Student T amostrados diariamente. Dá a impressão de volatilidade estocástica quando
na verdade, a escala da distribuição é constante.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
102 nível 2: subexponenciais e leis de potência
A Figura 5.10 mostra a volatilidade dos retornos de um mercado que se assemelha muito àqueles
que deveriam ser usados um processo padrão de volatilidade estocástica simples. Por volatilidade
2.
estocástica, assumimos que a variância é distribuída aleatoriamente
Sejam X os retornos com média 0 e escala ÿ, com PDF ÿ(.):
uma+1
2
2
( ax a +p 2 )
ÿ(x) =
Transformando para obter Y = X
2
1
2, 2)
ÿ asB ( uma
,x
ÿ (ÿÿ, ÿ).
(para obter a distribuição do segundo momento), ÿ, o
PDF para Y torna-se,
uma+1
2
ÿ(y) =
( ÿÿ2
ÿÿ2+y )
, e ÿ (ÿÿ, ÿ),
1
2 , 2 ) ÿÿy
ÿB ( uma
que podemos ver se transforma em uma lei de potência com expoente de cauda assintótico
A'2 . _
A função característica ÿy(ÿ) = E(exp(iÿY)) pode ser escrita como
1
2
1
xy(ÿ) =
1
2,
2B ( uma
2 ) ( ÿ ÿ comoÿ 1
as2
a
; ÿias2o )
2a +1
((pa) csc) ( ÿ ÿ 1F˜ 1 (
C( 2)
(5.9)
um + 2
A'2 _
(ÿiÿ) ÿ/2 1F˜ 1 ( ÿ + 12
ÿ ( 1 as2 )ÿ
;1-
;
2
; -ias2o )))
A partir do qual obtemos o desvio médio do segundo momento da seguinte forma3 :
a
5
2
MD do segundo momento
7 5 5 ; ;ÿ 4 ,
44
4 ÿ3
5 2 3/4 ( 2 2F1( 1
2
5 73/4 (7 2F1( 3
9777 ; ;ÿ 4 ,
44
18h
Pi
6 )ÿ3 2F1( 7 6
9 11 7 ; ;ÿ 4 ,
44
6 ))s 2C( 5 4 )
63/4 ÿ ÿÿ( 7 4 )
1
4
2
7 ( 3 ÿ 21 ÿ 7 ) p
3
9
2
) p 2C( 74 )
ÿÿ ( 5 4 )
3
7
2
3/4
6 )+3( 6 11 )
4 ÿ2
3
5
( 6( 25 )
3/4
ÿ6 2F1( 5
11 9 3 ; ;ÿ 4 ,
44
2 ) ) p 2C( 11
4)
5 ÿ ÿÿ( 9 4 )
p
2 ( 7 ÿ 15ÿ16 tanÿ1 (ÿ 5 3 ))
18h
2 Pode-se ter modelos com variância estocástica ou desvio padrão estocástico. Os dois têm
expectativas diferentes.
3 Como é habitual, não utilizamos o desvio padrão como métrica devido à sua instabilidade e falta de informação, mas preferimos o
desvio médio.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
5.6 volatilidade pseudo-estocástica: uma investigação 103
próximo
O próximo capítulo se aventurará em dimensões superiores. Algumas consequências são óbvias, outras
nem tanto – digamos que existem correlações mesmo quando as covariâncias não existem.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
6 TA ILSINHIGHERDIMENSION S†
T
sua discussão é o mais simplificado possível no manuseio de dimensões
superiores. Veremos 1) o efeito simples da cauda gorda para múltiplas
variáveis aleatórias, 2) Elipticalidade e distribuições, 3) matrizes aleatórias e
a distribuição associada de autovalores, 4) Como podemos observar a
covariância e
correlações quando os momentos não existem (digamos, como no caso de Cauchy).
2
2
0
-2
0
-4
-2
4
2
2
0
0
-2
-2
-4
-4
-2
0
2
-2
0
2
4
Figura 6.1: Caudas grossas em dimensões superiores: Para um vetor tridimensional , caudas finas (esquerda) e
caudas grossas (direita) da mesma variância. No lugar de uma curva em sino com pico mais alto (o "túnel") do caso
univariado, vemos um aumento na densidade de pontos em direção ao centro.
Capítulo de discussão.
105
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
106 caudas grossas em dimensões superiores†
6.1 caudas grossas em dimensões superiores, momentos finitos
Construiremos as intuições de caudas grossas desde a convexidade até a escala, como fizemos
no capítulo anterior, mas usando dimensões mais altas.
ÿ
X = (X1 , X2, . . . , Xm) é um vetor aleatório ap × 1 com as variáveis assumidas
como extraídas de uma Gaussiana multivariada. Considere a distribuição de
probabilidade conjunta f (x1 ,..., xm). Denotamos a distribuição normal multivariada mvariada
N ( vetor médio µ, matriz de variância-covariância ÿ e pdf conjunta,
µ, ÿ),por
com
Deixar
ÿ
ÿ
1
f (ÿ x ) = (2ÿ) ÿm/2 |ÿ| ÿ1/2
onde
ÿ
ÿ
exp ( ÿ 2 ( ÿx- _ µ )T ÿ ÿ1 (ÿ x ÿ
ÿ ))
(6.1)
ÿ
x = (x1 , . . . , xm) ÿ Rm, e ÿ é uma matriz simétrica definida positiva
(m × m).
Podemos aplicar a mesma heurística simplificada de preservação de variância como em 4.1 para engordar
as caudas:
1
faz (ÿ x) =
1
ÿ
ÿ
2 (2ÿ) ÿm/2 |ÿ1 | ÿ1/2 exp ( - 2 ( ÿx- _ µ )T ÿ1 ÿ1 (ÿ x ÿ
+
1
1
ÿ ))
ÿ
ÿ
2 (2ÿ) ÿm/2 |ÿ2| ÿ1/2 exp ( - 2 ( ÿx- _ µ )T ÿ2 ÿ1 (ÿ x ÿ
µ )) (6.2)
onde a é um escalar que determina a intensidade da volatilidade estocástica, ÿ1 = ÿ(1
2
+ a) e ÿ2 = ÿ(1 ÿ a).
Figura 6.2: Retornos conjuntos
de Powerlaw com contorno
elíptico (Aluno T).
2 Podemos simplificar assumindo, como fizemos no caso unidimensional, sem qualquer perda de generalidade, que
ÿ
µ = (0, . . . , 0).
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
6.1 caudas grossas em dimensões superiores, momentos finitos 107
Figura 6.3: Retornos Conjuntos NãoElípticos, a partir de correlações
estocásticas.
Observe na Figura 6.1, como no caso unidimensional, uma concentração na parte intermediária
da distribuição.3
Figura 6.4: Retornos conjuntos com
contorno elíptico para uma distribuição
multivariada (x, y, z) resolvendo para
a mesma densidade.
3 Criamos caudas grossas tornando as variâncias estocásticas enquanto mantemos as correlações constantes;
isso é para preservar o caráter definido positivo da matriz.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
108 caudas grossas em dimensões superiores†
Figura 6.5: Conjunto não elíptico rv,
a partir de correlações estocásticas,
para uma distribuição multivariada (x,
y, z), resolvendo para a mesma
densidade.
6.2 cauda gorda conjunta e elipticidade das distribuições
Há outro aspecto, além de nossa(s) definição(ões) anterior(es) de cauda gorda, uma vez que
aumentamos a dimensionalidade em vetores aleatórios:
Figura 6.6: A história se move por saltos:
Um processo histórico de cauda grossa, no
qual os eventos são distribuídos de acordo
com uma lei de potência que corresponde
ao "80/20", com ÿ ÿ 1,13, representado
como um processo de Levy 3-D.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
6.2 cauda gorda conjunta e elipticidade das distribuições 109
Figura 6.7: O que os proponentes da “grande moderação”
ou da “paz prolongada” têm em mente: a história como
um processo de cauda fina.
O que é uma distribuição com contorno elíptico? A partir da definição padrão, [88], dizse que X, um vetor aleatório ap × 1 tem uma distribuição elíptica (ou com contorno elíptico)
com parâmetros de localização µ, uma matriz não negativa ÿ e alguma função escalar ÿ se
sua função característica ÿ é da forma
ÿ(t) = exp(itÿµ)ÿ(tÿt ÿ ).
(6.3)
Existem definições equivalentes com foco na densidade; considere por enquanto que o
atributo principal é que ÿ é uma função de uma única matriz de covariância ÿ.
Intuitivamente, uma distribuição elíptica deve mostrar uma elipse para gráficos de
isodensidade; veja como representamos em 2-D (para uma bivariada) e 3-D (para uma
trivariada) nas Figuras 6.2 e 6.4. Uma distribuição não-líptica violaria a forma mostrada nas
Figuras 6.3 e 6.5.
A principal propriedade da classe de distribuição elíptica é que ela é fechada sob
transformação linear. Intuitivamente, como vimos no Capítulo 3 com o exemplo de altura
versus riqueza, isso significa (numa situação bivariada) que é menos provável que as
caudas venham de um do que de dois desvios marginais.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
110 caudas grossas em dimensões superiores†
Elipticalidade e Falhas Centrais na Teoria Financeira Este fechamento sob transformação linear
leva a propriedades atraentes na construção de carteiras e nos resultados da teoria de carteiras
(na verdade não se pode ter teoria de carteiras sem eliticalidade das distribuições).
Na elipticidade, todas as carteiras podem ser completamente caracterizadas pela sua localização
e escala e quaisquer duas carteiras com localização e escala idênticas (no espaço de retorno) têm
distribuições de retornos idênticas.
Observe que (ironicamente) as distribuições Lévy-Stable são elípticas – mas apenas na forma
como são definidas.
Assim, a elipticalidade (sob a condição de variância finita) permite a extensão dos resultados da
moderna teoria de portfólio (TMP) sob a chamada “não normalidade”, descoberta inicialmente
por[183], ver também [121]. No entanto, parece (daqueles de nós que trabalham com covariâncias
estocásticas) que os retornos não são elípticos por qualquer medida concebível, ver Chicheportiche
e Bouchaud [42] e gráficos visuais simples de estabilidade de correlação como em E.8.
Um exemplo pedagógico simples usando a heurística 1 ± a que apresentamos em 4.1. Vigaristaÿÿt2t1ÿ considere a normal bivariada com função característica ÿ(t1 , t2) = e 2
2t1
-
2t
22
Agora vamos estocasticizar o parâmetro ÿ , com p probabilidade de ÿ1 e (1 ÿ p) probabilidade de
rho2:
ÿ(t1 , t2) = peÿÿ1t2t1ÿ
A Figura 6.8 mostra o resultado com p =
2t
12-
2t2
2 + (1 ÿ p)peÿÿ2t2t1ÿ
12
2t
12-
2t
22
(6.4)
e ÿ1 = ÿ2.
Podemos ser mais formais e mostrar a diferença, quando ÿ é estocástico, entre ÿ (tE(ÿ)t
' ) e E (ÿ(tÿt
' )) na Eq. 6.3.
Diversificação
Lembre-se de que a teoria financeira falha sob caudas grossas (e nenhuma correção
resolveu o problema, exceto o “overfitting” que discutimos nos capítulos anteriores). A
ausência de elipticalidade encerra o assunto. A implicação é que todos os métodos baseados
na construção de carteiras ao estilo de Markowitz, isto é, baseados na ideia de diversificação,
não conseguem reduzir o risco, ao mesmo tempo que conseguem suavizar enganosamente
a volatilidade diária. Adicionar alavancagem torna as explosões certas no longo prazo
a.
a Isto inclui uma abordagem repugnante chamada “paridade de risco” amplamente utilizada para angariar dinheiro através de fumo pseudoteórico e
pseudoacadémico, um método chamado “recolha de activos”.
6.3 estudante multivariado t
O T de Student multivariado é uma forma conveniente de modelar, pois colapsa para Cauchy para
ÿ = 1. A alternativa seria o estável multivariado, que, veremos, é desprovido de densidade.
.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
111
6.3 estudante multivariado t
2
2
2
1
1
1
0
0
0,2
-1
-1
-2
-2
-2
-1
0
1
2
0
0,3
-1
-2
-2
-1
0
1
2
-2
2
2
2
1
1
1
0
0
0,5
-2
-1
0
1
2
1
0
2
Figura 6.8: Estocástico
correlação para uma
distribuição binormal
padrão: isodensidades para
combinações diferentes.
0,7
Usamos um método muito simples
técnica da Eq. 6.4,
com alternância entre
-1
-2
-2
-2
-1
0
0,6
-1
-1
0,4
-2
-1
0
1
2
-2
-1
1
0
ÿ1 = ÿ e ÿ2 =
ÿÿ ao longo do vão com
2
1
probabilidade p = 2 .
3
2
2
1
1
2
0
1
0
0,8
-1
-1
-2
-2
0
0,9
0,99
-1
-2
-3
-2
-1
0
1
2
-2
-1
0
1
2
-3 -2 -1
0
1
2
3
Seja X um vetor (p × 1) seguindo uma distribuição multivariada de Student T, X ÿ
St (M, ÿ, ÿ), onde ÿ é uma matriz (p × p), M um vetor de comprimento e ÿ uma cauda paretiana
expoente com PDF
ÿ1
f(X) = ( (X ÿ M).S
1
2 (n+p)
.(X ÿ M)
n
.
página 1),
No caso mais simplificado, com p = 2, M = (0, 0) e ÿ = = ( 1 ÿ
f(x1 , x2) =
ÿÿ1ÿp 2(
(6.5)
+ 1)ÿ
ÿÿÿ2+ÿÿ2ÿx1 x2+x 21+x22
nÿnr2
)-
2p (n ÿ nr2)
n ÿ1
2
.
(6.6)
6.3.1 Elipticalidade e Independência sob Caudas Grossas
Pegue o produto de duas densidades de Cauchy para x e y (o que usamos na Figura 3.1):
1
f(x)f(y) =
ÿ2 (x
2
+ 1) (e2 +1 )
(6.7)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
112 caudas grossas em dimensões superiores†
o que, evidentemente, como vimos no Capítulo 3 (com o exemplo das duas pessoas selecionadas
aleatoriamente com um património líquido total de 36 milhões de dólares), não é elíptico. Compare
com a distribuição conjunta fÿ(x, y):
1
,
fÿ(x, y) =
2 ( y ( y 2ÿ ÿ 1 ÿ ÿ 1-p 2
-
ÿx
1-p 2 ) +x( x 1-p 2
-
ÿy
1ÿÿ
(6.8)
2 ) + 1)3/2
e definindo ÿ = 0 para não obter correlação,
1
f0(x, y) =
2ÿ (x
2
+ e2 + 1)
3/2
(6.9)
que é elíptico. Isso ilustra como a ausência de correlação não é independência
como:
A independência entre duas variáveis X e Y é definida pela identidade:
f(x, y)
= 1,
f(x)f(y)
independentemente do coeficiente de correlação. Na classe das distribuições
elípticas, a Gaussiana bivariada com coeficiente 0 é independente e não
correlacionada. Isto não se aplica ao Student T ou ao Cauchy.
A razão pela qual a distribuição estável multivariada com coeficiente de correlação definido como 0
não é independente é o seguinte.
'
Um vetor aleatório X = (X1 , . . ., Xk ) diz-se que tem distribuição estável multivariada
se toda combinação linear de seus componentes Y = a1X1 + · · · + akXk tem uma
, a variável aleatória
distribuição estável. Ou seja, para qualquer vetor constante a ÿ Rk
Y = a TX deve ter uma distribuição estável univariada. E fazer com que uma combinação
linear permaneça dentro da mesma classe requer elipticidade. Portanto, por construção,
f0(x, y) não é necessariamente igual a f(x)f(y). Considere o caso Cauchy que possui
uma função densidade explícita. O denominador do produto das densidades inclui um
termo adicional, x 2y 2 , que empurra as isodensidades em uma direção ou outra, como
vimos nos exemplos introdutórios do Capítulo 3.
6.4 caudas gordas e informações mútuas
Notamos que devido à artificialidade na construção de distribuições multivariadas, a
informação mútua não é 0 na presença de independência, uma vez que a razão
densidades conjuntas/produto de densidades ÿ= 1 sob 0 "correlação" ÿ.
Qual é a informação mútua de um Aluno T (que inclui o Cauchy)?
Eu(X, Y) = E log (f(x,
y)
f(x)f(y)
)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
6.4 caudas gordas e informação mútua 113
Gaussiano
-100
p=10-4 a=9998
0
100
200
-200
(a) Gaussiano
0
200
400
(b) Estoque Vol.
3
Distribuição Estudantilÿ
-100.000 -50.000
0
2ÿ
50.000 100.000
Distribuição de Alunos[1]
-6×108-4×108-2×108 0 2×108 4×108 6×108
(c) Aluno 3/2
(d) Cauchy
Figura 6.9: As diversas formas de distribuição dos autovalores para matrizes aleatórias, que no caso gaussiano seguem a
distribuição em semicírculo de Wigner. O caso Cauchy corresponde ao Student parametrizado para ter 1 grau de liberdade.
onde a expectativa é tomada sob a distribuição conjunta para X e Y. A informação mútua
graças ao log é aditiva (observe que pode-se usar qualquer base logarítmica e traduzir
dividindo por log(2)).
Então I(X, Y) = E (log f(x, y)) ÿ Elog (f(x)) ÿ Elog (f(y)) ou H(X)+H(Y) -H(X, Y )
onde H é a entropia e H(X, Y) a entropia conjunta.
Notamos que ÿ1 log(1
ÿÿ
2
2
) é a informação mútua de um gaussiano independentemente
da parametrização. Portanto, para X, Y ÿ Estudante Multivariado T (ÿ, ÿ), a informação mútua
Iÿ(X, Y):
Euÿ(X, Y) = ÿ
1
2 log ( 1 ÿ ÿ 2 ) + la
(6.10)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
114 caudas grossas em dimensões superiores†
onde
2 la = -
a + log(ÿ) + 2ÿ(ÿ + 1) csc(ÿ) + 2 log ( B ( ÿ 2 )) ÿ 2
,
(6.11)
1
2
(ÿ + 1)Hÿ ÿ
+ (uma + 1)Hÿ uma
2
-
12
ÿ 1 ÿ log(2ÿ)
onde csc(.) é a cossecante do argumento, B(., .) é a função beta e H(.) (r)
é o número harmônico Hr n
(1) com Hn = H
=ÿ n
n . Notamos que ÿÿ ÿÿÿÿ
1
0.
eu = 1 eu r
Para concluir esta breve seção, as métricas ligadas à entropia, como a informação mútua,
são muito mais potentes do que a correlação; informações mútuas podem detectar não
linearidades.
6,5 caudas gordas e matrizes aleatórias, um interlúdio rápido
Os próprios valores das matrizes têm um análogo da convergência gaussiana: a distribuição
em semicírculo, conforme mostrado na Figura 6.9.
Seja M uma matriz simétrica (n, n). Temos os autovalores ÿi , 1 ÿ i, ÿ n tais
º autovetor.
que M.Vi = ÿiVi onde Vi é o i
A distribuição semicírculo de Wigner com suporte [ÿR, R] tem para PDF f apresentando um
semicírculo de raio R centrado em (0, 0) e então adequadamente normalizado:
2
f(ÿ) =
ÿR2
ÿ R2 ÿ ÿ2 para ÿ R ÿ ÿ ÿ R.
(6.12)
Esta distribuição surge como a distribuição limite de autovalores de (n, n) matrizes simétricas
com momentos finitos à medida que o tamanho n da matriz se aproxima do infinito.
Faremos um tour pela "cauda gorda" da matriz aleatória a seguir, bem como
a convergência.
Isto é o equivalente a caudas grossas para matrizes. Considere por enquanto que o 4º
momento atingindo os níveis gaussianos (ou seja, 3) para uma situação univariada é
equivalente aos autovalores atingindo o semicírculo de Wigner.
º
6.6 correlação e variância indefinida
A seguir examinamos um paradoxo: embora as covariâncias possam ser infinitas, a correlação é finita.
No entanto, terá um enorme erro de amostragem para ser informativo – o mesmo problema
que discutimos com o PCA no Capítulo 3.
Pergunta: Por que uma distribuição de cauda gorda na classe P da lei de potência com
média infinita ou indefinida (e momentos mais altos) teria, em dimensões mais altas, covariância
indefinida (ou infinita), mas correlação finita?
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
6.6 correlação e variância indefinida 115
Considere uma distribuição com suporte em (ÿÿ, ÿ). Não tem momentos: E(X) é ) = ÿ,
2 não tem covariância, E(XY) é indeterminado. Mas o (nãoindeterminada, a
correlação E(X central) para n variáveis é limitada por ÿ1 e 1.
R
ÿ
ÿ
ÿ ÿ
n
= 1 xiyi i
n
eu = 1
x
, n = 2, 3, ...
n
2
2
eu ÿ ÿ
eu = 1 e eu
Pela propriedade da subexponencialidade, temos P (X1 + . . . + Xnÿ x) ÿ P (max (X1 , . . . Xn) > x)
como x ÿ ÿ. Notamos que a classe da lei de potência está incluída na classe subexponencial
S.
Ordene as variáveis em valores absolutos de modo que |x1| ÿ |x2| ÿ . . . ÿ |xn|
n-1
Seja ÿ1 = ÿ i=1 xiyi , ÿ2 = ÿ
n-1
nÿ1 2 x
eu=1 eu ,
eu .
xnyn + ÿ1
limxnÿÿ
lim
ynÿÿ
ÿx 2
n
+ ÿ2 ÿy
=
n + k3
2
xnyn + ÿ1
ÿx
lim
xnÿ+ÿ
ynÿ+ÿ
lim
xnÿ+ÿ
ynÿÿÿ
2
e ÿ3 = ÿ i=1 y
2
n
+ ÿ2 ÿy
2
n
em
2ÿ3 + y n
ÿ
2k2 + x n
xn
=
+ k3
xnyn + ÿ1
ÿx
2
n
+ ÿ2 ÿy
=1
2
n
+ k3
xnyn + ÿ1
ÿx
2
n
ÿx
2
n
+ ÿ2 ÿy
2
n
,
ÿ
= ÿ1
+ k3
e
lim
xnÿÿÿ
ynÿ+ÿ
xnyn + ÿ1
+ ÿ2 ÿy
2
n
= ÿ1
+ k3
para todos os valores de n ÿ 2.
frequência
10
8
Figura 6.10: Distribuição amostral
de correlação para uma amostra
6
de 103 . A correlação existe para
uma distribuição T bivariada
(correlação de expoente),
3
mas... não pode
ser usada.
4
23 ,
4
2
0
-0,5
0,0
0,5
1,0
R
Um exemplo da distribuição de correlação é mostrado na Figura 6.10. Correlação finita
não significa baixa variância: ela existe, mas pode não ser útil para fins estatísticos
devido ao ruído e à convergência lenta.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
116 caudas grossas em dimensões superiores†
6,7 resíduos de cauda gorda em modelos de regressão linear
Figura 6.11: Gráfico log-log da
função de sobrevivência dos
resíduos quadrados
P>
0,100
2
ÿ
para o QI-renda linear
regressão usando dados padrão
do Winsconsin Longitudinal
Studies (WLS). Nós
observe que as variáveis de
0,010
renda são Winsorizadas. Cortar
as caudas cria o efeito
2 . Atualilusão de um R alto
0,001
aliado, mesmo sem recorte
cauda, o coeficiente de
determinação mostrará muito
valores mais elevados devido
ÿ^2
2x106
5×106
1x107
pequenas propriedades de amostra para
a variância de uma lei de potência.
R2
2,0
Figura 6.12: Um infinito
caso de variância que mostra um
2
alto R
na amostra; mas no
final das contas tem o valor 0.
membro que R Re-é 2
1,5
estocástico. O problema muito
assemelha-se ao dos valores P
no Capítulo 19 devido ao
complicação de uma
metadistribuição em [0, 1].
1,0
0,5
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
Mencionamos no Capítulo 3 que a regressão linear não informa sob caudas grossas.
No entanto, é praticado. Por exemplo, é patente que as variáveis do rendimento e da riqueza são
lei de potência distribuída (com uma série de problemas, veja nossas discussões de Gini em 13).
No entanto, as pontuações de QI são gaussianas (aparentemente intencionalmente). No entanto, as pessoas regridem uma a uma
o outro não consegue ver que é impróprio.
Considere a seguinte regressão linear em que os independentes e independentes são de
classes diferentes:
Y = aX + b + ÿ,
onde X é Gaussiano padrão (N (0, 1)) e ÿ é lei de potência distribuída, com E(ÿ) =
2
0 e E(ÿ
) < +ÿ. Não há restrições nos parâmetros.
Claramente podemos calcular o coeficiente de determinação R
2 como 1 menos a proporção
da expectativa da soma dos resíduos sobre as variações quadradas totais, então
obtemos a resposta mais geral ao nosso modelo idiossincrático. Como X ÿ N (0, 1),
aX + b ÿ N (b, |a|), temos
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
6,7 resíduos de cauda gorda em modelos de regressão linear 117
n
R = 1 ÿ = 1 ÿSSres ÿ 2
eu=1
(yi - (eixo + b + ÿi ))
ÿ
SStot
n
eu=1
(yi - y)
2
2
.
Podemos mostrar que, para n grande
2
uma
R2 =
(6.13)
2).
+ E(ÿ 2 ) + O ( 1 n
2
uma
eu
E, claro, para variação infinita:
limão
E(R
2
) = 0.
E(ÿ2 )ÿ+ÿ
2 seguirá um
Quando ÿ é distribuído em T com ÿ graus de liberdade, claramente ÿ
Distribuição FRácio (1, ÿ) –uma lei de potência com expoente
A'2 . _
E
4000
2000
Figura 6.13: Uma regressão de
Cauchy com um esperado 2 R =
0, falsificando, mas mostrando
valores mais altos em amostras
X
-4
-3
-2
-1
1
2
3
pequenas (aqui 0,985).
-2000
.
Observe que também podemos calcular a mesma "expectativa" tomando, simplesmente, o quadrado
da correlação entre X e Y. Por exemplo, suponha que a distribuição para ÿ seja a distribuição T de
Student com média zero, escala ÿ e expoente final ÿ > 2 (como vimos anteriormente, obtemos resultados
idênticos aos outros, desde que restrinjamos a média a 0). Vamos começar calculando a correlação: o
numerador é a covariância Cov(X, Y) = E ((aX + b + ÿ)X) = a. O denominador (desvio padrão
. Então
para Y) torna-se ÿ E (((aX + ÿ) ÿ a) 2) = ÿ 2ÿa 2ÿ4a 2+ÿÿ2 a-2
E(R
2
2
uma
)=
(ÿ ÿ 2)
2(uma - 2)uma 2
+ ÿ2
(6.14)
E o limite de cima:
limite
ÿÿ2+
Temos o cuidado aqui de usar E(R
2
E(R
2
) = 0.
) em vez do R aparentemente determinístico porque é
uma variável estocástica que será extremamente dependente da amostra e só se estabilizará para n
grande, talvez até n astronomicamente grande. Na verdade, lembre-se que
2
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
118 caudas grossas em dimensões superiores†
na amostra a expectativa será sempre finita, mesmo que os ÿ sejam Cauchy! O ponto é ilustrado nas Figuras
6.12 e 6.13. Na verdade, quando se utiliza o máximo 2 ) usando ÿ, (o método da "média sombra" na
notamos que no exemplo de QI
2
via E ( ÿde verossimilhança do R Capítulos 13 e 14, entre outros)
estimativa
usado no gráfico, a média dos resíduos amostrais são cerca de metade da probabilidade máxima um,
tornando R
2
ainda mais baixo (isto é, virtualmente 0) 4 .
Este ponto invalida muitos estudos sobre as relações QI-riqueza e QI-renda do tipo [268]; podemos ver o
efeito impressionante na Figura 6.11. Dado que R está limitado em [0, 1], ele atingirá seu valor verdadeiro
muito lentamente – veja o problema do valor P no Capítulo 19.
Propriedade
3 Quando uma variável aleatória de cauda gorda é regredida em relação a uma variável de cauda fina, o
maior de determinação do
coeficiente 2 será tendencioso para mais alto e requer uma amostra muito
tamanho R para convergir (se é que isso acontece).
Observe que às vezes as pessoas tentam resolver o problema por meio de alguma transformação não
linear de uma variável aleatória (digamos, o logaritmo) para tentar estabelecer uma relação linear. Se a
transformação necessária for exata, tudo ficará bem – mas apenas se for exato. Erros podem surgir da
discrepância. Pois a correlação é extremamente delicada e, diferentemente da informação mútua, não é
aditiva e muitas vezes pouco informativa. O ponto foi explorado por este autor em [238].
próximo
Examinaremos no capítulo 8 a lenta convergência das variáveis distribuídas das leis de potência sob a lei
dos grandes números (LLN): pode ser até 1013 vezes
mais lento que o gaussiano.
4 2,2 109 versus 1,24 109 .
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
UM CASO ESPECIAL DE TA ILS ESPECIAIS
doença
0
tempo
Figura A.1: Uma xícara de café tem
menos probabilidade de causar
20
danos “pequenos” do que grandes.
Ele se estilhaça e fica exposto a
Baixa probabilidade
40
Região
(quase) tudo ou nada. O mesmo
tipo de recompensa prevalece em
mercados com, por exemplo,
desvalorizações (reavaliadas), onde
60
pequenos movimentos para além
de uma barreira são menos
80
prováveis do que movimentos maiores.
100
F
ou distribuições unimodais, as caudas grossas são a norma: pode-se olhar
para dezenas de milhares de séries temporais das variáveis socioeconómicas
sem encontrar um único episódio de distribuições "platicúrticas". Mas para
distribuições multimodais, algumas surpresas podem ocorrer.
a.1 multimodalidade e caudas grossas, ou o modelo de guerra e paz
Observamos anteriormente em 4.1 que estocasticizando (ou seja, tornando uma variável
determinística estocástica), ainda que moderadamente, as variâncias, a distribuição ganha em
cauda espessa (conforme expresso pela curtose). Mas mantivemos a mesma média.
Mas se também estocastizássemos a média (ao mesmo tempo que preservamos a média inicial)
e separássemos suficientemente os resultados potenciais, de modo a obtermos muitas modas, a
“curtose” (medida pelo quarto momento) diminuiria. E se associarmos diferentes variâncias a
diferentes meios, obtemos uma variedade de “regimes”, cada um com o seu conjunto de
probabilidades.
119
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
120 casos especiais de caudas grossas
Pr.
S2
S1
Figura A.2: O modelo de
guerra e paz. Curtose
=1,7, muito inferior à
Gaussiana.
Curtose
3,0
2,5
Figura A.3: Curtose
negativa (relativa) e
bimodalidade (3 é o Gaussiano).
2,0
1,5
-10
-5
5
m1-m2
10
Ou o próprio significado de “caudas grossas” perde seu significado sob a multimodalidade, ou
assume um novo significado onde o “meio”, em torno da expectativa, deixa de ter importância.[7,
156].
Ora, existem muitas situações na vida real em que somos confrontados com muitos regimes ou
estados possíveis. Assumindo momentos finitos para todos os estados, considere a seguinte
estrutura: s1 um regime calmo, com média esperada m1 e desvio padrão ÿ1 , s2 um regime
violento, com média esperada m2 e desvio padrão ÿ2, ou mais desses estados. Cada estado tem
sua probabilidade pi .
Agora tomemos o caso simples de uma Gaussiana com médias de comutação e variância: com
será
12 ,X
ÿ N (µ1 , ÿ1 ) e com probabilidade X ÿ N (µ2,
12 , ÿ2). A probabilidade de curtose
4
Curtose = 3 ÿ
2 ( (µ1 ÿ µ2)
2
( (µ1 ÿ µ2)
22ÿp
ÿ 6 ( pág.1
(A.1)
22+p2
+ 2 ( p1
2 )2 ) ) )2
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
a.1 multimodalidade e caudas grossas, ou o modelo de guerra e paz 121
Como vemos, a curtose é uma função de d = µ1 ÿ µ2. Para situações onde ÿ1 = ÿ2, µ1 ÿ= µ2 , a curtose será
inferior à da Gaussiana regular e nossa medida será naturalmente negativa. Na verdade, para que a curtose
permaneça em 3,
2 ÿ min(ÿ1 , ÿ2) 2,
|d|= ÿ4 6 ÿ máx(ÿ1 , ÿ2)
a estocasticidade da média compensa a estocasticidade da volatilidade.
Suponhamos, para simplificar um modelo de período único, como se estivéssemos diante de uma
fatia discreta da história, olhando para o futuro, para os resultados. (Adicionar complicações (matrizes
de transição entre diferentes regimes) não altera o resultado principal.)
A função característica ÿ(t) para a distribuição mista torna-se:
N
(t) =
ÿÿ pi e
-
1
2
t 2ÿ 2 +itmi
eu
eu=1
Para N = 2, os momentos são simplificados da seguinte forma:
M1 = p1m1 + (1 ÿ p1) m2
22+p
M2 = p1 (m
M3 = p1m
M4 = p1 (6m
1
22+p
1 ) + (1 ÿ p1) ( m + 2
3
1 (1 ÿ p1) m2 ( m 1 )
2)
2 2 + 3p
2
2 ) + 3m1 p1s
2
1
2 2 4 4 + 3ÿ ÿ + m 1 1
2 2 4 4 + 3ÿ ÿ + m 2 2
1
2
+ (1 ÿ p1) ( 6m
2)
Consideremos as diferentes variedades, todas caracterizadas pela condição p1 < (1 ÿ p1 ), m1 < m2,
preferencialmente m1 < 0 e m2 > 0, e, no fundo, pela propriedade central: ÿ1 > ÿ2.
Variedade 1: Guerra e Paz. Período calmo com média positiva e volatilidade muito baixa, turbulência
com média negativa e volatilidade extremamente baixa.
Variedade 2: Estado determinístico condicional Considere um título B, pagando juros r no final de
um único período. Na rescisão, há uma grande probabilidade de obter B(1 + r), uma possibilidade de
inadimplência. Obter exatamente B é muito improvável. Pense que não existem etapas intermediárias
entre a guerra e a paz: estes são estados separáveis e distintos. Os títulos não ficam inadimplentes
apenas “um pouquinho”. Observe a divergência, a probabilidade de a realização estar na média ou
próxima dela é quase nula. Normalmente, p(E(x)) a PDF da expectativa é menor do que nas diferentes
médias de regimes, então P(x = E(x)) < P (x = m1) e < P (x = m2), mas no caso extremo (títulos), P(x
= E(x)) torna-se cada vez mais pequeno. O evento de cauda é a realização em torno da média.
A mesma ideia aplica-se às paridades cambiais, uma vez que as desvalorizações não podem ser
“moderadas”, com volatilidade do tipo tudo ou nada e baixa densidade no “vale” entre os dois regimes
distintos.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
122 casos especiais de caudas grossas
Pr.
S1
S2
Figura A.4: O modelo de pagamento
de títulos/pegamento de moeda.
Ausência de volatilidade estagnada em
a paridade, recompensa
determinística no regime 2, caos em
regime 1. Aqui a curtose
K=2,5. Observe que o café
xícara é um caso especial de ambos
regimes 1 e 2 sendo degenerados
erar.
Figura A.5: Pressão sobre
a estaca que pode dar
um Dirac PDF no "não
regime de desvalorização" (ou,
equivalentemente, baixa
volatilidade). É típico de fi-
financiar imbecis para mistome o regime S2 para baixo
volatilidade.
Com os retornos das opções, esta bimodalidade tem o efeito de aumentar o valor das opções no
dinheiro e diminuir o valor das opções fora do dinheiro, fazendo com que o valor exato
oposto do chamado “sorriso de volatilidade”.
Observe que a xícara de café não está entre quebrada e saudável. E o estado de
sendo quebrado pode ser considerado um estado absorvente (usando cadeias de Markov para
probabilidades de transição), já que copos quebrados não acabam se consertando sozinhos.
Nem é provável que as xícaras de café estejam “levemente quebradas”, como vemos na figura A.1.
Uma breve lista de outras situações em que a bimodalidade é encontrada:
1. Fixações cambiais
2. Fusões
3. Escolhas e resultados profissionais
4. Conflitos: interpessoais, gerais, marciais, qualquer situação em que não haja
intermediário entre relações harmoniosas e hostilidade.
5. Cascatas condicionais
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
a.2 probabilidades de transição: o que pode quebrar, quebrará 123
a.2 probabilidades de transição: o que pode quebrar, quebrará
Até agora, olhámos para um modelo de período único, que é a forma realista, uma vez
que novas informações podem mudar a bimodalidade no futuro: temos clareza sobre
uma etapa, mas não mais. Mas façamos um exercício que nos dará uma ideia sobre a
fragilidade. Assumindo que a estrutura do modelo permanece a mesma, podemos
observar o comportamento a longo prazo sob transição de estados. Seja P a matriz de
probabilidades de transição, onde pi,j é a transição do estado i para o estado j sobre ÿt, (que
é, onde S(t) é o regime prevalecente no período t, P ( S(t + ÿt) = sj S(t) = si ))
P = ( p1,1
p1,2
p2,1
p2,2)
Após n períodos, ou seja, n etapas,
Pn
= ( bn
dncn
)
Onde
um = (p1,1 ÿ 1) (p1,1 + p2,2 ÿ 1) n + p2,2 ÿ 1
p1,1 + p2,2 ÿ 2
bn
(1 ÿ p1,1) ((p1,1 + p2,2 ÿ 1) n ÿ 1)
= p1,1 + p2,2 ÿ 2 (1 ÿ p2,2)
cn = ((p1,1 + p2,2 ÿ 1) n ÿ 1) p1,1 + p2,2
ÿ2
dn =
(p2,2 ÿ 1) (p1,1 + p2,2 ÿ 1) n + p1,1 ÿ 1
p1,1 + p2,2 ÿ 2
O caso extremo a considerar é aquele com o estado absorvente, onde p1,1 = 1,
portanto (substituindo pi,ÿ=i|i=1,2 = 1 ÿ pi,i ).
Pn
0
N
N
= (1 1 - p 2,2
p 2,2
)
e as probabilidades "ergódicas":
n
limnÿÿ P = (1 0 1 0)
A implicação é que o regime de estado absorvente 1, S(1) acabará dominando
com probabilidade 1: o que pode quebrar e é irreversível acabará quebrando.
Com a matriz "ergódica",
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
124 casos especiais de caudas grossas
n
limnÿÿ P
onde 1
T
= p.1
T
é a transposta do vetor unitário {1,1}, ÿ a matriz dos autovetores.
1
Os autovalores tornam-se ÿ = ( p1,1 + p2,2 ÿ 1 ) e autovetores associados ÿ
1
=
1ÿp1,1
( 1ÿp2,2
11)
.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
parte II
O AW DOS NÚMEROS MÉDIOS
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
7 LIMITES DISTRIBUIÇÕES
, A
CONSOLIDAÇÃO ÿ,†
estrutura em distribuições limite vista do nosso propósito, com algumas
N este capítulo
expositivo
procedemos
à consolidação
da literatura
atalhos
onde indicado.
Depois de introduzir
a lei das grandes
números, mostramos a intuição por trás da teoria do limite central
rem e ilustrar como varia pré-assintoticamente entre as distribuições.
Em seguida, discutiremos a lei dos grandes números aplicada a números superiores.
momentos. Uma abordagem mais formal e mais profunda será apresentada no próximo
capítulo.
Tanto a lei dos grandes números quanto o teorema do limite central são respostas parciais
para um problema geral: "Qual é o comportamento limitante de uma soma (ou média) de
variáveis aleatórias à medida que o número de somas se aproxima do infinito?". E nosso
lei dos números médios (ou pré-assiptóticos) é: e agora, quando o número de
summands não chega ao infinito?
7.1 atualização: o ln fraco e o forte
A apresentação padrão é a seguinte. Seja X1 , X2 ,. . . seja uma sequência infinita de
variáveis aleatórias independentes e distribuídas de forma idêntica (Lebesgue integráveis)
com valor esperado E(Xn) = µ (veremos mais abaixo pode-se um pouco
1
(X1 + · · · + Xn)
relaxe as suposições do iid). Para todo n, a média amostral Xn =
n
converge para o valor esperado, Xn ÿ µ ,para n ÿ ÿ.
A finitude da variância não é necessária (embora, é claro, os momentos superiores finitos
acelerem a convergência).
P
Existem dois modos de convergência: convergência em probabilidade ÿ (que implica
convergência na distribuição, embora nem sempre o inverso), e o mais forte
como
ÿ convergência quase certa (semelhante à convergência pontual) (ou quase toda
Capítulo de discussão (com alguma pesquisa).
127
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
128 distribuições limite, uma consolidaçãoÿ,†
onde ou quase sempre). Aplicada aqui, a distinção corresponde ao LLN fraco e forte, respectivamente.
O LLN fraco A lei fraca dos grandes números (ou lei de Kinchin, ou às vezes chamada de lei de
Bernouilli) pode ser resumida da seguinte forma: a probabilidade de uma variação que exceda
algum limite da média torna-se progressivamente menor à medida que a sequência avança. Na
teoria da estimativa, um estimador é chamado de consistente se convergir em probabilidade para a
quantidade que está sendo estimada.
P
Xn
ÿÿ µ quando n ÿ ÿ.
Ou seja, para qualquer número positivo ÿ,
limnÿÿ P ( |Xn ÿ µ|> ÿ ) = 0.
Observe que as provas padrão são baseadas na desigualdade de Chebyshev: se X tem um valor finito
2 variância diferente de zero ÿ . Então, para qualquer número real k > 0,
1 Pr(|X ÿ µ|ÿ kÿ) ÿ k 2 .
O LLN forte A lei forte dos grandes números afirma que, à medida que o número de somas n vai
para o infinito, a probabilidade de a média convergir para a expectativa é igual a 1.
como
Xn
ÿÿ µ quando n ÿ ÿ.
Aquilo é,
P ( limnÿÿ Xn = µ ) = 1.
Relaxações de iid Agora pode-se relaxar a suposição de distribuição idêntica sob algumas
condições: Kolmogorov provou que distribuições não idênticas para as somas Xi requerem para
cada soma a existência de um segundo momento finito.
Quanto à independência, é permitida alguma dependência fraca. Tradicionalmente, as condições
são, novamente, a variância finita usual 1) V(Xi ) ÿ c e alguma estrutura na matriz de covariância, 2)
lim Cov(Xi , Xj ) = 0. |iÿj|ÿ+ÿ
n
No entanto, acontece que 1) pode ser enfraquecido para ÿ V[Xi ] = o(n
2
) e 2) |Cov(Xi , Xj )|ÿ
eu=1
ÿ(|i ÿ j|), onde
n
1n
ÿ ÿ(i) ÿ 0. Ver Bernstein [19] e Kozlov [148] (em russo).2
eu=1
2 Agradecendo a "romanoved", um misterioso ajudante que fala russo no Mathematics Stack Exchange.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
7.2 limite central na ação 129
Nosso Interesse Nossa preocupação neste capítulo e no próximo é claramente observar a “velocidade”
dessa convergência. Observe que, sob a suposição mais forte de iid, não precisamos que a variância
seja finita, portanto, podemos focar no desvio médio absoluto como uma métrica para divergência.
7.2 limite central em ação
ÿ1
ÿ2
1,0
0,5
0,8
0,4
0,6
0,3
0,4
0,2
0,2
0,1
x
x
1
0,2 0,4 0,6 0,8 1,0
2
4
3
ÿ4
ÿ3
0,25
0,15
0,20
0,15
0,10
0,10
0,05
0,05
x
2
x
468
5
10
15
Figura 7.1: O CLT mais rápido: o Uniforme torna-se Gaussiano em poucos passos. Temos, sucessivamente,
1, 2, 3 e 4 somas. Com 3 somas vemos um formato de sino bem formado.
Começaremos com uma simplificação do teorema generalizado do limite central (GCLT), conforme
formulado por Paul Lévy (as abordagens tradicionais do CLT, bem como a espinha dorsal técnica serão
apresentadas posteriormente):
7.2.1 A Distribuição Estável
Usando a mesma notação acima, seja X1 , . . . , Xn sejam variáveis aleatórias independentes e
distribuídas de forma idêntica. Considere sua soma Sn. Nós temos
Sn ÿ an ÿ
D
Xs, bn
(7.1)
onde Xs segue uma distribuição estável S, an e bn são constantes normativas, e, to ÿ denota
D
serão
convergência na distribuição (a distribuição de X como n ÿ ÿ). repito, as propriedades de S
definidas e exploradas mais adequadamente no próximo capítulo.
Consideremos por enquanto que uma variável aleatória Xs segue uma distribuição estável (ou ÿ-estável),
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
130 distribuições limite, uma consolidaçãoÿ,†
Figura 7.2: Paul Lévy, 1886-1971, formulou o
teorema generalizado do limite central.
simbolicamente Xs ÿ S(ÿs, ÿ, ÿ, ÿ), se sua função característica ÿ(t) = E(e itXs ) for do tipo
forma:
2 )sgn(t))) quando ÿs ÿ= 1.
ÿ(t) = e (iµtÿ|tÿ| ÿs (1ÿiÿ tan( ÿÿÿs
(7.2)
As restrições são ÿ1 ÿ ÿ ÿ 1 e 0 < ÿs ÿ 2. 3 A designação
distribuição estável implica que a distribuição (ou classe) é estável sob soma: você soma
variáveis aleatórias seguindo qualquer uma das várias distribuições que são membros de a classe
S explicada no próximo capítulo (na verdade a mesma distribuição com diferentes parametrizações
da função característica), e você permanece dentro da mesma distribuição. Intuitivamente, ÿ(t)
n
tem a mesma forma que ÿ(t) , com µ ÿ nµ, e ÿ ÿ n algumas pessoas chamam de "bacia") são: o
1
Gaussiano, o Cauchy e o Lévy com ÿ ÿÿ . As distribuições bem conhecidas na classe (ou
= 2, 1 e 2 , respectivamente. Outras distribuições não têm densidade de forma fechada.4
1
7.2.2 A Lei dos Grandes Números para a Distribuição Estável
Voltemos à lei dos grandes números.
3 Tentaremos usar ÿs ÿ (0, 2] para denotar o expoente da distribuição limitante e estável platônica e ÿp ÿ (0, ÿ) o
equivalente paretiano (pré-sintótico) correspondente, mas apenas em situações onde possa haver alguma
ambiguidade. ÿ simples deve ser entendido no contexto.
4 Na verdade, existem formas de utilizar funções especiais; por exemplo, um descoberto acidentalmente pelo 2 , ÿ =
3
, PDF(x) =
autor: para o Stable S com parâmetros padrão ÿ =
1, µ = 0, ÿ = 1
3x
ÿ3 2e
2
2x
27 ( ÿ3 3xAi( x 3 22/3 ÿ3 ) +3 ÿ3 2Aiÿ ( 3 22/3 ÿ3 3 ))
33
32/3 atribuição para somas de Pareto.
usado mais abaixo no exemplo sobre o limite dis-
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
7.3 velocidade de convergência do clt: explorações visuais 131
pdf2.5
2,0
Dirac
Figura 7.3: A lei dos grandes
números mostra uma
distribuição estreita em torno
da média, levando à
degeneração convergindo
para uma vara de Dirac na média exata.
1,5
1,0
0,5
significar
-4
-2
0
2
4
Pelos resultados padrão, podemos observar a lei dos grandes números em ação para a
distribuição estável, conforme ilustrado na Figura 7.3:
lim
nÿ+ÿ
eu não
x (tn )n = e
, 1 < ÿs ÿ 2
(7.3)
que é a função característica de um delta de Dirac em µ, uma distribuição degenerada, uma
vez que a transformada de Fourier F (aqui parametrizada para ser o inverso da função
característica) é:
1
(7.4)
ÿ 2p Ft ( e iµt ) (x) = ÿ(µ + x).
Além disso, podemos observar a operação em "tempo real" para todo 1 < n < +ÿ das
seguintes maneiras, como exploraremos nas próximas seções.
7.3 velocidade de convergência do clt: explorações visuais
Notamos que se X tiver uma variância finita, a variável aleatória Xs com distribuição estável
será gaussiana. Mas observe que Xs é uma construção limitante quando n ÿ ÿ e há muitas,
muitas complicações com "quão rápido" chegamos lá. Consideremos 4 casos que ilustram
tanto a ideia da CLT quanto a velocidade dela.
7.3.1 Convergência Rápida: a Dist. Uniforme.
Considere uma distribuição uniforme – a mais simples de todas. Se seu suporte estiver em
[0, 1], ele simplesmente terá uma densidade de ÿ(x1 ) = 1 para 0 ÿ x1 ÿ 1 e integra-se a 1.
Agora adicione outra variável, x2, distribuída de forma idêntica e independente. A soma x1
+ x2 mudou imediatamente de forma! Observe ÿ2(.), a densidade da soma na Figura 7.1.
Agora é um triângulo. Adicione uma variável e agora considere a densidade ÿ3 da
distribuição de X1 + X2 + X3. Já está quase em forma de sino, com n = 3 somas.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
132 distribuições limite, uma consolidaçãoÿ,†
A distribuição uniforme da soma
n
ÿÿn (x) =
k=0
(ÿ1)k ( nk () x ÿ L H ÿ eu
ÿ k )nÿ1 sgn ( x ÿHLÿ eu
ÿ1
ÿ k) para nL ÿ x ÿ nH
ÿ2
1,0
0,8
0,3
0,6
0,2
0,4
0,1
0,2
x
1
2
3
x
4
2
4
6
8
ÿ4
ÿ3
0,25
0,20
0,15
0,10
0,05
0,20
0,15
0,10
0,05
x
2
4
x
68
2 4 6 8 10 12
ÿ9
ÿ10
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,12
0,10
0,08
0,06
0,04
0,02
x
x
5 10 15 20 25
5 10 15 20 25 30
Figura 7.4: A distribuição exponencial,ÿ indexada pelo número de somas. Mais lento que o
uniforme, mas bom o suficiente.
7.3.2 Convergência semilenta: a exponencial
Vamos considerar uma soma de variáveis aleatórias exponenciais.
Temos para densidade inicial
ÿ1 (x) = ÿe
ÿÿx
, x ÿ 0,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
7.3 velocidade de convergência do clt: explorações visuais 133
Figura 7.5: A distribuição de Pareto. Não quer perder sua assimetria, embora neste caso deva
convergir para a Gaussiana... eventualmente.
e para n somas5
nÿ1 ÿÿx e
.
C(n)
ÿn(x) = ( 1 ÿ )ÿn x
Temos, substituindo x por n/ÿ (e mais tarde nas ilustrações da Fig. 7.4
ÿ = 1),
nÿ 1e
2
ÿ(ÿx)
(xÿ n )
( 1ÿ )ÿn x
C(n)
2ÿÿe ÿ _ _
ÿnÿÿ
ÿ2n _
,
ÿ 2ÿ ÿ n
que é a densidade da distribuição normal com média
n
e variância ÿ
n
l2 .
Podemos ver como chegamos mais lentamente ao Gaussiano, como mostrado na Figura 7.4,
principalmente devido à sua assimetria. Chegar ao Gaussiano requer simetria.
7.3.3 O lento Pareto
Considere a distribuição de Pareto mais simples em [1, ÿ):
ÿ1 (x) = 2x
ÿ3
5 Derivamos a densidade das somas por convolução, fácil neste caso, ou como veremos com o Pareto,
através de funções características.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
134 distribuições limite, uma consolidaçãoÿ,†
Figura 7.6: A distribuição
de Pareto, ÿ100 e ÿ1000,
não melhora muito em
direção à gaussianidade,
mas um ÿ = 2 acabará por
levá-lo até lá se você for
paciente e tiver uma vida
longa, muito longa.
e invertendo a função característica,
1
ÿn(x) =
ÿ
2ÿÿ _
exp(ÿitx)(2E3(ÿit))n dt, x ÿ n
ÿÿ
ÿ
dtet(ÿz)
Onde E(.) (.) é a integral exponencial En(z) = ÿ t n . Claramente,
a integração é feita
1
numericamente (até agora ninguém conseguiu extrair a distribuição de uma soma de
Pareto). Pode ser exponencialmente lento (até 24 horas para n = 50 vs. 45 segundos
para n = 2), por isso usamos simulações de Monte Carlo para as Figs. 7.3.1.
Lembre-se da Eq. 7.1 que a convergência requer constantes normativas an e bn.
De Uchaikin e Zolotarev [257], temos (estreitando a situação para 1 < ÿp ÿ 2):
P(X > x) = cxÿÿp
como x ÿ ÿ (suponha aqui que c é uma constante, apresentaremos mais formalmente a
"função de variação lenta" no próximo capítulo, e
P(X < x) = d|x| ÿÿp
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
7.4 cumulantes e convergência 135
como x ÿ ÿ. As constantes normativas tornam-se an = n E(X) para ÿp > 1 (para outros casos,
consulte [257] , pois é improvável que ocorram na prática), e
ÿ
bilhões =
ÿ
ÿ
pn
1 p.
2)
1/ ÿp ( 2 pecado ( pap
ÿ(ÿp) ) ÿ ÿ
(c + d) 1/ ÿp para 1 < ÿp < 2
c + d ÿ n log(n)
.
(7,5)
para ÿp = 2
c-d
E o parâmetro de simetria ÿ = parâmetro c+d . Claramente, a situação em que o Paretian
ÿp é maior que 2 leva ao Gaussiano.
7.3.4 O Pareto meio cúbico e sua bacia de convergência
De interesse é o caso de ÿ =
3
2 . Ao contrário das situações em que, como na Figura
7.3.1, a distribuição acaba lentamente sendo simétrica. Mas, como abordaremos no próximo
capítulo, é errado confundir as suas propriedades com as de um estábulo. É, em certo
sentido, mais cauda gorda.
ÿ10.000
Figura 7.7: A distribuição de
Pareto semicúbica nunca
se torna simétrica na vida real.
Aqui n = 104
25.000
30.000
40.000
35.000
x 45.000
7.4 cumulantes e convergência
Como a Gaussiana (como uma bacia de convergência) tem assimetria de 0 e curtose (bruta)
de 3, podemos examinar heuristicamente a convergência desses momentos para estabelecer
a velocidade de funcionamento no CLT.
Definição 7.1 (Excesso de p-cumulantes)
Seja ÿ(ÿ) uma função característica de uma dada distribuição, n o número de somas (para
variáveis aleatórias independentes), p a ordem do momento. Definimos a proporção de
º
cumulantes para o p correspondente momento:
Kk p
_
ÿ
(ÿi) pÿ p log(ÿ(ÿ)
(ÿÿ
2
log(x(ÿ) n))
n
)
2
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
136 distribuições limite, uma consolidaçãoÿ,†
Cobre
Ouro
Depósito de Eurodólares 3M
Kurt
Kurt
Kurt
25
20
6
5
20
15
4
15
10
3
10
2
5
5
1
10
20
30
40
Equipe n
10
Gado vivo
20
30
40
Equipe n
10
RTSI da Rússia
Kurt
20
30
40
30
40
30
40
Equipe n
Refeição de soja
Kurt
Kurt
14
14
8
12
12
10
10
6
8
4
8
6
6
4
4
2
2
10
20
30
40
Equipe n
2
10
Notas TY10Y
20
30
40
Equipe n
10
Austrália TB 10 anos
Kurt
20
Equipe n
Café NY
Kurt
Kurt
10
6
6
5
8
4
6
4
3
4
2
2
2
1
10
20
30
40
Equipe n
10
20
30
40
Equipe n
10
20
Equipe n
º
Figura 7.8: Comportamento do 4º momento sob agregação para alguns títulos financeiros considerados convergentes para
a Gaussiana, mas na verdade não convergem (dados de backup para [228]). Não há nenhuma maneira concebível de
reivindicar convergência para Gaussiana para dados amostrados em uma frequência mais baixa.
K(n) é uma métrica de excesso p º momento sobre o de um gaussiano, p > 2; em outras palavras, = 0
K 4 denota gaussianidade para n somas independentes.
n
Observação 6
Nós notamos que
p =0
limnÿÿ KN
para todas as distribuições de probabilidade fora da classe Power Law.
p
Notamos também que limpÿÿ K enfrenta n é finito para a classe de cauda fina. Em outras palavras, nós
uma bacia bem definida de momentos convergentes versus momentos divergentes.
Para distribuições fora da bacia da Lei de Potência, ÿp ÿ N>2, K n decai a uma taxapNpÿ2 .
Um esboço da prova pode ser feito usando a distribuição estável como bacia limitante e a não derivabilidade
na ordem p maior que seu índice de cauda, usando a Eq. 8.4.
A Tabela 7.1 mostra o que acontece com os cumulantes K(.) para variáveis somadas com n.
Esperaríamos uma queda a uma taxa
1
N2 para volatilidade estocástica (wlog de variância gama).
Contudo, a figura 10.2 mostra que a queda não ocorre nessa velocidade.
Visivelmente não estamos na bacia. Como visto em [228], há uma ausência de convergência da curtose no
somatório das variáveis econômicas.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
7.5 atualização técnica: versões tradicionais do clt 137
Tabela 7.1: Tabela de cumulantes normalizados para distribuições de cauda fina Velocidade de convergência
para N somas independentes
-
Distr. Exposição de Poisson. Vol de 2 estados simétrico gama
(eu)
(eu)
(a,b) (ÿ1 , ÿ2)
1
1
1
1
K(2)
1
2ÿn
0
_
n.m.
2 anos
K(3)
K(4)
1nl2 _
3(1ÿp)p
2 3!eu
3!
n
a 2b 2n _ _
n
(ÿ 21
×
C-variância
(a, b)
1
0
2
2 - p.
3b
n
2)
2 3
(pÿ 212 ) ÿ(pÿ1)ÿ
7.5 atualização técnica: versões tradicionais do clt
Esta é uma atualização das diversas abordagens agrupadas sob a designação CLT.
A versão padrão (Lindeberg-Lévy) do CLT Suponha como2antes uma sequência de
variáveis aleatórias iid com E(Xi ) = µ e V(Xi ) = ÿ < +ÿ, e Xn a média amostral para n. Então,
à medida que n se aproxima do infinito, a soma das variáveis aleatórias ÿ n(Xnµ) converge
em distribuição para uma Gaussiana [20] [21]:
d
ÿ n ( Xn ÿ µ )
ÿÿ N ( 0, ÿ 2 ) .
Convergência na distribuição significa que o CDF (função de distribuição cumulativa) de ÿ n
converge pontualmente para o CDF de N (0, ÿ) para cada z real,
ÿ n(Xn ÿ µ)
ÿ
p
limnÿÿ P (ÿ n(Xn ÿ µ) ÿ z ) = limnÿÿ P [
Com
Com
ÿ]=ÿ(
p
),
ÿ>0
onde ÿ(z) é o cdf normal padrão avaliado como z. Observe que a convergência é uniforme
em z no sentido de que
Com
limnÿÿzÿR
sup P (ÿ n(Xn ÿ µ) ÿ z ) ÿ ÿ (
p
) = 0,
onde sup denota o menor limite superior, ou seja, o supremo do conjunto.
CLT de Lyapunov Na derivação de Lyapunov, os somandos têm que ser independentes,
mas não necessariamente distribuídos de forma idêntica. O teorema também exige que
variáveis aleatórias | 'Xi | têm momentos de alguma ordem (2 + ÿ, e que a taxa de
crescimento desses momentos é limitada pela condição de Lyapunov dada abaixo.
A condição é a seguinte. Definir
n
2s n
_
=
ÿ
eu=1
2p
eu _
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
138 distribuições limite, uma consolidaçãoÿ,†
Se para algum ÿ > 0,
n
1
2+
limnÿÿ ds
E ( |Xi ÿ µi | 2+ÿ ) = 0, ÿ
n
eu=1
então uma soma de Xiÿµi converge na distribuição para uma variável aleatória normal padrão, à
e
medida que n vai para o infinito:
1
sn
n
ÿ
D
ÿÿ N(0, 1).
(Xi ÿ µi)
eu=1
Se uma sequência de variáveis aleatórias satisfaz a condição de Lyapunov, então também
satisfaz a condição de Lindeberg que abordamos a seguir. A implicação inversa, no entanto, não se
sustenta.
Condição de Lindeberg Lindeberg permite chegar à CLT sob premissas mais fracas. Com as
mesmas notações anteriores:
1
limnÿÿ
2s _
n
n
ÿ
2
E ( (Xi ÿ µi )
· 1{|Xiÿµi |>ÿsn} ) = 0
eu=1
para todo ÿ > 0 , onde 1 função indicadora, então a variável aleatória Zn =
ÿ ni=1(Xiÿµi)
sn
converge na distribuição] para um Gaussiano como n ÿ ÿ.
A condição de Lindeberg é suficiente, mas em geral não é necessária, exceto se a sequência em
consideração satisfizer:
ÿ
2
ÿ 0,
como n ÿ ÿ,
eu
máximo 1ÿkÿn
2sn
então a condição de Lindeberg é suficiente e necessária, ou seja, é válida se e somente se o
resultado do teorema do limite central for válido.
7.6 a lei dos grandes números para momentos superiores
7.6.1 Momentos Superiores
Um teste de cauda gorda pode ser visto aplicando a lei dos grandes números a momentos mais
elevados e vendo como eles convergem. Um exame visual do comportamento da média cumulativa
do momento pode ser feito de maneira semelhante aos testes visuais padrão do LLN que vimos no
Capítulo 3 – exceto que se aplica a X p (bruto ou centrado) em vez de X. Nós verifique o
funcionamento da lei dos grandes números, verificando se a adição de observações causa uma
redução da variabilidade da média (ou da sua variância, se existir). Momentos que não existem
apresentarão saltos ocasionais – ou, equivalentemente, grandes subamostras produzirão médias
diferentes. Quando existem momentos, adicionar observações eventualmente evita novos saltos.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
7.6 a lei dos grandes números para momentos superiores 139
Outra técnica visual é considerar a contribuição da observação máxima para o total e ver como ela se comporta
à medida que n aumenta. É chamado de MS
gráfico [115], "máximo para soma", e mostrado na Figura 7.9.
Tabela 7.2: Curtose K(t) para t janelas diárias, de 10 dias e de 66 dias para as variáveis aleatórias
Máx.
K(1)
K(10) K(66)
Anos
Quartico
Dólar Australiano/USD
6.3
2.9
0,12
22.
Austrália TB 10 anos
7,5
3,8
6,2
3.5
0,08
Austrália TB 3 anos
7,5
5.4
4.2
0,06
25.
21.
Óleo de Feijão
5.5
7,0
4.9
0,11
47.
Títulos 30 anos
5.6
4.7
3.9
0,02
Bovespa
24,9
5,0
2.3
0,27
32.
16.
Libra Esterlina/USD
6,9
7.4
5,3
0,05
38.
CAC40
Dólar canadense
6,5
4.7
3,6
20.
7,4
4.1
3,9
0,05
0,06
38.
Coco NY
4.9
4,0
5.2
0,04
47.
Café NY
10,7
5.2
5.3
0,13
37.
Cobre
Milho
6,4
4,5
5,0
0,05
0,18
48.
9,4
5,5
8,0
Óleo cru
29,0
4.7
5.1
0,79
TC
7,8
8,0
4,8
3.7
0,25
6,5
3.7
0,20
48.
18.
4.9
3,2
3.3
0,06
18.
5.5
3.8
2.8
0,06
38.
41,5
21.1
28,0
6,0
0,31
8.1
7,0
0,25
19.
28.
DAX
Governo federal europeu
Moeda Euro/DEM
49.
26.
anteriormente
Depósito de eurodólar 1 milhão
Depósito de Eurodólares 3M
FTSE
15.2
27,4
25.
11.9
14,5
6,5
16,6
0,54
Ouro
0,04
35.
Óleo de aquecimento
20,0
4.1
4.4
0,74
31.
Porcos
4,5
4.8
0,05
Índice de ações de Jacarta
40,5
4,6
6,2
4.2
0,19
43.
16.
Títulos Governamentais Japoneses
17.2
16,9
4,3
0,48
24.
Gado vivo
4.2
4.9
5,6
0,04
Índice Nasdaq
Gás natural
11,4
6,0
9.3
5,0
3.9
3,8
0,13
0,06
44.
21.
Nikkeis
52,6
4,0
2,9
Notas 5A
RTSI da Rússia
5.1
3,2
6,0
2,5
0,72
0,06
7.3
0,13
17.
Libra esterlina curta
Prata
851,8
93,0
22,6
3,0
10.2
0,75
17.
0,94
0,06
46.
6.8
6,7
0,17
47.
48.
13,3
19.
23.
21.
Pequena capitalização
160,3
6,1
Soja
7,1
5,7
8,8
Refeição de soja
8,9
9,8
8,5
0,09
Sp500
38,2
7,7
5,1
0,79
56.
Açúcar #11
9.4
6,4
3,8
0h30
48.
17.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
140 distribuições limite, uma consolidaçãoÿ,†
Tabela 7.2: (continuação da página anterior)
Máx.
K(1)
K(10) K(66)
Anos
Quartico
Franco suíço
5.1
3,8
2.6
0,05
Notas TY10Y
5,9
4,9
0,10
27.
Trigo
5,6
5,5
6,0
6,9
0,02
49.
Iene/USD
9,7
6.1
2,5
0,27
38.
38.
Máx.
Soma
1,0
0,8
Figura 7.9: MS Plot mostrando
o comportamento dos momentos
cumulativos p = 1, 2, 3, 4
para o SP500 acima dos 60
anos que terminam em 2018. O
Gráfico MS (máximo para soma)
será apresentado em 10.2.6.
0,6
0,4
0,2
5.000
10.000
15.000
Máx.
Soma
1,0
0,8
Figura 7.10: Controle Gaussiano
para os dados da Figura
7.9.
0,6
0,4
0,2
5.000
10.000
15.000
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
7,7 desvio médio para distribuições estáveis 141
7,7 desvio médio para distribuições estáveis
1
para situações de finito
Vamos preparar um resultado para o próximo capítulo usando a
norma L média, mas com variância infinita.6 É claro que não temos como medir a compressão
.
2 da distribuição em torno da média dentro da norma L
1
O erro de uma soma na norma L
é o seguinte. Seja ÿ(x) a função de Heaviside (cujo
valor é zero para argumentos negativos e um para argumentos positivos). Como sgn(x) = 2ÿ(x)
ÿ 1, sua função característica será:
2i
h sinal(x) (t) =
Seja
t
.
(7.6)
d
(.) ser a função característica de qualquer distribuição não degenerada. Convod n
ÿ sgn(x)
) , obtemos a função característica para as variações positivas
resolvendo ÿ ÿ (ÿ
para n somas independentes
ÿ
mx
=ÿ
d
h sgn(x) (t)ÿ (você ÿ t) ndt.
ÿÿ
No nosso caso de desvio médio absoluto sendo duas vezes maior que os valores positivos de
X:
ÿ
ÿ(|Sn|) = (2i) ÿ
x(t ÿ você)
t
ÿÿ
n
de,
que é a transformada de Hilbert de ÿ quando ÿ é tomado no sentido pv (Pinelis, 2015)[193]. Na
nossa situação, dado que todas as somas independentes são cópias da mesma distribuição,
podemos substituir o produto ÿ(t) n por ÿs(t) que é a mesma função característica com ÿs = n 1/
ÿÿ, ÿ permanecendo o mesmo: ÿs(t ÿ você) dt|t=0. t
ÿ
E(|X|) = 2i ÿu
ÿ
pv ÿ
(7.7)
ÿÿ
Agora, [193] a transformada de Hilbert H,
2
(Hf)(t) =
ÿÿ
ÿi ÿ 0
ÿs(u + t) ÿ ÿs(u ÿ t) dt
pode ser reescrito como
1
ÿ
(Hf)(t) = ÿeu
ÿvocê ( 1+ÿs(u)+ ÿi ÿ
dt
ÿÿ
0
ÿs(u+t)ÿÿs(uÿt)ÿÿs(t)+ÿs(ÿt)
t).
(7.8)
Considere a distribuição estável definida em 7.2.1.
Derivando primeiro dentro da integral e usando uma mudança de variável, z = log(t),
E|X| (a˜s,b,ÿs,0)
=
ÿ
ÿ ÿÿ
2iÿse ÿ(ÿse
+ cos ( ÿ tan (
Com
)ÿs
ÿz ( ÿse z )ÿs ( ÿ tan (
vá
vá
2 ) pecado ( ÿ tan ( 2 ) ( ÿse z )ÿs )
vá
2 ) ( ÿse z )ÿs )) dz
2
6 Dizemos, novamente por convenção, infinito para a situação em que a variável aleatória, digamos X (ou a variância de
qualquer variável aleatória), é unicaudal –limitada de um lado– e indefinida em situações onde a variável é
bicaudal, por exemplo, o infame Cauchy.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
142 distribuições limite, uma consolidaçãoÿ,†
que então se integra perfeitamente a:
E|X| (a˜s,b,ÿs,0)
=
ÿs 2ÿ
ÿ
( ÿs ÿs
ÿ 1) (( 1 + iÿ tan (
vá
vá
2 ))1/ÿs + ( 1 ÿ iÿ bronzeado ( 2 ))1/ÿs ) .
(7,9)
próximo
O próximo capítulo apresenta um conceito central: como trabalhar com a lei dos números médios?
Como podemos traduzir entre distribuições?
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8 QUANTO ATA VOCÊ PRECISA? UM
OPERAÇÃO EM IONALMETRICFOR
FAT-TA ILEDNES S‡
bers. Apresentamos uma métrica operacional para distribuições de
Neste capítulo
(de pesquisa),
discutimos
as leis
da momento
numeração
média
probabilidade
univariadas
unimodais com
primeiro
finito, em
[0,
1] onde 0 é maximamente de cauda fina (Gaussiana) e 1 é maximamente
de cauda gorda. Baseia-se em "quantos dados são necessários para
fazer declarações significativas sobre um determinado conjunto de dados?"
Aplicações: Entre outras,
• ajuda a avaliar o tamanho da amostra necessário para significância estatística fora
o gaussiano,
• ajuda a medir a velocidade de convergência para o Gaussiano (ou estável
bacia),
• permite comparações práticas entre classes de distribuições de cauda gorda, •
permite a avaliação do número de títulos necessários na construção da carteira para
atingir um certo nível de estabilidade a partir da diversificação, • ajuda a
compreender alguns atributos inconsistentes do lognormal, pendbaseando-se na parametrização de sua variância.
A literatura é rica no que diz respeito ao comportamento assintótico, mas há um grande
vazio para valores finitos de n, aqueles necessários para fins operacionais.
Antecedentes: As medidas convencionais de cauda gorda, nomeadamente 1) o índice de cauda
para a classe Power Law e 2) Curtose para distribuições de momentos finitos não se aplicam a
algumas distribuições e não permitem comparações entre classes e
Capítulo de pesquisa.
O autor deve muito aos comentários focados de Michail Loulakis que, além disso, forneceu as derivações rigorosas para os limites
do ÿ para as distribuições T de Student e lognormal, bem como à paciência e sabedoria de Spyros Makridakis. O artigo foi
inicialmente apresentado em Extremes and Risks in Higher Dimensions, de 12 a 16 de setembro de 2016, no Lorentz Center,
Leiden e no Jim Gatheral's Festschrift no Courant Institute, em outubro de 2017. O autor agradece a Jean-Philippe Bouchaud, John
Einmahl, Pasquale Cirillo e outros. Laurens de Haan sugeriu mudar o nome da métrica de “gama” para “kappa” para evitar confusão.
Agradecimentos adicionais a Colman Humphrey, Michael Lawler, Daniel Dufresne e outros pelas discussões e insights com
derivações.
143
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
144 de quantos dados você precisa? uma métrica operacional para cauda gorda‡
parametrização, isto é, entre leis de potência fora da bacia Levy-Stable, ou
leis de potência para distribuições em outras classes, ou leis de potência para diferentes números
de convocações. Como comparar uma soma de 100 Student T distribuídos aleatoriamente
variáveis com 3 graus de liberdade para uma em uma classe Levy-Stable ou Lognormal?
Como comparar uma soma de 100 Student T com 3 graus de liberdade com um
único aluno T com 2 graus de liberdade?
Propomos uma métrica operacional e heurística que nos permite comparar variáveis independentes
somadas com n sob todas as distribuições com primeiro momento finito.
O método é baseado na taxa de convergência da lei dos grandes números para
somas finitas, n-somas especificamente.
Obtemos expressões explícitas ou resultados de simulação e limites para as distribuições log-normal,
exponencial, Pareto e T de Student em suas várias calibrações - além das classes gerais de Pearson.
|Sn=X1+X2+...+Xn |
10
Figura 8.1: A intuição de
o que ÿ está medindo: como
o desvio médio do
soma de cópias idênticas de
uma rv Sn = X1 + X2 +
. . . Xn cresce à medida que
a amostra aumenta e como
pode comparar distribuições
pré-assintoticamente de
diferentes classes.
Cauchy (=1)
8
Pareto 1.14
Estudante Cúbico T
6
Gaussiano (=0)
Graus de
Cauda Gorda
4
2
n
2
4
6
8
10
8.1 introdução e definições
Como comparar uma distribuição de Pareto com cauda ÿ = 2,1, ou seja, com cauda finita
variância, para um gaussiano? Assintoticamente, essas distribuições na classe de variação regular com
segundo momento finito, sob soma, tornam-se gaussianas, mas
pré-assintoticamente, não temos uma forma padrão de compará-los, uma vez que métricas que dependem
de momentos mais elevados, como a curtose, não podem ajudar. Nem pode
comparamos facilmente uma distribuição de Pareto de variância infinita com seu limite ÿ-estável
distribuição (quando ambos têm o mesmo índice de cauda ou expoente de cauda). Da mesma forma, como
pode-se comparar a "cauda gorda" de, digamos, um aluno T com 3 graus de liberdade
ao de um Levy-Stable com expoente de cauda de 1,95? Ambas as distribuições têm um valor finito
significar; dos dois, apenas o primeiro tem uma variância finita, mas, para um pequeno número de
em suma, comporta-se de forma mais “cauda gorda” de acordo com alguns critérios operacionais.
Critério para "cauda gorda" Existem várias maneiras de "definir" caudas gordas e
classificar distribuições de acordo com cada definição. Na classe estreita de distribuições
tendo todos os momentos finitos, é a curtose, que permite comparações simples e
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8.1 introdução e definições 145
Figura 8.2: Observando o efeito do
Teorema Generalizado do Limite
Central: Pareto
e distribuição T do aluno,
na classe P, com ex-poente ÿ , ÿ
converge para 2 (1ÿ<2ÿ +1ÿÿ22), ou a classe Stable
S. Nós observamos
quão lenta é a convergência,
mesmo depois de 1000 solicitações.
Isto desconta a opinião de Mandelbrot
afirmação de que um infinito
a variância Pareto pode ser
subsumida em uma distribuição
estável.
medir desvios do Gaussiano, que é usado como norma. Para o poder
Aula de direito, pode ser o expoente da cauda. Também se pode usar valores extremos, tomando
a probabilidade de ultrapassar um valor máximo, ajustado pela escala (conforme praticado
na teoria dos valores extremos). Para usos operacionais, a cauda gorda dos profissionais é uma
grau de concentração, como "quanto das propriedades estatísticas serão
atribuível a uma única observação?", ou, adequadamente ajustado pela escala (ou
a dispersão média), "quanto é a riqueza total de um país nas mãos de
o indivíduo mais rico?"
Aqui usamos o seguinte critério para o nosso propósito, que mapeia para a medida
de concentração no parágrafo anterior: "Quanto serão os dados adicionais (sob
tal distribuição de probabilidade) ajudam a aumentar a estabilidade da média observada".
O objectivo não é inteiramente estatístico: pode igualmente significar: "Quanto irá adicionar
uma segurança adicional na alocação do meu portfólio (ou seja, mantendo o total constante)
aumentar sua estabilidade?"
Nossa métrica difere das medidas assintóticas (particularmente aquelas usadas na teoria dos
valores extremos) pelo fato de ser fundamentalmente pré-sintótica.
A vida real e as realizações do mundo real estão fora da assíntota.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
146 de quantos dados você precisa? uma métrica operacional para cauda gorda‡
O que a métrica faz? A métrica que propomos, ÿ faz o seguinte:
• Permite a comparação de variáveis somadas com n de diferentes distribuições para um
determinado número de somas e , ou mesma distribuição para diferentes n, e avaliar
as propriedades pré-sintóticas de uma determinada distribuição.
• Fornece uma medida da distância da distribuição limite, ou seja, o
Bacia Lévy ÿ-Estável (da qual a Gaussiana é um caso especial).
• Para inferência estatística, permite avaliar a “velocidade” da lei dos grandes números,
expressa na variação do erro médio absoluto em torno da média
graças ao aumento do tamanho da amostra n.
• Permite avaliar comparativamente a “cauda gorda” de duas distribuições univariadas
diferentes, quando ambas têm primeiro momento finito.
• Permite-nos saber antecipadamente quantas corridas precisamos para um Monte Carlo
simulação.
O estado da inferência estatística O último ponto, a “velocidade”, parece ter
foram ignorados (ver comentários anteriores no Capítulo 3 sobre as 9.400 páginas do
Enciclopédia de Ciência Estatística [147]). É muito raro encontrar uma discussão sobre
quanto tempo leva para chegar à assíntota, ou como lidar com n somas que
são grandes, mas talvez não o suficiente para a chamada "aproximação normal".
Para repetir o nosso lema, “as estatísticas nunca são padrão”. Esta métrica tem como objetivo mostrar
como o padrão é padrão e medir o desvio exato do padrão em relação
ponto de vista da significância estatística.
8.2 a métrica
1
1,0
0,8
Figura 8.3: A distribuição lognormal se
comporta como uma Gaussiana para baixas
valores de ÿ, mas torna-se rapidamente
equivalente a uma lei de potência. Isso ilustra
por que, operacionalmente, o debate sobre
se a distribuição da riqueza era
lognormal (Gibrat) ou Pareto (Zipf)
não tem muito significado operacional
Estável =1,2
0,6
0,4
Aluno T (3)
ou
Estável =1,7
0,2
câncer.
Gaussiano
0,5
1,0
1,5
2,0
2,5
3,0
Definição 8.1 (a métrica ÿ )
Seja X1 , . . . , Xn são variáveis aleatórias iid com média finita, ou seja E(X) < +ÿ. Deixar
. . . + Xn seja uma soma parcial. Seja M(n) = E(|Sn ÿ E(Sn)|) o esperado
Sn = X1 + X2 +
desvio médio absoluto da média para n somas. Defina a "taxa" de convergência
para n somas adicionais começando com n0:
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8.2 a métrica 147
Tabela 8.1: Kappa para 2 somas, ÿ1.
k1
Distribuição
2 registros(2)
2-
Aluno T
2)
(a)
C( uma
2 log( 2 2ÿÿÿ(ÿÿ
12
2ÿ
Exponencial/Gama
log(2)
2 log(2)ÿ1
2 a-1 ÿ2ÿ
log( (ÿÿ1)2ÿÿÿ ÿÿ1
Normal
ÿ0
3
2
2(y+2)ÿ2ÿÿ1(
1 (ÿÿ,1ÿÿ)ÿB y+1
(ÿÿ,1ÿÿ) ) que)
y+2
y+2
ÿÿ1 ÿy) ( B
registro(2)
2-
(µ, ÿ) com
comutação
2 variância ÿ a
4 wp p .
ÿ 0,21
registro(2)
2-
Pareto (ÿ)
)2 ) +log(ÿ)
ÿ 2 (ÿ app-1
ÿ
registro
+p
p-1 +ÿ 2+p (ÿ app-1
+ÿ 2+p ( ÿ2 ÿ ap
2ÿ ÿ 2a ( 1 2 ) + 2ÿ(pÿ1)
ÿ 2a ( 1 ÿap
pÿ1 +2) +4ÿ 2 )) ÿ pÿ1 +2)+4ÿ 2+ ÿ a+ÿ ÿ a+ ÿ
2 +p
p
p-1
ÿÿÿ
ÿÿÿ
registro(2)
ÿ2ÿ
Lognormal
(ÿ, ÿ)
2
ÿ 2 jardas ÿ 2ÿ (e
log(
p1
.
ÿ
+1)) ÿ
2ÿ2
ÿÿÿ
registro
ÿÿÿ erf( ÿ 2
ÿ2)
ÿÿÿÿÿÿ
ÿÿÿÿÿÿ
Tabela 8.2: Resumo dos principais resultados
Distribuição
ÿn
Exponencial/Gama
Explícito
Lognormal (ÿ, ÿ)
Não há ÿn explícito , mas limites
inferiores e superiores explícitos
( ÿ ou n baixo ou alto).
Aproximado com Pearson IV para
ÿ no meio.
Pareto (ÿ) (Constante)
Explícito para ÿ2 (limite inferior para
todos os ÿ).
Aluno T(ÿ) (função de variação lenta)
Explícito para ÿ1 , ÿ = 3.
1
2ÿÿn0 ,n
M(n)
ÿn0,n = min { ÿn0,n :
M(n0)
= ( nn0 )
, n0 = 1, 2, ...} ,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
148 de quantos dados você precisa? uma métrica operacional para cauda gorda‡
Tabela 8.3: Comparando Pareto com Student T (Mesmo expoente de cauda ÿ)
a
Pareto Pareto Pareto Aluno Aluno Aluno
k1
1,25 0,829 1,5
0,724 1,75 0,65
2.
ÿ1,30
0,787
k1
ÿ1.100
0,771
0,792
ÿ1,30
0,765
0,756
0,587
mil 1.100
0,65
0,631
0,647
0,609
0,556
0,53
0,543
0,483
0,451
0,484
0,449
0,465
0,387
2,25 0,551
0,431
0,388
0,406
0,316
0,352
0,282
2,5 0,517 2,75
0,386
0,341
0,359
0,256
0,227
0,488 0,465 3,
0,356 0,307 0,3246
0,321
0,224
0,189
0,281 0,258 0,305
0,29
0,191
0,159
0,235
0,265
0,167
0,138
0,263 0,222 0,2532
0,243
0,149
0,121
0,211
0,225
0,13
0,126
0,093
0,594
3,25
0,445 0,428
3,5
3,75 0,413 4,
0,284
0,209
0,4
0,10
n > n0 ÿ 1, portanto
ÿ(n0, n) = 2 ÿ
log(n) ÿ log(n0)
.
(8.1)
registro M(n0)
( M(n) )
Além disso, para os valores da linha de base n = n0 + 1, usamos a abreviatura ÿn0 .
Também podemos decompor ÿ(n0, n) em termos de intermediários "locais" semelhantes a
taxas de juros "locais", sob restrição.
ÿ(n0, n) = 2 ÿ
log(n) ÿ log(n0)
ÿ
n
.
log(i+1)ÿlog(i)
eu=0
(8.2)
2ÿk(eu,eu+1)
Uso do desvio médio Observe que usamos para medida de dispersão em torno do
1
na ausência de variância finita –
significa o desvio médio absoluto, para permanecer na norma L
na verdade, mesmo na presença de variância finita, sob regimes de Lei de Potência,
distribuições proporcionam um segundo momento instável e pouco informativo. O desvio médio mostrase muito mais robusto aí. (O desvio absoluto médio pode ser mostrado como sendo
mais "eficiente", exceto no caso restrito de curtose igual a 3 (o gaussiano), consulte
uma discussão mais longa em [237]; para outras vantagens, consulte [187].)
8.3 bacia de convergência estável como referência
Definição 8.2 (a classe P)
A classe P de leis de potência (variação regular) é definida para rv X da seguinte forma:
P = {X : P(X > x) ÿ L(x) x
-a
}
(8.3)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8.3 bacia de convergência estável como referência 149
onde ÿ significa que o limite da razão ou rhs para lhs vai para 1 quando x ÿ ÿ. L : L(kx) [xmin, +ÿ) ÿ (0, +ÿ) é uma
=
função de variação lenta, definida como limxÿ+ÿ L(x) 1 para qualquer k > 0. A constante ÿ > 0.
A seguir definimos o domínio de atração da soma de distribuídos de forma idêntica
variáveis, no nosso caso com parâmetros idênticos.
Definição 8.3
(classe S estável) Uma variável aleatória X segue uma distribuição estável (ou ÿ-estável), simbolicamente X ÿ
S(ÿ˜, ÿ, µ, ÿ), se sua função característicaÿ(t) = E(e itX) tem a forma:
ÿe
(iµtÿ|tÿ|
ÿ˜
(1ÿiÿ tan( ÿÿ˜
2 )sgn(t)))
ÿ˜ ÿ= 1
,
x(t) =
2iÿsgn(t) log(|tÿ|)
ÿÿÿÿ
e
isto( 2ÿÿPi log(ÿ)
+µ ) ÿ|tÿ| ( 1+
Pi
)
(8.4)
ÿ˜ = 1
ÿÿÿÿ
A seguir, definimos o ÿ˜ estável correspondente:
2
de outra forma.
ÿ˜ ÿ { ÿ 1ÿ<2 + 2 1ÿÿ2 se X estiver em P
(8.5)
Discussões adicionais sobre a classe S são as seguintes.
8.3.1 Equivalência para distribuições estáveis
Para todos n0 e n ÿ 1 na classe Stable S com ÿ˜ ÿ 1:
ÿ(n0,n) = 2 ÿ ÿ˜,
simplesmente da propriedade que
1
M(n) = n
umM (1)
(8.6)
Isto simplesmente mostra que ÿn0,n = 0 para o Gaussiano.
O problema dos pré-sintóticos para n somas se reduz a:
• Qual é a propriedade da distribuição para n0 = 1 (ou começando com uma distribuição padrão, pronta
para uso)?
• Qual é a propriedade da distribuição para n0 somas? • Como ÿn ÿ 2 ÿ ÿ˜ e com
que taxa?
8.3.2 Significado prático para suficiência amostral
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
150 de quantos dados você precisa? uma métrica operacional para cauda gorda‡
Intervalos de confiança: Como uma heurística simples, quanto maior ÿ, mais
desproporcionalmente insuficiente é o intervalo de confiança. Qualquer valor de ÿ acima
de 0,15 indica efetivamente um alto grau de falta de confiabilidade da “aproximação
normal”. Pode-se duvidar imediatamente dos resultados de numerosos trabalhos de
pesquisa em domínios de cauda gorda.
Cálculos do tipo feitos na Tabela 8.2 , por exemplo, nos permitem comparar
várias distribuições sob diversas parametrias. (comparando várias distribuições
de Pareto com Student T simétrico e, claro, o Gaussiano que tem um kappa
plano de 0)
Como mencionamos na introdução, o tamanho da amostra necessário para inferência estatística
é determinado por n, o número de somas. No entanto, a lei dos grandes números é frequentemente
invocada em condições erradas; precisamos de uma métrica rigorosa de tamanho de amostra.
Muitos artigos, ao discutir questões financeiras, dizem [99] que usam a variância finita
como uma classificação binária para cauda gorda: leis de potência com um expoente de
cauda maior que 2 são, portanto, classificadas como parte da "bacia gaussiana",
permitindo assim o uso de variância e outras métricas para aplicações financeiras. Um
limite muito mais natural é a finitude das expectativas para aplicações financeiras [229].
Nossa métrica pode, portanto, ser útil da seguinte forma:
Seja Xg,1 , Xg,2, . . . , Xg,ng seja uma sequência de variáveis gaussianas com média µ e escala ÿ.
Seja Xÿ,1 , Xÿ,2, . . . , Xÿ,nÿ seja uma sequência de algumas outras variáveis dimensionadas para serem
do mesmo M(1), nomeadamente Mÿ (1) = Mg (1) = ÿ 2
Pi
ÿ. Estaríamos procurando valores
de nÿ correspondente a um determinado ng.
ÿn é indicativo tanto da taxa de convergência sob a lei dos grandes números,
quanto para ÿn ÿ 0, da taxa de convergência de somas para a Gaussiana sob
o limite central, conforme ilustrado na Figura 8.2.
Xÿ,i ÿ mp ÿ
nmin = inf { nÿ : E ( nÿ
eu=1
Xg,i ÿ mg ÿ
de
nÿ ) ÿ E ( de
eu=1
(8.7)
), nÿ > 0 }
que pode ser calculado usando ÿn = 0 para o Gaussiano e apoiando nosso de
ÿn para a distribuição alvo com a aproximação simples:
1
-
de nÿ = n g
ÿ1,
ÿ1
-
ÿng
1
ÿ1ÿ1
, de > 1
(8.8)
A aproximação se deve à lentidão da convergência. Assim, por exemplo, um Student
T com 3 graus de liberdade (ÿ = 3) requer 120 observações para obter a mesma
queda na variância da média (portanto, nível de confiança) que o Gaussiano com 30,
ou seja, 4 vezes mais. O Pareto unicaudal com o mesmo expoente de cauda ÿ = 3
requer 543 observações para corresponder a uma amostra gaussiana de 30, 4,5
vezes mais do que o Student, o que mostra 1) a finitude da variância não é uma
indicação de cauda gorda (em nosso sentido estatístico ), 2) nem os expoentes da
cauda são bons indicadores 3) como a distribuição simétrica de Student e a
distribuição de Pareto não são equivalentes por causa do "formato de sino" do Student
(da função de variação lenta) que amortece as variações no centro do distribuição.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8.4 consequências técnicas 151
Também podemos obter resultados bastante contra-intuitivos. Da Eq. 8.8, o "Pareto 80/20" na
mente popular, que mapeia para um expoente de cauda em torno de ÿ ÿ 1,14, requer > 109
observações a mais do que o Gaussiano.
8.4 consequências técnicas
8.4.1 Algumas curiosidades com distribuições assimétricas
A distribuição estável, quando assimétrica, tem o mesmo índice ÿ que uma distribuição simétrica
(em outras palavras, ÿ é invariante ao parâmetro ÿ na Eq. 8.4, que conserva sob soma). Mas
uma distribuição de Pareto simples unicaudal tem cauda mais grossa (para o nosso propósito
aqui) do que uma distribuição simétrica equivalente.
Isto é relevante porque o estável nunca é realmente observado na prática e usado como
algum objeto matemático limitante, enquanto o Pareto é mais comumente visto.
O ponto não é bem compreendido na literatura. Considere o seguinte uso da substituição de
um Pareto por um estábulo. Em Uchaikin e Zolotarev [257]:
Mandelbrot chamou a atenção para o fato de que a utilização da distribuição extremamente estável
As alternativas (correspondentes a ÿ = 1) para descrever princípios empíricos eram preferíveis ao uso
das distribuições Zipf-Pareto por uma série de razões. Pode-se verificar em muitas publicações, tanto
teóricas quanto aplicadas, que as ideias de Mandelbrot recebem cada vez mais amplo reconhecimento
dos especialistas. Desta forma, surge a esperança de confirmar princípios empiricamente estabelecidos
no quadro de modelos matemáticos e, ao mesmo tempo, de esclarecer o mecanismo de formação
desses princípios.
Estes não são os mesmos animais, mesmo para um grande número de espécies.
8.4.2 Taxa de Convergência de uma Distribuição T de Student para a Bacia Gaussiana
Mostramos no apêndice – graças à derivação explícita de ÿ para a soma de estudantes com ÿ
= 3, o “cúbico” comumente observado em finanças – que a taxa de convergência de ÿ para 0
1
sob soma é log(n) . Isto (e a forma semifechada para
a densidade de uma cúbica de soma n de
Student) complementa o resultado em Bouchaud e Potters [28] (ver também [214]), que é o
seguinte. A abordagem deles é separar a "zona Gaussiana", onde a densidade é aproximada
pela de uma Gaussiana, e uma "zona da Lei de Potência" nas caudas que mantém a distribuição
original com o declínio da Lei de Potência. O "cruzamento" entre os dois se move para a direita
e para a esquerda do centro a uma taxa de ÿ n log (n) desvios padrão), o que é terrivelmente
lento. Na verdade, pode-se notar que mais somas caem no centro da distribuição, e menos fora
dela, portanto a velocidade de convergência de acordo com o teorema do limite central será
diferente dependendo se a densidade diz respeito ao centro ou às caudas.
Investigações posteriores diriam respeito à convergência do Pareto para um Levy-Stable, que
até agora só obtivemos numericamente.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
152 de quantos dados você precisa? uma métrica operacional para cauda gorda‡
8.4.3 O Lognormal não tem cauda fina nem cauda gorda
Ingenuamente, como podemos ver na Figura 8.2, em valores baixos do parâmetro ÿ, o lognormal se comporta como um Gaussiano, e, em ÿ alto, parece ter o comportamento de uma
espécie de Cauchy (um Cauchy unilateral). , em vez disso, uma distribuição estável com ÿ =
1, ÿ = 1), à medida que ÿ se aproxima cada vez mais de 1. Isso nos dá uma ideia sobre
alguns aspectos dos debates sobre se alguma variável é Pareto ou lognormalmente
distribuída, como, digamos , os debates sobre riqueza [162], [53], [54]. Na verdade, tais
debates podem ser irrelevantes para o mundo real. Como observou P. Cirillo [44] , muitos
casos de paretianidade são efetivamente situações lognormais com alta variância; as
consequências estatísticas práticas, contudo, são menores do que se imaginava.
8.4.4 O Kappa pode ser negativo?
Assim como a curtose para uma Gaussiana mista (ou seja, com média estocástica, em vez
de volatilidade estocástica) pode cair abaixo de 3 (ou tornar-se "negativa" quando se usa a
convenção de medir a curtose como excesso sobre a Gaussiana adicionando 3 à média claro), a métrica kappa pode se tornar negativa quando a curtose é "negativa". Estas
situações requerem bimodalidade (isto é, um processo de mudança entre médias sob
variância fixa, com modos distantes entre si em termos de desvio padrão). Eles não parecem
ocorrer com distribuições unimodais.
Detalhes e derivações são apresentados no apêndice.
8.5 conclusão e consequências
Para resumir, enquanto os teoremas do limite (a lei dos grandes números e o limite central)
se preocupam com o comportamento como n ÿ +ÿ, estamos interessados em n finitos e
exatos, tanto pequenos como grandes.
Podemos tirar algumas consequências operacionais:
Variabilidade
0,6
Markowitz
0,5
Figura 8.4: Em resumo, por
que razão a heurística 1/n
Títulos
0,4
estabelecidos
0,3
Títulos
especulativos
funciona: são necessários
muitos, muitos mais títulos
para obter a mesma redução
de risco que através da
alocação de carteiras de
acordo com o Markowitz.
Assumimos, para simplificar,
que os títulos são
independentes, o que não são, algo que agrava
0,2
0,1
0
200
400
600
800
n 1000
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8.5 conclusão e consequências 153
8.5.1 Pseudoestabilização de Portfólio
Nosso método também pode ser aplicado natural e imediatamente à construção de portfólio e ao
efeito de diversificação, uma vez que adicionar um título a um portfólio tem o mesmo efeito
“estabilizador” que adicionar uma observação adicional para fins de significância estatística. "De
quantos dados você precisa?" se traduz em "Quantos títulos você precisa?". Claramente, o
método de alocação de Markowicz nas finanças modernas [166] (que parece não ser usado pelo
próprio Markowitz para a sua própria carteira [178]) aplica-se apenas para ÿ próximo de 0; as
pessoas usam heurísticas convexas, caso contrário subestimarão os riscos de cauda e
“explodirão” da mesma forma que o famoso fundo de hedge Long Term Management, orientado
pela teoria do portfólio, fez em 1998 [236] [250].)
Mencionamos anteriormente que uma distribuição de Pareto próxima de “80/20” requer até 109
observações a mais do que uma distribuição gaussiana; consideram que o risco de uma carteira
sob tal distribuição seria subestimado em pelo menos 8 ordens de grandeza se fossem utilizados
critérios de carteira modernos. Seguindo esse raciocínio, bastam-se portfólios mais amplos.
Observou-se também que praticamente não existe segurança financeira que não seja mais
gorda do que a gaussiana, a partir do simples critério da curtose [228], o que significa que a
alocação de carteira de Markowitz nunca é a melhor solução. Acontece que os agentes aplicam
1
sabiamente uma aproximação ruidosa à heurística que
n foi classificada como um desses
preconceitos pelos cientistas comportamentais, mas que na verdade foi desmascarada como
falsa (um preconceito falso é aquele em que, enquanto o fenómeno observado está presente, ele
não existe). não constituem um "preconceito" no mau sentido da palavra; pelo contrário, é o
investigador que se engana por utilizar as ferramentas erradas em vez do decisor). Esta tendência
de "diversificação excessiva" foi considerada um desvio do comportamento de investimento ideal
por Benartzi e Thaler [18], explicado em [16] "quando confrontado com n opções, divida os ativos
igualmente entre as opções. Chamamos esta heurística de "1 /n regra."" No entanto, ampliar a
diversificação é efetivamente pelo menos tão ideal quanto a alocação padrão (ver crítica de
Windcliff e Boyle [265] e [62]). Resumindo, um portfólio igualmente ponderado supera o SP500
em uma ampla gama de métricas. Mas mesmo os dois últimos artigos não conceberam todos os
efeitos e propriedades das caudas gordas, que podemos ver aqui com alguma precisão. A Figura
8.5 mostra o efeito para títulos em comparação com Markowitz.
Este falso preconceito é um entre muitos exemplos de decisores políticos que “empurram” as
pessoas para a racionalidade errada [236] e as levam a aumentar muitas vezes o risco da sua
carteira.
Mais alguns comentários sobre os riscos do portfólio financeiro. O SP500 tem um ÿ em torno de
0,2, mas é preciso levar em conta que ele próprio é uma cesta de n = 500 títulos, embora não
ponderados e consistindo de membros correlacionados, com maior peso sobre os estoques
estáveis. As ações individuais têm kappas entre 0,3 e 0,7, o que significa que uma política de
“excessiva diversificação” é obrigatória.
Da mesma forma, a métrica dá-nos alguma orientação no tratamento de dados para previsão,
estabelecendo a suficiência da amostra, para declarar questões como quantos anos de dados
precisamos antes de afirmar se as condições climáticas “mudaram”, ver [ 160].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
154 de quantos dados você precisa? uma métrica operacional para cauda gorda‡
8.5.2 Outros Aspectos da Inferência Estatística
Até agora consideramos apenas distribuições univariadas. Para dimensões superiores, uma área
potencial de investigação é uma abordagem equivalente à distribuição multivariada de variáveis
extremas de cauda gorda, cuja amostragem não é capturada pelas distribuições de MarchenkoPastur (ou Wishhart). Como em nossa situação, adicionar variáveis não remove facilmente o
ruído de matrizes aleatórias.
8.5.3 Comentário final
Como sempre dizemos, “as estatísticas nunca são padrão”; no entanto, existem métodos
heurísticos para descobrir onde e em que medida nos afastamos do padrão.
8.6 apêndice, derivações e provas
Mostramos aqui algumas derivações
8.6.1 Student Cúbico T (Bacia Gaussiana)
O Student T com 3 graus de liberdade é de especial interesse na literatura devido à sua
prevalência em finanças [99]. Muitas vezes é erroneamente aproximado como gaussiano devido
à finitude de sua variância. Assintoticamente, obtemos uma Gaussiana, mas isso não nos diz
nada sobre a taxa de convergência.
Mandelbrot e Taleb [165] observam que a cúbica atua mais como uma lei de potência na
distribuição dos extremos, que iremos elaborar aqui graças a um PDF explícito para a soma.
Seja X uma variável aleatória distribuída com densidade p(x):
6ÿ3
p(x) =
ÿ (x
2
2 , x ÿ (ÿÿ, ÿ)
(8.9)
+3 )
Proposição 8.1
Seja Y uma soma de X1 , . . . , Xn, n cópias idênticas de X. Seja M(n) o desvio absoluto médio
1
M(n)
=n
M(1)
2ÿk }
ção da média para n somas. A "taxa" de convergência ÿ1,n = { ÿ :
é:
log(n)
ÿ1,n = 2 ÿ
log (e nnÿnÿ(n + 1, n) ÿ 1)
(8.10)
ÿ
onde ÿ(., .) é a função gama incompleta ÿ(a, z) = ÿ Desde o desvio
Com
dttaÿ1 e
-t
.
médio M(n):
Pi
para n = 1
(8.11)
2ÿ3 _ _
M(n) = { 2 ÿ 3
Pi
( e nn ÿnÿ(n + 1, n) ÿ 1 ) para n > 1
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8.6 apêndice, derivações e provas 155
As derivações são as seguintes. Para o pdf e o MAD seguimos caminhos diferentes.
Temos a função característica para n somas:
ÿ(ÿ) = (1 + ÿ3 |ÿ|)
ÿn ÿ 3 |ÿ|
nenhum _
A pdf de Y é dada por:
1
p(y) =
ÿ
ÿÿ _0
(1 + ÿ 3ÿ )
nenhum _
ÿn ÿ 3 ÿ
cos(ÿy) dÿ
Após árdua integração, obtemos o resultado em 8.11. Além disso, como o seguinte resultado não
parece ser encontrado na literatura, temos um resultado útil: a PDF de Y pode ser escrita como
nÿ
2 anos
cheiro
p(y) =
cheiro
cheiro
e
ÿ 3 ( e ÿ 3 Eÿn ( n + ÿ 3 ) + Eÿn ( n ÿ
ÿ 3 ))
2 ÿ 3p
ÿ
onde E(.) (.) é a integral exponencial Enz = ÿ
e
1
(8.12)
t(ÿz) dt.
não _
Observe as seguintes identidades (da atualização de Abramowitz e Stegun) [69]
ÿn
n ÿnÿ1ÿ(n + 1, n) = Eÿn(n) = e
(n ÿ 1)! ÿ
nn
n
n eu
m!
m=0
Quanto aos assintóticos, temos o seguinte resultado (proposto por Michail Loulakis): Reexpressando
a Eq. 8.11:
2ÿ3n ! _
M(n) =
pn n
n-1 m n
ÿ
m=0
m!
Avançar,
ne
ÿn
ÿ
1n
m=0
eu
=
1
2 + O ( 1 nÿ )
m!
(Do comportamento da soma das variáveis de Poisson à medida que convergem para uma
ÿn
n-1 m n
Gaussiana pelo teorema do limite central:ÿ em=0 m! = P(Xn < n) onde Xn é uma corrida de Poissonvariável dom com parâmetro n. Como a soma de n variáveis aleatórias de Poisson independentes
com parâmetro 1 é Poisson com parâmetro n, o Teorema do Limite Central diz que a distribuição
de probabilidade de Zn = (Xn ÿ n)/ ÿ n se aproxima de uma distribuição normal padrão. Assim P(Xn
< n) = P(Zn < 0) ÿ 1/2 como n ÿ ÿ. 5 Para outra abordagem, veja [179] para prova de que 1 +
nn
e
+ 2 + · · · + 1n
.)
nº 1!
Usando a propriedade que limnÿÿ
toticos:
n!exp(n)
nn ÿ n
ÿ
e 2!
(nÿ1)!
= ÿ 2ÿ, obtemos a seguinte assimp-
14h _
limnÿÿ log(n)ÿ1,n =
5Robert Israel no Math Stack Exchange
2
4
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
156 de quantos dados você precisa? uma métrica operacional para cauda gorda‡
assim, ÿ vai para 0 (ou seja, a média se torna gaussiana) a uma velocidade
1 que é excrulog (n) ,
significativamente lenta. Em outras palavras, mesmo com 106 somas, o comportamento não pode
ser resumido como o de um Gaussiano, uma intuição frequentemente expressa por B. Mandelbrot
[165].
8.6.2 Somas Lognormais
A partir do comportamento de seus cumulantes para n somas, podemos observar que uma soma se
comporta como uma gaussiana quando ÿ é baixo, e como um lognormal quando ÿ é alto – e em
ambos os casos conhecemos explicitamente ÿn.
O lognormal (parametrizado com µ e ÿ) não possui uma função característica explícita.
Mas podemos obter cumulantes Ki de todas as ordens i por recursão e para o nosso
n
caso de cópias idênticas somadas de rv Xi , K= iKi (ÿn Xi ) = nKi (X1 ).
Cumulantes:
n = neµ+
K1
n
K2
K3
2
por 2
2p .
=n(e
n
ÿ1)e
2µ+s2
2p .
2p .
_
=n(e
K 4n = . . .
+ 2) e
ÿ 1 )2 (e
ÿe
O que nos permite calcular: Assimetria = 2 (e
3+
e
2s
p
2(e
2
3s 3µ+ 2
p
ÿ 2ÿ1 ( e
2 +2) e
1
2
2 (2µ+s )ÿµÿ p
2
2
e curtose =
ÿn _
p
2 +2) +3) ÿ6
n
Podemos provar imediatamente a partir dos cumulantes/momentos que:
lim
nÿ+ÿ
ÿ1,n = 0, limite ÿ1,n = 0
ÿÿ0
e nosso limite em ÿ torna-se explícito:
Seja ÿ
ÿ
seja a situação sob a qual as somas do lognormal conservam a densidade
lognormal, com os mesmos dois primeiros momentos. Nós temos
1,n
0 ÿ ÿ ÿÿ 1, 1,n
ÿ
Sr.
1,n
registro(n)
=2ÿ
ÿ
ÿ
enfraquecer
p 2 ÿ1
log(n+en) ÿ
ÿ
2ÿ2
ÿÿÿ
ÿÿÿ
registro
erf( ÿ 2 ÿ 2 )
ÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿ
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8.6 apêndice, derivações e provas 157
Tentativa heurística Entre outras abordagens heurísticas, podemos ver em duas etapas como
ÿ
1) sob altos valores de ÿ, ÿ1,n ÿ ÿ já que a lei dos
grandes números desacelera 1,n , ÿÿÿÿ 1.
ÿ
para baixo e 2) ÿ 1,n
Prova de Loulakis Provando o limite superior, que para alta variância ÿ1,n se aproxima de 1
foi mostrado formalmente por meu Michail Loulakis6 , que resumimos a seguir.
ÿ
ÿ
Começamos com a identificação E (|X ÿ m|) = 2 ÿ F¯X(t)dt,
onde f(.)=é2aÿdensidade,
m é a média
eu (x ÿ m)f(x)dx
eu
e F¯X(.) é a função de sobrevivência. Além disso, M(n) =
ÿ
2ÿ _nm F¯(x)dx. Suponha que µ =
12p
2
variar. Seja Sn a soma X1 +
,
2p .
ou X = exp ( ÿZ ÿ
2 ) onde Z é um normal padrão
ÿ
. . . + Xn; obtemos M(n) = 2 ÿ
P(Sn > t)dt. Usando
n
a propriedade de subexponencialidade ([196]), P(Sn > t) ÿ P(max0<iÿn(Xi ) > t) ÿ . Agora P (X1
2
n
> t) ÿÿÿÿ 1 e o segundo termo para 0
nP(X1 > t) ÿ
2 )P (X1 > t)
( (usando a desigualdade de Hölder).
M(n)
Pulando etapas, obtemos lim inf ÿ n,M(1)
enquanto ao mesmo tempo precisamos satisfazer
ÿÿÿ
o limite M(n) ÿ n. Então para ÿ ÿ ÿ M(1)
, M(n)
M(1)
n, portanto ÿ1,n
ÿÿÿÿ 1. =
Abordagem da Família Pearson para Computação Para fins computacionais, para o
parâmetro ÿ não muito grande (abaixo de ÿ 0,3, podemos usar a família Pearson por
conveniência computacional - embora o lognormal não pertença à classe Pearson (o normal
pertence, mas estamos perto o suficiente para cálculo).Intuitivamente, em ÿ baixo, os primeiros
quatro momentos podem ser suficientes devido à ausência de grandes desvios; não em ÿ mais
alto para o qual conservar o lognormal seria o método correto.
O uso da classe de Pearson é praticado em alguns campos, como a teoria da informação/
comunicação, onde há uma literatura rica: para somatório de variáveis lognormais, ver Nie e
Chen, [180], e para Pearson IV, [41], [65] .
A família Pearson é definida para uma densidade f adequadamente dimensionada que
satisfaz a seguinte equação diferencial.
f ' (x) = ÿ
(a0 + a1x)
b0 + b1x + b2x
2 f(x)
(8.13)
Notamos que nossa parametrização de a0, b2, etc. determina a distribuição dentro da classe
Pearson – que parece ser a Pearson IV. Finalmente obtemos uma expressão do desvio médio
em função de n, ÿ e µ.
Deixe-me ser o meio. Diaconis et al [67] a partir de um antigo truque de De Moivre, Suzuki
[221] mostram que podemos obter o desvio absoluto médio explícito. Usando, novamente, a
ÿ
identidade E(|X ÿ m|) = 2 ÿ eu (x ÿ m)f(x)dx e integração por partes,
2 ( b0 + b1m + b2m2 )
E(|X ÿ m|) = f(m) a1 ÿ 2b2
6 Revisão da versão em papel; Loulakis propôs uma prova formal no lugar da derivação heurística.
(8.14)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
158 de quantos dados você precisa? uma métrica operacional para cauda gorda‡
Usamos cumulantes do lognormal somado em n para corresponder aos parâmetros. Definindo
b1ÿa0
1ÿ2b2 ,obtemos
a1 = 1 e m =
ÿ
ÿ
e
2
+6(nÿ1)e p
2 ( ÿ12n 2+(3ÿ10n)e 2(6(nÿ1)+e
a0 =
2
2 4p
µ+
+12(nÿ1)e 2 2p ÿ(8n+1)e 2 3s +3e2 5s 6s +e 2 +12)
2
e
2ÿ 2 (e ÿ 2 ( e ÿ1 )(2e ÿ 2 +3)
2s
2
(5e pág.
+4)ÿ3))
2p .
b2 = 2(6(nÿ1) +e 2ÿ 2 +4)ÿ3))
2
2
(e p
2p .
ÿÿÿÿÿÿÿÿÿÿÿÿÿ
b1 =
(e
ÿ1 ) e
(5e pág.
p
2p µ +
2(e
p
p
p
p
2 ( e 2 ( e 2 ( ÿ4n+e
2 (e
2 +4) +7) ÿ6n+6) +6(nÿ1)) +12(nÿ1))
2
p
nenhum
b0 = ÿ
ÿÿÿÿÿÿÿÿÿÿÿÿÿ
2
2
ÿ1 ) e
(e p
2(6(nÿ1)+e 2ÿ 2 2
2
p
2(µ+s
)(e
+4)ÿ3))
3h
2 +3) +6(nÿ1))
2
+4)ÿ3))
( ÿ2(nÿ1)e ÿ (5e ÿ
2
(e p
2(6(nÿ1)+e 2ÿ 2
2
(5e pág.
ÿ3n+e
Expansões Polinomiais Outros métodos, como expansões de Gram-Charlier, como
Schleher [210], Beaulieu,[14], mostraram-se menos úteis para obter ÿn. Em valores
elevados de ÿ, as aproximações tornam-se instáveis à medida que incluímos polinômios
Lhermite de ordem superior. Veja a revisão em Dufresne [70] e [71].
8.6.3 Exponencial
O exponencial são as caudas gordas do “nível de entrada”, logo na fronteira.
ÿÿx
f(x) = ÿe
,
x ÿ 0.
Por
convolução, a soma Z = X1 , X2 ,. . . Xn obtemos, por recursão, já que f(y) = ÿ
e
0 f(x)f(y ÿ x) dx = ÿ 2yeÿÿy :
nÿ1 ÿÿz n ze
ÿfn (z) =
(8.15)
(n ÿ 1)!
qual é a distribuição gama; obtemos o desvio médio para n somas:
2e ÿnn n
M(n) =
ÿÿ(n)
,
(8.16)
por isso:
ÿ1,n = 2 ÿ
log(n)
n log(n) ÿ n ÿ log(ÿ(n)) + 1
(8.17)
Podemos ver que o comportamento assintótico é igualmente lento (semelhante ao do
aluno), embora a distribuição exponencial esteja no limite da subexponencialidade:
limnÿÿ log(n)ÿ1,n = 4 ÿ 2 log(2ÿ)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
8.6 apêndice, derivações e provas 159
Curtose
capa
3,0
-10
-5
5
m1-m2
10
-1
2,5
-2
-3
2,0
-4
-5
1,5
-6
-10
-5
5
m1-m2
10
-7
Figura 8.5: Curtose negativa de A.3 e kappa correspondente.
8.6.4 Kappa negativo, curtose negativa
Considere o caso simples de um Gaussiano com médias e variância de comutação: com
probabilidade 12 ,X ÿ N (µ1 , ÿ1 ) e com probabilidade
12 ,X ÿ N (µ2, ÿ2).
Estas situações com caudas mais finas que a gaussiana são encontradas em situações
bimodais onde µ1 e µ2 estão separados; o efeito torna-se agudo quando eles são separados
por vários desvios padrão. Seja d= µ1 ÿ µ2 e ÿ = ÿ1 = ÿ2 (para atingir a curtose mínima),
registro(4)
k1 =
+2
d2
log (ÿ) - 2 log
ÿ
ÿ ÿde 4ÿ 2 erf( d2ÿ )+2ÿ ÿ 2e
d
2 4s 2 +2s
d2
ÿ
de
4ÿ 2 erf( d 2 ÿ2ÿ ) +2ÿ 2
(8.18)
ÿ
d
p
em
2 8s 2
ÿ
que vemos é negativo para valores amplos de µ1 ÿ µ2.
próximo
A seguir consideramos alguns diagnósticos simples para leis de potência com aplicação ao
SP500. Mostramos as diferenças entre métodos ingênuos e aqueles baseados em estimadores
de ML que permitem extrapolação para as caudas.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
9 VALORES EXTREMOS E TA ILS ESCONDIDOS
ÿ,†
mas não mostrado em amostras anteriores. Os extremos passados (máximo ou
Quando os dados
sãosãogrossos,
há uma
partefuturos
oculta
mínimo) não
um bom preditor
de extremos
– vis-da distribuição
registros acontecem e ultrapassar a marca d'água mais alta é uma atitude ingênua
estimativa, o que é referido no Capítulo 3 como a falácia de Lucrécio, que, como
vimos, pode ser parafraseada como: o tolo acredita que o rio mais alto e a montanha mais alta que
existe são iguais aos mais altos que ele viu pessoalmente.
Este capítulo, após uma breve introdução à teoria dos valores extremos, concentra-se na sua
aplicação às caudas grossas. Quando os dados são distribuídos por lei de potência, o máximo de n
observações segue uma distribuição fácil de construir do zero. Mostramos na prática como a
distribuição de Fréchet é, assintoticamente, o domínio máximo de atração MDA de variáveis
distribuídas pela lei de potência.
De forma mais geral, a teoria dos valores extremos permite uma abordagem rigorosa para lidar
com extremos e a extrapolação além do máximo da amostra. Apresentamos alguns resultados sobre
a “média oculta”, no que se refere a uma variedade de falácias na literatura de gestão de risco.
9.1 introdução preliminar ao evt
Seja X1 , . . . Xn sejam variáveis aleatórias de Pareto independentes e distribuídas com CDF F(.)
Capítulo de exposição com algumas pesquisas.
Lucrécio em Sobre a Natureza das
Coisas: É claro que o rio foi a maior visão para
ele, que nunca tinha visto nada maior antes; e uma
árvore enorme, e um homem parece, e tudo de todo tipo é
o maior que todos já viram, imaginam essas figuras enormes.
161
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
162 valores extremos e caudas ocultas
ÿ,†
Figura 9.1: O poeta filosófico romano
Lucrécio.
Podemos obter uma distribuição exata do máximo (ou mínimo). A CDF do
máximo das n variáveis será
P (Xmáx ÿ x) =P (X1 ÿ x, . . . , Xn ÿ x) = P (X1 ÿ x)
n
· · · P (Xn ÿ x) = F(x)
(9.1)
isto é, a probabilidade de todos os valores de x caírem em ou abaixo de Xmax. A PDF é a
primeira derivada de ÿF(x) n : ÿ(x) = ÿx .
ÿ
A distribuição de valores extremos diz respeito à do rv máximo, quando x ÿ x onde x
domínio ÿ = sup{x : F(x) < 1} (o "ponto final" direito da distribuição) está no
,
máximo de atração, MDA [116]. Em outras palavras,
máx(X1 ,... Xn)
P
ÿx
ÿ
,
P
onde ÿ denota convergência em probabilidade. A questão central passa a ser: o quê?
é a distribuição de x
ÿ
Dissemos que temos a distribuição exata, portanto, como
engenheiros, poderíamos ficar satisfeitos com a PDF da Eq. 9.1. Na verdade, poderíamos
obter todas as estatísticas de teste a partir daí, desde que tivéssemos paciência, poder
computacional e vontade de investigar - é a única maneira de lidar com pré-sintóticos, isto
ÿ
. é exatamente x
é, "o que acontece quando n é pequeno o suficiente para que x não
Mas é bastante útil para o trabalho estatístico geral compreender a assimetria geral.
estrutura tótica.
O teorema de Fisher-Tippett-Gnedenko (Embrech et al. [82], de Haan e Ferreira [116])
afirma o seguinte. Se existirem sequências de constantes "normativas" an > 0 e bn ÿ R tais
que
P ( Mn ÿum
bn ÿ x ) ÿnÿÿ G(x),
então
G(x) ÿ exp ( ÿ(1 + ÿx) ÿ1/ÿ )
(9.2)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
9.1 introdução preliminar ao evt 163
onde ÿ é o índice de valor extremo e governa o comportamento da cauda da
distribuição. G é chamada de distribuição de valores extremos (generalizada), GED.
As subfamílias definidas por ÿ = 0, ÿ > 0 e ÿ < 0 correspondem, respectivamente, às
famílias Gumbel, Fréchet e Weibull:
Distribuição Gumbel (Tipo 1) Aqui ÿ = 0; bastante exp ( ÿ(ÿx + 1)ÿ
lim ÿÿ0
1
X ):
G(x) = exp ( ÿ exp ( ÿ ( x ÿ bn an
para
))) x ÿ R.
quando a distribuição de Mn tem cauda exponencial.
Distribuição Fréchet (Tipo 2) Aqui ÿ =
1:
um
ÿ0
G(x) =
x ÿ bilhões
ÿ
ÿ exp
( ÿ ( xÿbnan )ÿÿ ) x > bn.
quando a distribuição de Mn tem lei de potência cauda direita, como vimos anteriormente. Observe
que ÿ > 0.
1
a
Distribuição Weibull (Tipo 3) Aqui ÿ = ÿ
G(x) =
exp ( ÿ ( ÿ ( xÿbnan ))ÿ) x < bn
ÿ 1
xÿb
ÿ
quando a distribuição de Mn tem um suporte finito à direita (isto é, máximo limitado).
Observe aqui novamente que ÿ > 0.
9.1.1 Como qualquer cauda da lei de potência leva a Fréchet
Domínio Máximo de Atração para um Fréchet
Razão
1,0
0,8
0,6
n=100
n=1000
0,4
0,2
x
0,0
10
20
30
40
50
Figura 9.2: Mostra a
proporção das distribuições
do CDF da distribuição
exata sobre a de um Fréchet.
Podemos visualizar o
nível aceitável de
aproximação e ver como
x atinge o Domínio Máximo
de Atração, MDA. Aqui ÿ
= 2, L = 1. Notamos que a
razão para a PDF mostra
a mesma imagem, ao
contrário da Gaussiana,
como veremos mais adiante.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,†
164 valores extremos e caudas ocultas
Procedamos agora como engenheiros e não como matemáticos, e consideremos duas distribuições
existentes, a Pareto e a Fréchet, e vejamos como uma pode ser feita para convergir para a outra,
por outras palavras, derivar novamente a Fréchet das propriedades assintóticas das leis de potência.
O raciocínio que seguiremos a seguir pode ser generalizado para qualquer variável com cauda de
Pareto considerada acima do ponto onde a função de variação lenta se aproxima satisfatoriamente
de uma constante – o "ponto Karamata".
O CDF do Pareto com valor mínimo (e escala) L e expoente final ÿ:
F(x) = 1 ÿ (eu
x ) uma ,
então o PDF do máximo de n observações:
( 1 ÿ ( L ÿn ( L
ÿ(x) =
x )ÿ)nÿ1 x )ÿ
.
x
(9.3)
O PDF do Frechét:
ÿÿÿ 1e
ÿ(x) = aba x
ÿ ÿ (ÿx ÿÿ )
.
(9.4)
ÿ
)ÿ
Vamos agora procurar por x "muito grande" onde as duas funções se igualam, ou ÿ(x ÿ(x
ÿ
).
a
ÿ(x)
limxÿÿ ÿ(x) = n (1 b
)um eu
.
(9,5)
Assim, para x considerado "grande", podemos usar ÿ = Ln1/ÿ . A Equação 9.5 nos mostra
como a cauda ÿ se conserva através das transformações de distribuição:
Propriedade
4 O expoente final do máximo das variáveis aleatórias iid é o mesmo das próprias variáveis
aleatórias.
Agora, na prática, “onde” nos aproximamos é mostrado na figura 9.2.
Propriedade
5 Obtemos um ajuste assintótico exato para os extremos da lei de potência.
9.1.2 Caso Gaussiano
O caso Fréchet é bastante simples – as leis de potência são geralmente mais simples analiticamente
e podemos obter parametrizações limitantes. Para as distribuições gaussianas e outras, são
necessárias derivações e aproximações mais complexas para ajustar as constantes normativas an
e bn, geralmente envolvendo funções quantílicas. O artigo seminal de
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
9.1 introdução preliminar ao evt 165
Fisher e Tippet [94] alertam-nos que “a partir da distribuição normal, a distribuição limite
é abordada com extrema lentidão” (citado por Gasull et al. [101]).
A seguir procuramos constantes normativas para uma Gaussiana, com base em [120] e
desenvolvimentos posteriores.
Domínio Máximo de Atração para um Gaussiano
Razão CDF
1,0
Figura 9.3: O comportamento
do Gaussiano; é difícil obter
uma boa parametrização,
ao contrário das leis de
potência. O eixo y mostra
a razão para o CDF da
distribuição máxima exata
para n variáveis sobre
aquela do EVT parametrizado.
0,8
proporção = 1
0,6
n=102
n=103
0,4
n=104
0,2
x
1
2
3
4
5
Domínio Máximo de Atração para um Gaussiano
Proporção PDF
2,5
2,0
proporção = 1
n=102
Figura 9.4: Igual à figura
9.3 , mas usando PDF. Não
é possível obter uma boa
aproximação nas caudas.
n=103
1,5
n=104
1,0
0,5
x
1
2
3
4
5
Considere Mn = anx + bn na Eq. 9.2. Assumimos então que Mn segue o Extremo da
ÿe x
, distribuição espelhada do Gumbel para
Distribuição de Valor EVT (o CDF é e
segue
mínimo, obtido pela transformação da distribuição de ÿMn onde Mnÿbn
um Gumbel com CDF 1 ÿ e
ÿe
x
ÿe
.) 3 O CDF parametrizado para Mn é e
Um atalho fácil vem da seguinte aproximação4 : an = e b 2 n+1
-
um x-bn
um
.
bn
3 A convenção que seguimos considera o Gumbel apenas para mínimos, com o EVT devidamente parametrizado para
os máximos.
4 Embrechts et al [82] propõe an = ÿ 2
1
log(n)
, bn = ÿ 2 log (n) -
necessário para valores grandes de n. A aproximação é de ordem ÿ log(n).
log(log(n))+log(4ÿ)
2 ÿ 2 log(n)
, o segundo mandato apenas para bn
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,†
166 valores extremos e caudas ocultas
bn = ÿ ÿ 2erfcÿ1 ( 2 ( 1 ÿ
função.
1
n )) , onde erfcÿ1 é o erro complementar inverso
Figura 9.5: O limite máximo: o nível das inundações
em Paris em 1910 como máximo. É evidente que
temos de considerar que esse registo será
superado algum dia no futuro e que a gestão
adequada do risco consiste em “quanto” mais do
que esse nível se deve procurar protecção. Temos
repetido a falácia de Lucrécio desde sempre.
Propriedade 6
Para risco e propriedades de cauda, é amplamente preferível trabalhar com a
distribuição exata para o Gaussiano, ou seja, para n variáveis, temos a distribuição
exata do máximo do CDF do Gaussiano Padrão F( g) :
K2
ÿF (g) (K) =
ÿK
e
-
K
122
2 ÿnn erfc ( ÿ
ÿ 2 )nÿ1 ,
ÿp _
(9.6)
onde erfc é a função de erro complementar.
9.1.3 Teorema de Picklands-Balkema-de Haan
A função de distribuição de excesso condicional é equivalente em densidade à expectativa condicional
de desvio excessivo de "Lindy" [116, 190], -faremos uso dela no Capítulo 16.
Considere uma função de distribuição desconhecida F de uma variável aleatória X; estamos
interessados em estimar a função de distribuição condicional Fu da variável X acima de um certo
limite u, definido como
Fu(y) = P(X ÿ você ÿ y|X > você) =
F(você + y) ÿ F(você)
1 ÿ F(você)
(9.7)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
9.2 a cauda invisível para uma lei de potência 167
ÿ você,
onde
x ou infinito à direita da distribuição subjacente F. Então existe
para 0 ÿ y ÿ x é o ponto
final
finito
ÿ
ÿ
uma função mensurável ÿ(u) tal que
limão
ÿ vocêÿx
sup
0ÿx<x ÿÿu
(9.8)
Fu(x) ÿ Gÿ,ÿ(u) (x) = 0
e vice-versa onde Gÿ,ÿ(u) (x) é a distribuição de Pareto generalizada (GPD) :
(9,9)
Gÿ,ÿ(x) = { 1 ÿ (1 1
+ ÿx/ÿ)
ÿ1/ÿ se ÿ ÿ= 0 se ÿ = 0
ÿ exp(ÿx/s)
Se ÿ > 0, G.,. é uma distribuição de Pareto. Se ÿ = 0, G.,. (como vimos acima) é uma distribuição
exponencial. Se ÿ = ÿ1, G.,. é uniforme.
O teorema nos permite fazer algumas inferências de dados isolando as excedências. Mais sobre
isso em nossa discussão sobre guerras e tendências de violência no Capítulo 16.
9.2 a cauda invisível para uma lei de potência
Considere Kn o máximo de uma amostra de n variáveis independentes distribuídas de forma
idêntica na classe da lei de potência; Kn = máx (X1 , X2, ..., Xn). Seja ÿ(.) a densidade da
distribuição subjacente. Podemos decompor os momentos em duas partes, com o momento
“oculto” acima de K0, conforme mostra a Figura 9.6:
0,05
0,04
0,03
Figura 9.6: O p mento
acima de K
0,02
º
para-
ÿxp ÿ(x) ÿx
µK,p = ÿK
0,01
K
2
4
6
8
12
10
ÿ
Kn
E(X p ) = ÿ
14
xpÿ (x)dx
eu
+ ÿ Kn
xpÿ (x)dx
ÿ0, p
ÿK, p
onde µ0 é a parte visível da distribuição e µn a oculta.
Também podemos considerar o uso de ÿe como distribuição empírica por normalização. Desde:
ÿ
Kn
(ÿ
eu
ÿe(x)dx ÿ ÿ
Corrigido
Kn
ÿ
ÿ(x)dx) + ÿ
ÿ(x)dx = 1,
Kn
(9.10)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,†
168 valores extremos e caudas ocultas
podemos usar o derivado Radon-Nikodym
Kn
E(X p ) = ÿeu
ÿ
x p ÿµ(x)
xpÿ (x)dx.
ÿµe(x) ÿe(x)dx + ÿ Kn
(9.11)
Razão da média oculta
ÿ (ÿ1)
ÿ (ÿ)
0,6
0,5
9
5
11
3
8
4
8
2
2
0,4
Figura 9.7: Proporção da
média oculta em relação à
0,3
média total, para diferentes
parametrizações do expoente
de cauda ÿ.
0,2
0,1
n
2000
4000
6.000
8.000
10.000
Cauda Oculta
ÿ (ÿ1)
ÿ (m)
0,8
0,6
100
1000
0,4
10.000
Figura 9.8: Proporção da
média oculta em relação à
média total, para diferentes
tamanhos de amostra n.
0,2
a
1.1
1.2
1.4
1.3
1,5
Proposição
9.1
ÿ
Seja K seja o ponto onde a função de sobrevivência da variável aleatória X pode ser
satisfatoriamente aproximada por uma constante, ou seja, P(X .
ÿ
> x) ÿ L ÿÿx ÿÿ Sob as suposições de
, a distribuição para o momento oculto, µK,p, para
que K > K n a observação tem para a densidade g(.,. ,.) (.):
p
gn,p,ÿ(z) = nL
para z ÿ 0, p > ÿ e L > 0.
pz
pÿÿ(zÿ a )
pÿ ÿp
p
exp ( n ( ÿL pÿÿ ) (z ÿ
pz
a ÿ
a
pÿÿ ) )
(9.12)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
9.2 a cauda invisível para uma lei de potência 169
o
A expectativa do p
momento acima de K, com K > L > 0 pode ser derivado
como
ÿ (L p ÿ L ÿK pÿÿ )
E(µK,p) =
.
(9.13)
uma - p
Notamos que a distribuição da função de sobrevivência da amostra (ou seja, p = 0) é
uma distribuição exponencial com PDF:
(9.14)
gn,0,ÿ(z) = neÿnz
que podemos ver depende apenas de n. A probabilidade de excedência para uma
distribuição empírica não depende da espessura das caudas.
Para obter a média, precisamos apenas obter a integral com um limite inferior estocástico
K > Kmin:
ÿ
ÿ
ÿ
ÿ
ÿ
xpÿ (x)dx
Kn
kmmin
ÿÿÿÿ ÿ
ÿÿÿÿ fK(K)dK.
ÿK, p
Para a distribuição completa gn,p,ÿ(z), vamos decompor a média de um Pareto com escala L,
então Kmin = L.
1
Pela transformação padrão, uma mudança de variável,
K ÿ F(ÿ, Ln,
a
e
masção com PDF: fK(K) = ÿnKÿÿÿ1L a
n(-( euK ) )
ÿ ) no distrito de Fréchet
, obtemos o resultado desejado.
Cauda oculta para o gaussiano (média)
ÿ (ÿ1)
p
0,030
0,025
Figura 9.9: Proporção da
média oculta em relação
ao desvio padrão, para
diferentes valores de n.
0,020
0,015
0,010
0,005
n
200
400
600
800
1000
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÿ,†
170 valores extremos e caudas ocultas
9.2.1 Comparação com a Distribuição Normal
p ÿ1
22
ÿ
Para uma Gaussiana com PDF ÿ (g) (.) indexada por (g), µ K
(g) = ÿ K ÿ (g) (x)dx =
2,
C ( p+1
K2
2) .
ÿp _
Como vimos anteriormente, sem passar pelo Gumbel (e sim EVT ou "espelho-Gumbel"), é preferível
à distribuição exata do máximo do CDF do Gaussiano Padrão F (g)
:
-
ÿF (g) (K) =
ÿK
e
K2
22
K
1
2 ÿnn erfc ( ÿ
ÿ 2 )nÿ1
,
ÿp _
onde ertc é a função de erro complementar
Para p = 0, a expectativa da “cauda invisível” ÿ
ÿ
ÿ0
e
K2
22
1 ÿnÿ
1
n
.
2
K
2 nÿ ( 1K2 , 2 ) (herdar ( ÿ 2 ) + 1)nÿ1
Pi
dK =
1ÿ2
ÿn
n+1
.
9.3 apêndice: a distribuição empírica não é empírica
Figura 9.10: A falácia da
taxa básica, revisitada –
ou melhor, na outra direção.
A "taxa básica" é uma
avaliação empírica que se
baseia nas piores
observações passadas,
um erro identificado em
[227] como a falácia
identificada pelo poeta
romano Lucrécio em De
rerum natura de pensar
que a montanha mais alta
do futuro é igual à mais alta do passado. v
Citado sem permissão
após aviso ao autor.
Existe uma confusão predominante sobre a distribuição empírica não paramétrica baseada na
seguinte propriedade poderosa: à medida que n cresce, os erros em torno do histograma empírico
para frequências cumulativas são gaussianos, independentemente da distribuição de base, mesmo
que a distribuição verdadeira seja gorda. cauda (assumindo suporte infinito). Pois o CDF (ou funções
de sobrevivência) são ambos uniformes em [0, 1] e, ainda, pelo
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
9.3 apêndice: a distribuição empírica não é empírica 171
Teorema de Donsker, a sequência ÿ n (Fn(x) - F(x)) (Fn é o CDF observado ou função de
sobrevivência para n somas, F o verdadeiro CDF ou função de sobrevivência) converge
na distribuição para uma distribuição normal com média 0 e variância F(x)(1 ÿ F(x))
(podem-se encontrar formas de convergência ainda mais fortes através do teorema de GlivenkoCantelli).
Devido a esta propriedade notável, pode-se assumir erroneamente que o efeito de
as caudas da distribuição convergem da mesma maneira independentemente da distribuição. Além
disso, e o que contribui para a confusão, a variância, F(x)(1 ÿ F(x))
tanto para CDF empírico quanto para função de sobrevivência, cai nos extremos - embora não
seu retorno correspondente.
Na verdade, e isso é uma propriedade dos extremos, o erro aumenta efectivamente no
coroa se multiplicarmos pelo desvio que corresponde à probabilidade.
Para os índices do mercado de ações dos EUA, embora o primeiro método seja considerado
ridículo, a utilização do segundo método leva a uma subestimação do retorno no
caudas entre 5 e 70 vezes, como pode ser mostrado na Figura 9.11. O tópico é revisitado
novamente no Capítulo 11 com nossa discussão sobre a diferença entre binário e
recompensas contínuas e a combinação entre probabilidade e recompensas do mundo real
quando essas recompensas provêm de uma distribuição de cauda gorda.
_
ÿK ÿÿ é ÿx
_
ÿK ÿÿ e (x) ÿx
70
Figura 9.11: Esta figura
mostra o valor relativo
60
medida estilo CVar da cauda
comparado com o do
distribuição empírica
(suavizada). A cauda
profunda é subestimada até 70 vezes
pelos métodos atuais, mesmo
50
40
30
aqueles considerados "empíricos".
20
10
K
0,05
0,10
0,15
0,20
0,25
0h30
0,35
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
B
CRESCER EM EANDOU TC OMEARE
NÃO ESTÁ NA SAMEDISTRIBUIÇÃO
AULA
demics seguem leis de potência com um expoente de cauda patentemente mais baixo
O autor e Pasquale
mostraram
que as
mortes
por pando que 1. IssoCirillo
significa que
todas as informações
residem
na cauda.
Então, a menos que alguém tenha algum motivo real para ignorar questões gerais e não
estatísticas condicionais (do estilo “este é diferente”), não se deve
basear as decisões de gestão de risco no comportamento da média esperada ou em
alguma estimativa pontual.
Surgiu o seguinte paradoxo: Xt o número de fatalidades entre os períodos t0 e t é
Paretiano com média indefinida. No entanto, a sua taxa de crescimento exponencial
não é! Será de cauda fina, distribuído exponencialmente ou algo assim.
Cirillo e Taleb (2020) [48] (CT) mostraram por meio da teoria dos valores extremos que as
pandemias têm cauda ÿ < 1 quando parecem em XT, o número de fatalidades em alguma
-a
data T no futuro, com função de sobrevivência P(X >
. Suponha que simplifique isso, com
x ) = L(x)xa valor mínimo L, L(x) ÿ L então obtemos a função de sobrevivência
P(X > x) = Lxÿÿ .
(B.1)
b.1 o quebra-cabeça
Considere o modelo usual,
Xt = X0e
r(tÿt0)
onde
r=
1 (t ÿ
ÿ
,
(B.2)
rsrs
(B.3)
t
t0
t0) e rs é a taxa instantânea. Normalize a distribuição para L = 1. Podemos assim provar o
seguinte (sob a suposição acima de que Xt tem função de sobrevivência na Eq. 13.13):
173
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
174 taxa de crescimento e resultado não estão na mesma classe de distribuição
0,5
0,4
0,3
0,2
0,1
0,0
2
0
4
6
8
10
12
1,0
0,8
0,6
0,4
0,2
0,0
0
5,0×1011
1,0×1012 1,5 × 1012 2,0×1012 2,5×1012
Figura B.1: Acima, um histograma de 106 realizações de r, de uma distribuição exponencial com param-.
éter ÿ =
1
2 . Abaixo, o histograma de X = e
R
Podemos ver a diferença entre as duas distribuições.
A curtose da amostra é 9 e 106 respectivamente (na verdade é teoricamente infinita para o segundo); todos os
valores para este último são dominados por um único grande desvio.
Teorema 1
Se r tem suporte em (ÿÿ, ÿ), então sua PDF ÿ para a taxa escalonada ÿ = r(t ÿ t0) pode ser parametrizada
como
ÿ
ÿ(ÿ) =
onde b =
-
pb _
e
ÿÿ0
2b
ÿ
ÿ
-
ÿÿ b
de outra forma
e
2b
1.
a
Se r tem suporte em (0, ÿ), então seu PDF ÿ
uma(ÿp)
0
ÿ(ÿ) = { ae
ÿÿ0
caso contrário
O que temos aqui são versões da distribuição exponencial ou dupla exponencial (Laplace).
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
b.1 o quebra-cabeça 175
P>
P>
P>
1
1
1
0,50
0,50
0,50
0,18
0,24
0,10
0,19
0,10
0,05
0,10
0,05
0,05
x
x
104 105 106 107 108 109
x
104 105 106 107 108
104 105 106 107 108 109
P>
P>
P>
1
1
1
0,50
0,50
0,50
0,17
0,21
0,10
0,21
0,10
0,10
0,05
0,05
0,05
x
x
104 105 106 107 108 109
x
104 105 106 107 108 109
104 105 106 107 108 109
P>
P>
P>
1
1
1
0,50
0,50
0,50
0,21
0,22
0,10
0,18
0,10
0,05
0,10
0,05
0,05
x
x
105 106 107 108 109
105 106 107 108 109
x
104 105 106 107 108 109
Figura B.2: Pegamos as 60 maiores pandemias e subselecionamos metade aleatoriamente. Normalizamos os dados pela
população atual. As propriedades paretianas (e parametrização) são robustas a essas perturbações.
EVT fornece um expoente de cauda ligeiramente mais alto, mas firmemente abaixo de um. Trata-se do menor expoente
de cauda que os autores já viram em suas carreiras.
Observação
7 Implicação: Não se pode traduzir ingenuamente as propriedades entre a taxa de crescimento
r e XT porque os erros em r podem ser pequenos (mas diferentes de zero) para r, mas
explosivos na tradução devido à exponenciação.
O inverso também é verdadeiro: se r segue uma distribuição exponencial então XT deve ter
distribuição de Pareto como na Eq. 13.13.
O esboço da derivação é o seguinte, via mudança de variáveis. Seja r uma distribuição com
densidade ÿ, com suporte (a, b); sob algumas condições padrão, u = g(r) segue uma nova distribuição
com densidade
ÿ ( g (ÿ1) (u) )
ÿ(você) =
g ÿ ( g (ÿ1) (u) )
e suporte [g(a), g(b)].
,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
176 taxa de crescimento e resultado não estão na mesma classe de distribuição
b.2 pandemias são realmente de cauda gorda
A Figura B.2 mostra como obtemos uma lei de potência com um ÿ baixo , independentemente da
subamostra aleatória dos dados que selecionamos. Usamos em [48] a teoria dos valores extremos,
mas os gráficos mostram a análise preliminar (não no papel). Este é o expoente de cauda mais
baixo que já vimos em qualquer lugar. A implicação é que os estudos epidemiológicos precisam
de ser usados para investigação, mas a elaboração de políticas deve ser feita utilizando EVT ou
simplesmente confiando em princípios de precaução – isto é, para reduzir o cancro quando for
barato fazê-lo.1
1 Um erro grosseiro é confiar na previsão de um único ponto para a política – na verdade, como mostramos no capítulo
11, é sempre errado usar a previsão da função de sobrevivência – para avaliar a capacidade de previsão pensando
“como a ciência é feita” – fora apostas binárias.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
PRINCÍPIO C THELARGEDEVI AT ION
,
INFORMAÇÃO
a literatura circundante. A ideia por trás dos valores discrepantes altos
Voltemos versus
ao Cramer
rápida
ricos em 3.1 écom
que, sobuma
algumas
condições,exposição
seus problemas dede
cauda
habilidades decaem exponencialmente. Uma propriedade que é central
na gestão do risco – como mencionámos anteriormente, o princípio da
catástrofe explica que, para que a diversificação seja eficaz, é necessária uma tal
decadência exponencial.
O princípio do grande desvio nos ajuda a entender esse comportamento de cauda. Também nos
ajuda a descobrir por que as coisas não explodem sob cauda fina - mas, mais significativamente,
por que isso poderia acontecer sob caudas gordas, ou onde a condição de Cramèr não é satisfeita
[118].
Seja MN a média de uma sequência de realizações (distribuídas de forma idêntica) de N
variáveis aleatórias. Para N grande, considere a probabilidade da cauda:
P(MN > x) ÿ e
ÿNI(x) ,
onde I(.) é a função de Cramer (ou taxa) (Varadhan [260], Denbo e Zeitouni [59]). Se conhecermos
a distribuição de X, então, pela transformação de Legendre, I(x) =
supÿ>0 (ÿx ÿ ÿ(ÿ)), onde ÿ(ÿ) = log E ( e ÿ(X) ) é a função geradora do cumulante
ção.
O comportamento da função ÿ(x) nos informa sobre a contribuição de um único evento para o
retorno global. (Isso nos conecta à condição de Cramer que requer a existência de momentos
exponenciais).
Um caso especial para variáveis de Bernoulli é o Limite de Chernoff, que fornece limites rígidos
para essa classe de variáveis discretas.
177
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
178 o princípio do grande desvio, em resumo
caso simples: limite de Chernoff
Um pagamento binário está sujeito a limites muito rígidos. Seja ( Xi)1<iÿn uma sequência de ensaios
de Bernouilli independentes tomando valores em {0, 1}, com P(X = 1) = p e P(X = 0) = 1 ÿ p.
Considere a soma Sn = ÿ1<iÿn Xi . com expectativa E(Sn)= np = µ.
Tomando ÿ como uma "distância da média", os limites de Chernoff fornecem:
Para qualquer ÿ > 0
d
P (S ÿ (1 + ÿ)µ) ÿ ( e
(1 + d)1+d )m
e para 0 < ÿ ÿ 1
ÿd2
3
P (S ÿ (1 + ÿ)µ) ÿ 2e -
Vamos calcular a probabilidade de lançamentos de moeda n serem 50% maiores que o verdadeiro
quer dizer, com p =
12
n
2
eµ=
md2
: P ( S ÿ ( 3 2 ) n 2 ) ÿ 2e -
3 = e ÿn/24, que para n = 1000
acontece a cada 1 em 1,24 × 1018 .
ANTIGO)
,
Prova O limite de Markov dá: P(X ÿ c) ÿ mas nosc permite
substituir E(g(X))
X com uma função positiva g(x), portanto P(g(x) ÿ g(c)) ÿ propriedade
g(c) . Nós usaremos isso
a seguir, com g(X) = e ÿX.
Agora considere (1 + ÿ), com ÿ > 0, como uma "distância da média", portanto,
com ÿ > 0,
ÿSn
P (Sn ÿ (1 + ÿ)µ) = P ( e
ÿ e ÿ(1+ÿ)µ ) ÿ e ÿÿ(1+ÿ)µE(e ÿSn
)
(C.1)
Agora E(e ÿSn ) = E(e ÿ ÿ(Xi) ) = E(e ÿXi) n , por independência do tempo de parada, torna-se ( E(e ÿX) )n .
x
Temos E(e ÿX) = 1 ÿ p + peÿ. Como 1 + x ÿ e
Ee
ÿSn
,
µ(e
ÿaÿ1) ) ÿ e
Substituindo em C.1, obtemos:
ÿSn
Educaçao Fisica
ÿe
ÿ(1+ÿ)µ ) ÿ e
ÿÿ(1+ÿ)ÿ e ÿ(e ÿÿ1)
(C.2)
Restringimos os limites brincando com valores de ÿ que minimizam o lado direito. ÿe
µ(eÿÿ1)ÿ
(ÿ+1)µÿ ÿÿ
ÿÿ = { ÿ :
= 0} produz ÿÿ = log(1 + ÿ).
Que recupera o limite: e ÿµ(ÿ + 1)(ÿÿÿ1)µ .
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
o princípio do grande desvio, em resumo 179
Uma extensão dos limites de Chernoff foi feita por Hoeffding [130] , que a ampliou para variáveis
aleatórias independentes limitadas, mas não necessariamente Bernouilli.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
D
CALIBRE EM INGUNDER PA RETIANITY
Figura D.1: O grande Benoit Mandelbrot vinculou a geometria fractal às distribuições estatísticas através da auto-afinidade
em todas as escalas. Quando solicitado a explicar seu trabalho, ele disse: “rugosité”, que significa “rugosidade” –
demorou cinquenta anos para perceber que essa era sua especialidade. (Cavalo-marinho criado por Wolfgang Beyer,
Wikipedia Commons.)
Começamos com uma atualização:
Definição D.1 (Lei de Potência Classe P)
O rv X ÿ R pertence a P, a classe de funções de variação lenta (também conhecida como Paretiantail ou
181
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
182 calibrando sob paretianidade
potência com cauda) se sua função de sobrevivência (para a variável tomada em valor absoluto) decair assintoticamente
em um expoente fixo ÿ, ou ÿ que é
',
-a
P(X > x) = L(x) x
(D.1)
(cauda direita) ou
P(ÿX > x) = L(x) x
ÿ ÿa
(D.2)
(cauda
'
esquerda) onde ÿ,>ÿ0 e L: (0, ÿ) ÿ (0, ÿ) é uma função de variação lenta, definida como
L(kx)
limxÿÿ eu(x)
=1
para todo k > 0.
O resultado feliz é que o parâmetro ÿ obedece a uma distribuição gama inversa que converge rapidamente para
uma Gaussiana e não requer um n grande para obter uma boa estimativa. Isto é ilustrado na Figura D.2, onde
podemos ver a diferença no ajuste.
0,4
n=100
0,3
Verdadeira média
Figura D.2: Simulação de Monte
Carlo (105 ) de uma comparação
da média amostral (Métodos 1 e
2) versus estimativas da média
de verossimilhança máxima
0,2
0,1
(Método 3) para
uma distribuição de Pareto com
0,0
5
10
15
20
mais confiável. Também podemos
observar o viés, pois os Métodos
1 e 2 subestimam a média
n=1000
0,5
ÿ = 1,2 (amarelo e azul
respectivamente), para n = 100,
1000. Podemos ver como o MLE
rastreia a distribuição de forma
0,4
amostral na presença de
assimetria nos dados. Precisamos
de mais 107 dados para obter o
0,3
mesmo
taxa de erro.
0,2
0,1
0,0
5
10
15
20
Como vimos, há um problema com as chamadas leis de potência de variância finita: a finitude da variância não
ajuda, como vimos no Capítulo 8.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
d.1 distribuição do expoente da cauda da amostra 183
d.1 distribuição do expoente da cauda da amostra
Considere a distribuição de Pareto padrão para uma variável aleatória X com PDF:
a
ÿX(x) = ÿL
ÿÿÿ 1x
, x > eu
(D.3)
Suponha que L = 1 por escala.
ÿÿÿ1 ÿx
n
A função de verossimilhança é L = ÿ
eu=1 eu
. Maximizando o Log da função de
verossimilhança (assumindo que definimos o valor mínimo) log(L) = n(log(ÿ) + ÿ log(L)) ÿ (ÿ + ÿ
n
i=1 log
n
n
Xi 1)nÿ i=1 log (xi) produz: ÿˆ = . Usando
o
n
ÿ i=1 log(xi) . Agora considere l = função característica para obter a distribuição do rendimento logarítmico médio:
ÿ(t)
n
= (ÿ ÿ 1f (x) exp ( it log (x) ndx)n
) = ( ÿn ÿn ÿ it )n
que é a função característica da distribuição gama (n, ÿ ÿ 1 resultado é que
ÿˆ gama inversa com densidade: l
seguirá a distribuição
e
-
ÿˆ (a) =
). Um padrão
1 um
ÿn
ÿˆ ( ÿn
a )n
ÿˆÿ(n)
,
uma > 0
.
Desviando já que E(ÿˆ) =
n
n-1
=
ÿ elegemos outra variável aleatória –imparcial– ˆÿ ÿ
a-um
n1n ÿˆ que, após escalonamento, terá como distribuição ÿÿˆÿ(a) =
e
a
ÿ(nÿ1)
a
)
n+1
.
( umaÿ(n+1)
Truncando para ÿ > 1 Dado que valores de ÿ ÿ 1 levam à ausência de média, restringimos a
distribuição a valores maiores que 1 + ÿ, ÿ > 0. Nossa amostragem agora se aplica a valores
truncados inferiores do estimador, aqueles estritamente maiores que 1, nÿ1 com ponto de corte
ÿ>
ÿˆ a_' (a)
,
0, ou seja, ÿ log(xi)
> 1 + ÿ, ou E(ÿˆ|ÿˆ>1+ÿ ): ÿÿˆÿÿ(a) = ÿ
ˆ ÿ (a) de
1+ÿ ÿ a
portanto, a distribuição dos valores do expoente condicional a ser maior que 1 torna-se:
ÿ
2 um
e
aÿan ( 2ÿna(nÿ1))n
ÿÿˆÿÿ(a) =
n 2ÿ
, uma ÿ 1 + ÿ
(D.4)
a ( ÿ(n) ÿ ÿ ( n, (nÿ1)(ÿ+1)))
Assim, como podemos ver na Figura D.2, a média do “plug-in” através da cauda ÿ pode ser uma
boa abordagem sob Paretianidade unicaudal.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
10 "ITISWH AT ITIS": DIAGNÓSTICO
TESP 5 0 0
T
†
Este é um tour de diagnóstico das propriedades do índice SP500 em sua
história. Envolvemo-nos numa bateria de testes e verificamos o quadro
estatístico que surge. Claramente, os seus retornos são distribuídos pela
lei de potência (com algumas complicações adicionais, tais como uma
assimetria entre o lado positivo e o lado negativo) o que, mais uma vez, in-
valida métodos comuns de análise. Procuramos, entre outras coisas:
• O comportamento da curtose sob agregação (à medida que aumentamos a janela de
observação) • O
comportamento da expectativa condicional E(X|X>K) para vários valores
usos de K.
• O gráfico de soma máxima (MS Plot). •
Rebaixamentos (ou seja, excursões máximas em uma janela de tempo)
• Extremos e registros para verificar se os extremos são independentes.
Esses diagnósticos nos permitem confirmar que toda uma classe de análises em L2, como a
moderna teoria de portfólio, análise fatorial, GARCH, variância condicional ou volatilidade
estocástica, são metodologicamente (e praticamente) inválidas.
10.1 paretianidade e momentos
O problema Como dissemos no Prólogo, mudar de cauda fina para cauda gorda não é apenas
mudar a cor do vestido. Os rentistas financeiros e económicos sustentam a mensagem "sabemos
que é uma cauda gorda", mas depois não conseguem compreender as consequências sobre
muitas coisas, como a lentidão da lei dos grandes números e o fracasso das médias amostrais ou
dos momentos mais elevados para serem estatísticas suficientes. (bem como a ergodicidade
Este é em grande parte um capítulo gráfico feito para ser lido mais a partir das figuras do que do texto, já que os
argumentos repousam em grande parte na ausência de convergência nos gráficos.
185
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
186
"é o que é": diagnosticando o sp500†
efeito, entre outros). Da mesma forma, leva a uma série de análises não informativas na
indústria de investimentos.
A paretianidade é claramente definida pela ausência de algum momento superior, exibida
pela falta de convergência sob o LLN.
Figura 10.1: Identificação
Visual da Paretianidade em
um gráfico log-log padrão
com retornos (absolutos) no
eixo horizontal e a função de
P> X
1
0,100
sobrevivência no eixo vertical.
Se removermos o ponto de
dados correspondente ao
crash de 1987, um lognormal
talvez funcionasse, ou alguma
distribuição mista de cauda
grossa fora da classe da lei
de potência. Pois podemos
1987
0,010
0,001
0,01
0,02
0,05
0,10
0,20
ver a função de sobrevivência
tornando-se vertical, indicativo
de um expoente de cauda
|X} assintótico infinito. Mas como
diz o ditado, tudo o que
precisamos é de um único evento...
Observação 8
Dado que:
1) a classe que varia regularmente não tem momentos superiores a ÿ, mais precisamente,
• se p > ÿ, E(X p ) = ÿ se p for par ou a distribuição tiver suporte unilateral
e
• E(X p ) é indefinido se p for ímpar e a distribuição tiver suporte bicaudal,
e
2) distribuições fora da classe que varia regularmente têm todos os momentos ÿp ÿ ,
N+ E(X p ) < ÿ.
ÿp ÿ N+ st E(X p ) é indefinido ou infinito ÿ X ÿ P.
A seguir, examinaremos maneiras de detectar momentos “infinitos”. Muita confusão
acompanha a noção de momentos infinitos e sua identificação, uma vez que, por
definição, os momentos amostrais são finitos e mensuráveis sob a medida de contagem.
Contaremos com a não convergência de momentos. Seja ÿXÿp a norma p ponderada
n
ÿXÿp
ÿ |xi |
ÿ (1 n eu=1
p )1/p ,
temos a propriedade das leis de potência:
E(X p ) ÿ ÿ ÿ ÿxÿp não é convergente.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
10.2 testes de convergência 187
Pergunta Como pertencer à classe das caudas da Lei de Potência (com ÿ ÿ 4) se cancela
muitos dos métodos em L2?
A seção 5.10 mostra a distribuição do desvio médio do segundo momento
para uma lei de potência de variância finita. Simplesmente, mesmo que o quarto momento não exista,
sob momentos infinitamente superiores, o segundo momento da variância tem ele próprio variância infinita,
e caímos nos problemas de amostragem vistos antes: assim como com um
lei de potência de ÿ perto de 1 (embora ligeiramente acima dela), a média existe, mas nunca será
ser observado, numa situação de terceiro momento infinito, o segundo momento observado
deixará de ser informativo, pois quase nunca convergirá para o seu valor.
10.2 testes de convergência
As leis de convergência podem nos ajudar a excluir algumas classes de distribuições de probabilidade.
Curtose
Figura 10.2: Diagnóstico de convergência
visual para curtose do SP500
nas últimas 17.000 observações. Nós
calcular a curtose em diferentes defasagens
para o SP500 bruto e dados reorganizados.
Enquanto o 4 norma não é convergente
20
15
Reembaralhado
SP500
SP500
10
5
0
20
40
60
80
100
atraso
para dados brutos, é claramente assim para o
série remodelada. Podemos, portanto,
presumir que a “cauda gorda” é atribuível à
estrutura temporal do
os dados, particularmente o agrupamento de
sua volatilidade. Consulte a Tabela 7.1 para
queda esperada na velocidade 1/n para
distribuições de cauda fina.
10.2.1 Teste 1: Curtose sob Agregação
Se a curtose existisse, acabaria convergindo para a de uma Gaussiana à medida que aumentamos a
janela de tempo. Portanto, testamos os cálculos dos retornos ao longo de períodos mais longos e
defasagens mais longas, como podemos ver na Figura 10.2.
Resultado O veredicto mostrado na Figura 10.2 é que a curtose de um mês não é
inferior à curtose diária e, à medida que somamos dados, não se observa queda na curtose.
Além disso, esperaríamos uma queda ÿ n
ÿ1
. Isso nos permite eliminar com segurança
classes complexas, que incluem volatilidade estocástica em suas formulações simples, como
variância gama. A seguir entraremos nos detalhes técnicos do ponto e da força
das evidências.
Um mal-entendido típico é o seguinte. Em uma nota "O que Taleb pode aprender com
Markowitz" [255], Jack L. Treynor, um dos fundadores da teoria do portfólio, defendeu o campo com o
argumento de que os dados podem ser de cauda gorda de "curto prazo", mas
em algo chamado “longo prazo”, as coisas se tornam gaussianas. Desculpe, não é assim.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
188
"é o que é": diagnosticando o sp500†
Gráfico SP500 MS para 4º M
Gráfico MS do 4º Momento para Dist de Cauda Fina.
EM(4)
EM(4)
1,0
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
n
5.000
10.000
n
15.000
5.000
10.000
15.000
Gráfico SP500 MS para 3º M
Gráfico MS para correspondência de volatilidade estocástica
EM(4)
EM(3)
1,0
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
n
5.000
10.000
15.000
n
5.000
10.000
15.000
Figura 10.3: Gráfico MS (ou "lei dos grandes números para p momentos") para p = 4 para o SP500 comparado a
p = 4 para uma volatilidade gaussiana e estocástica para uma curtose correspondente ( 30) durante todo o período.
A convergência, se houver, não ocorre num prazo razoável. Gráfico MS para o momento p = 3 para o SP500 em
comparação com p = 4 para um Gaussiano. Podemos dizer com segurança que oº4º momento é infinito e o 3º
momento é indeterminado
(Acrescentamos o problema ergódico que obscurece, se não elimina, a distinção entre
longo e curto prazo).
A razão é que simplesmente não podemos falar sobre "Gaussiana" se a curtose for
infinita, mesmo quando existem momentos inferiores. Além disso, para ÿ ÿ 3, o limite
central opera muito lentamente, requer n da ordem de 106 para se tornar aceitável, e não
o que temos na história dos mercados. [27]
10.2.2 Rebaixamentos Máximos
Para uma série temporal para o ativo S adquirido (t0, t0 + ÿt, t0 + nÿt), estamos interessados no
comportamento de
ÿ (t0, t, ÿt) = Min ( Siÿt+t0 ÿ ( MinSjÿt+t0 )nj=i+1)n
(10.1)
eu=0
Podemos considerar o rebaixamento relativo usando o logaritmo desse mínimo, como
fazemos com os retornos. A janela para o saque pode ser n = 5.100.252 dias. Como visto
na Figura 10.10, os rebaixamentos são Paretianos.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
10.2 testes de convergência 189
ÿ (-X -X>K)
K
1.7
Figura 10.4: O "Lindy
test" ou Condexp, usando o
1.6
expectativa condicional abaixo de
K, pois K varia conforme o teste de
escalabilidade. À medida que movemos K,
1,5
a medida deve cair.
1.4
K
0,04
0,06
0,08
0,10
60
50
40
Figura 10.5: O empírico
a distribuição poderia
30
concebivelmente se ajustar a uma
distribuição estável de Lévy com ÿl = 1,62.
20
10
-0,20
-0,15
-0,10
-0,05
0,05
0,10
Distribuição Estável[1, 1., 1., 0,0690167, 0,00608249]
P> X
1
0,50
Figura 10.6: As caudas podem
possivelmente até mesmo se
ajusta a uma distribuição média
estável infinita com ÿl = 1.
0,10
0,05
0,05
0,10
0,15
|X}
0,20
10.2.3 Kappa Empírico
Da nossa equação kappa no Capítulo 8:
ÿ(n0, n) = 2 ÿ
log(n) ÿ log(n0)
registro M(n0)
( M(n)
).
(10.2)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
190
"é o que é": diagnosticando o sp500†
0,05
0,04
Figura 10.7: SP500 ao quadrado
retorna para 16.500 observações.
Nenhum GARCH(1,1) pode
0,03
produzir tal irregularidade ou
o que o grande Benoit Mandelbrot chamou de "rugosité".
0,02
0,01
0,00
Kappa Empírico
ÿn
0,20
0,18
0,16
Positivo
Negativo
0,14
Figura 10.8: kappa-n estimado
empiricamente.
0,12
0,10
n
100
200
400
300
500
600
com atalho ÿn = ÿ(1, n). Estimamos empiricamente por meio de bootstrapping e podemos
veja efetivamente como ela se relaciona com uma lei de potência - com ÿ < 3 para o negativo
retorna.
10.2.4 Teste 2: Excesso de Expectativa Condicional
Resultado: O veredicto deste teste é que, como podemos ver na Figura 10.4, que
a expectativa condicional de X (e ÿX), condicional em X é maior que
algum valor arbitrário K, permanece proporcional a K.
Definição 10.1
Seja K em R+
, o excesso relativo de expectativa condicional:
+ ÿ
FiK
-
FiK
E(X)|X>K
K
ÿ E(ÿX)|X>K
K
,
.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
10.2 testes de convergência 191
0,0
0,0
-0,2
-0,2
-0,4
-0,4
-0,6
-0,6
-0,8
-0,8
0,0
0,0
-0,2
-0,2
-0,4
-0,4
-0,6
-0,6
-0,8
-0,8
Figura 10.9: Rebaixamentos para janelas n = 5, 30, 100 e 252 dias, respectivamente. Os rebaixamentos
máximos são excursões mapeadas na Eq. 10.1. Usamos aqui o log do mínimo de S durante uma janela de n
dias após um determinado S.
P>X
1
252d
5d
100d
0,100
Figura 10.10: Paretianidade
de rebaixamentos e escala
0,010
0,001
0,02
0,05
0,10
0,20
0,50
|X}
Nós temos
limão
Kÿÿ
ÿK = 0,
para distribuições fora da bacia do direito de potência, e
a
limão
Kÿÿ
ÿK/K =
1 - uma
para distribuição que satisfaça a Definição 1. Observe a lei de van der Wijk [44], [228].
A Figura 10.4 mostra o seguinte: a expectativa condicional não cai para valores grandes, o que é
incompatível com distribuições não Paretianas.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
192
"é o que é": diagnosticando o sp500†
P> X
1
0,50
Figura 10.11: Ajustando uma
distribuição estável para
rebaixamentos
0,10
0,05
0,55
0,60
0,65
0,70
|X}
Pr.
1,0
0,8
0,6
Figura 10.12: Correção
a distribuição empírica
funcionar com um Frechet para
o SP500
Função de Sobrevivência Empírica
Frechet, 1
0,4
Frechet, índice de cauda inferior
0,2
K
0,05
0,10
0,15
10.2.5 Teste 3 - Instabilidade de 4
0,20
0,25
0h30
o momento
Um argumento principal em [228] é que em 50 anos de observações do SP500, uma única
representa >80% da curtose. Efeito semelhante é observado com outras
variáveis, como ouro, petróleo, prata, outros mercados de ações, commodities agrícolas. Tal
dependência amostral da curtose significa que o quarto momento não tem
a estabilidade, isto é, não existe.
10.2.6 Teste 4: Gráfico MS
Uma abordagem adicional para detectar se E(X p ) existe consiste em examinar a convergência
de acordo com a lei dos grandes números (ou melhor, da ausência de), observando o comportamento
dos momentos mais elevados em uma determinada amostra. Uma abordagem conveniente é a
Gráfico de máximo para soma ou gráfico MS conforme mostrado na Figura 10.3. O MS Plot depende de
uma consequência da lei dos grandes números [184] quando se trata do máximo
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
10.2 testes de convergência 193
de uma variável. Para uma sequência X1 , X2, ..., Xn de variáveis aleatórias iid não negativas,
se para p = 1, 2, 3, . . . , E[X p ] < ÿ, então
Rpp _=M
n
p
n
como n ÿ ÿ, onde S
=
n/Snp
ÿcomo 0
n
ÿ
XI
p
_
p
n
é a soma parcial, e M
p
= máx(X X
1 , ...,p n) o
eu=1
máximo parcial. (Observe que podemos ter X como o valor absoluto da variável aleatória caso
o rv possa ser negativo para permitir que a abordagem seja aplicada a momentos ímpares.)
Mostramos por comparação o gráfico MS para um Gaussiano e aquele para um Student T
com um expoente de cauda de 3. Observamos que o SP500 mostra as características típicas
de uma lei de potência íngreme, já que em 16.000 observações (50 anos) ela não aparece
cair ao ponto de permitir o funcionamento da lei dos grandes números.
1
2
3
P> X
P> X
P> X
1
1
1
0,50
0,50
0,50
0,10
0,10
0,10
0,05
0,05
0,05
0,01
0,01
0,01
|X}
0,05
0,10
|X}
0,20
0,05
0,10 0,15 0,200,25
4
|X}
0,05
5
P> X
P> X
1
1
1
0,50
0,50
0,50
0,10
0,10
0,10
0,05
0,05
0,05
0,01
0,01
0,01
|X}
|X}
0,10
0,15 0,20 0,250,30
7
|X}
0,10
0,15 0,20 0,250,30
8
P> X
P> X
1
1
0,50
0,50
0,50
0,10
0,10
0,10
0,05
0,05
0,05
0,01
0,01
0,01
|X}
0,10
|X}
0,10
0,15 0,20 0,25 0,30
|X}
0,10
0,15 0,20 0,25 0,300,35
11
10
P> X
P> X
1
1
0,50
0,50
0,50
0,10
0,10
0,10
0,05
0,05
0,05
0,01
0,01
0,01
|X}
0,10
0,15 0,20 0,25 0,300,35
0,15 0,20 0,25 0,300,35
12
P> X
1
0,15 0,20 0,25 0,30
9
P> X
1
0,15 0,20 0,250,30
6
P> X
0,10
0,10
|X}
0,10
0,15 0,20 0,25 0,300,35
|X}
0,10
0,15 0,20 0,25 0,300,35
Figura 10.13: Separamos os retornos logarítmicos positivos e negativos e usamos retornos cumulativos
sobrepostos de 1 a 15. Claramente, os retornos negativos parecem seguir uma Lei de Potência, enquanto
a Paretianidade da lei certa é mais questionável.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
194
"é o que é": diagnosticando o sp500†
0,10
0,05
Figura 10.14: Gráfico QQ
comparando o Student T com o
distribuição empírica do
0,00
SP500: a cauda esquerda cabe, não
a cauda direita.
-0,05
-0,10
-0,10
-0,05
0,00
0,05
0,10
10.2.7 Registros e Extremos
Os métodos de registro Gumbel são os seguintes (Embrechts et al [82]). Seja X1 , X2 ,. . . ser
uma série temporal discreta, com máximo no período t ÿ 2, Mt = max(X1 , X2, . . . , Xt),
temos o contador de registros N1,t para n pontos de dados.
t
N1,t = 1 +
ÿ
(10.3)
1Xt>Mtÿ1 .
k=2
Independentemente da distribuição subjacente, a expectativa E(Nt) é a Harmônica
t
1
Número Ht ,
t , onde Ht = ÿ
e a variância Ht ÿ H2
eu=1 eu sou . Notamos que o
número harmônico é côncavo e de crescimento muito lento, logarítmico, como pode ser
aproximado com log(n) + ÿ, onde ÿ é a constante de Euler Mascheroni. O
1
a aproximação é tal que ÿ Ht ÿ log(t)1 ÿ ÿ ÿ (Wolfram Mathworld [263]).
2t
2(t+1)
Figura 10.15: O registro
teste mostra independência para
extremos de retornos negativos,
dependência de retornos
positivos. O número de
registros para observações
independentes crescem com o tempo
no número harmônico
# registros
15
10
5
H(t) (linha tracejada), ÿ
logarítmico, mas aqui parece
crescer > 2,5 desvios padrão
mais rapidamente para retornos
positivos, portanto não podemos
Ganhos
Perdas
tempo
0
5.000
10.000
15.000
assumir independência para
ganhos extremos. O teste faz
não fazer afirmações sobre
dependência fora dos extremos.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
10.2 testes de convergência 195
N
15
10
5
t
50
100
150
50
100
150
N
15
10
5
t
Figura 10.16: Período mais curto, t = 1000 dias de observações sobrepostas para os registros de
máximos (topo) e mínimos (fundo), em comparação com o número harmônico esperado H (1000).
Observação
9 O teste de independência de Gumbel acima é condição suficiente para a convergência
dos valores extremos negativos dos log-retornos do SP500 para o Domínio Máximo de
Atração (MDA) da distribuição de valores extremos.
Série inteira Reorganizamos o SP500 (ou seja, inicializamos sem substituição, usando um
tamanho de amostra igual ao original ÿ 17.000 pontos, com 103 repetições) e executamos
registros em todos eles. Conforme mostrado nas Figuras 10.18 e 10.17, a média foi de 10,4
(aproximada pelo número harmônico, com um desvio padrão correspondente). A função de
sobrevivência S(.) de N1,7×104 = 16, S(16) = o que nos permite considerar
1 40 a independência
de extremos positivos implausível.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
196
"é o que é": diagnosticando o sp500†
Por outro lado, os extremos negativos (9 contagens) mostram realizações próximas de um
1 2 padrão do esperado, o suficiente para justificar um
o que é esperado (10.3), desviando
por não rejeitar a independência.
Subregistros Se em vez de considerarmos os dados como um bloco ao longo de todo o
período, dividirmos o período em subperíodos, obtemos (devido à concavidade da medida
desigualdade de Jensen) , Nt1+ÿ,t1+ÿ+ÿ obtemos observações T/ÿ . Tomamos ÿ = 103 e a
e ÿ = 102 obtendo
,
assim 170 subperíodos para T ÿ 17 × 103 dias. A imagem mostrada na
Figura 10.16 não pode rejeitar a independência tanto para observações positivas quanto para
observações rejeitadas.
Nt
1,0
Registros médios
para máximo de
0,8
SP500
reorganizado
retorna
1950-2017
# máximo
0,6
0,4
0,2
t
5
10
15
20
Figura 10.17: A função de sobrevivência dos registros de máximos positivos para o SP500 reamostrado (103 vezes),
mantendo todos os retornos, mas embaralhando-os, removendo assim a estrutura temporal. A massa acima de 16 (número
observado de registros máximos para SP500 durante o período) é
1 40 .
Figura 10.18: O CDF dos registros de extremos negativos para o SP500 reamostrado (103 vezes) reembaralhado como
acima. A massa acima de 9 (número observado de registros mínimos para SP500 durante o período) é
25.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
10.3 conclusão: é o que é 197
Conclusão para sub-registos Podemos pelo menos aplicar métodos EVT para observações
negativas.
10.2.8 Assimetria cauda direita-esquerda
Notamos uma assimetria como vista na Figura 10.13, com a cauda esquerda consideravelmente
mais espessa que a direita. Pode ser um pesadelo para modeladores que procuram algum
processo preciso, mas não necessariamente para pessoas interessadas em risco e negociação de opções.
10.3 conclusão: é o que é
Este capítulo permitiu-nos explorar um tópico simples: os retornos do índice SP500 (que representa
a maior parte da capitalização do mercado de ações dos EUA) são simplesmente distribuídos pela
lei de potência – pela régua de Wittgenstein, é irresponsável modelá-los de qualquer outra forma.
Métodos padrão, como a Teoria Moderna do Portfólio (MPT) ou verbalismos de "quebra da taxa
básica" (afirmações de que as pessoas superestimam as probabilidades de eventos de cauda)
são totalmente falsos - estamos falando de mais de 70.000 artigos e coortes inteiras de pesquisa,
sem contar cerca de 106 artigos em economia geral com resultados dependentes de “variância”
e “correlação”. Você precisa conviver com o fato de que essas métricas são falsas. Como diziam
os antigos, dura lex sed lex, ou em termos mais modernos da máfia:
É o que é.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
E O PROBLEMA COM OS TRICOS DE ECONOMIA
pessoas não se reproduzem no mundo real. Dois testes de confiabilidade
Há algo de errado
com10,a um
econometria,
que quase
todos
os países
no Capítulo
sobre métodosjá
paramétricos
e outro
sobre
estatísticas robustas, mostram que deve haver algo podre
nos métodos econométricos, fundamentalmente errados, e que os
métodos não são suficientemente fiáveis para serem úteis em qualquer coisa remotamente
relacionada com decisões arriscadas. Os profissionais continuam tecendo declarações
ad hoc inconsistentes para explicar as falhas. Esta é uma breve exposição não técnica
dos resultados em [228].
Com variáveis económicas, uma única observação em 10.000, ou seja, um único dia em 40
anos, pode explicar a maior parte da "curtose", a medida padrão de momento finito das "caudas
gordas", isto é, tanto uma medida quanto o a distribuição em consideração se afasta do
Gaussiano padrão, ou do papel dos eventos remotos na determinação das propriedades totais.
Para o mercado de ações dos EUA, um único dia, o crash de 1987, determinou 80% da curtose
para o período entre 1952 e 2008. O mesmo problema é encontrado com taxas de juros e de
câmbio, commodities e outras variáveis. Refazer o estudo em diferentes períodos com diferentes
variáveis mostra uma total instabilidade à curtose. O problema não é apenas que os dados
tinham “caudas gordas”, algo que as pessoas sabiam, mas que queriam esquecer; o problema
era que nunca seríamos capazes de determinar "quão gordas" eram as caudas dentro dos
métodos padrão. Nunca.1
1 Variáveis macroeconómicas, como os pedidos semanais de subsídio de desemprego nos EUA, têm tradicionalmente parecido ser
tratáveis dentro dos edifícios (feios e monótonos) que albergam departamentos económicos. Acabaram quebrando os modelos
com estrondo. Os pedidos de auxílio-desemprego experimentaram saltos "inesperados" com o Covid 19 (o coronavírus) descrito
em "trinta desvios padrão": a curtose (das alterações no log) aumentou de 8 para > 550 após uma única observação em abril de
2020. Quase todos na amostra foram mais altos os momentos são atribuíveis a um ponto de dados, e quanto maior o momento,
maior esse efeito - portanto, deve-se aceitar que não há momentos mais altos, nem momento inferior informativo, e a variável deve
ser distribuída pela lei de potência.
Tal papel para a cauda anula toda a história da modelização macroeconómica, bem como das políticas baseadas na conclusão
de economistas que utilizam métricas derivadas do Mediocristão. Embora os economistas nos círculos de citações possam não
estar conscientes do seu comportamento fraudulento, outros não estão a perder o foco. No momento em que este artigo foi escrito,
as pessoas estavam começando a perceber que quanto mais grossas as caudas, mais as políticas deveriam ser baseadas nos
extremos esperados, usando a teoria dos valores extremos (EVT), e as diferenças entre os modelos gaussianos e de lei de potência
são ainda mais acentuadas para os extremos. .
199
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
200 o problema da econometria
Figura E.1: Crédito: Stefan Gasic
A implicação é que aquelas ferramentas usadas em economia que se baseiam na quadratura
2 L ), como desvio padrão, variância, correlação,
de variáveis (mais tecnicamente, a norma
regressão, o tipo de coisa que você encontra nos livros didáticos, não são cientificamente
válidas. (exceto em alguns raros casos em que a variável é limitada). Os chamados “valores
de p” que você encontra nos estudos não têm significado com variáveis econômicas e financeiras.
Mesmo as técnicas mais sofisticadas de cálculo estocástico utilizadas nas finanças
matemáticas não funcionam em economia, exceto em áreas selecionadas.
e.1 desempenho de estimadores de risco paramétricos padrão
Portanto, não se espera que os resultados da maioria dos artigos em economia baseados
nestes métodos estatísticos padrão sejam replicados, e efetivamente não o fazem. Além
disso, essas ferramentas convidam à tomada de riscos tolos. Nem as técnicas alternativas
produzem medidas fiáveis de eventos raros, exceto que podemos dizer se um evento remoto
está subvalorizado, sem atribuir um valor exato.
De [228]), usando retornos logarítmicos, Xt ÿ log ( P(t)
P(tÿiÿt) ). Considere o máximo de n amostras
4 )n Seja Q(n) a contribuição das variações
observação quártica máxima Max(Xtÿiÿt
eu=0.
quárticas máximas sobre n amostras e frequência ÿt.
Q(n) :=
Máx. (X
ÿ
n
eu=0
4
tÿiÿt
)n
eu=0
.
X4
tÿiÿt
Observe que, para nossos propósitos, onde usamos curtose central ou não central não faz
diferença – os resultados são quase idênticos.
Para um Gaussiano (isto é, a distribuição do quadrado de uma variável distribuída qui-quadrado)
mostre Q ( 104 ) a contribuição máxima deve ser em torno de 0,008 ± 0,0028. Visivelmente podemos
ver que a distribuição observada do 4º momento tem a propriedade
n
P ( X > máx(x
4
i )iÿ2ÿn ) ÿ P ( X >
ÿ
eu=1
4x _
eu ) .
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
e.1 desempenho dos estimadores de risco paramétricos padrão 201
Tabela E.1: Contribuição máxima para o quarto momento de uma única observação diária
Segurança
Máx. Q anos.
Prata
0,94
46.
SP500
Óleo cru
0,79
56.
26.
0,79
Libra esterlina curta
0,75
17.
Óleo de aquecimento
0,74
31.
Nikkeis
0,72
23.
FTSE
0,54
25.
JGB 0,48 Eurodollar Depo 1M 0,31
24.
Açúcar #11 Iene Bovespa Eurodollar
0,3
Depo 3M
0,25
0,27
48.
CT 0,25
19.
0,27
38.
16.
0,2
48.
18.
28.
DAX
Lembre-se que, ingenuamente, o quarto momento expressa a estabilidade do segundo momento. E o
segundo momento expressa a estabilidade da medida entre as amostras.
Observe que tirar o instantâneo em um período diferente mostraria extremos chegando
de outras variáveis, embora essas variáveis apresentem máximos elevados para a curtose,
cairia, um mero resultado da instabilidade da medida ao longo das séries e do tempo.
Descrição do conjunto de dados Todos os dados de macromercados negociáveis disponíveis em
agosto de 2008, com "negociáveis" significando preços de fechamento reais correspondentes a
transações (decorrentes de avaliações de mercados não burocráticas, incluindo taxas de juros,
moedas, índices de ações).
Participação de Max Quartic
0,8
0,6
0,4
0,2
0,0
Figura E.2: Max quártico
entre títulos na Tabela
E.1.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
202 o problema com econometria
EuroDepo 3M: Kurt Anual 19812008
40
30
20
Figura E.3: Curtose entre
períodos não sobrepostos para
Eurodepósitos.
10
0
Volume Mensal
0,8
0,6
0,4
Figura E.4: Volatilidade entregue
mensalmente no SP500 (medida
por desvios padrão). A única
estrutura
tura parece ter chegado
pelo fato de ser limitado em 0.
Isso é padrão.
0,2
Vol de Vol
0,20
0,15
0,10
Figura E.5: Volatilidade mensal
da volatilidade do mesmo
conjunto de dados da Tabela
E.1, previsivelmente instável.
0,05
0,00
e.2 desempenho de estimadores de risco não paramétricos padrão
O passado se assemelha ao futuro nas caudas? Os testes a seguir são não paramétricos, ou
seja, inteiramente baseados em distribuições de probabilidade empíricas.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
e.2 desempenho de estimadores de risco não paramétricos padrão 203
Mt1
Concentração de eventos de cauda
0,0004
sem antecessores
Figura E.6: Comparando um
desvio absoluto M[t] e
o subsequente M[t+1]
acima de um certo limite
(aqui 4% em ações); ilustrou
como grandes desvios não
têm (ou poucos)
predecessores, e nenhum (ou poucos)
sucessores – nos últimos 50
0,0003
Concentração de eventos de cauda
sem sucessores
0,0002
0,0001
anos de dados.
Monte
0,0001
0,0002
0,0003
0,0004
0,0005
Mt1
0,030
0,025
Figura E.7: O “normal”
é preditivo do regular, ou
seja, o desvio médio.
Comparando um desvio
absoluto M[t] e o
subsequente M[t+1] para
0,020
0,015
0,010
dados macroeconômicos.
0,005
Monte
0,005
0,010
0,015
0,020
0,025
0,030
Até agora ficamos na dimensão 1. Quando olhamos para propriedades de dimensões superiores,
como matrizes de covariância, as coisas pioram. Voltaremos ao ponto com o
tratamento do erro do modelo na otimização da média-variância.
Quando xt está agora em RN, os problemas de sensibilidade às mudanças na matriz de
covariância tornam os momentos observados empiricamente e os momentos condicionais
extremamente instável. Os eventos finais de um vetor são muito mais difíceis de calibrar,
e aumento de dimensões.
As respostas até agora dos membros do establishment da economia/econometria
, risco GARCH e
Nenhuma resposta sobre por que eles ainda usam DST, regressões, valor em
métodos semelhantes.
Problema do peso Benoit Mandelbrot costumava insistir que se pode encaixar qualquer coisa
Poisson salta. Isso é semelhante à ideia de que sempre é possível ajustar perfeitamente n dados
aponta com um polinômio com n ÿ 1 parâmetros. Se você precisar mudar seu
parâmetros, não é uma lei de potência.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
204 o problema da econometria
Figura E.8: As correlações também são problemáticas, o que decorre da instabilidade das variâncias únicas e
do efeito da multiplicação dos valores das variáveis aleatórias. Sob tal estocasticidade de correlações, não faz
sentido, absolutamente nenhum sentido, utilizar métodos baseados em covariância, como a teoria de carteiras.
Muitos pesquisadores invocam "outliers" ou "problema do peso"2 como reconhecimento de caudas gordas
(ou o papel das caudas na distribuição), mas os ignoram analiticamente (fora dos modelos de Poisson que
não são possíveis de calibrar exceto após o fato: Poisson convencional os saltos são de cauda fina). Nossa
abordagem aqui é exatamente oposta: não empurre os valores discrepantes para debaixo do tapete, em
vez disso, construa tudo ao seu redor. Por outras palavras, tal como a FAA e a FDA, que lidam com a
segurança concentrando-se na prevenção de catástrofes, jogaremos fora o comum para debaixo do tapete
e manteremos os extremos como a única abordagem sólida à gestão de riscos. E isso vai além da
segurança, uma vez que muitas das análises e políticas que podem ser destruídas por eventos finais são
inaplicáveis.
Confusão do problema do Peso sobre o problema do Cisne Negro :
"(...) "Cisnes Negros" (Taleb, 2007). Esses ícones culturais referem-se a desastres
que ocorrem tão raramente que são virtualmente impossíveis de analisar usando
inferência estatística padrão. No entanto, achamos essa perspectiva pouco útil
porque sugere um estado de ignorância desesperadora em que nos resignamos a
ser golpeados e espancados pelo incognoscível."
Andrew Lo, que obviamente não se preocupou em ler o livro que citava.
Falta de pele no jogo. Na verdade, perguntamo-nos por que é que os métodos econométricos continuam
a ser usados embora sejam errados, tão chocantemente errados, como é que os investigadores
"universitários" (adultos) podem participar em tais actos de arte. Basicamente, estes capturam os efeitos
comuns e mascaram os efeitos de ordem superior. Como as explosões não são frequentes, esses eventos
não aparecem nos dados e o pesquisador parece inteligente na maior parte do tempo, ao mesmo tempo que é fundamental.
2 O problema do peso é a descoberta de um valor atípico na oferta monetária, tornou-se um nome para valores atípicos e
comportamento inexplicável em econometria.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
e.2 desempenho de estimadores de risco não paramétricos padrão 205
mentalmente errado. Na origem, os investigadores, o gestor de risco “quant” e o economista
académico não têm qualquer envolvimento no jogo, pelo que não são prejudicados por medidas
de risco erradas: outras pessoas são prejudicadas por elas. E o talento artístico deve continuar
perpetuamente enquanto as pessoas puderem prejudicar outras impunemente. (Mais em Taleb
e Sandis [246], Taleb [236] ).
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
F MACHINELEARNINGCONSIDERAÇÕES
função unidimensional como uma combinação linear ponderada de
Aprendemos com
a negociação
opções
que você
expressar
opções
de compra oude
venda
– suavizadas
pelapode
adição
de valor dequalquer
tempo ao
opção. Uma opção se torna um alicerce. Uma recompensa conconstruído via opção é mais precisamente como segue S = ÿ
n
eu
ÿi C(Ki , ti ), eu = 1, 2, . . . , n, onde C é o preço de compra (ou melhor, a avaliação), ÿ é um
peso, K é o preço de exercício e t o tempo até o vencimento da opção. Uma chamada
europeia C entrega max(S ÿ K, 0) no vencimento t.
a
As redes neurais e a regressão não linear, os predecessores do aprendizado de máquina,
por outro lado, focaram na função degrau de Heaviside, novamente suavizada para produzir
uma curva sigmóide do tipo "S". Uma coleção de sigmóides diferentes caberia na amostra.
a Esta parece ser uma descoberta independente pelos traders do teorema da aproximação universal,
inicialmente para funções sigmóides, que serão discutidas mais adiante (Cybenko [52]).
f(x)
Figura F.1: A função heavobservação
iside ÿ : que é o
retorno da "opção binária" e
pode ser decomposta como
C(K)ÿC(K+ÿK) limÿKÿ0 ÿK
.
x
Portanto, esta discussão é sobre...a limitação e como os diferentes blocos de construção podem
acomodá-la. O aprendizado de máquina estatística mudou para “ReLu” ou “rampa”
207
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
208 considerações sobre aprendizado de máquina
funções que agem exatamente como opções de compra, em vez de uma agregação de curvas "S".
Os pesquisadores então descobriram que ele permite um melhor tratamento de eventos finais fora
da amostra (uma vez que, por definição, não há eventos finais inesperados na amostra) devido às
propriedades de extrapolação deste último.
O que é um sigmóide? Considere uma função de retorno como mostrada em F.7 que pode ser ex1
1 2tanh ( ÿxPi) +
pressionado com a fórmula S : (ÿÿ, ÿ) ÿ (0, 1), S(x) =
2 ) , ou, mais préespecificamente, uma função de três parâmetros Si : (ÿÿ, ÿ) ÿ (0, a1 ) Si (x) = (c i ÿ b i x)+1 . Também
comer
e
pode ser a distribuição normal cumulativa, N (µ, ÿ) onde ÿ controla a suavidade (torna-se então o
Heaviside da Fig. F.7 no limite de ÿ ÿ 0). O sigmóide (limitado) é a suavização usando parâmetros da
função Heaviside.
Resposta (F(X))
1,0
0,8
Figura F.2: A função sigmóide;
observe que ele é limitado aos
0,6
lados esquerdo e direito devido à
saturação: parece um Heaviside ÿ
suavizado.
0,4
0,2
Dose (X)
n (x) = ÿ
Podemos construir funções "S" compostas com n somas ÿ F.3. Mas:
n
ÿiSi (x) como em
eu
Observação 10
Para ÿn (x) ÿ [0, ÿ) ÿ [ÿÿ, 0) ÿ (ÿÿ, ÿ), devemos ter n ÿ ÿ.
Precisamos de uma infinidade de somas para uma função ilimitada. Portanto, onde quer que a
"distribuição empírica" seja maximizada, a última observação corresponderá à parte plana do sinal.
Para a definição de uma distribuição empírica ver 3.4.
Agora vamos considerar os retornos das opções. A Fig.F.4 mostra o retorno de uma opção regular
no vencimento – cuja definição corresponde a uma Unidade Linear Retificadora (ReLu) em
aprendizado de máquina. Agora a Fig. F.5 mostra a seguinte função: considere uma função ÿ : (ÿÿ,
ÿ) ÿ [k, ÿ), com K ÿ R:
ÿ(x, K, p) = k +
log ( e
p(xÿK)
+1)
.
p
(F.1)
Podemos somar a função como ÿi = 1nÿ(x, Ki , pi ) para ajustar uma função não linear, que na
verdade replica o que fizemos com as opções de chamada – os parâmetros pi permitem suavizar o
valor do tempo.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
considerações sobre aprendizado de máquina 209
Resposta (F(X))
1,0
Figura F.3: Uma soma de
sigmóides sempre será
limitada, então é
0,5
Dose (X)
submetido à saturação.
-0,5
o
necessária uma soma
infinita para replicar um resultado “aberto”,
aquele que não é sub-
-1,0
f(x)
Figura F.4: Uma opção com
pagamento no vencimento,
aberta à direita.
x
f(x)
Figura F.5: Função ÿ , da Eq.
11,18 com k = ,0.
Calibramos e suavizamos o
resultado com diferentes valores
de p.
x
F.0.1 Calibração via Ângulos
Pela figura F.6 podemos ver que, na equação, S = ÿ ni ÿi C(Ki , ti ), o ÿi
corresponde ao arco tangente do ângulo feito –se positivo (conforme ilustrado
na figura F.7 ), ou o negativo do arctan do ângulo suplementar.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
210 considerações sobre aprendizado de máquina
f(x)
40
Figura F.6: Uma borboleta
(construído por meio de uma
30
soma de opções/ReLu, não sigmóides),
com caudas abertas em ambos
20
lados e virando primeiro
e segundas derivadas.
Este exemplo é particularmente
10
potente porque não tem
x
50
100
150
200
correspondência verbalística
mas pode ser entendido por
comerciantes de opções e máquinas
-10
aprendizado.
-20
f(x)
2,0
1,5
Figura F.7: Como ÿ =
o2
arctano ÿ. Ajustando ângulos
podemos traduzir um não-linear
1,0
função em seu resumo de opções
informação.
o1
0,5
i2
e1
0,0
0,2
x
0,4
0,6
0,8
1,0
Resumo
Podemos expressar todas as funções univariadas não lineares usando uma soma ponderada de
opções de chamada de diferentes strikes, que em aplicativos de aprendizado de máquina mapeiam
para as caudas melhor do que uma soma de sigmóides (eles próprios uma rede de um longo e um
opções curtas de greves vizinhas). Podemos obter os pesos implicitamente usando
os ângulos das funções em relação às coordenadas cartesianas.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Parte III
PREVISÕES
, PREVISÃO
, ANDÚNCIO DE INTY
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11 CALIBRO DE PROBABILIDADE EM IONUNDER
DOENÇAS DE GORDURA ‡
O que as habilidades de previsão binária (ou probabilística) têm a ver
com desempenho? Mapeamos a diferença entre previsões binárias
(univariadas) ou "crenças" (expressas como um "evento" específico
acontecerá/não acontecerá) e recompensas contínuas do mundo real
(benefícios ou danos numéricos de um evento) e mostramos o efeito
de sua fusão e descaracterização na literatura de ciência da decisão
EM
natureza.
Os efeitos são:
A) Falsidade da investigação psicológica, particularmente aquela que documenta que os
humanos sobrestimam as probabilidades da cauda e os acontecimentos raros, ou que reagem
exageradamente aos receios de quebras de mercado, calamidades ecológicas, etc. Há
também um uso indevido dos argumentos hayekianos na promoção de mercados de previsão.
B) Ser um “bom previsor” no espaço binário não leva a ter um bom desempenho, e
vice-versa, principalmente em não linearidades. É provável que um registro de previsão binária
seja um indicador reverso em algumas classes de distribuições. Uma incerteza mais profunda
ou uma distribuição de probabilidade mais complicada e realista pioram a confusão.
C) Aprendizado de Máquina: Algumas funções de retorno não linear, embora não se
prestem a expressões verbalísticas e “previsões”, são bem capturadas por ML ou expressas
em contratos de opções.
D) Métodos de Competições M: A pontuação para as competições M4-M5 parece
estar mais próximo das variáveis do mundo real do que a pontuação de Brier.
O apêndice mostra as propriedades matemáticas e a distribuição exata dos vários resultados,
juntamente com uma distribuição exata da pontuação de Brier, útil para testes de significância
e suficiência amostral.
Capítulo de pesquisa.
213
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
214 calibração de probabilidade sob caudas gordas
''Real'' Pr
1,0
''Normativo''
0,8
''Descritivo''
0,6
0,4
0,2
0,2
0,4
0,6
0,8
1,0
Julgado Pr
Figura 11.1: “Padrões típicos”, conforme
declarado e descrito em [13], uma afirmação
representativa na psicologia da tomada de
decisão de que as pessoas superestimam
pequenos eventos probabilísticos. As
descobertas centrais estão em 1977 e 1978
[152] e [153]. Observamos que à esquerda, na
parte de estimativa, 1) eventos como
inundações, tornados, botulismo, em sua
maioria variáveis patentemente de cauda
grossa, questões de consequências graves
que os agentes podem ter incorporado na
probabilidade, 2) essas probabilidades estão
sujeitos a erros de estimativa que, quando
endogenizados, aumentam a estimativa.
11.1 payoffs contínuos vs. discretos: definições e comentários
Exemplo 11.1 (“Não se come crenças e previsões (binárias)”)
No primeiro volume do Incerto ( Fooled by Randomness, 2001 [226]), o narrador, um trader, é
questionado pelo gerente "você prevê que o mercado vai subir ou descer?"
"Para cima", ele respondeu, com confiança. Aí o patrão ficou furioso quando, olhando as
exposições da empresa, descobriu que o narrador estava vendido no mercado, ou seja, se
beneficiaria com a queda do mercado.
O trader teve dificuldade em transmitir a ideia de que não havia contradição, pois alguém poderia
ter a crença (binária) de que o mercado tinha maior probabilidade de subir do que de descer, mas
que, caso caísse, há uma probabilidade muito pequena de que poderia descer consideravelmente,
pelo que uma posição curta tinha um retorno esperado positivo e a resposta racional era envolverse numa exposição curta. “Você não come previsões, mas P/L” (ou “não se monetiza previsões”),
diz o ditado entre os traders.
Se as exposições e as crenças não vão na mesma direção, é porque as crenças são reduções
verbalísticas que contraem um objeto de dimensão superior em uma única dimensão. Para
expressar o erro do gestor em termos de pesquisa para tomada de decisão, pode haver uma fusão
em algo tão elementar como a noção de um evento binário (relacionado ao momento zero) ou a
probabilidade de um evento e o retorno esperado dele (relacionado ao momento zero). o primeiro
momento e, quando não linear, para todos os momentos superiores), pois as funções de payoff
dos dois podem ser semelhantes em algumas circunstâncias e diferentes em outras.
Comentário 11.1 Em
resumo, a calibração probabilística requer estimativas do momento zero, enquanto o mundo real
requer todos os momentos (fora das apostas de jogo ou de ambientes artificiais, como experimentos
psicológicos onde os retornos são necessariamente truncados), e é uma propriedade central das
caudas grossas. que momentos superiores são explosivos (até mesmo "infinitos") e contam mais e
mais.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.1 Pagamentos contínuos vs. discretos: definições e comentários 215
11.1.1 Longe do Verbalístico
Embora a história do trader seja matematicamente trivial (embora o erro seja cometido com
demasiada frequência), lacunas mais sérias estão presentes na tomada de decisão e na gestão de
risco, particularmente quando a função de retorno é mais complicada, ou não linear (e relacionada
a momentos mais elevados). ). Assim, uma vez mapeados matematicamente os contratos ou
exposições, em vez de nos concentrarmos em palavras e descrições verbais, surgem alguns sérios
problemas de distribuição.
Definição 11.1 (Evento)
Uma variável aleatória (de valor real) X: ÿ ÿ R definida no espaço de probabilidade (ÿ, F, P) é uma
função X(ÿ) do resultado ÿ ÿ ÿ. Um evento é um subconjunto mensurável (contável ou não) de ÿ,
mensurável significando que pode ser definido através do(s) valor(es) de uma das diversas variáveis
aleatórias.
Definição 11.2 (previsão/recompensa binária)
Uma previsão binária (crença ou recompensa) é uma variável aleatória que assume dois valores
X : ÿ ÿ {X1 , X2},
com realizações X1 , X2 ÿ R.
Em outras palavras, ele reside no conjunto binário (digamos {0, 1}, {ÿ1, 1}, etc.), ou seja, o evento
especificado ocorrerá ou não e, se houver uma recompensa, tal recompensa será mapeado em
dois números finitos (uma soma fixa se o evento aconteceu, outra se não aconteceu).
A menos que especificado de outra forma, nesta discussão o padrão é o conjunto {0, 1} .
Exemplo de situações no mundo real em que o retorno é binário: • Jogos de
cassino, lançamentos de moedas em, loterias, ambientes "lúdicos" ou opções binárias pagando
uma quantia fixa se, digamos, o mercado de ações cair abaixo de um certo ponto e nada de
outra forma –considerado uma forma de jogo2 .
• Eleições onde o resultado é binário (por exemplo, referendos, eleições presidenciais nos
EUA), embora não o efeito económico do resultado da eleição.3 • Prognósticos
médicos para um único paciente, implicando sobrevivência ou cura durante um período
especificado, embora não a duração em si como variável, ou a sobrevivência específica da
doença expressa no tempo, ou a esperança de vida condicional. Exclua também qualquer
coisa relacionada à epidemiologia.
• Se uma determinada pessoa com perfil online comprará ou não uma unidade ou mais de um
produto específico em um determinado momento (não a quantidade ou unidades).
Comentário 11.2 (Uma crença binária é equivalente a uma recompensa)
Uma "crença" binária deve ser mapeada para uma recompensa econômica (sob alguma escala ou normalização
2 As opções binárias de retalho são normalmente utilizadas para jogos de azar e foram proibidas em muitas jurisdições, como,
por exemplo, pela Autoridade Europeia dos Valores Mobiliários e dos Mercados (ESMA), www.esma.europa.eu, bem como
nos Estados Unidos, onde são é considerada outra forma de jogo na Internet, desencadeando uma reclamação por parte de
um conjunto de cientistas de decisão, ver Arrow et al. [3]. Consideramos tal proibição justificada uma vez que as apostas
praticamente não têm valor económico, comparativamente aos mercados financeiros amplamente abertos ao público, onde as
exposições naturais podem ser devidamente compensadas.
3 Observe a ausência de formação espontânea de mercados de jogos de azar com recompensas binárias para variáveis
contínuas. A exceção poderia ter sido as opções binárias, mas estas não permaneceram na moda por muito tempo, pelas
experiências do autor, durante um período entre 1993 e 1998, em grande parte motivadas por truques fiscais.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
216 calibração de probabilidade sob caudas gordas
necessariamente constituir uma probabilidade), um insight devido a De Finetti [57] , que sustentou que
uma "crença" e uma "predição" (quando estão preocupadas com dois resultados distintos) mapeiam o
equivalente à expectativa de uma variável aleatória binária e apostas com pagamento em {0, 1}. Uma
“opinião” torna-se um preço de escolha para uma aposta, e aquele pelo qual se está igualmente
disposto a comprar ou vender. Opiniões inconsistentes, portanto, levariam a uma violação das regras
de arbitragem, como o “livro holandês”, onde uma combinação de apostas com preços errados pode
garantir uma perda futura.
Definição 11.3 (Remuneração contínua aberta no mundo real)
X : ÿ ÿ [a, ÿ) ÿ (ÿÿ, b] ÿ (ÿÿ, ÿ).
Uma recompensa contínua “vive” em um intervalo, não em um conjunto finito. Corresponde a uma
variável aleatória ilimitada, duplamente ilimitada ou semi-limitada, com o limite de um lado (variável de
cauda única).
Advertência Estamos limitando, para os propósitos do nosso estudo, a consideração a binário versus
contínuo e aberto (ou seja, sem suporte compacto). Muitos resultados discretos são incluídos na classe
contínua usando argumentos padrão de aproximação. Também estamos omitindo trigêmeos, ou seja,
resultados em, digamos, {ÿ1, 0, 3}, pois estes obedecem às propriedades dos binários (e podem ser
construídos usando uma soma de binários).
Além disso, muitas variáveis com piso e teto remoto (portanto, formalmente com suporte compacto),
como o número de vítimas ou uma catástrofe, são tratadas analítica e praticamente como se fossem
abertas [46].
Exemplo de situações no mundo real onde a recompensa é contínua: • Vítimas de
guerras, calamidades devido a terremotos, contas médicas, etc. • Magnitude de
uma quebra de mercado, gravidade de uma recessão, taxa de inflação • Receita de uma
estratégia • Vendas e
lucratividade de um novo produto • Em geral,
qualquer coisa coberta por um contrato de seguro
Pague
3.5
3,0
g(x)
2,5
Figura 11.2: Comparando o retorno de uma
aposta binária (The Heaviside ÿ(.)) com uma
exposição contínua aberta g(x). Visivelmente
não há forma de igualar os derivados
(matemáticos) para qualquer forma de
cobertura.
ÿ(x)
2,0
Desvio de rastreamento
1,5
1,0
0,5
x
-1
1
2
3
4
A maioria das variáveis naturais e socioeconómicas são contínuas e as suas estatísticas
a distribuição não tem um suporte compacto no sentido de que não temos um identificador de um limite
superior exato.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.1 Pagamentos contínuos vs. discretos: definições e comentários 217
Figura 11.3: A combinação de probabilidade e retorno esperado está profundamente enraizada na psicologia e nas
finanças. Crédito: Stefan Gasic.
Exemplo 11.2 A
análise preditiva no espaço binário {0, 1} pode ser bem-sucedida na previsão se, a partir de sua atividade
on-line, o consumidor on-line Iannis Papadopoulos comprará um determinado item, digamos, uma aliança
de casamento, com base apenas no cálculo da probabilidade. Mas a probabilidade de “sucesso” de um
potencial novo produto pode ser – tal como acontece com a história do comerciante – enganosa.
Dado que as vendas da empresa são tipicamente grossas, uma probabilidade muito baixa de sucesso
ainda pode ser satisfatória para tomar uma decisão. Considere o capital de risco ou a negociação de
opções – uma opção em 8 do dinheiro pode muitas vezes ser atraente, mas pode ter menos de 1 em 1000
probabilidade de dar retorno.
Mais significativamente, o erro de rastreamento para estimativas de probabilidade não será mapeado
para o desempenho. ÿ (M4) faria.
Esta diferença é bem conhecida pelos negociantes de opções, pois existem contratos de derivativos
financeiros chamados "binários" que pagam no conjunto binário {0, 1} (digamos, se o ativo subjacente S,
digamos, exceder um preço de exercício K), enquanto outros chamados de " vanilla" que pagam em [0, ÿ),
ou seja, max(S ÿ K, 0) (ou, pior, em (ÿÿ, 0) pois o vendedor pode agora ser exposto à falência devido à
exposição ilimitada). A considerável diferença matemática e econômica entre os dois foi discutida e é o
assunto de Dynamic Hedging: Managing Vanilla and Exotic Options [225]. Dado que as primeiras são
apostas que pagam um valor fixo e as últimas têm retorno total, uma não pode ser adequadamente
replicada (ou protegida) usando outra, especialmente sob caudas gordas e incerteza paramétrica – o que
significa que o desempenho em uma não se traduz em desempenho no outro. Embora este conhecimento
seja bem conhecido em finanças matemáticas, não parece ter sido transmitido à literatura sobre teoria de
decisão.
Comentário 11.3 (Teoria dos Derivados)
Nossa abordagem aqui é inspirada na teoria e prática de derivativos (ou opções), onde existem diferentes
tipos de contratos de derivativos, 1) aqueles com pagamentos binários (que pagam uma quantia fixa se
um evento acontecer) e 2) aqueles "vanilla" (opções padrão com retornos contínuos). É praticamente
impossível proteger um do outro [225]. Além disso, uma aposta com preço de exercício K e uma opção de
compra com o mesmo preço de exercício K, com K nas caudas da distribuição, quase sempre têm as suas
avaliações reagindo de forma oposta quando se aumenta a curtose da distribuição, (preservando os três
primeiros momentos) ou, num exemplo mais abaixo no ambiente lognormal, quando se aumenta a
incerteza através da escala da distribuição.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
218 calibração de probabilidade sob caudas gordas
Comentário 11.4 (planilhas de termos)
Note-se que, graças aos "planos de termos" que são necessários tanto legal como matematicamente,
a prática de derivados financeiros fornece um mapeamento legalista preciso dos pagamentos, de
forma a tornar salientes as suas diferenças matemáticas, estatísticas e económicas.
Tem havido uma tensão entre os mercados de previsão e os mercados financeiros reais.
Como podemos mostrar aqui, os mercados de previsão podem ser úteis para os jogadores, mas
não podem cobrir as exposições económicas.
A matemática da diferença e da impossibilidade de cobertura pode ser mostrada a seguir. Seja X
uma variável aleatória em R, temos o retorno da aposta ou da previsão ÿK : R ÿ {0, 1},
xÿK0
ÿK(x) = { 1,
(11.1)
caso contrário,
e g : R ÿ R o da exposição natural. Como em K, ÿ(K) e ÿ) ÿx
ÿ ÿxÿK(x)
é uma função delta de Dirac
gk (x) é pelo menosuma vez diferenciável para x ÿ K (ou constante no caso de a exposição ser
globalmente linear ou, como uma opção, linear por partes acima de K), derivadas correspondentes
para fins de compensação de variações não é uma estratégia possível.4 O ponto é ilustrado na
Figura 11.2.
11.1.2 Não há "colapso", "desastre" ou "sucesso" definidos sob caudas gordas
O fato de um “evento” ter alguma incerteza em torno de sua magnitude acarreta algumas
consequências matemáticas. Alguns artigos verbalistas de 2019 ainda cometem a falácia de
binarizar um evento em [0, ÿ): Um artigo recente sobre calibração de crenças diz "...se uma pessoa
afirma que os Estados Unidos estão à beira de um colapso econômico ou que um desastre climático
é iminente..." Um "colapso" económico ou um "desastre" climático não deve ser expresso como um
evento em {0, 1} quando no mundo real pode assumir muitos valores. Para isso, é necessária uma
escala característica. Na verdade, sob caudas gordas, não há colapso ou desastre "típico", devido à
ausência de escala característica, portanto, previsões ou crenças binárias verbais não podem ser
usadas como medidores.
Apresentamos a diferença entre domínios de cauda fina e de cauda gorda como segue.
Definição 11.4 (escala característica)
Seja X uma variável aleatória que vive em (0, ÿ) ou (ÿÿ, ÿ) e E o operador de expectativa na
distribuição (física) do "mundo real". Por resultados clássicos [82]:
1
limão
Kÿÿ
• Se ÿ = 1
K
E(X|X>K) = ÿ,
(11.2)
, Diz-se que X pertence à classe D1 de cauda fina e tem uma escala característica
, Diz-se que X está na classe de variação regular de cauda gorda D2 e não tem
• Se ÿ > 1
escala característica
4 Para replicar um retorno contínuo e aberto com binários, é necessária uma série infinita de apostas, o que cancela toda a ideia de
um mercado de previsão, transformando-o num mercado financeiro. Distribuições com suporte compacto sempre têm momentos
finitos, o que não é o caso das da linha real.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.2 superestimação espúria da probabilidade da cauda em psicologia 219
• Se
limão
E(X|X>K) ÿ K = µ
Kÿÿ
onde µ > 0, então X está na classe exponencial limítrofe
O ponto pode ser esclarecido da seguinte forma. Não se pode ter um contrato binário que
proteja adequadamente alguém contra um “colapso”, dado que não se pode saber
antecipadamente a dimensão do colapso ou quanto deve ser o valor nominal desse contrato. Por
outro lado, um contrato ou opção de seguro com pagamento contínuo proporcionaria uma
cobertura satisfatória. Outra forma de ver a questão: reduzir estes eventos a "colapso" verbalístico,
"desastre" é equivalente a um pagamento único ao seguro de saúde se alguém estiver "muito
doente" - independentemente da natureza e gravidade da doença - e 0 caso contrário .
E é altamente falho separar o resultado e a probabilidade na integral do resultado esperado.5
Algumas experiências do tipo mostrado na Figura 11 perguntam aos agentes quais são as suas
estimativas de mortes por botulismo ou alguma doença semelhante: os agentes são culpados
por compreenderem mal o probabilidade. Isto é um problema com a experiência: as pessoas não
separam necessariamente as probabilidades dos resultados.
11.2 superestimação espúria da probabilidade da cauda em psicologia
Definição 11.5 (Substituição de integral)
Seja K ÿ R+ um limite, f(.) uma função de densidade e pK ÿ [0, 1] a probabilidade de excedê-lo, e
g(x) uma função de impacto. Seja I1 o retorno esperado acima de K:
ÿ
I1 = ÿ
g(x)f(x)dx,
K
e Seja I2 o impacto em K multiplicado pela probabilidade de exceder K:
ÿ
I2 = g(K) ÿ
f(x)dx = g(K)pK.
K
A substituição vem da fusão de I1 e I2, que se torna uma identidade se e somente se g(.) for
constante acima de K (digamos g(x) = ÿK(x), a função teta de Heaviside). Para g(.) uma função
variável com primeira derivada positiva, I1 pode estar próximo de I2 apenas sob distribuições de
cauda fina, e não sob distribuições de cauda gorda.6
Para as discussões e exemplos nesta seção, assuma g(x) = x, pois consideraremos o caso não
linear mais avançado na Seção 11.5.
5 Foi demonstrado que praticamente todas as variáveis económicas e informacionais desde a década de 1960 pertencem
à classe D2 , ou pelo menos à classe subexponencial intermédia (que inclui o lognormal), [99, 162, 163, 164, 226],
juntamente com variáveis sociais como tamanho das cidades, palavras em idiomas, conexões em redes, tamanho das
empresas, rendimentos das empresas, dados macroeconômicos, dados monetários, vítimas de conflitos interestaduais
e guerras civis[46, 199], risco operacional, danos causados por terremotos, tsunamis, furacões e outras calamidades
naturais, desigualdade de rendimentos [40], etc. O que nos deixa com a questão mais racional: onde estão as variáveis
gaussianas? Estes parecem ser, na melhor das hipóteses, uma ordem de grandeza menor nas decisões que envolvem
previsões formais.
6 Isto também pode explicar, como veremos no Capítulo 11 , que as apostas binárias nunca podem representar “a pele no jogo”
sob distribuições de cauda gorda.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Calibração de probabilidade 220 sob caudas gordas
Teorema 2: Convergência de I1 Se I2
X estiver na classe D1 de cauda fina conforme descrito em 11.2,
Folha I1 = 1
(11.3)
I2
Kÿÿ
Se X estiver na classe de variação regular D2,
limão
I1 = ÿ > 1.
(11.4)
I2
Kÿÿ
Prova. Da Eq. 11.2. Comentários adicionais:
11.2.1 Caudas finas
Pela nossa própria definição de uma distribuição de cauda fina (mais geralmente qualquer distribuição
fora da classe subexponencial, indexada por (g)), onde f (g) (.) é o PDF:
ÿ
limão
Kÿÿ
ÿK
xf (g) (x) dx
= E1 = 1.
ÿ
I2
K ÿ K f (g) (x) dx
(11.5)
Caso especial de uma Gaussiana: Seja g(.) a PDF da distribuição Gaussiana predominantemente
usada (centralizada e normalizada),
-
ÿ
e
ÿK
e Kp = o
xg(x) dx = ÿ
K2
2
(11.6)
2ÿ
K
( ÿ 2 ), onde erfc é a função de erro complementar e Kp é
limite correspondente à probabilidade p. corresponde ao
1 2erfc
Notamos que Kp
E1
I2
índice de Mills inverso utilizado em seguros.
11.2.2 Caudas gordas
Para todas as distribuições na classe de variação regular, definidas pela sua função de sobrevivência
da cauda: para K grande,
P(X > K) ÿ LKÿÿ
, uma > 1,
onde L > 0 e f (p) é o PDF de um membro dessa classe:
ÿ
limão
Kpÿÿ
ÿK
xf (p) (x) dx
ÿ
Kÿ
Kp
f (p) (x) dx
=
a
uma - 1
> 1.
(11.7)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.2 superestimação espúria da probabilidade da cauda em psicologia 221
11.2.3 Conflações
Conflação de I1 e I2 Em numerosos experimentos, que incluem o artigo da teoria do prospecto
de Kahneman e Tversky (1978) [139], tem sido repetidamente estabelecido que os agentes
superestimam pequenas probabilidades em experimentos onde as probabilidades são
mostradas a eles, e quando o resultado corresponde a um único pagamento. O bem conhecido
resultado de Kahneman-Tversky mostrou-se robusto, mas as interpretações fazem afirmações
errôneas a partir dele. Praticamente toda a literatura subsequente baseia-se em I2 e confundeo com I1 , o que este autor chamou de falácia lúdica em O Cisne Negro [226], já que os jogos
estão necessariamente truncando uma dimensão da realidade. Os resultados psicológicos
podem ser robustos, no sentido de que se replicam quando repetidos em condições
exactamente semelhantes, mas todas as afirmações fora destas condições e extensões a
riscos reais serão uma generalização extremamente duvidosa – dado que as nossas
exposições no o mundo real raramente é mapeado para I1 . Além disso, pode-se superestimar
a probabilidade e ainda subestimar o retorno esperado.
A rigidez da fusão A má interpretação ainda é feita quatro décadas depois de KahnemanTversky (1979). Numa revisão da economia comportamental, com ênfase no erro de cálculo
da probabilidade, Barberis (2003) [12] trata I1 = I2. E Arrow et al. [3], uma longa lista de
cientistas que defendem a desregulamentação dos mercados de apostas também deturpou a
adequação destas previsões binárias ao mundo real (particularmente na presença de mercados
financeiros reais).
Outro exemplo rigoroso – e perigoso – é o “VaR padrão” (Valor em risco) que é explicitamente
dado como I2 , ou seja, probabilidade de inadimplência x (taxa de recuperação esperada de
1), que pode ser bastante diferente da expectativa de perda real em caso de padrão. As
,
finanças apresentam aproximações erradas do CVaR7 e a aproximação
é a falha de gestão
de risco que pode ter causado a crise de 2008 [244].
O argumento falacioso é que calculam a taxa de recuperação como o valor esperado da
garantia, sem ser condicionado pelo evento de incumprimento. O valor esperado da garantia
condicional a um incumprimento é muitas vezes muito inferior à sua expectativa incondicional.
Em 2007, após uma série massiva de execuções hipotecárias, o valor da maioria das garantias
caiu para cerca de 1/3 do seu valor esperado!
Incompreensão dos argumentos de conhecimento de Hayek Os argumentos "Hayekianos"
para a consolidação de crenças através dos preços não conduzem a mercados de previsão
como discutidos em artigos como [30], ou em Sunstein [220]: os preços existem nos mercados
financeiros e comerciais; os preços não são apostas binárias. Para Hayek [127], a consolidação
do conhecimento é feita através de preços e arbitradores (palavras suas) – e os arbitradores
negociam produtos, serviços e títulos financeiros, não apostas binárias.
7 A expressão matemática do Valor em Risco, VaR, para uma variável aleatória X com função de distribuição
F e limite ÿ ÿ [0, 1]
VaRÿ(X) = ÿ inf {x ÿ R : FX(x) > ÿ},
e o CVar correspondente
ESÿ(X) = E ( ÿX |Xÿÿ VaRÿ(X) )
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
222 calibração de probabilidade sob caudas gordas
Tabela 11.1: Pseudo-superestimação
ÿ
ÿ
ÿ
Kp ÿ Kp gaussiana xf(x)dx Kp f(x)dx
p
ÿ Kp p 1,36
pp.
1,28
1,75
×
10ÿ1
1,28
×
10ÿ1
×
10ÿ1
1,36
1,14
×
1
2,32 2,66 × 10ÿ2 2,32 × 10ÿ2
10ÿ2 1,14 1,08 × 10ÿ3
10 1
1,08 1,06 × 10ÿ4 1,06
3,09 3,36 × 10ÿ3 3,09 × 10ÿ3
100 1
1000 1
10000 3,71 3,95 × 10ÿ4 3,71 × 10ÿ4
ÿ
Definição 11.6 (Probabilidade corrigida em experimentos binarizados)
ÿ
Deixe p
seja a probabilidade equivalente de fazer I1 = I2 e eliminar o efeito do erro, então
p
ÿ
= {p: I1 = I2 = K}
Agora vamos resolver para Kp “na cauda”, trabalhando com uma probabilidade p. Para o Gaussiano,
ÿ1/uma
.
Kp = ÿ 2erfcÿ1 (2p); para a distribuição com cauda paretiana, Kp = p
Portanto, para uma distribuição paretiana, a razão entre a probabilidade real contínua e a binária
a
ÿ
=
pp.
o que pode permitir em casos absurdos p
ÿ
1 - uma
,
exceder 1 quando a distribuição for grosseiramente
mal especificado.
As Tabelas 11.1 e 11.2 mostram, para um nível de probabilidade p, o nível de cauda correspondente
Kp, tal como
Kp = {inf K : P(X > K) > p} , que
probabilidade ajustada correspondente p habilidades
ÿ
desbinariza o evento 89– prob- e a
aqui precisam estar na metade inferior, ou seja, p < 0,5. Observe que estamos operando no caso
moderado de distribuições de probabilidade conhecidas, à medida que piora sob a incerteza
paramétrica.10
A distribuição mais comumente conhecida entre o público, a "Pareto 80/20" (baseada na descoberta
de Pareto de que 20% da população na Itália possuía 80% da terra), mapeia para um índice de cauda
ÿ = 1,16, então o a probabilidade ajustada é > 7 vezes a ingênua.
Exemplo de probabilidade e retorno esperado reagindo em direções opostas sob aumento de
incerteza Um exemplo que mostra como, sob uma distribuição distorcida, o binário e a expectativa
reagindo em direções opostas é o seguinte. Considere a distribuição lognormal neutra ao risco L(X0
ÿ 2 , ÿ) com PDF fL(.), média
1
p
8 A análise é invariável se utilizamos a cauda direita ou esquerda. Por convenção, as finanças utilizam valor negativo
para perdas, enquanto outras áreas de gestão de risco expressam o negativo da variância aleatória, concentrando-se,
portanto, na cauda direita.
9 Kp é equivalente ao VaRp do Valor em Risco em finanças, onde p é a probabilidade de perda.
I1 10 Observe a lei de van der Wijk, ver Cirillo [44]: está relacionada ao que se chama em finanças de déficit esperado I2
para Kp.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.2 superestimação espúria da probabilidade da cauda em psicologia 223
Binário
10
5
0
-5
-10
Caudas Finas
Figura 11.4: Comparação dos três
resultados em duas distribuições – o
binário tem o mesmo perfil,
independentemente de a distribuição ser
de cauda estreita ou de cauda gorda. As
duas primeiras subfiguras estão em
escala, a terceira (representando o Pareto
80/20 com ÿ = 1,16 requer a multiplicação
da escala por duas ordens de grandeza.
10
5
0
-5
-10
Pareto 80/20
1000
500
0
-500
-1000
X0 e variância (e
2p .
2
ÿ1 ) X 0 . Podemos aumentar sua incerteza com o parâmetro
ÿ. Temos a expectativa de um contrato acima de X0, E>X0 :
1
E>X0 = ÿX0 x fl(x) dx = 2 X0 ( 1 + erf ( 2ÿ ÿ 2 ))
ÿ
e a probabilidade de exceder X0,
P(X > X0) =
1
2 ( 1 ÿ erf ( ÿÿ22 )) , 2
onde erf é a função de erro. À medida que ÿ aumenta erf ÿ
( ÿ2 ) ÿ 1, com E>X0 ÿ X0 e
P(X > X0) ÿ 0. Este exemplo é bem conhecido pelos traders de opções (ver Hedge Dinâmico
[225]), pois a opção binária atingida em X0 vai para 0 enquanto a opção de compra padrão do
mesmo exercício sobe consideravelmente para atingir o nível de o ativo – independentemente de
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
224 calibração de probabilidade sob caudas gordas
Tabela 11.2: Pseudo-superestimação paretiana
ÿ
ÿ
ÿ
xf(x)dx Kp ÿ Kp
ÿ
Kp Kp 8,1 8,92
p
ÿ
f(x)dxp
pp.
1
65,7 7,23 5,87
0,811
1.1 (sic) 11.
10 1
4328 4,76
0,65
0,11
11.
100 1
533
0,53
0,011
11.
0,43
0,0011
11.
1000 1 10000
batida. Este é normalmente o caso do capital de risco: quanto mais arriscado for o projeto, menor
será a probabilidade de sucesso, mas mais recompensador em caso de sucesso. Assim, a
expectativa pode ir para +ÿ enquanto a probabilidade de sucesso vai para 0.
11.2.4 Incerteza Distribucional
Observação 11: Incerteza distribucional
Devido à desigualdade de Jensen, a discrepância (I1 - I2) aumenta sob a incerteza do
parâmetro, expressa em maior curtose, via estocasticidade de ÿ a escala da distribuição de
cauda fina, ou de ÿ o índice de cauda do Paretian um.
ÿ
Prova. Primeiro, o mundo gaussiano. Consideramos o efeito de I1 ÿ I2 = ÿ ÿ Seja ÿ a K xf (g) (x) ÿ
ÿ
K f (g) (x) sob volatilidade estocástica, ou seja, o parâmetro do aumento da volatilidade.
escala da Gaussiana, com K constante:
ÿ
ÿ2(ÿ
K
ÿ
xf (g) (x)dx)
ÿÿ2
-
ÿ2(ÿ
K
-
f (g) (x)dx)
ÿÿ2
=
e
K2
2ÿ 2 ( (K ÿ 1)K
3
ÿ (K ÿ 2)Kÿ
2
)
,
ÿ 2ÿÿ5
(11.8)
4 -K _ 3 -K _ 2
+ 2K > 0 para K
que é positivo para todos os valores de K > 0 (dado que K é
positivo).
Em segundo lugar, considere a sensibilidade da razão I2
I1 à incerteza do parâmetro para ÿ no caso
paretiano (para o qual podemos obter uma expressão simplificada em comparação com a diferença).
Para ÿ > 1 (a condição para uma média finita):
ÿ
ÿ 2 (ÿ ÿK xf (p) (x)dx/ ÿ ÿÿ2K f (p) (x)dx)
=
2K
,
(a ÿ 1)3
(11.9)
que é positivo e aumenta acentuadamente em valores mais baixos de ÿ, ou seja, quanto mais
grossas forem as caudas, pior será a incerteza sobre o retorno esperado e maior será a diferença
entre I1 e I2.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.3 calibração e calibração incorreta 225
11.3 calibração e calibração incorreta
A literatura de psicologia também examina a "calibração" da avaliação probabilística - uma avaliação de quão
próximo alguém que fornece probabilidades de eventos acaba em média (sob alguma operação da lei do grande
número considerada satisfatória) [152], [143], veja a Fig. 3.13 (como vimos no Capítulo 3). Os métodos, pelas
razões que mostramos aqui, são altamente falhos, exceto em circunstâncias restritas de recompensas puramente
binárias (como aquelas que implicam um resultado de “ganhar/perder”) – e generalizar a partir dessas recompensas
ou não é possível ou produz resultados enganosos. resultados.
Conseqüentemente, a Figura 11 faz pouco sentido empiricamente.
No fundo, as métricas de calibração, como a pontuação de Brier, são sempre de cauda fina, quando a variável
sob medição é de cauda grossa, o que piora a tratabilidade.
Para usar novamente o ditado “Você não come previsões”, a maioria das empresas tem retornos severamente
distorcidos, portanto, ser calibrado em probabilidade não faz sentido.
Observação 12: Diferenças de distribuição
As previsões binárias e as métricas de calibração por meio da pontuação Brier pertencem à classe de
cauda fina.
Mostraremos as provas a seguir.
11.4 métricas de pontuação
Esta seção, resumida na Tabela 11.3, compara as distribuições de probabilidade das diversas métricas utilizadas
para medir o desempenho, seja por formulação explícita ou vinculando-as a uma determinada classe de
probabilidade. Claramente, pode-se estar medindo mal o desempenho se a variável aleatória estiver na classe de
probabilidade errada. Diferentes distribuições subjacentes exigirão um número diferente de tamanhos de amostra
devido às diferenças na forma como a lei dos números opera nas distribuições.
Uma série de previsões binárias convergirá muito rapidamente para uma Gaussiana de cauda fina, mesmo que a
distribuição subjacente seja de cauda grossa, mas um desempenho econômico de rastreamento de P/L para
alguém com uma exposição real exigirá um tamanho de amostra consideravelmente maior se, digamos, o
subjacente é distribuído por Pareto [235].
Começamos por expressões precisas para as quatro possíveis:
1. Desempenho no mundo real em condições de sobrevivência, ou, por outras palavras, P/L ou uma pontuação
quantitativa cumulativa.
2. Uma contagem de apostas, a soma ingénua da frequência com que a previsão binária de uma pessoa é
correto
3. Pontuação Brier de De Finetti ÿ(B)n 4.
Pontuação M4 ÿ M4 para nnobservações usadas na competição M4 e sua sequência prosaica M5.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
226 calibração de probabilidade sob caudas gordas
Tabela 11.3: Métricas de Pontuação para Avaliação de Desempenho
Nome da métrica
Aptidão para a realidade
P (r) (T) P/L cumulativo
Adaptado para distribuições do mundo real, particularmente
P (p) (n) Contagem de Apostas
incorretamente o desempenho sob caudas gordas, funciona
sob um filtro de sobrevivência Representa
apenas para apostas binárias e/ou domínios de cauda fina.
ÿ(n)
Pontuação de Brier
eun(M4)
Pontuação M4
Deturpa a precisão do desempenho sob caudas gordas,
ignora momentos mais elevados.
Representa a precisão, não exatamente o desempenho no
mundo real, mas mapeia a distribuição real das variáveis
subjacentes.
ÿ (M5)
n
Pontuação M5 proposta
Representa condições de precisão e sobrevivência, prevendo
extremos de séries temporais.
eu(.)
Expressa exposições sem verbalismo e reflete o verdadeiro
P/L econômico ou outro. Assemelha-se a planilhas de termos
Função de recompensa não
linear de aprendizado de
máquina (não métrica)
a
de derivativos financeiros.
P/L no Espaço de Pagamento (sob condição de sobrevivência) O “P/L” é a abreviação de índice natural de
lucros e perdas, ou seja, uma conta cumulativa de desempenho. Sejam Xi realizações de uma variável aleatória
genérica unidimensional X com suporte em R e t = 1, 2,. . . n. Os retornos do mundo real Pr(.) são expressos de
forma simplificada como
(11.10)
g(xt),
Pr(n) = P(0) + ÿ
kÿN
onde gt : R ÿ R é uma função mensurável que representa o payoff; g pode ser dependente do caminho (para
acomodar uma condição de sobrevivência), ou seja, é uma função do período anterior ÿ < t ou da soma cumulativa
ÿÿÿt g(xÿ) para introduzir uma barreira absorvente, digamos, prevenção de falência , nesse caso escrevemos:
P (r) (T) = P (r) (0) + ÿ
1(ÿÿ<t g(xÿ )>b) g(xt),
(11.11)
tÿn
onde b é qualquer número arbitrário em R que chamamos de marca de sobrevivência e 1(.) uma função indicadora ÿ
{0, 1}.
A última condição da função indicadora na Eq. 11.11 destina-se a lidar com a ergodicidade ou a falta dela [226].
O comentário 11.5 P/L
corresponde tautologicamente à distribuição do mundo real, com uma barreira absorvente na condição de
sobrevivência.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.4 métricas de pontuação 227
Espaço de Frequência, A literatura padrão da psicologia tem duas abordagens.
A-Ao contabilizar previsões como um contador
1
P (p) (n) =
n
ÿ
1Xtÿÿ,
(11.12)
euÿn
onde 1Xtÿÿ ÿ {0, 1} é um indicador de que a variável aleatória x ÿ ÿt está no "intervalo de
previsão", e T o número total de tais eventos de previsão. onde ft ÿ [0, 1] é a probabilidade
anunciada pelo previsor para o evento t
B-Ao lidar com uma pontuação (método de calibração) na ausência de um desempenho
líquido visível, os pesquisadores produzem alguma métrica ou pontuação mais avançada para
medir a calibração. Selecionamos abaixo do padrão ouro", pontuação Brier de De Finetti
(DeFinetti, [58]). É favorecido porque não permite arbitragem e requer calibração probabilística
perfeita: alguém que aposta que um evento tem probabilidade 1 de ocorrer obterá um pontuação
perfeita somente se o evento ocorrer o tempo todo.
ÿ (B)
n =
1
n
2
ÿ (ft ÿ 1Xtÿÿ)
,
(11.13)
tÿn
que precisa ser minimizado para um avaliador de probabilidade perfeito.
Aplicações: Competições M4 e M5 A série M (Makridakis [159]) avalia previsores usando
vários métodos para prever uma estimativa pontual (juntamente com uma faixa de valores
possíveis). A última competição de 2018, M4, baseou-se em grande parte numa série de
pontuações, ÿ M4j que funciona
,
bem em situações em que é necessário prever o primeiro
momento da distribuição e a dispersão à sua volta.
Definição 11.7 (As pontuações de previsão do primeiro momento M4)
A pontuação de precisão da competição M4 (Makridakis et al. [159]) julga os competidores nas
seguintes métricas indexadas por j = 1, 2
1
(M4 )
=
jÿn
n
onde s1 =
n
Xfi ÿ Xri ÿ
(11.14)
eu
sj
1
2 ( |Xfi |+|Xri | ) e s2 é (geralmente) o desvio absoluto médio bruto para o
observações disponíveis até o período i (ou seja, o erro médio absoluto de qualquer previsão
"ingênua" ou de testes amostrais), Xfi é a previsão para a variável i como uma estimativa pontual,
Xri é a variável realizada e n o número de experimentos sob escrutínio.
Em outras palavras, é uma aplicação do Erro Médio Absoluto Escalado (MASE) e do Erro
Percentual Médio Absoluto Simétrico (sMAPE) [133].
A pontuação M5 sugerida (esperada para 2020) adiciona as previsões de extremos das
variáveis em consideração e repete os mesmos testes que o das variáveis brutas na Definição
11.7.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
228 calibração de probabilidade sob caudas gordas
11.4.1 Derivando Distribuições
Distribuição de P (p) (n)
Observação 13
A contagem da previsão binária P (p) (n) é assintoticamente normal com média p e padrão
desvio padrão ÿ 1
capaz X.
n (p ÿ p 2) independentemente da classe de distribuição das variáveis aleatórias
Os resultados são bastante padronizados, mas veja o apêndice para as re-derivações.
Distribuição da pontuação Brier ÿn
Teorema 3
Independentemente da distribuição da variável aleatória X, sem sequer assumir a
independência de (f1 ÿ 1A1 ), . . . , (fn ÿ 1An), para n < +ÿ, a pontuação ÿn possui todos
q
< +ÿ.
os momentos de ordem q,n)
E(ÿ
Prova. Para todo i, (f i ÿ 1Ai )
2ÿ1
.
Podemos chegar mais perto de uma distribuição completa da pontuação entre políticas de
apostas independentes. Suponha que as previsões binárias f i sejam independentes e sigam
uma distribuição beta B(a, b) (que aproxima ou inclui todas as distribuições unimodais em [0,
1] (mais um Bernoulli por meio de duas funções de Dirac), e seja p a taxa de sucesso p = E
(1Ai), a função característica de ÿn para n avaliações do escore de Brier é
ÿn(t) = ÿ
n/2 ( 2 ÿaÿb+1ÿ(a + b)
1 isto (a + b + 1); 2
um + b
( p 2F˜ 2 ( b2+
,
b;
2
2
,
1
um +
,
1 ÿ (p ÿ 1) 2F˜ 2 ( a2+ 1
(11.15)
n)
não; 2
2
,
2
isto (a + b + 1);
n ))) .
Aqui 2F˜ 2 é a função hipergeométrica generalizada regularizada 2F˜ 2(., .; (a1)k ... ., .; .) =
ÿ
2F2(a;b;z)
(ap)k
k=0 (b1)k ...(bp)k
e pFq(a; b; z) tem expansão em série ÿ
z k/k!, onde (a)(.) é
(ÿ(b1)...ÿ(bq))
o símbolo de Pochhammer.
Portanto, podemos provar o seguinte: nas condições de independência das somas
declaradas acima,
ÿn Dÿÿ N (µ, ÿn)
(11.16)
onde N denota a distribuição gaussiana com para o primeiro argumento a média e para o
segundo argumento o desvio padrão.
A prova e parametrização de µ e ÿn está no apêndice.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.5 funções de recompensa não-verbalísticas/aprendizado de máquina 229
Distribuição do P/L econômico ou medida quantitativa Pr
Observação
14 Condicional à sobrevivência ao tempo T, a distribuição da medida quantitativa P (r) (T)
seguirá a distribuição da variável subjacente g(x).
A discussão é simples se não houver barreira absorvente (isto é, nenhuma condição de
sobrevivência).
Distribuição da pontuação M4 A distribuição de um desvio absoluto está na mesma classe de
probabilidade da própria variável. A pontuação de Brier está na norma L2 e é baseada no segundo
momento (que sempre existe), pois De Finetti mostrou que é mais eficiente apenas uma probabilidade
em desvios quadrados. No entanto, para não binários, é muito mais eficiente, sob caudas gordas,
confiar em desvios absolutos, mesmo quando existe o segundo momento [239].
11.5 funções de recompensa não-verbalísticas/aprendizado de máquina
Os exemplos anteriores concentraram-se em funções de recompensa simples, com alguns casos
em que a fusão I1 e I2 pode ser benigna (sob a condição de estar num ambiente de cauda fina). No
entanto
Inseparabilidade da probabilidade sob função de retorno não linear Agora, quando introduzimos
uma função de retorno g(.) que é não linear, ou seja, que a resposta econômica ou outra resposta
quantificável à variável aleatória X varia com os níveis de X, a discrepância se torna maior e a fusão
pior.
Comentário 11.6 (Probabilidade como kernel de integração)
A probabilidade é apenas um núcleo dentro de uma integral ou soma, e não uma coisa real por si só.
O mundo económico gira em torno de recompensas quantitativas.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Calibração de probabilidade 230 sob caudas gordas
Observação 15: Inseparabilidade da
probabilidade Seja F : A ÿ [0, 1] uma distribuição de probabilidade (com derivada f) e g : R
ÿ R uma função mensurável, o "recompensa"". Claramente, para Aÿ um subconjunto de A :
ÿA' g(x)dF(x) = ÿ
f(x)g(x)dx
A'
ÿ= ÿ f(x)dx g (ÿ Aÿ dx )
A'
Em termos discretos, com ÿ(.) uma função de massa de probabilidade:
ÿ
x ÿAÿ
ÿ(x)g(x) ÿ= ÿ
xÿAÿ
ÿ(x)g( 1
n
ÿ
xÿAÿ
(11.17)
x)
= probabilidade do evento × recompensa do evento médio
Prova. Imediato pela desigualdade de Jensen.
Em outras palavras, a probabilidade de um evento é um retorno esperado apenas quando, como
vimos anteriormente, g(x) é uma função teta de Heaviside.
A seguir, nos concentramos em funções tratáveis matematicamente ou legalmente, mas não
confiáveis verbalmente por meio de “crenças” ou “previsões”.
Mal-entendido g A Figura 11.5 , que mostra a história de confusão de Morgan
Stanley, ilustra noções verbalísticas como "colapso" mal expressas em exposições
não-lineares. Em 2007, a empresa de Wall Street Morgan Stanley decidiu "protegerse" contra um "colapso" imobiliário, antes que o mercado imobiliário começasse a declinar.
O problema é que não perceberam que o “colapso” poderia assumir muitos valores,
alguns piores do que esperavam, e preparar-se para beneficiar se houvesse um
declínio ligeiro, mas perder muito se houvesse um declínio maior. Eles acabaram
acertando ao prever a crise, mas perderam US$ 10 bilhões com o “hedge”.
A Figura F.6 mostra um resultado mais complicado, apelidado de “borboleta”.
A função g e aprendizado de máquina Observamos que g mapeia várias funções de
aprendizado de máquina que produzem não linearidades exaustivas por meio do
teorema da aproximação universal universal (Cybenko [52]) ou das decomposições
generalizadas de retorno de opções (ver Hedge Dinâmico [225]).
Considere a função ÿ : (ÿÿ, ÿ) ÿ [K, ÿ), com K, o rv X ÿ R:
ÿK,p(x) = k +
log (e
p(xÿK)
p
+1)
(11.18)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.5 funções de recompensa não-verbalísticas/aprendizado de máquina 231
20
20
40
60
80
100
120
-20
-40
Sério
-60
Benefícios de
Danos de
Iniciando
Apontar
Declínio
Declínio
Figura 11.5: A história do Morgan Stanley: um exemplo de recompensa não linear elementar que não pode ser descrita
verbalmente. Essa exposição é chamada no jargão dos traders de derivativos de "Árvore de Natal", obtida através da compra
de uma opção de venda com preço de exercício K e da venda de uma opção de venda com preço de exercício inferior K - ÿ1
e outra com preço de exercício ainda menor K - ÿ2, com ÿ2 ÿ ÿ1 ÿ 0.
Podemos expressar todas as funções de payoff não lineares g como, com a ponderação ÿi ÿ R:
g(x) = ÿ ÿi ÿKi ,p(x)
(11.19)
eu
por alguma semelhança, ÿK,p(x) mapeia para o valor um preço de compra com exercício K e tempo
t até o vencimento normalizado para 1, todas as taxas definidas em 0, com o único outro parâmetro
ÿ o desvio padrão do subjacente.
Notamos que a expectativa de g(.) é a soma das expectativas das funções ReLu:
E (g(x)) = ÿ ÿi E ( ÿKi ,p(x) )
(11h20)
eu
A variância e outras medidas estatísticas de ordem superior são mais difíceis de obter de forma
fechada ou simples.
Comentário 11.7 A
gestão de risco consiste em alterar a função de retorno g(.) em vez de fazer "boas previsões".
Observamos que ÿ não é uma métrica, mas uma meta à qual se podem aplicar várias métricas.
Sobrevivência
A tomada de decisão é sequencial. Conseqüentemente, a calibração incorreta pode ser uma boa
ideia se reduzir as chances de ser absorvido. Veja o apêndice de Skin in the Game [226],
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
232 calibração de probabilidade sob caudas gordas
que mostra a diferença entre a probabilidade do conjunto e a probabilidade do tempo.
A expectativa da soma de n jogadores em um determinado dia é diferente daquela de um
único jogador em n dias, devido ao condicionamento.
Nesse sentido, medir o desempenho de um agente que acabará por falir (com probabilidade
um) não tem sentido.11
11.6 conclusão:
Finalmente, que no mundo real, é o desempenho líquido (económico ou outro) que conta, e
cometer erros de “calibração” onde não importa ou pode ser útil deve ser encorajado, e não
penalizado. O argumento da variância tendenciosa é bem conhecido no aprendizado de
máquina [124] como meio de aumentar o desempenho, em discussões sobre racionalidade
(ver Skin in the Game [226]) como um mecanismo necessário para a sobrevivência e uma
adaptação psicológica muito útil (Brighton e Gigerenzer [33] mostram um argumento poderoso
de que se for um preconceito, é bastante útil.) Se um erro não lhe custa nada – ou o ajuda a
sobreviver ou a melhorar os seus resultados – claramente não é um erro. E se isso lhe custa
alguma coisa, e está presente na sociedade há muito tempo, considere que pode haver
vantagens evolutivas ocultas nestes tipos de erros – do seguinte tipo: confundir um urso
com uma pedra é pior do que confundir uma pedra com um urso.
Mostrámos que, na gestão de risco, nunca se deve operar em probabilidade
espaço.
11.7 apêndice: provas e derivações
11.7.1 Distribuição de contagem binária P (p) (n)
Estamos lidando com uma média de variáveis aleatórias de Bernoulli, com resultados bem
conhecidos, mas que vale a pena refazer. A função característica de uma distribuição de
Bernoulli com parâmetro p é ÿ(t) = 1 ÿ p + e (It)p. Estamos preocupados com a soma de N) N.
'
oh
geradora de cumulante ÿ ordem p:
(ÿ) = logÿ (
N Temos ÿ(p) o cumulante da função
ÿ pÿ
ÿ(p) = ÿi p ÿt p
Então: ÿ(1) = p, ÿ(2) =
(1ÿp)p
N , k(3) =
'
tÿ0
(pÿ1)p(2pÿ1) ,
ÿ(4) =
N2
(1ÿp)p(6(pÿ1)p+1)
N3
, qual
prova que P (p) (N) converge pela lei dos grandes números na velocidade ÿ N, e por
o teorema do limite central chega ao Gaussiano a uma taxa de
6(pÿ1)p+1
cumulantes acima, sua curtose = 3 ÿ ). n(pÿ1)p
1
N , (já que a partir do
11 Espera-se que a competição M5 corrija isso fazendo com que os “preditores” prevejam o mínimo (ou máximo) em
uma série temporal.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
11.7 apêndice: provas e derivações 233
11.7.2 Distribuição da Pontuação Brier
Probabilidade base f Primeiro, consideramos a distribuição de f a probabilidade base.
Usamos uma distribuição beta que cobre tanto o caso condicional quanto o incondicional (é uma
questão de parametrização de a e b na Eq. 11.15).
Distribuição da probabilidade Vamos atualizar um resultado padrão por trás de discussões e testes
não paramétricos, datado de Kolmogorov [146] para mostrar a lógica por trás da afirmação de que a
distribuição de probabilidade de probabilidade (sic) é robusta - em outras palavras, a distribuição da
probabilidade a probabilidade de X não depende da distribuição de X, ([68] [143]).
A transformada integral de probabilidade é a seguinte. Seja X uma distribuição contínua para a qual
a função de distribuição cumulativa (CDF) é FX. Então – na ausência de informação adicional – a
variável aleatória U definida como U = FX(X) é uniforme entre 0 e 1. A prova é a seguinte: Para t ÿ [0,
1],
ÿ1
X
P(Y ÿ você) = P(FX(X) ÿ você) = P(X ÿ F
(u)) = FX(F
ÿ1
X
(você)) = você (11,21)
que é a função de distribuição cumulativa do uniforme. Este é o caso
independentemente da distribuição de probabilidade de X.
Claramente estamos lidando com 1) f beta distribuído (seja como um caso especial, a distribuição
uniforme quando puramente aleatória, como derivada acima, ou uma distribuição beta quando se tem
alguma precisão, para a qual o uniforme é um caso especial), e 2) 1Em uma variável de Bernoulli com
probabilidade p.
Consideremos o caso geral. Seja ga,b o PDF do Beta:
1x
ga,b (x) =
umaÿ
(1 ÿx ) b-1
, 0<x<1
B(uma,b)
Os resultados, um pouco pesados, mas controláveis:
2
µ=
2 p n= -
( a (ÿ(p ÿ 1)) ÿ ap + a + b(b + 1)p ) ÿ(a + b) ÿ(a + b
+ 2)
1
n(a + b) 2(a + b + 1)2
1
2
( a (pÿ1) + a(pÿ1)ÿb(b+ 1)p )2 + (a + b + 2)(a + b + 3)(a
+ b)(a + b + 1)(p(a - b)(a + b + 3)(a(a + 3) + (b + 1)(b + 2)) ÿ uma(uma + 1)(uma + 2)(uma + 3))
Podemos verificar ainda que o escore de Brier tem caudas mais finas que o Gaussiano, pois sua
curtose é inferior a 3.
Prova. Começamos com yj = (f ÿ 1Aj ), a diferença entre uma variável aleatória distribuída Beta
contínua e uma variável Bernoulli discreta, ambas indexadas por j. O personagem
(y)
função característica de yj , ÿ f
= ( 1 + p ( ÿ1 + e ÿit)) 1F1 (a; a + b; it) onde 1F1 (.; .; .) é
Com
a função hipergeométrica confluente de Kummer 1F1 (a; b; z) = ÿ
ÿ
k=0
e
ok !
k
obrigado .
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
234 calibração de probabilidade sob caudas gordas
2
A partir daqui obtemos a função característica para y j
ÿ (s
2
= (f j ÿ 1Aj )
não +b; 2
2
) (t) = ÿ ÿ2 ÿaÿb+1ÿ(a + b) ( p 2F˜ 2 ( b +2 1
a
1); it) ÿ (p ÿ 1) 2F˜ 2 ( a + 12
,
,
uma +
b; 2
2
,
2
, 1 (a + b +
2
(11.22)
1
2 (a + b + 1); isto))
., .; .) =
onde 2F˜ 2 é a função hipergeométrica generalizada regularizada 2F˜ 2(., .; (a1)k ...
ÿ
(ap)k
2F2(a;b;z) k=0
(ÿ(b1)...ÿ(
...(bp)kem
o símbolo
e pFq(a;
b; z)bq))
tem(b1)k
expansão
série ÿde
z k/k!, onde (a)(.) é
Pochhammer.
Podemos prosseguir para provar diretamente a partir daí a convergência na distribuição
n 2
1
para a média n ÿ eu y : eu
n
limnÿÿ ÿy 2 (t/n)
=
exp ( -
(11.23)
isto(p(a ÿ b)(a + b + 1) ÿ a(a + 1))
(a + b)(a + b + 1)
)
+ que é o de um Gaussiano degenerado (Dirac) com parâmetro de localização
p(bÿa)
a(a+1)
a+b+1
a+b
.
Podemos finalmente avaliar a velocidade de convergência, a taxa na qual os momentos mais elevados
mapear para aqueles de uma distribuição gaussiana: considere o comportamento do 4 ÿ 4 log ÿ.(.) | do cumulante
tÿ0: ÿ4 = ÿi
ÿt 4
1) no caso de entropia máxima de a = b = 1:
6 ÿ4 |a=1,b=1= ÿ 7n
independentemente da pág.
2) No caso de variância máxima, usando l'Hôpital:
lim ÿ4 = ÿ
aÿ0
bÿ0
Se temos ÿ4
ÿ0
na taxa n
ÿ1
6(p ÿ 1)p +
1n(p ÿ 1)p
.
2ÿn ÿ ÿ 2
Além disso, podemos extrair sua função de densidade de probabilidade da pontuação de Brier para N
= 1: para 0 < z < 1,
p(z) =
ÿ(a + b) ( (p ÿ 1)z a/2 ( 1 ÿ ÿ z )b ÿ p ( 1 ÿ ÿ z )a z b/2 )
2 (ÿ z ÿ 1 ) zÿ(a)ÿ( b)
.
(11.24)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
12 PREDIÇÕES DE ELEIÇÃO COMO
MARTINGALES: ARBITRAGEM
ABORDAGEM ‡
aplicação às eleições. Um resultado padrão em finanças quantitativas é
Examinamos
efeitoa da
incerteza
nos
resultados binários, com
queoquando
volatilidade
do título
subjacente
aumenta, as pressões de arbitragem empurram o binário correspondente
opção de negociar perto de 50% e tornar-se menos variável ao longo do
tempo restante até o vencimento. Contraintuitivamente, quanto maior a incerteza do título
subjacente, menor a volatilidade da opção binária.
Este efeito deverá manter-se em todos os domínios onde é produzido um preço binário –
no entanto, observamos graves violações destes princípios em muitas áreas onde são
feitas previsões binárias, em particular aquelas relativas às eleições presidenciais dos
EUA em 2016. Observamos erros gritantes entre políticos. cientistas e analistas, por
exemplo com 1) avaliadores dando ao candidato D. Trump entre 0,1% e 3% de chances
de sucesso, 2) saltos nas revisões das previsões de 48% para 15%, ambos feitos
invocando incerteza.
Convencionalmente, a qualidade da previsão eleitoral tem sido avaliada estaticamente pelo
método de De Finetti, que consiste em minimizar a pontuação de Brier, uma métrica de
divergência do resultado final (o padrão para rastrear a precisão dos avaliadores de probabilidade
em vários domínios, desde eleições até ao clima). . Nenhuma avaliação intertemporal de
mudanças nas estimativas parece ter sido imposta fora do
Capítulo de pesquisa.
O autor agradece a Dhruv Madeka e Raphael Douady pelas discussões detalhadas e extensas do artigo, bem como pela auditoria
completa das provas nas várias iterações e, pior, pelas inúmeras mudanças de notação. Peter Carr ajudou nas discussões sobre
as propriedades de um martingale limitado e as transformações. Agradeço a David Shimko, Andrew Lesniewski e Andrew
Papanicolaou pelos comentários.
Agradeço a Arthur Breitman pela orientação com a literatura para aproximações numéricas das várias integrais normais logísticas.
Agradeço aos participantes dos Seminários Tandon School of Engineering e Bloomberg Quant-titative Finance. Agradeço também
a Bruno Dupire, MikeLawler, aos editores-chefes da Quantitative Finance e a várias pessoas amigas nas redes sociais.
DhruvMadeka, então na Bloomberg, enquanto trabalhava num problema semelhante, descobriu de forma independente as mesmas
relações entre a volatilidade de uma estimativa e os seus limites e os mesmos limites de arbitragem. Todos os erros são meus.
235
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
236 previsões eleitorais como martingales: uma abordagem de arbitragem‡
prática e literatura de finanças quantitativas. No entanto, o próprio princípio de De Finetti é que
uma probabilidade deve ser tratada como um preço de “escolha” bidireccional, o que é assim
violado pela prática convencional.
Estimador
0,5
0,4
0,42
0,3
0,44
0,46
0,48
0,2
0,5
é
0,04
0,06
0,08
0,10
0,12
Figura 12.1: “Estimativa” de arbitragem eleitoral (ou seja, avaliação) em diferentes votos proporcionais esperados
Y ÿ [0, 1], com s a volatilidade esperada de Y entre os resultados atuais e eleitorais. Podemos observar que sob
maior incerteza, a estimativa do resultado aproxima-se de 0,5 e torna-se insensível à margem eleitoral estimada.
X (-,)
B= (XT > l)
S=S(X)
Bt0 [0,1]
B= (YT > S(l))
S [L, H]
Figura 12.2: X é uma variável aleatória aberta não observável (uma espécie de variável sombra) em R, Y, seu
mapeamento em "votos" ou "votos eleitorais" por meio de uma função sigmoidal S(.), que mapeia um para um e
o binário como o valor esperado de qualquer um usando a distribuição correspondente adequada.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
previsões eleitorais como martingales: uma abordagem de arbitragem‡ 237
Neste capítulo adotamos uma abordagem dinâmica e de tempo contínuo baseada nos princípios das
finanças quantitativas e argumentamos que uma estimativa probabilística de um resultado eleitoral por um
determinado “avaliador” precisa ser tratada como um preço negociável, isto é, como um valor da opção
binária sujeito a limites de arbitragem (particularmente porque as opções binárias são realmente usadas em
mercados de apostas). As futuras estimativas revistas precisam de ser compatíveis com os preços de
martingale, caso contrário é criada uma arbitragem intertemporal, através da “compra” e “venda” do avaliador.
Uma complicação matemática surge à medida que avançamos para o tempo contínuo e aplicamos a
abordagem martingale padrão: nomeadamente que, como previsão de probabilidade, a segurança
subjacente reside em [0, 1]. Nossa abordagem é criar um processo de martingale duplo (ou "sombra") Y, em
um intervalo [L, H] a partir de um movimento browniano aritmético, X em (ÿÿ, ÿ) e eleições de preços em
conformidade. O processo duplo Y pode, por exemplo, representar os votos numéricos necessários para o
sucesso. Uma complicação é que, devido à transformação de X em Y, se Y é um martingale, X não pode
ser um martingale (e vice-versa).
O processo para Y permite-nos construir uma relação de arbitragem entre a volatilidade de uma estimativa
de probabilidade e a da variável subjacente, por exemplo, o número do voto. Assim podemos mostrar que
quando existe uma elevada incerteza sobre o resultado final, 1) de facto, o valor de arbitragem da previsão
(como opção binária) aproxima-se de 50% e 2) a estimativa não deve sofrer grandes alterações mesmo se
as pesquisas ou outras bases apresentarem variações significativas.3
As ligações de preços estão entre 1) o valor da opção binária (ou seja, a probabilidade de previsão), 2) a
estimativa de Y e 3) a volatilidade da estimativa de Y durante o tempo restante até ao vencimento (ver
Figuras 12.1 e 12.2 ) .
12.0.1 Principais resultados
Por conveniência, começamos com nossa notação.
Notação
3 Uma propriedade central do nosso modelo é que ele evita que B(.) varie mais do que o Y estimado: numa disputa
entre dois candidatos, será limitado (mínimo) em Y se for inferior (superior) a 0,5. Na prática, podemos observar
probabilidades de vitória de 98% contra 02% a partir de um spread mais estreito de votos estimados de 47%
contra 53%; a nossa abordagem evita que, sob elevada incerteza, as probabilidades se afastem dos votos
estimados. Mas permanece conservador o suficiente para não dar uma proporção maior.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
238 previsões eleitorais como martingales: uma abordagem de arbitragem‡
a proporção estimada de votos observada expressa em [0, 1] no tempo t0.
Podem ser votos populares ou eleitorais, desde que sejam tratados com
consistência. período em que o
T
resultado final irrevogável da eleição YT é revelado, ou expiração. período
de avaliação
atual,
portanto T ÿ t0 é o tempo até a eleição final, expresso em anos.
t0
volatilidade anualizada de Y, ou
é
incerteza presente nos resultados de Y no tempo restante até o vencimento.
Assumimos que s é constante sem qualquer perda de generalidade – mas
pode depender do tempo.
B(.) “probabilidade de previsão”, ou avaliação de arbitragem estimada em tempo
contínuo dos resultados eleitorais, estabelecendo limites de arbitragem
entre B(.), Y0 e a volatilidade s.
A0
Resultados principais
1
B(Y0, ÿ, t0, T) =
2
2p . (Tÿt0)
e 2s 2ÿ(Tÿt0)
erfc ( l ÿ erfÿ1ÿ(2Y0
1)e ÿ ÿ 1
(12.1)
),
onde
ÿÿ
log ( 2ÿs 2e 2erfÿ1 (2Y0ÿ1)2 + 1)
ÿ 2 ÿ T ÿ t0
,
(12.2)
l é o limite necessário (o padrão é 0,5) e erfc(.) é a função de erro complementar padrão, 1ÿ 2 z ÿt e dt.
erf(.), com erf(z) =
2ÿ Pi
_
0
Achamos apropriado aqui responder ao comentário usual de estatísticos e pessoas que
operam fora das finanças matemáticas: "por que não usar simplesmente uma distribuição
estilo Beta para Y?". A resposta é que 1) o objetivo principal do artigo é estabelecer
consistência temporal (livre de arbitragem) em previsões binárias, e 2) não temos conhecimento
de um processo estocástico de tempo contínuo que acomode uma distribuição beta ou uma
distribuição convencional similarmente limitada. um.
12.0.2 Organização
As demais partes do artigo estão organizadas da seguinte forma. Primeiro, mostramos o
processo para Y e as transformações necessárias a partir de um movimento browniano específico.
Segundo, derivamos a relação de arbitragem usada para obter a equação (12.1). Finalmente,
discutimos a abordagem de De Finetti e mostramos como uma avaliação martingale se
relaciona com a minimização do padrão convencional na indústria de previsão, nomeadamente
o Brier Score.
Um comentário sobre a ausência de soluções de forma fechada para ÿ Notamos que para
Y falta uma solução de forma fechada para a integral que reflita a variação total:
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
previsões eleitorais como martingales: uma abordagem de arbitragem‡ 239
T
ÿ
e
t0 ÿÿ p
ÿerfÿ1 (2ysÿ1)2 ds, embora o correspondente para X seja computável.
Conseqüentemente, contamos com métodos de propagação de incerteza para obter uma solução
de forma fechada para a densidade de probabilidade de Y, embora não explicitamente seus
momentos, pois a integral normal logística não se presta a expansões simples [195].
Distribuições de intervalo de tempo para X e Y A distribuição de intervalo de tempo é a função
de densidade de probabilidade de Y a partir do tempo t, que é a representação de um período,
1 + 2 y0 = erf(x0). Inversamente, para X dado y0, o correspondente x0, X pode
começando em t com
12
ser considerado normalmente distribuído para o período T ÿ t0 com
2p . (Tÿt0)
E(X, T) = X0e
2
2s e
,
(Tÿt0) ÿ 1
V(X, T) =
2
e uma curtose de 3. Por transformação de probabilidade obtemos ÿ, a distribuição correspondente
de Y com valor inicial y0 é dada por
1
ÿ(y; y0, T) =
ÿe
2s 2
1
2 (coth ( ÿ
(tÿt0) ÿ 1 exp {erfÿ1 (2y ÿ 1)2 ÿ
2
t)
(12.3)
2p .
ÿ 1 ) (erfÿ1 (2y ÿ 1) ÿ erfÿ1 (2y0 ÿ 1)e
(tÿt0) )2 }
e temos E(Yt) = Y0.
2
Quanto à variância, E(Y
), como mencionado acima, não se presta a uma solução fechada
derivada de ÿ(.), nem da integral estocástica; mas pode ser facilmente estimado a partir da
distribuição de forma fechada de X usando métodos de propagação da incerteza para os dois
primeiros momentos (o método delta).
Como a variância de uma função f de uma variável aleatória de momento finito X pode ser
aproximado como V (f(X)) = f
'
2
(ANTIGO))
ÿS ÿ1 (y)
V(X):
e
2s 2
(Tÿt0) ÿ 1
2ÿs
2
ÿy
y=Y0
2s 2
s ÿ ÿ eÿ2erfÿ1 (2Y0ÿ1)2 2p.
(e
(Tÿt0) ÿ 1 ) .
(12.4)
Da mesma forma, para cálculos na direção oposta, encontramos
ÿÿ
ÿ log ( 2ÿs 2e 2erfÿ1 (2Y0ÿ1)2 + 1)
ÿ 2 ÿ T ÿ t0
,
que está (12.2) na apresentação do resultado principal.
Observe que expansões incluindo momentos mais altos não trazem um aumento material na
precisão – embora s seja altamente não linear em torno do centro, a faixa de valores
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
240 previsões eleitorais como martingales: uma abordagem de arbitragem‡
pois a volatilidade do total ou, digamos, do colégio eleitoral é demasiado baixa para afectar os
termos de ordem superior de forma significativa, para além da limitação das transformações de
estilo sigmóide.
1,0
ELEIÇÃO
DIA
Rigoroso
0,9
atualizando
0,8
538
0,7
0,6
0,5
20
40
60
80
100
Figura 12.3: Abordagem teórica (parte superior) versus prática (parte inferior). Mostra como o processo de estimativa
não pode estar sincronizado com a volatilidade da estimativa de votos (eleitorais ou outros), pois viola os limites da
arbitragem.
12.0.3 Uma discussão sobre neutralidade de risco
Aplicamos avaliação neutra ao risco, por falta de convicção de outra forma, como opção default.
Embora Y possa não ser necessariamente negociável, adicionar um prémio de risco ao processo
envolvido na determinação da avaliação de arbitragem implicaria necessariamente um prémio de
risco negativo para o(s) outro(s) candidato(s), o que é difícil de justificar.
Além disso, os valores das opções ou apostas binárias precisam satisfazer um argumento sem
Dutch Book (a forma De Finetti de não-arbitragem) (ver [97]), ou seja, opções binárias com preços
adequados interpretadas como previsões de probabilidade não dão nenhuma "vantagem" de
apostas em todos resultados sem perdas. Finalmente, qualquer afastamento da neutralidade de
risco degradaria a pontuação de Brier (sobre a qual, abaixo), pois representaria um desvio da previsão final.
Observe também a ausência das premissas de taxa de financiamento normalmente presentes
nas discussões financeiras.
12.1 a avaliação estilo solteiro
Seja F(.) uma função de uma variável X que satisfaz
dXt = p 2 Xtdt + ÿdWt .
(12,5)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
12.1 a avaliação estilo solteiro 241
Queremos mostrar que X tem um preço de opção de Bachelier simples B(.). A ideia de não haver
arbitragem é que uma previsão feita continuamente deve ser ela mesma um martingale.
Aplicando o Lema de Itô a F ÿ B para X rendimentos satisfatórios (12,5)
ÿF
2
dF = [ p
de modo que, desde ÿF
ÿt
+
XÿX _
ÿ2F _
12p
2
ÿX2
+
F
dW
X
ÿF
ÿt ] dt + p
ÿ 0, F deve satisfazer a equação diferencial parcial
1
ÿ2F _
2
ÿX2
por 2
2
X
+ ÿ + ÿX
ÿF
ÿF
ÿt
= 0,
(12.6)
que é a condição sem deriva que torna B um martingale.
Para uma opção binária (call), temos para condições terminais B(X, t) ÿ F, FT = ÿ(x ÿ l), onde ÿ(.) é
a função teta de Heaviside e l é o limite:
ÿ(x) := { 1, x0,ÿxl < eu
com condição inicial x0 no tempo t0 e condição terminal em T dada por:
1
2
p. 2 t
ÿe
erfc ( x0e
2s 2t_ _
ÿ eu
ÿ1 )
que é, simplesmente, a função de sobrevivência da distribuição Normal parametrizada no processo
para X.
Da mesma forma, notamos no argumento anterior de um para um (pode-se usar argumentos de
conjunto de Borel) que
< S(l),
ÿ(y) := { 1, y0,ÿyS(l)
para que possamos precificar o processo alternativo B(Y, t) = P(Y >
) (ou qualquer outro similar
12
limite obtido l, precificando
B(Y0, t0) = P(x > S ÿ1
(eu)).
A precificação da proporção de votos é dada por:
1
B(Y0, ÿ, t0, T) =
2
2p . (Tÿt0)
(Tÿt0) ÿ 1
ÿ e 2sÿ 21)e
erfc (l ÿ erfÿ1 (2Y0
),
a equação principal (12.1), que também pode ser expressa de forma menos conveniente como
1
B(y0, ÿ, t0, T) = ÿ
2ÿ 2 t ÿ 1
e
1
-
2 (coth ( ÿ
ÿ
eu
1
exp (erfÿ1 (2y ÿ 1)2
2
2p .
t ) ÿ 1 ) (erfÿ1 (2y ÿ 1) ÿ erfÿ1 (2y0 ÿ 1)e
t )2 ) você
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
242 previsões eleitorais como martingales: uma abordagem de arbitragem‡
X,Y
0,5
200
400
600
800
X
-0,5
t 1000
Figura 12.4: Processo e Processo Duplo
E
-1,0
-1,5
12.2 processo martingale duplo limitado
YT é o valor terminal de um processo no dia das eleições. Ele vive em [0, 1], mas pode ser
generalizado para o mais amplo [L, H], L, H ÿ [0, ÿ). O limite para a vitória de um determinado
candidato é fixado em l. Y pode corresponder a votos brutos, votos eleitorais ou qualquer
outra métrica. Assumimos que Yt é uma realização intermediária do processo em t,
produzida sinteticamente a partir de pesquisas (estimativas corrigidas) ou de outros sistemas
semelhantes.
A seguir, criamos, para um processo estocástico aritmético ilimitado, um processo
estocástico "dual" limitado usando uma transformação sigmoidal. Pode ser útil mapear
processos como um processo eleitoral limitado para um movimento browniano, ou mapear
um resultado limitado para um ilimitado, ver Figura 12.2.
Proposição 12.1
Sob transformações de estilo sigmoidal S : x ÿ y, R ÿ [0, 1] da forma a) ou b)
1
1+exp(ÿx) , se X é um martingale, Y é apenas um martingale para Y0 =
martingale , X é apenas um martingale para X0 = 0 .
11+22
jarda (x),
12 , e se Y for um
Prova. A prova é esboçada como segue. Do lema de Itô, o termo de deriva para dXt tornase 1) ÿ 2X(t), ou 2) onde ÿ1 2denota
respectivamente com transformações das
ÿ 2Tanha (volatilidade,
X(t)
2),
formas a) de Xt e b) de Xt sob um martingale para ÿerf ÿ1 (2Yÿ1)2 erfÿ1 (2Yÿ1) ou 2) ÿ ÿ
Y. A deriva para dYt torna-se: 1)
2
pág . e
ÿ 2Y(Y ÿ 1)(2Y ÿ 1)
12
sob um martingale para X.
Selecionamos, portanto, o caso de Y ser um martingale e apresentamos os detalhes da
transformação a). As propriedades do processo foram desenvolvidas por Carr [35]. Seja X
o movimento browniano aritmético (12.5), com desvio dependente de X e escala constante
ÿ:
dXt = ÿ 2Xtdt + ÿdWt ,
0 < t < T < +ÿ.
Notamos que isso tem semelhanças com o processo de Ornstein-Uhlenbeck normalmente
escrito dXt = ÿ(µ ÿ Xt)dt + ÿdW, exceto que temos µ = 0 e violamos as regras usando um
coeficiente de reversão à média negativo, descrito de forma mais adequada como "repulsão
2 .
média", ÿ = ÿÿ
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
12.3 relação com o avaliador de probabilidade de de finetti 243
Mapeamos de X ÿ (ÿÿ, ÿ) para seu processo dual Y como segue. Com S : R ÿ [0, 1], Y = S(x),
1
+ 1 jarda (x)
22
S(x) =
o processo dual (por transformação única já que S é um para um, torna-se, para ÿ S(x), usando
e o lema de Itô (já que S(.) é duas vezes diferenciável e ÿS/ÿt = 0):
2
dS = (1
por 2
ÿ2S2
__
+ Xÿ
ÿx2 _
ÿS
ÿx) dt + p
ÿSdW
ÿx
que com desvio zero pode ser escrito como um processo
dYt = s(Y)dWt ,
para todo t > ÿ, E(Yt |Yÿ) = Yÿ. e escala
p
s(S) =
e
ÿerfÿ1 (2yÿ1)2
ÿp
que, como podemos ver na Figura 12.5, s(y) pode ser aproximado pela função quadrática y(1 ÿ
y) vezes uma constante.
Figura 12.5: A volatilidade
instantânea de Y em função do
nível de Y para dois métodos
diferentes de transformações de X,
que parecem não ser substancialmente diferentes.
é
0,25
0,20
ÿ-er-1 (-1+2 anos)
0,15
Pi
2
compare com a forma quadrática y ÿ y
0,10
e (1 - y)
0,05
Sim
0,2
0,4
0,6
2
1 O
escalonada por uma constante.
3 8h2
0,8
1,0
3ÿ 8h2_
a volatilidade diminui à medida que
nos afastamos e colapsa nas bordas,
12
mantendo assim Y em (0, 1). Por
simplicidade, assumimos ÿ = t = 1.
ÿ1
(y) = erfÿ1 (2y ÿ 1), e
Podemos recuperar a equação (12.5) invertendo, ou seja, S
novamente aplicando o Lema de Itô. Como consequência da invariância de calibre, os preços
das opções são idênticos, quer sejam precificados em X ou Y, mesmo que um processo tenha
um desvio enquanto o outro seja um martingale. Por outras palavras, pode-se aplicar a
estimativa ao limiar eleitoral, ou ao X mais complicado com os mesmos resultados. E, para
resumir nosso método, precificar uma opção em X é familiar, pois é exatamente um preço de
opção no estilo Bachelier.
12.3 relação com o avaliador de probabilidade de de finetti
Esta seção fornece um breve contexto para a abordagem convencional de avaliação de
probabilidade. O grande De Finetti [58] mostrou que a "avaliação" da "probabilidade" de
realização de uma variável aleatória em {0, 1} requer uma resposta não linear
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
244 previsões eleitorais como martingales: uma abordagem de arbitragem‡
Figura 12.6: Bruno de Finetti
(1906-1985 ). Probabilista, filósofo e
matemático de seguros, ele formulou
a pontuação de Brier para avaliação
probabilística, que mostramos ser
compatível dinamicamente com um martingale.
Fonte: DeFinetti.org
função de perda – o que faz com que a sua definição de avaliação probabilística seja diferente
daquela do P/L de um trader envolvido em apostas binárias.
Suponha que um agente de apostas num modelo n-repetido de dois períodos, t0 e t1 ,
produza uma estratégia S de apostas b0,i ÿ [0, 1] indexadas por i = 1, 2, . . . , n, com a
Se .considerarmos a variação absoluta do seu P/L sobre n
realização do binário rv 1t1,i
apostas, será
1 n
ÿ 1t1,i ÿ bt0,i .
L1 (S) =
n
eu=1
Por exemplo, suponha que E(1t1 ) =
1
1
2 . Apostando na probabilidade, aqui 2 , produz
1 uma perda
expectativa,
que
é
o
mesmo
que apostar em 0 ou 1 – portanto, não favorece
de 2
o agente a apostar na probabilidade exata.
Se trabalharmos com a mesma variável aleatória e probabilidades não variáveis no
tempo, 1 a métrica L seria apropriada:
n
1
L1 (S) =
n
1t1,eu ÿÿ bt0,i .
eu=1
De Finetti propôs uma função do tipo "pontuação de Brier", uma função de perda quadrática em L2 :
1
L2(S) =
n
n
ÿ (1t1,i ÿ bt0,i ) 2 ,
eu=1
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
12.4 conclusão e comentários 245
cujo mínimo é alcançado para bt0,i = E(1t1 ).
Em nosso mundo de avaliação derivada de tempo contínuo, onde, no lugar de um modelo de
rede de dois períodos, estamos interessados, para o mesmo resultado final em t1 , no processo
estocástico bt , t0 ÿ t ÿ t1 , o "valor" de arbitragem de uma aposta num resultado binário precisa
de corresponder à expectativa, portanto, novamente, mapeamos para a pontuação de Brier –
através de um argumento de arbitragem. Embora não haja nenhuma função de perda quadrática
envolvida, o facto de a aposta ser uma função de um martingale, que deve ser ele próprio um
martingale, ou seja, que a expectativa condicional permanece invariante ao tempo, não permite
que ocorra uma arbitragem. Um preço “alto” pode ser “vendido” pelo arbitrador, um preço “baixo”
pode ser “comprado” e assim por diante repetidamente. A consistência entre as apostas no
período t e outros períodos t + ÿt reforça a disciplina probabilística. Em outras palavras, alguém
pode “comprar” do previsor e depois “vender” de volta para ele, gerando um “retorno” esperado
positivo se o previsor estiver fora de linha com a avaliação de Martingale.
Quanto à prática actual dos analistas, embora alguns analistas eleitorais pareçam estar
conscientes da necessidade de minimizar a sua pontuação Brier, a ideia de que as revisões das
estimativas também devem ser sujeitas à avaliação martingale não está bem estabelecida.
12.4 conclusão e comentários
Como pode ser visto na Figura 12.1, uma opção binária revela mais sobre a incerteza do que
sobre a estimativa verdadeira, um resultado bem conhecido pelos traders, ver [225].
Na presença de mais de 2 candidatos, o processo pode ser generalizado com a seguinte
aproximação heurística. Estabeleça o processo estocástico para Y1,t , e assim como Y1,t é um
processo em [0, 1], Y2,t é um processo ÿ (Y1,t , 1], com Y3,t o resíduo 1 ÿY2, t ÿY1,t , e mais
geralmente Ynÿ1,t ÿ (Yn2,t , 1] e Yn,t é o resíduo
Em = 1 ÿ ÿ n-1
eu=1 Sim, t . Para n candidatos, o enésimo é o resíduo.
adendo: todos os caminhos levam ao financiamento quantitativo
Antecedentes Aubrey Clayton enviou uma carta ao editor reclamando do artigo anterior alegando
“erros” na metodologia acima. O autor respondeu, com Dhruv Madeka, não exatamente a Clayton,
mas sim para expressar a utilidade dos métodos financeiros quantitativos na vida.
Temos o prazer de responder à carta (não revisada) de Clayton, apesar de suas confusões,
pois ela nos dará a oportunidade de abordar mal-entendidos mais fundamentais sobre o papel
das finanças quantitativas em geral, e dos preços de arbitragem em particular. , e mostram com
orgulho como "todos os caminhos levam ao financiamento quantitativo", ou seja, que as
abordagens de arbitragem são universais e aplicáveis a todos os tipos de previsão binária.
Também permite que o segundo autor comente seu artigo, Madeka (2017)[158], que obteve, de
forma independente e simultânea, resultados semelhantes aos de Taleb (2018)[234].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
246 previsões eleitorais como martingales: uma abordagem de arbitragem‡
Reivindicações incorretas
As críticas de Taleb às probabilidades de previsão populares, especificamente as previsões eleitorais
de FiveThir-tyEight ..." e "Ele [Taleb] afirma que isso significa que as previsões FiveThirtyEight devem
ter" violado [d] limites de arbitragem "são factualmente incorretas.
Não há menção a FiveThirtyEight em [234], e Clayton deve estar confundindo artigos científicos
com debates no Twitter. O artigo é uma tentativa de abordar as eleições de forma rigorosa, sem
discussão jornalística, e apenas menciona as eleições de 2016 numa frase ilustrativa.4
Continuemos, no entanto, a investigar as outras afirmações de Clayton, apesar da sua confusão.
missão e a natureza da carta.
Avaliação de arbitragem incorreta
As alegações de Clayton ou são um erro ("Primeiro, um dos "resultados padrão" das finanças
quantitativas em que se baseiam as suas avaliações de previsões eleitorais é falso", escreve ele
inicialmente), ou, como ele retrata de forma confusa, algo "apenas parcialmente verdadeiro".
Novamente, deixemos de lado que Taleb(2018)[234] não faz nenhuma “avaliação” do histórico de
FiveThirtyEight e delineamos seu raciocínio.
Clayton considera três períodos, t0 = 0, um período intermediário t e um terminal T, com t0 ÿ t < T.
Clayton mostra um caso especial da distribuição da probabilidade direta, vista em t0, para o tempo
T2
começando em t = e terminando em T. É uma distribuição uniforme para aquele período específico.
Na verdade, sob sua construção, usando a transformada integral de probabilidade, pode-se mostrar
que as probabilidades seguem o que se assemelha a uma distribuição beta simétrica com os
parâmetros a e b, e com temos a = b = 1 (daí a distribuição uniforme). Antes de T/2 a = b. Quando t =
terminando com
T2 , tem
forma ÿ , com Dirac em t = t0. Além de T/2 ele tem uma forma ÿ ,
duas varetas de Dirac em 0 e 1 (como um Bernoulli) quando t está próximo de T (e próximo de uma
distribuição arco-seno com a = b = em algum lugar no meio).
12
A construção de Clayton é de facto enganadora, uma vez que ele analisa a distribuição do preço no
tempo t com a filtragem no tempo t0, particularmente quando discute preços de arbitragem e pressões
de arbitragem. Os agentes avaliam as opções entre t e T no momento t (não no período t0), com um
preço subjacente: sob tal restrição, a opção binária converge automaticamente para ÿ ÿ ÿ, e isso para
qualquer valor do preço subjacente, não importa quão
1 2 longe longe do preço de exercício (ou limite).
O ÿ aqui nunca é realizado no passado, apenas volatilidade futura não realizada. Isto pode ser visto
dentro da estrutura apresentada em Taleb (2018) [234] , mas também tomando qualquer modelo de
precificação de opções binárias. Um preço não é uma probabilidade (menos ainda uma distribuição
de probabilidade), mas uma expectativa. Simplesmente, como operadores de arbitragem, olhamos
para a volatilidade futura com base em informações sobre o subjacente ao precificar uma opção
binária, e não para a distribuição da probabilidade em si no abstrato incondicional.
Em ÿ infinito, tudo se torna ruído, e tal nível de ruído afoga todos os sinais.
4 Aliás, o problema com FiveThirtyEight não é alterar as probabilidades de 0,55 para 0,85 num período de 5 meses, mas sim realizar mudanças abruptas num
intervalo de tempo muito mais curto – e isso foi discutido em Madeka (2017)[158].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
12.4 conclusão e comentários 247
Outra maneira de ver a atração da incerteza é usar a teoria da informação1 e
2 a noção de entropia máxima
sob incerteza profunda: a entropia
(I) de uma distribuição de Bernoulli com probabilidades p e (1 ÿ p), I = ÿ((1 ÿ p) log(1 ÿ p) + p log(p)) é máximo
em
12 .
Para vencer um
1
2
precificação, é preciso ter informações suficientes para vencer o ruído. Como
veremos na próxima seção, não é fácil.
Questões de arbitragem
Outro resultado do financiamento quantitativo que impõe limites à volatilidade das previsões é o seguinte.
Uma vez que as previsões eleitorais podem ser interpretadas como uma opção binária europeia, podemos
explorar o facto de o processo de preço desta opção estar limitado entre 0 e 1 para fazer afirmações sobre a
volatilidade do próprio preço.
Essencialmente, se o preço da opção binária variar demasiado, uma simples estratégia de negociação de
comprar na baixa e vender na alta é garantida para produzir lucro5 . O argumento pode ser resumido
observando que se considerarmos um movimento browniano aritmético limitado entre [L, H]:
dBt = ÿdWt
(12.7)
T
2
(B0 ÿ Bt)dBt
= ÿzero,
2T ÿ indicando
(BT ÿ B0) que o valor de BT é limitado pelo valor
A integral estocástica 2 ÿ pode ser replicada
a custo
máximo da diferença quadrada no lado direito da equação. Ou seja, um analista que produz probabilidades
excessivamente voláteis – se ele ou ela estiver disposto a negociar com base em tal previsão (ou seja, se
tiver pele no jogo) – pode ser arbitrado seguindo uma estratégia que vende (proporcionalmente) quando a
previsão é demasiado alta e compra (proporcionalmente) quando a previsão é muito baixa.
Para concluir, qualquer previsão probabilística numérica deve ser tratada como um preço de escolha – a
intuição de De Finetti é que as previsões devem estar no jogo.
Nessas condições, a previsão binária pertence às regras de arbitragem e precificação de derivativos, bem
mapeadas nas finanças quantitativas. Usar uma abordagem financeira quantitativa para produzir previsões
binárias não impede os métodos bayesianos (Taleb (2018) não diz que as probabilidades deveriam ser 2 ,
1
apenas que há um vento contrário em direção a esse nível devido a pressões de arbitragem e restrições
sobre quão variável uma previsão pode ser). Só que existe um preço que conta no final, 1 ou 0, o que
estrutura a atualização.6
5 Tiramos esse resultado das anotações de Bruno Dupire para sua aula de finanças em tempo contínuo no Courant da NYU
Institute, especialmente seu exame final para a primavera de 2019.
6 Outra forma de ver isto, fora dos nossos modelos financeiros quantitativos: considere um modelo probabilístico padrão
pontuação. Seja X1, . . . , Xn sejam variáveis aleatórias em [0, 1 e a BT uma constante BT ÿ {0, 1}, temos a pontuação ÿ
1
n=
n
n
2
ÿ (xi ÿ BT ) ,
eu=1
que precisa ser minimizado (em um único resultado BT). Para qualquer BT e uma previsão média x = ÿ o valor mínimo de ÿn
n
. . =alta
. . . = xn =
xn. variância,
Para venceréuma
previsão ter
de Dirac
é alcançado
para x1 = para i=1 xi , que ÿ = com uma estratégia. de
necessário
75% x1
de=precisão.
(Observe
que
12
uma previsão uniforme tem uma pontuação de
14
.) Isso nos mostra a compensação entre volatilidade e sinal.
13
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
248 previsões eleitorais como martingales: uma abordagem de arbitragem‡
A razão pela qual Clayton poderá ter problemas com finanças quantitativas poderá ser o facto
de as probabilidades e as sondagens subjacentes poderem não ser martingales na vida real; as
probabilidades negociadas (portanto, as previsões reais) devem ser martingales. É por isso que
em Taleb (2018)[234] o processo para as pesquisas (que pode ser vago e não negociável)
precisa ser transformado em um processo para probabilidade em [0, 1].
agradecimentos
Raphael Douady, alunos da Tandon School of Engineering da NYU, participantes do Bloomberg
Quantitative Finance Seminar em Nova York.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Parte IV
DESIGUALDADEESTIM ATO RUNDER GORDURA TA ILS
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13GINIESTIM EM IONUNDERINFINITE
VARIÂNCIA ‡
T
Este capítulo trata dos problemas relacionados à estimativa do índice de Gini
na presença de um processo de geração de dados de cauda gorda, ou seja,
um na classe de distribuição estável com média finita, mas variância infinita
(ou seja, com índice de cauda ÿ ÿ ( 1, 2)). Mostramos que, nesse caso, o
coeficiente de Gini não pode ser estimado de forma confiável utilizando
métodos não paramétricos convencionais, devido a um viés descendente que surge sob caudas
grossas. Isto tem implicações importantes para a discussão em curso sobre a desigualdade
económica.
Começamos discutindo como o estimador não paramétrico do índice de Gini sofre uma
transição de fase na estrutura de simetria de sua distribuição assintótica, à medida que a
distribuição dos dados muda do domínio de atração de uma distribuição de cauda leve para
aquela de cauda gorda, especialmente no caso de variância infinita. Também mostramos como
o viés não paramétrico de Gini aumenta com valores mais baixos de ÿ. Provamos então que a
estimativa de máxima verossimilhança supera os métodos não paramétricos, exigindo um
tamanho de amostra muito menor para alcançar a eficiência.
Finalmente, para dados de cauda gorda, fornecemos um mecanismo simples de correção
para o viés de pequena amostra do estimador não paramétrico com base na distância entre a
moda e a média de sua distribuição assintótica.
13.1 introdução
Os estudos sobre desigualdade de riqueza representam um campo da economia, estatística e
econofísica exposto a processos de geração de dados de cauda gorda, muitas vezes com variância
infinita [39, 144]. Isto não é de todo surpreendente se recordarmos que o protótipo das distribuições
de cauda gorda, o Pareto, foi proposto pela primeira vez para modelar as informações dos agregados familiares.
Capítulo de pesquisa.
(Com A. Fontanari e P. Cirillo), coautores
251
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Estimativa de 252 gini sob variação infinita
‡
vem [185]. No entanto, a grande quantidade de dados pode ser problemática no contexto dos estudos de
riqueza, uma vez que a propriedade da eficiência (e, parcialmente, da consistência) não é necessariamente
válida para muitos estimadores de desigualdade e concentração [82, 144].
O objetivo deste trabalho é mostrar como as caudas gordas afetam a estimativa de uma das mais
celebradas medidas de desigualdade econômica, o índice de Gini [78, 110, 144], frequentemente usado
(e abusado) na literatura de econofísica e economia como o principal ferramenta para descrever a
distribuição e a concentração da riqueza em todo o mundo [39, 191? ].
A literatura relativa à estimativa do índice de Gini é ampla e abrangente (por exemplo, [78, 222] para
uma revisão), no entanto, estranhamente, quase nenhuma atenção tem sido dada ao seu comportamento
na presença de caudas gordas, e isto é curioso se considerarmos que: 1) caudas gordas são onipresentes
nas distribuições empíricas de renda e riqueza [144, 191], e 2) o próprio índice de Gini pode ser visto
como uma medida de variabilidade e cauda gorda [76, 79, 80, 95].
O método padrão para a estimativa do índice de Gini é não paramétrico: calcula-se o índice a partir da
distribuição empírica dos dados disponíveis usando a Equação (13.5) abaixo. Mas, como mostramos
neste artigo, este estimador sofre de um viés descendente quando lidamos com observações de cauda
gorda. Portanto, nosso objetivo é preencher essa lacuna derivando a distribuição limitante do estimador
não paramétrico de Gini na presença de caudas gordas, e propor possíveis estratégias para reduzir o
viés.
Mostramos como a abordagem de máxima verossimilhança, apesar do risco de especificação incorreta
do modelo, precisa de muito menos observações para alcançar eficiência quando comparada a uma
abordagem não paramétrica.2
Os nossos resultados são relevantes para a discussão sobre a desigualdade de riqueza, recentemente
reavivada por Thomas Piketty em [191], uma vez que a estimativa do índice de Gini sob caudas gordas e
variância infinita pode fazer com que várias análises económicas sejam pouco fiáveis, se não
marcadamente erradas. Por que alguém deveria confiar em um estimador tendencioso?
Figura 13.1: O estatístico italiano Corrado Gini,
1884-1965. fonte: Boc-coni.
2 Um enviesamento semelhante também afecta a medição não paramétrica das contribuições quantílicas, ou seja,
aquelas do tipo “os 1% mais ricos possuem x% da riqueza total" [242]. Este artigo estende o problema ao coeficiente
de Gini, mais difundido, e vai mais fundo fazendo ligações com os teoremas do limite.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13.1 introdução 253
Por dados de cauda gorda indicamos aqueles dados gerados por uma variável aleatória
positiva X com função de distribuição cumulativa (cdf) F(x), que varia regularmente de ordem
ÿ [136], ou seja, para F¯(x): = 1 ÿ F(x), tem-se
(13.1)
limxÿÿ x ÿF¯(x) = L(x),
L(cx) onde L(x) é uma função de variação lenta tal que limxÿÿ = 1 com
é c > 0, e L(x) onde ÿ > 0
chamado de expoente final.
Distribuições regularmente variáveis definem uma grande classe de variáveis aleatórias cujas
propriedades foram extensivamente estudadas no contexto da teoria dos valores extremos [82,
116], ao lidar com o comportamento probabilístico de máximos e mínimos. Como apontado em
[44], variação regular e cauda gorda são de fato sinônimos. Sabe-se que, se X1 , ..., Xn são
observações iid com uma cdf F(x) na classe regularmente variável, conforme definido na
Equação (13.1), então seu processo de geração de dados cai no domínio máximo de atração
de uma distribuição de Fréchet com parâmetro ÿ, em símbolos X ÿ MDA(ÿ(ÿ))[116]. Isto significa
que, para o máximo parcial Mn = max(X1 , ..., Xn), tem-se
ÿ1
P (uman (Mn
d
ÿ ÿ(ÿ) = e
ÿ bn) ÿ x)
ÿx ÿp
, ÿ > 0,
(13.2)
com an > 0 e bn ÿ R duas constantes de normalização. Claramente, a conexão entre o
coeficiente ÿ, que varia regularmente , e o parâmetro de distribuição de Fréchet ÿ é dada por:
1
ÿ = [82].
p.
A distribuição Fréchet é uma das distribuições limitantes para máximos na teoria dos valores
extremos, juntamente com a Gumbel e a Weibull; representa o caso limite de cauda gorda e
ilimitado [116]. A relação entre variáveis aleatórias que variam regularmente e a classe de
Fréchet permite-nos assim lidar com uma família muito grande de variáveis aleatórias (e dados
empíricos), e permite-nos mostrar como o índice de Gini é altamente influenciado pelos
máximos, ou seja, extremos. riqueza, como claramente sugerido pela intuição [95, 144],
especialmente sob variação infinita. Mais uma vez, isto recomenda alguma cautela ao discutir
a desigualdade económica sob caudas gordas.
Vale lembrar que a existência (finitude) dos momentos para uma variável aleatória de cauda
gorda X depende do expoente de cauda ÿ, na verdade
ANTIGO
d
ANTIGO
) < ÿ se ÿ ÿ ÿ,
d
) = ÿ se ÿ > a.
(13.3)
Neste trabalho, restringimos nosso foco aos processos de geração de dados com média finita
e variância infinita, portanto, conforme a Equação (13.3), na classe de distribuições regularmente
variantes com índice de cauda ÿ ÿ (1, 2).
A Tabela 13.1 e a Figura 13.2 apresentam numérica e graficamente nossa história, já
sugerindo sua conclusão, com base em observações artificiais amostradas a partir de uma
distribuição de Pareto (Equação (13.13) abaixo) com parâmetro de cauda ÿ igual a 1,1.
A Tabela 13.1 compara o índice de Gini não paramétrico da Equação (13.5) com o índice de
máxima verossimilhança (ML) baseado na cauda da Seção 13.3. Para os diferentes tamanhos
de amostra na Tabela 13.1, geramos 108 amostras, calculando a média dos estimadores via
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Estimativa de 254 gini sob variação infinita
Monte Carlo. Como mostra a primeira coluna, a convergência do não paramétrico
estimador para o verdadeiro valor de Gini (g = 0,8333) é extremamente lento e monotonicamente
aumentando; isso sugere um problema não apenas na estrutura final da distribuição
do estimador não paramétrico, mas também em sua simetria.
A Figura 13.2 fornece algumas evidências numéricas de que a distribuição limite de
o índice não paramétrico de Gini perde suas propriedades de normalidade e simetria [91],
mudando para um limite distorcido e com cauda mais grossa, quando os dados são caracterizados por
uma variação infinita. Como provamos na Seção 13.2, quando o processo de geração de dados
está no domínio de atração de uma distribuição de cauda gorda, a distribuição assintótica do índice de
Gini torna-se uma lei ÿ-estável distorcida para a direita. Esta mudança de
comportamento é responsável pelo viés descendente do Gini não paramétrico sob condições de gordura
caudas. Contudo, o conhecimento do novo limite permite-nos propor uma correcção
para o estimador não paramétrico, melhorando sua qualidade e reduzindo assim o risco
de estimar mal a desigualdade de riqueza, com todas as consequências possíveis em termos
das políticas económicas e sociais [144, 191].
Tabela 13.1: Comparação do Gini Não Paramétrico (NonPar) e Máxima Verossimilhança (ML)
estimadores, usando dados paretianos com cauda ÿ = 1,1 (média finita, variância infinita) e amostras diferentes
tamanhos. Número de simulações de Monte Carlo: 108 .
n
Não par
AM
Taxa de erro3
(número de obs.) Viés médio Viés médio
103
0,711 -0,122 0,8333 0,750
0
1.4
104
-0,083 0,8333 0,775 -0,058
0
105
0,8333 0,790 -0,043 0,8333
0
3
6.6
106
0,802 -0,031 0,8333
0
107
0
156
105+
Figura 13.2: Histogramas para o
Estimadores não paramétricos de Gini
para duas distribuições paretianas (tipo I)
com índices de cauda diferentes,
com variância finita e infinita
(os gráficos foram centralizados para facilitar
comparação). Tamanho da amostra: 103 .
Número de amostras: 102 para cada
distribuição.
O resto do artigo está organizado da seguinte forma. Na Seção 13.2 derivamos a distribuição
assintótica do índice de Gini amostral quando os dados possuem uma variância infinita.
Na Seção 13.3 tratamos do estimador de máxima verossimilhança; na Seção 13.4 nós
forneça uma ilustração com observações paretianas; na Seção 13.5 propomos um
correção simples baseada na distância modal média da distribuição assintótica
do estimador não paramétrico, para cuidar de seu viés de amostra pequena. Seção 13.6
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13.2 assintótica do estimador não paramétrico sob variância infinita 255
fecha o papel. Um Apêndice técnico contém as provas mais extensas dos principais
resultados do trabalho.
13.2 assintótica do estimador não paramétrico sob infinito
variação
Derivamos agora a distribuição assintótica para o estimador não paramétrico do índice de
Gini quando o processo de geração de dados é de cauda gorda com média finita, mas
variância infinita.
A chamada representação estocástica do Gini g é
g=
1 E (|X
' ÿ X”|)
2
ÿ [0, 1], µ
(13.4)
' e X” são cópias iid de uma variável aleatória X com cdf F(x) ÿ [c, ÿ), ÿ X”|) é
'
c > 0, e com média finita E(X) = µ. A quantidade E (|X "Diferença conhecido como
onde X
eu
Média de Gini" (GMD) [222]. Para conveniência posterior, também definimos g =
sou
com ÿ =
E(|X ÿÿX”|) .
2
O índice de Gini de uma variável aleatória X é, portanto, o desvio médio esperado
entre quaisquer duas realizações independentes de X, escalonadas pelo dobro da média [81].
O estimador não paramétrico mais comum do índice de Gini para uma amostra X1 , ..., Xn
é definido como
GNP (Xn)
ÿ1ÿi<jÿn |Xi ÿ Xj |
= (n ÿ 1) ÿ
n
eu=1
,
(13,5)
XI
que também pode ser expresso como
GNP (Xn) =
ÿ
n
euÿ1
eu=1(2( nÿ1
n
i=1 X(i)
ÿ 1)X(i) ÿ
=
ÿ
1
n1
n
ÿ
n
eu=1 Z(eu)
n
eu=1
,
(13.6)
XI
onde X(1), X(2), ..., X(n) são as estatísticas ordenadas de X1 , ..., Xn, tais que: X(1) <
n-1 ÿ 1 ) X(eu) . A normalidade assintótica do
X(2) < ... < X(n) e Z(i) = 2 ( iÿ1
O estimador na Equação (13.6) sob a hipótese de variância finita para o processo de
geração de dados é conhecido [144, 222]. O resultado segue diretamente das propriedades
das estatísticas U e dos estimadores L envolvidos na Equação (13.6)
Uma metodologia padrão para provar a distribuição limite do estimador na Equação
(13.6), e mais em geral de uma combinação linear de estatísticas de ordem, é mostrar
que, no limite para n ÿ ÿ, a sequência de estatísticas de ordem pode ser aproximadamente
-imatado por uma sequência de variáveis aleatórias iid [56, 151]. No entanto, isso
2
geralmente requer algum tipo de integrabilidade L do processo de geração de dados, algo
que não estamos assumindo aqui.
O Lema 13.1 (provado no Apêndice) mostra como lidar com o caso de se - apenas
1
sequências de estatísticas de pedidos geradas por rótulos de cauda variáveis aleatórias integráveis
gorda.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Estimativa de 256 gini sob variação infinita
Lema 13.1
n
ÿ1
1nÿ eu=1( n ÿ você(i) )F
(U(i) ) onde U(i) são a ordem
eu
Considere a seguinte sequência Rn =
estatística de uma amostra aleatória iid uniformemente distribuída. Suponha que
ÿ1
(você) ÿ eu1 . Então
F os seguintes resultados sejam válidos:
eu 1
(13.7)
Rn ÿÿ 0,
e
umaÿ1
eu 1
n uma
Rn ÿÿ 0,
L0(n)
(13.8)
com ÿ ÿ (1, 2) e L0(n) uma função de variação lenta.
13.2.1 Uma rápida recapitulação sobre variáveis aleatórias ÿ-estáveis
Introduzimos aqui algumas notações para distribuições ÿ-estáveis, pois precisamos delas para
estudar o limite assintótico do índice de Gini.
Uma variável aleatória X segue uma distribuição ÿ-estável, em símbolos X ÿ S(ÿ, ÿ, ÿ, ÿ), se
sua função característica for
uma |t| ÿ (1ÿiÿ sinal (t)) tan (
ÿÿ|t|(1+iÿ e
E(e itX) = { e ÿÿ
2
Pi
pa
2
)+iÿt
ÿÿ =
,
1ÿ=1
sinal(t)) ln|t|+iÿt
onde ÿ ÿ (0, 2) governa a cauda, ÿ ÿ [ÿ1, 1] é a assimetria, ÿ ÿ R+ é o parâmetro de escala e ÿ ÿ
R é o de localização. Isso é conhecido como parametrização S1 de distribuições ÿ-estáveis [181,
209].
Curiosamente, há uma correspondência entre o parâmetro ÿ de uma variável aleatória ÿ-estável
e o ÿ de uma variável aleatória que varia regularmente conforme a Equação (13.1): como
mostrado em [91, 181], uma variável aleatória que varia regularmente de ordem ÿ é ÿ- estável,
com o mesmo coeficiente de cauda. É por isso que não fazemos nenhuma distinção no uso do ÿ
aqui. Como pretendemos lidar com distribuições caracterizadas por média finita, mas variância
infinita, restringimos nosso foco a ÿ ÿ (1, 2), pois os dois ÿ's coincidem.
Lembre-se de que, para ÿ ÿ (1, 2], o valor esperado de uma variável aleatória ÿ-estável X é
igual ao parâmetro de localização ÿ, ou seja, E(X) = ÿ. Para mais detalhes, consulte [181, 209 ].
A variável aleatória ÿ-estável padronizada é expressa como
(13.9)
Sÿ,ÿ ÿ S(ÿ, ÿ, 1, 0).
Notamos que distribuições ÿ-estáveis são uma subclasse de distribuições infinitamente
divisíveis. Graças ao seu fechamento sob convolução, eles podem ser usados para descrever o
n
comportamento limitante de somas parciais (reescalonadas), Sn
= XI
ÿ ,na configuração do Teorema
eu=1
Geral do Limite Central (GCLT) [91]. Para ÿ = 2 obtemos a distribuição normal como um caso
especial, que é a distribuição limite para os CLTs clássicos, sob a hipótese de variância finita.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13.2 assintótica do estimador não paramétrico sob variância infinita 257
A seguir indicamos que uma variável aleatória está no domínio de atração
de uma distribuição ÿ-estável, escrevendo X ÿ DA(Sÿ). Basta observar que esta condição para o
limite das somas parciais é equivalente àquela dada na Equação (13.2) para o limite dos máximos
parciais [82, 91].
13.2.2 O Limite Assintótico ÿ-Estável do Índice de Gini
Considere uma amostra X1 , ..., Xn de observações iid com uma cdf contínua F(x) na classe
regularmente variável, conforme definido na Equação (13.1), com índice de cauda ÿ ÿ (1, 2).
O processo de geração de dados para a amostra está no domínio de atração de uma distribuição
1
1.
de Fréchet com ÿ ÿ (
2 , 1), dado que ÿ =
a
Para a distribuição assintótica do estimador do índice de Gini, conforme apresentado na
Equação (13.6), quando o processo de geração de dados é caracterizado por uma variância
infinita, podemos fazer uso do seguinte dois teoremas: o Teorema 1 trata da distribuição limitante
da Diferença Média de Gini (o numerador na Equação (13.6)), enquanto o Teorema 2 estende o
resultado para o índice de Gini completo. As provas para ambos os teoremas estão no Apêndice.
Teorema 1
Considere uma sequência (Xi )1ÿiÿn de variáveis aleatórias iid de uma distribuição X em [c, +ÿ)
com c > 0, tal que X está no domínio de atração de uma variável aleatória ÿ-estável, ÿ i =1 Z(eu)
n
X ÿ DA(Sÿ), com ÿ ÿ (1, 2). Então, o desvio médio de Gini da amostra (GMD) satisfaz o
n
seguinte limite na distribuição:
n
uma-1
uma
L0(n) ( 1
n
n ÿ
eu=1
ÿ Sÿ,1 ,
(13.10)
Z(i) ÿ ÿ ) d
onde Zi = (2F(Xi ) ÿ 1)Xi , E(Zi ) = ÿ, L0(n) é uma função de variação lenta tal que a Equação
(13.37) é válida (veja o Apêndice), e Sÿ,1 é uma função direita -variável aleatória ÿ-estável
padronizada distorcida definida como na Equação (13.9).
Além disso a estatística 1
n
ou seja
n
i=1 Z(i) é um estimador assintoticamente consistente para o GMD, ÿ
n
1
P ÿ eu.
n ÿ eu=1 Z(eu)
Observe que o Teorema 1 poderia ser reformulado em termos do domínio máximo de
atração MDA(ÿ(ÿ)) conforme definido na Equação (13.2).
Teorema 2
Dadas as mesmas suposições do Teorema 1, o índice de Gini estimado G NP(Xn) =
n
ÿ eu=1 Z(eu)
n
ÿ eu=1 XI
satisfaz o seguinte limite na distribuição
n a-1a
L0(n) ( G NP(Xn) ÿ
eu
eu
)d
ÿ Q,
(13.11)
onde E(Zi ) = ÿ, E(Xi ) = µ, L0(n) é a mesma função de variação lenta definida no Teorema 1 1 e
Q é uma variável aleatória ÿ-estável distorcida à direita S(ÿ, 1, , 0). ÿ
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Estimativa de 258 gini sob variação infinita
n
ÿ i=1 Z(i)
Além disso a estatística
n
ÿ eu=1 Z(eu)
índice, ou seja
ÿ neu=1 XI
P
ÿ
ÿ neu=1 XI é um estimador assintoticamente consistente para o Gini
eu
sou
=g.
No caso de caudas gordas com ÿ ÿ (1, 2), o Teorema 2 nos diz que a distribuição assintótica
do estimador de Gini é sempre assimétrica à direita, não obstante a distribuição do processo
gerador de dados subjacente. Portanto, dados de cauda pesada não apenas induzem um limite
de cauda mais gorda para o estimador de Gini, mas também alteram a forma da lei limite, que
definitivamente se afasta da Gaussiana simétrica usual. Como consequência, o estimador de
Gini, cuja consistência assintótica ainda é garantida [151], aproximar-se-á do seu valor verdadeiro
mais lentamente e por baixo.
Algumas evidências disso já foram fornecidas na Tabela 13.1.
13.3 o estimador de máxima verossimilhança
O Teorema 2 indica que o estimador não paramétrico usual para o índice de Gini não é a melhor
opção quando se trata de distribuições de variância infinita, devido à assimetria e à gordura do
seu limite assintótico. O objetivo é encontrar estimadores que ainda preservem sua normalidade
assintótica sob caudas gordas, o que não é possível com métodos não paramétricos, pois todos
eles se enquadram no caso do Teorema do Limite Central ÿ-estável [82, 91]. Portanto, a solução
é usar técnicas paramétricas.
O Teorema 3 mostra como, uma vez identificada uma família paramétrica para o processo de
geração de dados, é possível estimar o índice de Gini via MLE. O estimador resultante não é
apenas assintoticamente normal, mas também assintoticamente eficiente.
No Teorema 3 tratamos de variáveis aleatórias X cuja distribuição pertence à grande e flexível
família exponencial [211], ou seja, cuja densidade pode ser representada
como
fÿ (x) = h(x)e (ÿ(ÿ)T(x)ÿA(ÿ))
,
com ÿ ÿ R, e onde T(x), ÿ(ÿ), h(x), A(ÿ) são funções conhecidas.
Teorema 3
Seja X ÿ Fÿ tal que Fÿ é uma distribuição pertencente à família exponencial. Então o índice de
Gini obtido pela inserção do estimador de máxima verossimilhança de ÿ, GML(Xn)ÿ , é
assintoticamente normal e eficiente. Nomeadamente:
AM
onde g
'2 ÿ1
(Xn)ÿ ÿ gÿ ) Dÿ N ( 0, g
ÿn(G
eu
EU
(eu) ),
' = dgÿ e I(ÿ) é a informação de Fisher. dÿ
eu
AM
ÿn(G
'2 ÿ1
(Xn)ÿ ÿ gÿ ) Dÿ N ( 0, g
eu
EU
(eu) ),
Prova. O resultado segue facilmente da eficiência assintótica dos estimadores de máxima
verossimilhança da família exponencial e do princípio de invariância do MLE.
Em particular, a validade do princípio da invariância para o índice de Gini é concedida
(13.12)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13.4 uma ilustração paretiana 259
pela continuidade e pela monotonicidade de gÿ em relação a ÿ. A variância assintótica é então obtida
pela aplicação do método delta [211].
13.4 uma ilustração paretiana
Fornecemos uma ilustração dos resultados obtidos usando alguns dados artificiais de cauda gorda.
Escolhemos um Pareto I [185], com densidade
f(x) = ÿc
ÿx
ÿÿÿ 1
, x ÿ c.
(13.13)
É fácil verificar que a função de sobrevivência correspondente F¯(x) pertence à classe de variação
regular com parâmetro de cauda ÿ e função de variação lenta L(x) = . Podemos, portanto, aplicar os
ca resultados da Seção 13.2 para obter os seguintes corolários.
Corolário 13.1
Seja X1 , ..., Xn uma sequência de observações iid com distribuição de Pareto com parâmetro de
cauda ÿ ÿ (1, 2). O estimador não paramétrico de Gini é caracterizado pelo seguinte limite:
-
Dn
POR EXEMPLO
= G NP(Xn) ÿ g ÿ S
ÿ
ÿÿ,
a
1
a
C1, a-1
n a
(uma - 1)
a
, 0ÿ
(13.14)
ÿ.
Prova. Sem perda de generalidade podemos assumir c = 1 na Equação (13.13). Os resultados são
uma mera aplicação do Teorema 2, lembrando que uma distribuição de Pareto está no domínio de
atração de variáveis aleatórias ÿ-estáveis com variação lenta
1
função L(x) = 1. A sequência cn para satisfazer a Equação (13.37) torna-se cn = n
1
1
-
portanto temos L0(n) = C da
-
uma C uma
uma ,
a
a,
que é independente de n. Além disso a média
a
distribuição também é função de ÿ, ou seja µ =
umaÿ1 .
Corolário 13.2
Seja a amostra X1 , ..., Xn distribuída como no Corolário 13.1, seja GML o estimador de máxima
eu
verossimilhança para o índice de Gini conforme definido no Teorema 3. Então o estimador MLE Gini,
reescalonado por sua média verdadeira g, tem o seguinte limite:
D nAM =G
AM
a
2 4a
(Xn) ÿ g ÿ N ( 0, n(2ÿ ÿ 1)4 ) ,
(13.15)
onde N indica um Gaussiano.
Prova. A forma funcional do estimador de máxima verossimilhança para o índice de Gini é conhecida
= decorre então do facto de a distribuição de Pareto (com valor mínimo
como GML [144]. O resultado
eu
12ÿML ÿ1
conhecido xm) pertencer a uma família exponencial e, portanto, satisfazer as condições de
regularidade necessárias para a normalidade assintótica e eficiência do estimador de máxima
verossimilhança. Observe também que a informação de Fisher para uma distribuição de Pareto é
12 .
_a
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Estimativa de 260 gini sob variação infinita
Agora que elaboramos ambas as distribuições assintóticas, podemos comparar
a qualidade da convergência tanto para o MLE quanto para o caso não paramétrico quando
lidando com dados paretianos, que usamos como protótipo para a abordagem mais geral
classe de observações de cauda gorda.
Em particular, podemos aproximar a distribuição dos desvios do estimador do valor verdadeiro
g do índice de Gini para tamanhos de amostra finitos, usando
Equações (13.14) e (13.15).
Distribuição limite para 1.6, MLE vs Não Paramétrico
Distribuição limite para 1.8, MLE vs Não Paramétrico
021
041
MLE
MLE
n = 100
n = 100
n = 500
n = 500
n = 1000
0
0
001
n = 1000
ÿ0,10
ÿ0,05
0,00
0,05
ÿ0,15
0,10
ÿ0,10
ÿ0,05
0,00
Desvio do valor médio
Desvio do valor médio
(a) ÿ = 1,8
(b) ÿ = 1,6
Distribuição limite para 1.4, MLE vs Não Paramétrico
0,05
0,10
0,15
Distribuição limite para alfa = 1,2, MLE vs Não Paramétrico
MLE
n = 100
n = 500
n = 500
n = 1000
n = 1000
0
0
5
MLE
n = 100
ÿ0,2
ÿ0,1
0,0
0,1
0,2
ÿ0,3
ÿ0,2
ÿ0,1
0,0
Desvio do valor médio
Desvio do valor médio
(c) ÿ = 1,4
(d) ÿ = 1,2
0,1
0,2
Figura 13.3: Comparações entre a máxima verossimilhança e as distribuições assintóticas não
paramétricas para diferentes valores do índice de cauda ÿ. O número de observações para MLE é fixado em n = 100.
Observe que, mesmo que todas as distribuições tenham média zero, a moda das distribuições dos valores não paramétricos
estimador é diferente de zero, por causa da assimetria.
A Figura 13.3 mostra como os desvios em torno da média dos dois tipos diferentes
de estimadores são distribuídos e como essas distribuições mudam conforme o número
de observações aumenta. Em particular, para facilitar a comparação entre os
máxima verossimilhança e os estimadores não paramétricos, fixamos o número de
observação no caso MLE, deixando-os variar no caso não paramétrico.
Realizamos este estudo para diferentes tipos de índices de cauda para mostrar quão grande é o
o impacto está na consistência do estimador. Vale notar que, como o
índice de cauda diminui para 1 (o valor limite para uma média infinita), o modo
da distribuição do estimador não paramétrico se afasta mais do
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13.4 uma ilustração paretiana 261
média da distribuição (centrada em 0 por definição, visto que se trata de desvios da média).
Este efeito é responsável pelo pequeno viés amostral observado nas aplicações. Tal
fenômeno não está presente no caso MLE, graças à normalidade do limite para cada valor
do parâmetro final.
Podemos tornar nosso argumento mais rigoroso avaliando o número de observações n˜
necessárias para que o estimador não paramétrico seja tão bom quanto o MLE, sob
diferentes cenários de cauda. Vamos considerar a função do tipo razão de verossimilhança
PS(|DNP n |>
c) r(c, n) =
PN(|DML |> c)
,
(13.16)
100
onde PS(|DNP n |> c) e PN(|DML |>100
c) são as probabilidades (ÿ-estável e gaussiana
respectivamente) dos estimadores centrados nos casos não paramétricos, e nos casos
MLE, de exceder os limites ±c , conforme Equações (13.15) e (13.14). No caso não
paramétrico, o número de observações n pode mudar, enquanto no caso MLE é fixado em
100. Procuramos então o valor n˜ tal que r(c, n˜) = 1 para c fixo.
A Tabela 13.2 exibe os resultados para diferentes limites c e parâmetros finais ÿ.
Em particular, podemos ver como o estimador MLE supera o não paramétrico, o que requer
um número muito maior de observações para obter a mesma probabilidade de cauda do
MLE com n fixado em 100. Por exemplo, precisamos de pelo menos 80 × 106 observações
para o estimador não paramétrico para obter a mesma probabilidade de ultrapassar o limite
de ±0,02 do MLE, quando ÿ = 1,2.
Tabela 13.2: O número de observações n˜ necessárias para que o estimador não paramétrico corresponda às
probabilidades de cauda, para diferentes valores limite c e diferentes valores do índice de cauda ÿ, do estimador
de máxima verossimilhança com n fixo = 100.
Limite c conforme a Equação (13.16):
a
0,01 27 × 103 12 ×
0,02
0,005 0,015 1,8
105 12 × 106 63 × 105 1,5 21 × 104 21 × 104 46 ×
105 81 × 107 1,2 33 × 108 67 × 107 20 × 107 80 ×
106
Curiosamente, o número de observações necessárias para corresponder às probabilidades
finais na Equação (13.16) não varia uniformemente com o limite. Isto é esperado, uma vez
que à medida que o limite vai para o infinito ou para zero, as probabilidades finais
permanecem as mesmas para cada valor de n. Portanto, dada a unimodalidade das
distribuições limite, esperamos que exista um limite que maximize o número de observações
necessárias para corresponder às probabilidades de cauda, enquanto para todos os outros
níveis o número de observações será menor.
Concluímos que, quando na presença de dados de cauda gorda com variância infinita, um
O estimador plug-in baseado em MLE deve ser preferido ao não paramétrico.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Estimativa de 262 gini sob variância infinita
13,5 correção de amostra pequena
O Teorema 2 também pode ser usado para fornecer uma correção para o viés do estimador
não paramétrico para amostras pequenas. A ideia principal é reconhecer que, para
distribuições unimodais, a maioria das observações vem de perto da moda. Em distribuições
simétricas, a moda e a média coincidem, portanto, a maioria das observações também estará
próxima do valor médio, o que não acontece com distribuições assimétricas: para distribuições
unimodais contínuas assimétricas à direita, a moda é inferior à média. Portanto, dado que a
distribuição assintótica do índice de Gini não paramétrico é assimétrica à direita, esperamos
que o valor observado do índice de Gini seja geralmente inferior ao verdadeiro (colocado no
nível médio). Podemos quantificar esta diferença (ou seja, o viés) observando a distância
entre a moda e a média, e uma vez conhecida esta distância, podemos corrigir a nossa
estimativa de Gini adicionando-a de volta4 .
Formalmente, pretendemos derivar um estimador não paramétrico corrigido G C(Xn) tal que
G C (Xn) = G NP(Xn) + ||m(G NP(Xn)) ÿ E(G NP(Xn))||,
(13.17)
onde ||m(G NP(Xn)) ÿ E(G NP(Xn))|| é a distância entre o modo m e a média da distribuição
do estimador não paramétrico de Gini G NP(Xn).
Realizar o tipo de correção descrito na Equação (13.17) equivale a deslocar a distribuição
de G NP(Xn) para colocar sua moda no valor verdadeiro de
o índice de Gini.
Idealmente, gostaríamos de medir esta distância modal média ||m(G NP(Xn)) ÿ E(G
NP(Xn))|| na distribuição exata do índice de Gini para obter a correção mais precisa. No
entanto, a distribuição finita nem sempre é facilmente derivável, pois requer suposições sobre
a estrutura paramétrica do processo de geração de dados (que, na maioria dos casos, é
desconhecida para dados de cauda gorda [144]). Propomos, portanto, usar a distribuição
limite para o Gini não paramétrico obtido na Seção 13.2 para aproximar a distribuição
amostral finita e estimar a distância modal com ela. Este procedimento permite mais liberdade
nas suposições de modelagem e potencialmente diminui o número de parâmetros a serem
estimados, dado que a distribuição limite depende apenas do índice de cauda e da média
dos dados, que geralmente pode ser assumido como uma função do próprio índice de cauda,
como no caso paretiano onde µ =
a
umaÿ1 .
Explorando a propriedade de escala de localização de distribuições ÿ-estáveis e a Equação
(13.11), aproximamos a distribuição de G NP(Xn) para amostras finitas por
G NP(Xn) ÿ S (ÿ, 1, ÿ(n), g),
onde ÿ(n) =
1
aÿ
1n a
L0(n)
µ
(13.18)
é o parâmetro de escala da distribuição limitante.
Como consequência, graças à linearidade do modo para distribuições ÿ-estáveis, temos
||m(G NP(Xn)) ÿ E(G NP(Xn))||ÿ ||m(ÿ, ÿ(n)) + g ÿ g||= ||m(ÿ, ÿ(n) )||,
4 Outra ideia, que testamos ao escrever o artigo, é usar a distância entre a mediana e
O significativo; os desempenhos são comparáveis.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13,5 correção de amostra pequena 263
onde m(ÿ, ÿ(n)) é a função modo de uma distribuição ÿ-estável com média zero.
A implicação é que, para obter o termo de correção, não é necessário o conhecimento do
verdadeiro índice de Gini, visto que m(ÿ, ÿ(n)) não depende de g. Em seguida, estimamos o termo
de correção como
mˆ (ÿ, ÿ(n)) = arg max s(x),
x
(13.19)
onde s(x) é a densidade numérica da distribuição ÿ-estável associada na Equação (13.18), mas
centrada em 0. Isso vem do fato de que, para distribuições ÿ-estáveis, a moda não está disponível
em forma fechada, mas pode ser facilmente computada numericamente [181], usando a
unimodalidade da lei.
O estimador não paramétrico corrigido é, portanto,
G C (Xn) = G NP(Xn) + mˆ (ÿ, ÿ(n)),
(13h20)
cuja distribuição assintótica é
G C (Xn) ÿ S (ÿ, 1, ÿ(n), g + mˆ (ÿ, ÿ(n))).
(13.21)
Observe que o termo de correção mˆ (ÿ, ÿ(n)) é uma função do índice de cauda ÿ e está conectado
ao tamanho da amostra n pelo parâmetro de escala ÿ(n) da distribuição limitante associada. É
importante ressaltar que mˆ (ÿ, ÿ(n)) é decrescente em n, e que limnÿÿ mˆ (ÿ, ÿ(n)) ÿ 0. Isso acontece
porque, à medida que n aumenta, a distribuição descrita em A equação (13.18) torna-se cada vez
mais centrada em torno do seu valor médio, reduzindo a zero a distância entre a moda e a média.
Isso garante a equivalência assintótica do estimador corrigido e do não paramétrico.
Basta observar isso
C
limnÿÿ |G(Xn)
ÿGNP (Xn) | = limnÿÿ |G NP(Xn) + mˆ (ÿ, ÿ(n)) ÿ G NP(Xn)| = limnÿÿ
|mˆ (ÿ, ÿ(n))|ÿ 0.
Naturalmente, graças à correção, G C(Xn) sempre se comportará melhor em amostras pequenas.
Considere também que, a partir da Equação (13.21), a distribuição do estimador corrigido tem
agora para média g + mˆ (ÿ, ÿ(n)), que converge para o Gini verdadeiro g quando n ÿ ÿ.
Do ponto de vista teórico, a qualidade desta correção depende da distância entre a distribuição
exata de G NP(Xn) e o seu limite ÿ-estável; quanto mais próximos os dois estiverem um do outro,
melhor será a aproximação. Contudo, dado que, na maioria dos casos, a distribuição exacta de G
NP(Xn) é desconhecida, não é possível dar
mais detalhes.
Pelo que escrevemos até agora, fica claro que o termo de correção depende do índice final dos
dados e, possivelmente, também de sua média. Estes parâmetros, se não forem considerados
conhecidos a priori, devem ser estimados. Por conseguinte, a incerteza adicional devida à estimativa
refletir-se-á também na qualidade da correção.
Concluímos esta Seção com a discussão do efeito do procedimento de correção com um exemplo
simples. Em um experimento de Monte Carlo, simulamos 1.000
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Estimativa de 264 gini sob variação infinita
Amostras paretianas de tamanho crescente, de n = 10 a n = 2.000, e para cada amostra
tamanho, calculamos tanto o estimador não paramétrico original G NP(Xn) quanto o G C(Xn)
corrigido . Repetimos o experimento para diferentes ÿ's. A Figura 13.4 apresenta o
resultados.
É claro que os estimadores corrigidos sempre apresentam melhor desempenho do que os
não corrigidos em termos de desvio absoluto do verdadeiro valor de Gini. Em particular,
nosso experimento numérico mostra que para amostras pequenas com n ÿ 1000 o
o ganho é bastante notável para todos os diferentes valores de ÿ ÿ (1, 2). Porém, como
esperado, a diferença entre os estimadores diminui com o tamanho da amostra, pois
o termo de correção diminui tanto em n quanto no índice de cauda ÿ. Observe que, quando
o índice de cauda é igual a 2, obtemos a distribuição gaussiana simétrica e o
dois estimadores coincidem, dado que, graças à finitude da variância, o
estimador não paramétrico não é mais tendencioso.
Estimador corrigido versus original, índice de cauda de dados = 1,6
0,1
0,1
Estimador corrigido versus original, índice de cauda de dados = 1,8
Estimador corrigido
Estimador corrigido
Estimador Original
8,0
8,0
Estimador Original
2,0
rodsa
em
roiltaosV
d
e
4,0
6,0
Valor real
0,0
0,0
2,0
rodsa
em
roiltaosV
d
e
4,0
6,0
Valor real
0
500
1000
1500
2000
0
500
Tamanho da amostra
1000
1500
2000
Tamanho da amostra
(a) ÿ = 1,8
(b) ÿ = 1,6
0,1
Estimador corrigido versus original, índice de cauda de dados = 1,2
0,1
Estimador corrigido versus original, índice de cauda de dados = 1,4
Estimador corrigido
Estimador corrigido
Estimador Original
8,0
8,0
Estimador Original
2,0
rodsa
em
roiltaosV
d
e
4,0
6,0
Valor real
0,0
0,0
2,0
rodsa
em
roiltaosV
d
e
4,0
6,0
Valor real
0
500
1000
Tamanho da amostra
(c) ÿ = 1,4
1500
2000
0
500
1000
1500
2000
Tamanho da amostra
(d) ÿ = 1,2
Figura 13.4: Comparações entre o estimador não paramétrico corrigido (em vermelho, o que está no topo) e
o estimador não paramétrico usual (em preto, o abaixo). Para tamanhos de amostra pequenos, o corrigido
melhora claramente a qualidade da estimativa.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13,6 conclusões 265
13.6 conclusões
Neste capítulo abordamos a questão do comportamento assintótico do estimador não paramétrico
do índice de Gini na presença de uma distribuição com variância infinita, questão que tem sido
curiosamente ignorada pela literatura. O erro central nos métodos não paramétricos amplamente
utilizados é acreditar que a consistência assintótica se traduz em propriedades pré-assintóticas
equivalentes.
Mostramos que uma abordagem paramétrica fornece melhores resultados assintóticos graças às
propriedades de estimativa de máxima verossimilhança. Portanto, sugerimos fortemente que, se
houver suspeita de que os dados coletados sejam de cauda gorda, os métodos paramétricos devem
ser preferidos.
Em situações onde uma abordagem totalmente paramétrica não pode ser utilizada, propomos um
mecanismo de correção simples para o estimador não paramétrico baseado na distância entre a
moda e a média de sua distribuição assintótica. Mesmo que a correção funcione bem, sugerimos
cautela na sua utilização devido à incerteza adicional proveniente da estimativa do prazo de
correção.
apêndice técnico
Prova do Lema 13.1
Seja U = F(X) a transformada de probabilidade integral uniformemente distribuída padrão da variável
como
=
aleatória X. Para as estatísticas de ordem, temos então [? ]: XI)
ÿ1
F (você(eu) ). Por isso
1 n
Rn =
n
ÿ (eu/n ÿ você(eu) )F
ÿ1
(Em(eu) ).
(13.22)
eu=1
Agora, pela definição de cdf empírica, segue-se que
1 n
Rn =
onde Fn(u) =
variáveis.
n
ÿ
ÿ1
(Fn(U(i) ) ÿ U(i) )F
(Em(eu) ),
(13.23)
eu=1
n
1nÿ i=1 1Uiÿu é o cdf empírico de dados aleatórios uniformemente distribuídos
eu
1
Para mostrar que Rn ÿÿ 0, vamos impor um limite superior que vai até zero.
Primeiro notamos que
1 n
E|Rn|ÿ
n
ÿ
eu=1
ÿ1
E|(Fn(U(i) ) ÿ U(i) )F
(Em(i) )|.
(13.24)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Estimativa de 266 gini sob variação infinita
Para construir um limite para o lado direito (rhs) de (13.24), podemos explorar o fato de
ÿ1
1
que, embora F -integrável,
(U(i) ) pode ser
apenas L) ÿ U(i) é L integrável, portanto podemos usar
Fn(U(i)
ÿ
Desigualdade de Hölder com q = ÿ e p = 1. Segue-se que
1
n
ÿ
n
1
ÿ1
E|(Fn(U(i) ) ÿ U(i) )F
(U(i) )|ÿ
n
eu=1
n
ÿ
ÿ1
E sup |(Fn(U(i) ) ÿ U(i) )|E|F
(Em(i) )|.
em (eu)
eu = 1
(13.25)
Então, graças à desigualdade de Cauchy-Schwarz, obtemos
n
1
ÿ
n
E sup |(Fn(U(i) ) ÿ U(i) )|E|F
eu=1
ÿ1
(Em (eu) )|
em (eu)
n
ÿ (1
2 1
ÿ
n
(E sup |(Fn(U(i) ) ÿ U(i) )|) n
eu=1
em (eu)
n
ÿ1
Agora, primeiro lembre-se que ÿ eu=1 F
como
(Em (s) )
ÿ1
sequência iid, então observe que E(F
(13.26) se torna
=ÿ
n
eu=1
F
ÿ1
n
ÿ
(E(F
ÿ1
eu=1
.
(13.26)
(In (i) )))2 )1 2
(Ui ) com Ui , i = 1, ..., n, sendo um
(Ui )) = µ, de modo que o segundo termo da Equação
n
µ (1
ÿ
n
eu=1
.
(E sup |(Fn(U(i) ) ÿ U(i) )|)
em (eu)
(13.27)
2 )1 2
O passo final é mostrar que a Equação (13.27) vai para zero quando n ÿ ÿ.
Sabemos que Fn é o fdc empírico de variáveis aleatórias uniformes. Usando a
desigualdade triangular, o termo interno da Equação (13.27) pode ser limitado como
1
n
ÿ
n
(E sup |(Fn(U(i) ) ÿ U(i) )|)
eu=1
ÿ
2
(13.28)
em (eu)
n
1
ÿ
n
(E sup |(Fn(U(i) ) ÿ F(U(i) ))|)
eu=1
2+
1
n
ÿ
n
eu=1
em (eu)
2
(E sup |(F(U(i) ) ÿ U(i) )|) .
em (eu)
Como estamos lidando com uniformes, sabemos que F(U) = u, e o segundo termo no rhs
de (13.28) desaparece.
Podemos então vincular E(supU(i) |(Fn(U(i) ) ÿ F(U(i) )|) usando a chamada desigualdade
de Vapnik-Chervonenkis (VC), um limite uniforme para processos empíricos [29, 55, 258],
obtendo
E sup
em (eu)
|(Fn(U(i) ) ÿ F(U(i) )|ÿÿ log(n + 1) + nlog(2)
.
(13.29)
Combinando a Equação (13.29) com a Equação (13.27) obtemos
n
µ (1
ÿ
n
eu=1
(E sup |(Fn(U(i) ) ÿ U(i) )|)
em (eu)
n
2 )1 2 ÿ µ ÿ log(n + 1) + log(2)
que vai para zero quando n ÿ ÿ, provando assim a primeira afirmação.
,
(13h30)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13,6 conclusões 267
Para a segunda afirmação, é suficiente observar que o rhs de (13.30) ainda vai para se ÿ ÿ (1, 2).
umaÿ1
n uma
zero quando multiplicado por
L0(n)
Prova do Teorema 1
A primeira parte da prova consiste em mostrar que podemos reescrever a Equação (13.10) como uma
função de variáveis aleatórias iid no lugar de estatísticas de ordem, para podermos aplicar um
argumento do Teorema do Limite Central (CLT).
Vamos começar considerando a sequência
n
1
ÿ
n
1
n
eu ÿ 1
ÿ
n
Z(eu) =
eu=1
eu=1
ÿ1
(2 n ÿ 1
d ÿ1
=F
Usando a transformação de probabilidade integral X
e adicionando e removendo ÿ
ser reescrito como
n
1
ÿ
n
1
Z(eu) =
eu=1
n
1
pode
n
n
ÿ
n
ÿ1
i=1 ( 2U(i) ÿ 1 ) F
ÿ
(Em (eu) ) +
n
(2U(i) ÿ 1)F
ÿ1
eu=1
eu=1
(U) com uniforme padrão U, (U(i) ), o
rhs na Equação (13.31)
n
1
ÿ1
(13.31)
(Em(eu) ).
ÿ1)F
2 (eun ÿÿ 11
ÿ você(i) )F
(Em(eu) ). (13.32)
Então, usando as propriedades das estatísticas de ordem [56] , obtemos a seguinte equivalência
quase certa
1
n
n
ÿ
como
=
Z(eu)
eu = 1
n
1
ÿ
n
(2Ui ÿ 1)F
ÿ1
n
1
(Ui ) +
eu=1
ÿ
n
ÿ1
eu=1
2 (eun ÿÿ 11
ÿ você(i) )F
(Em(eu) ).
(13.33)
Observe que o primeiro termo no rhs de (13.33) é uma função de variáveis aleatórias iid conforme
desejado, enquanto o segundo termo é apenas um lembrete, portanto
n
1
como
=
ÿ
n
Z(eu)
eu = 1
ÿ1
com Zi = (2Ui ÿ 1)F
n
1
ÿ
n
Zi + Rn,
eu=1
euÿ1
n
ÿ1
(Em(eu) ).
1n ÿ eu=1(2( nÿ1 ÿ você(i) ))F
(Ui ) e Rn =
Dada a Equação (13.10) e explorando a decomposição dada em (13.33) podemos
reescrever nossa afirmação como
n
a-1
n
a
L0(n) ( 1
n
n
ÿ
eu = 1
Z(i) ÿ ÿ ) =
a-1
uma-
n
a
L0(n) ( 1
n
1n
ÿ
eu=1
Zi ÿ ÿ ) +
a
L0(n)
Rn.
(13.34)
A partir da segunda afirmação do Lema 13.1 e do Teorema de Slutsky, a convergência na Equação
(13.10) pode ser provada observando o comportamento da sequência
n
uma-1
n
uma
L0(n) ( 1
n
ÿ
eu=1
(13h35)
Zi ÿ ÿ ),
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Estimativa de 268 gini sob variação infinita
‡
ÿ1
onde Zi = (2Ui ÿ 1)F
(Ui ) = (2F(Xi ) ÿ 1)Xi . Isso se reduz a provar que Zi está no
domínio de atração das caudas gordas.
Lembre-se que por suposição X ÿ DA(Sÿ) com ÿ ÿ (1, 2). Essa suposição nos permite
usar um tipo particular de argumento CLT para a convergência da soma de variáveis
aleatórias de cauda gorda. No entanto, primeiro precisamos provar que Z ÿ DA(Sÿ)
-a
também, ou seja, P(|Z|> z) ÿ L(z)z , com ÿ ÿ (1, 2) e L(z) variando lentamente.
Notar que
P(|Z˜|> z) ÿ P(|Z|> z) ÿ P(2X > z), onde
Z˜ = (2U ÿ 1)X e U ÿ X. O primeiro limite é válido por causa da dependência positiva entre
X e F(X) e pode ser provado rigorosamente observando que 2UX ÿ 2F(X)X pela chamada
desigualdade de rearranjo [122]. O limite superior, por outro lado, é trivial.
.
Usando as propriedades de funções de variação lenta, temos P(2X > z) ÿ 2 ÿL(z)z ÿÿ
Para mostrar que Z˜ ÿ DA(Sÿ), usamos o Teorema de Breiman, que garante a estabilidade
de a classe ÿ-estável sob produto, desde que a segunda variável aleatória não seja muito
de cauda gorda [267].
Para aplicar o Teorema reescrevemos P(|Z˜|> z) como
P(|Z˜|> z) = P(Z˜ > z) + P(ÿZ˜ > z) = P(UX˜ > z) + P(ÿUX˜ > z),
onde U˜ é um uniforme padrão com U˜ ÿ X.
Focamos em P(UX˜ > z), pois o procedimento é o mesmo para P(ÿUX˜ > z). Nós
ter
P(UX˜ > z) = P(UX˜ > z|U˜ > 0)P(U˜ > 0) + P(UX˜ > z|U˜ ÿ 0)P(U˜ ÿ 0),
para z ÿ +ÿ.
Agora, temos que P(UX˜ > z|U˜ ÿ 0) ÿ 0, enquanto, aplicando o Teorema de Breiman,
P(UX˜ > z|U˜ > 0) torna-se
P(UX˜ > z|U˜ > 0) ÿ E(U˜ ÿ |U > 0)P(X > z)P(U > 0).
Portanto
P(|Z˜|> z) ÿ
1
E( U˜a |U > 0)P(X > z) + 2
2
1
a
E((ÿU˜ ) |U ÿ 0)P(X > z).
A partir disso
1
P(|Z˜|> z) ÿ
2
=
P(X > z)[E(U˜ )
2
a
a
|U > 0) + E((ÿU˜ a |U ÿ 0)]
2a
P(X > z) ÿ
-a
eu(z)z
1ÿÿ1ÿÿ
.
Podemos então concluir que, pelo Teorema da compressão [91],
P(|Z|> z) ÿ L(z)z
ÿuma ,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
13,6 conclusões 269
como z ÿ ÿ. Portanto Z ÿ DA(Sÿ).
Agora estamos prontos para invocar o Teorema Generalizado do Limite Central (GCLT) [82]
para a sequência Zi , ou seja
n
ncÿ1
n ÿ
n (1
eu=1
(13.36)
ÿ Sá, b.
Dia - E (Dia )) d
com E(Zi ) = ÿ, Sÿ,ÿ uma variável aleatória padronizada ÿ-estável, e onde cn é uma sequência
que deve satisfazer
= ÿ(2 ÿ ÿ)|cos( ÿÿ )|2 = Ca.
nL(cn)
limnÿÿ
(13.37)
uma - 1
um c n
1
Observe que cn pode ser representado como cn = ÿ L0(n), onde L0(n) é outro
n função variável possivelmente diferente de L(n).
O parâmetro de assimetria ÿ é tal que
P(Z > z)
1+ .
b2
ÿ
P(|Z|> z)
Lembrando que, por construção, Z ÿ [ÿc, +ÿ), a expressão acima se reduz a
P(Z > z)
P(Z > z)
ÿ
P(Z > z) + P(ÿZ > z)
=1ÿ
P(Z > z)
1+
,
b2
(13.38)
portanto ÿ = 1. Isso, combinado com a Equação (13.34), o resultado para o lembrete Rn do Lema
13.1 e do Teorema de Slutsky, nos permite concluir que os mesmos limites fracos valem para a
sequência ordenada de Z(i) na Equação (13.10). ) também.
Prova do Teorema 2
n
ÿ
eu=1 Z(eu)
O primeiro passo da prova é mostrar que a sequência ordenada caracterizadaÿ Xi , i=1 ÿ izando
o níndice
de Gini, neu=1 Dia Em
é equivalente em distribuição à sequência iid. Para provar isso, basta aplicar a
n
XI .
ÿ
eu=1
fatoração na Equação ( 13.33) à Equação (13.11), obtendo
n
umaÿ1
n
uma-1
uma
eu=1
L0(n) ( ÿ ÿ
n
eu=1
Dia
XI
eu
eu
n
n uma
-
)+
Rn
L0(n) ÿ
n
eu=1
.
(13.39)
XI
Pelo Lema 13.1 e pela aplicação do mapeamento contínuo e dos teoremas de Slutsky, o segundo
termo na Equação (13.39) vai a zero pelo menos em probabilidade.
Portanto, para provar a afirmação é suficiente derivar um limite fraco para a seguinte sequência
umaÿ1
1
n uma
L0(n) ( ÿ ÿ
n
eu=1
n
eu=1
Dia
XI
eu
-
eu
).
(13h40)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
Estimativa de 270 gini sob variação infinita
Expandindo a Equação (13.40) e lembrando que Zi = (2F(Xi ) ÿ 1)Xi , obtemos
a-1
n
n
n
a
n
L0(n) ÿ
eu=1
ÿ
n
eu = 1
Xi (1
eu
(13.41)
Xi (2F(Xi ) ÿ 1 ÿ
ÿ )) .
n
O termo ÿ
1 na Equação (13.41) converge em probabilidade para µ por uma aplicação
XI
do Teorema do mapeamento contínuo, e pelo fato de estarmos lidando com variáveis aleatórias
n
eu=1
positivas X. Portanto, contribuirá para o limite final via Teorema de Slutsky.
Começamos primeiro focando no estudo da lei limite do termo
n
a-1
1
a
L0(n) n
Definir Zˆ
eu
= Xi (2F(Xi ) ÿ 1 ÿ
eu
eu
n
ÿ
eu=1
eu
Xi (2F(Xi ) ÿ 1 ÿ
eu
(13.42)
).
) e observe que E(Zˆ i ) = 0, pois E(Zi ) = ÿ e E(Xi ) = µ.
Para aplicar um argumento GCLT para caracterizar a distribuição limite de Zˆ i precisamos
uma1n
seqüência
GCLT para
a
L0(n)
1
n
ÿ
n
eu=1
provar que Zˆ ÿ DA(Sÿ). Se sim, então podemos aplicar
n
n
uma-1
uma
eu=1
Zˆ
eu
(13.43)
n
L0(n) ( ÿ
ÿ E(Zˆi ) ) .
Observe que, como E(Zˆ i ) = 0, a Equação (13.43) é igual à Equação (13.42).
Para provar que Zˆ ÿ DA(Sÿ), lembre-se que Zˆ
eu
= Xi (2F(Xi ) ÿ 1 ÿ
eu
eu
) é apenas Zi =
eu
Xi (2F(Xi ) ÿ 1) deslocado por . euPortanto o mesmo argumento usado no Teorema 1 para Z se
aplica aqui para mostrar que Zˆ ÿ DA(Sÿ). Em particular, podemos apontar que Zˆ e Z (portanto
também X) compartilham a mesma função ÿ e de variação lenta L(n).
Observe que pela suposição X ÿ [c, ÿ) com c > 0 e estamos lidando com distribuições contínuas,
portanto Zˆ ÿ [ÿc(1 + ), ÿ). Como consequência a cauda
esquerda de Zˆ não contribui para alterar
eu
eu
o parâmetro limite de assimetria ÿ, que permanece igual a 1 (como para Z) por uma aplicação da
Equação (13.38).
Portanto, aplicando a GCLT finalmente obtemos
n
a-1
a
1ÿ (
L0(n) ÿ
n
eu=1
Dia
n
eu=1
XI
eu
-
sou
_
d ÿÿ
1S (ÿ, 1, 1, 0).
eu
(13.44)
Concluímos a prova notando que, como provado na Equação (13.39), o fraco, em vez de
n
ÿ Dia
limite do índice de Gini é caracterizado pela sequência iid de i=1 a ordenada,ÿ eneu=1 XI
que uma variável aleatória ÿ-estável é fechada sob escalonamento por uma constante [209].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
14 SOBRE O SUPER - ADICIONALIDADE E
ESTIMAÇÃO EM IONBIASESOFQUANTILE
CONTRIBUIÇÕES ‡
S
amplas medidasa das contribuições do percentil superior para o total (concentralização) são estimadores instáveis, tendenciosos para baixo,
extremamente sensíveis ao tamanho da amostra e côncavos na
contabilização de grandes desvios. Isso os torna particularmente
inadequados em domínios com caudas da Lei de Potência, especialmente para valores baixos
Estes estimadores podem variar ao longo do tempo e aumentar com o tamanho da população,
como mostrado neste artigo, proporcionando assim a ilusão de mudanças estruturais na
concentração. Eles também são inconsistentes nas distribuições de agregação e mistura, já
que a média ponderada das medidas de concentração para A e B tenderá a ser menor do
que a de A ÿ B. Além disso, pode ser mostrado que sob tais caudas grossas, aumentos em a
soma total precisa ser acompanhada por um aumento no tamanho da amostra da medição
da concentração. Examinamos a superaditividade e o viés da estimativa sob distribuições
homogêneas e mistas.
a Com R. Douady
14.1 introdução
Vilfredo Pareto notou que 80% das terras na Itália pertenciam a 20% da população, e vice-versa,
dando assim origem à classe de distribuições da lei de potência e ao ditado popular 80/20. A autosemelhança no cerne da propriedade das leis de potência [162] e [163] nos permite recorrer e
reaplicar o 80/20 aos 20% restantes, e assim por diante, até obter o resultado de que a porcentagem
superior da população possuirá cerca de 53% da riqueza total.
Parece que tal medida de concentração pode ser seriamente distorcida, dependendo de como é
medida, por isso é muito provável que a verdadeira proporção de concentração de
Capítulo de pesquisa.
271
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
272 sobre os vieses de superaditividade e estimativa de contribuições quantílicas
Figura 14.1: O jovem Vilfredo
Pareto, antes de descobrir as
leis de potência.
o que Pareto observou, ou seja, a participação do percentil superior, estava mais próximo de 70%,
portanto, as mudanças anuais seriam mais elevadas para convergir para tal nível de
amostra maior. Na verdade, como mostraremos nesta discussão, para, digamos, riqueza, mais
amostras completas resultantes do progresso tecnológico, e também o maior crescimento
populacional e econômico farão convergir tal medida, aumentando ao longo
tempo, por nenhuma outra razão além da expansão no espaço amostral ou no valor agregado.
O cerne do problema é que, para a classe de variáveis aleatórias unicaudais de cauda gorda, ou
seja, limitadas à esquerda e ilimitadas à direita, onde a variável aleatória
variável X ÿ [xmin, ÿ), a contribuição do quantil na amostra é um estimador tendencioso de
o verdadeiro valor da contribuição real do quantil.
Vamos definir a contribuição do quantil
E[X|X > h(q)]
ÿq = q
ANTIGO]
onde h(q) = inf{h ÿ [xmin, +ÿ), P(X > h) ÿ q} é o limite de excedência para
a probabilidade q.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
14.2 estimativa para distribuições não misturadas com cauda pareto 273
q percentil
Para uma dada amostra (Xk )1ÿkÿn , seu estimador "natural" ÿq ÿ da
, usado em
total
maioria dos estudos acadêmicos, pode ser expresso, como
ÿ
ÿÿ
n
i=1 1Xi>ˆh(q) Xi ÿq
n
eu=1 XI
onde ˆh(q) é o limite de excedência estimado para a probabilidade q :
1 n
ˆh(q) = inf{h :
n
ÿ 1x>h ÿ q}
eu=1
Veremos que a variável observada ÿq é um estimador tendencioso para baixo da razão
verdadeira ÿq, aquela que se manteria fora da amostra, e tal tendência é proporcional à gordura
das caudas e, para distribuições de cauda muito espessa, permanece significativa, mesmo para
amostras muito grandes.
14.2 estimativa para distribuições pareto-caudadas não misturadas
Seja X uma variável aleatória pertencente à classe de distribuições com cauda direita "lei de
potência", ou seja:
-a
P(X > x) = L(x) x
(14.1)
L(kx) =
onde L : [xmin, +ÿ) ÿ (0, +ÿ) é uma função de variação lenta, definida como limxÿ+ÿ L(x) 1 para
qualquer k > 0.
Há pouca diferença para pequenos quantis de excedência (<50%) entre as diversas
distribuições possíveis, como t de Student, Lévy ÿ-estável, Dagum,[53],[54]
Distribuição Singh-Maddala [213], ou Pareto direto.
Para expoentes 1 ÿ ÿ ÿ 2, conforme observado em [235] (Capítulo 8 deste livro), a lei dos
grandes números opera, embora de forma extremamente lenta. O problema é agudo para ÿ
próximo, mas estritamente acima de 1 e grave, à medida que diverge, para ÿ = 1.
14.2.1 Viés e Convergência
Distribuição de Pareto Simples Consideremos primeiro ÿÿ(x) a densidade de uma ÿ-Pareto
a
distribuição limitada de baixo por xmin > 0, ou seja: ÿÿ(x) = ÿx e P(X > x) = ( xmin ) minx ÿÿÿ11xÿxmin ,
ÿ . Sob essas suposições,
x o ponto de corte de excedência é ÿ1/ÿ e temos: h(q) = xmin q
ÿ
ÿ x ÿ(x)dx h(q)
ÿq =
ÿ
ÿ
xmin
xÿ (x)dx
a-1
= ( h(q)
xmin ) 1ÿÿ
=q
a
(14.2)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
274 sobre os vieses de superaditividade e estimativa de contribuições quantílicas
Se a distribuição de X for ÿ-Pareto apenas além de um ponto de corte xcut, que assumimos
estar abaixo de h (q), de modo que temos P (X > x) = ( ÿx ) ÿ
para algum ÿ > 0, então ainda
temos h (q) = ÿq ÿ1/ÿ e
a
eu
ÿq = q ÿ ÿ 1 E [X]
a-1
a
A estimativa de ÿq, portanto, requer a do expoente ÿ , bem como a do parâmetro de escala ÿ,
ou pelo menos sua razão com a expectativa de X.
A Tabela 14.1 mostra o viés de ÿq como estimador de ÿq no caso de uma distribuição ÿPareto para ÿ = 1,1, valor escolhido para ser compatível com medidas econômicas práticas,
como a distribuição de riqueza no mundo ou em um determinado país , incluindo os
desenvolvidos.2 Nesse caso, o estimador é extremamente sensível a amostras "pequenas", o
que significa "pequeno" na prática 108 . Executamos até um trilhão de simulações em diversos
tamanhos de amostra. Embora ÿ0,01 ÿ 0,657933, mesmo um tamanho de amostra de 100
milhões permanece severamente tendencioso, como pode ser visto na tabela.
Naturalmente, o viés é rapidamente (e não linearmente) reduzido para ÿ mais distante de 1,
e torna-se fraco na vizinhança de 2 para um ÿ constante, embora não sob uma distribuição
mista para ÿ, como veremos mais tarde. Também é mais fraco fora do percentil superior de
1%, por isso esta discussão centra-se no famoso “um por cento” e nos valores baixos do
expoente ÿ .
Tabela 14.1: Vieses do estimador de ÿ = 0,657933 De 1012 Realizações de Monte Carlo
Média Mediana STD em MC varia
m(n)
0,160244 0,117917
ÿ(103 ) 0,405235 0,367698
ÿ(104 ) 0,485916 0,458449
ÿ(105 ) 0,539028 0,516415 ÿ(106)
0,581384 0,555997 ÿ (107)
0,5915 06 0,57526 2k ( 108 )
0,606513 0,593667
0,0931362
0,0853593
0,0601528
0,0461397
Tendo em vista esses resultados e uma série de testes que realizamos em torno deles,
podemos conjecturar que o viés ÿq ÿ ÿq(n) é "da ordem de" c(ÿ, q)n ÿb(q)(ÿ ÿ1) onde as
constantes b(q) e c(ÿ, q) precisam ser avaliadas. As simulações sugerem que b(q) = 1, qualquer
que seja o valor de ÿ e q, mas a convergência bastante lenta do estimador e do seu desvio
padrão para 0 torna difícil uma estimativa precisa.
Caso Geral No caso geral, vamos fixar o limite h e definir:
= P(X > h)
E[X|X > h] ÿh = E[X1X>h ]
ANTIGO]
ANTIGO]
2 Este valor, inferior aos expoentes estimados encontrados na literatura – em torno de 2 – é,
seguindo [86], uma estimativa inferior que não pode ser excluída das observações.
‡
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
14.2 estimativa para distribuições de cauda pareto não misturadas 275
então temos ÿq = ÿh(q) . Também definimos o estimador de n amostras:
ÿ
ÿh ÿ
n
i=1 1Xi>hXi
ÿ neu=1 XI
onde Xi são n cópias independentes de X. A intuição por trás do viés de estimativa de ÿq por
ÿq reside em uma diferença de concavidade da medida de concentração em relação a uma
inovação (um novo valor de amostra), quer ela caia abaixo ou acima do limite. Deixe Ah (n) =
n
ÿ i=1 1Xi>hXi e S(n) = ÿ assumir
um limite congelado h.
n
Ah (n)
XI , de modo que ÿh (n) = e
S(n)
Se um novo valor amostral Xn+1 < h então o novo valor Ah (n) é ÿh (n + 1) = . O valor é
eu=1
convexo em Xn+1 de modo que a incerteza em Xn+1 S(n) + Xn+1 aumenta sua expectativa.
Em variância,
se o novo valor amostral Xn+1 > h, o novo valor Ah(n)+Xn+1ÿh S(n)ÿAh(n) ÿh ( n + 1) ÿ que
agora é côncavo
Xn+ 1, S(n)
= 1em
ÿincerteza
+Xn+1ÿh S(n)+Xn+1ÿhentre
, de modo
em Xn+1
reduz seu valor. A competição
estes que
dois aefeitos
opostos
é
a favor deste último, devido a uma maior concavidade em relação à variável, e também a
uma maior variabilidade (qualquer que seja a sua medição) da variável condicionalmente a
estar acima do limiar do que a estar abaixo. Quanto mais espessa for a cauda direita da
distribuição, mais forte será o efeito. No geral, descobrimos que E [Ah (n)] = ÿh (observe que
descongelar o limite ˆh(q) também tende a E [ÿh (n)] ÿ E [S(n)] reduzir a estimativa da medida
de
devido a um
concentração, adicionando a o efeito, ao introduzir uma amostra extra
ligeiro
aumento no valor esperado do estimador ˆh(q), embora este efeito seja bastante insignificante).
Na verdade temos o seguinte:
Proposição 14.1
n
Seja X = (X) uma
amostra aleatória de tamanho n >
eu=1
1,
q
Y = Xn+1 um único aleatório extra
n
ÿ i=1
1Xi>hXi + 1Y>hY
observação, e defina: ÿh (X ÿ Y) = . Observamosn que, sempre que Xi + Y
ÿ eu=1
Y > h, tem-se:
ÿ 2 ÿh (X ÿ Y)
ÿY2
ÿ 0.
Esta desigualdade ainda é válida com ÿq pois o valor ˆh(q, X ÿ Y) não depende do valor
particular de Y > ˆh(q, X).
Enfrentamos uma situação diferente do efeito comum de pequenas amostras resultante do
alto impacto da rara observação nas caudas que são menos prováveis de aparecer em
amostras pequenas, um viés que desaparece pela repetição de execuções de amostras. A
concavidade do estimador constitui um limite superior para a medição em n finito, cortando
grandes desvios, o que leva a problemas de agregação como afirmaremos a seguir no
Teorema 1.
Na prática, mesmo em amostras muito grandes, a contribuição de eventos raros muito
grandes para ÿq retarda a convergência do estimador amostral para o valor verdadeiro. Para
uma estimativa melhor e imparcial, seria necessário usar um caminho diferente: primeiro
estimar os parâmetros de distribuição ( ÿˆ, ÿˆ ) e só então estimar a contribuição teórica da
cauda ÿq(ÿˆ, ÿˆ ). Falk [86] observa que, mesmo com um estimador adequado de ÿ e ÿ, a
convergência é extremamente lenta, nomeadamente da ordem de n ÿÿ/ln n, onde
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
276 sobre os vieses de superaditividade e estimativa de contribuições quantílicas
KXiY
0,95
0,90
0,85
Figura 14.2: Efeito de
observações adicionais em ÿ
0,80
0,75
0,70
0,65
20.000
40.000
60.000
80.000
E
100.000
KXiY
0,626
Figura 14.3: Efeito de
observações adicionais em ÿ,
podemos ver convexidade em
ambos os lados de h, exceto
para valores sem efeito à
esquerda de h, uma área de ordem 1/n
0,624
0,622
E
20
40
60
80
100
o expoente ÿ depende de ÿ e da tolerância da distribuição real versus um Pareto
teórico, medido pela distância de Hellinger. Em particular, ÿ ÿ 0 como ÿ ÿ 1, tornando
a convergência muito lenta para valores baixos de ÿ.
14.3 uma desigualdade sobre a desigualdade agregada
j Para a estimativa da média de um rv de cauda gorda em m subamostras de
eu
(X) cada um para um totalde n tamanho ni a alocação do número total de observações
= ÿ i=1 ni , n entre i e j não importa, desde que o total n permaneça inalterado. Aqui,
a alocação de n amostras entre m subamostras é importante devido à concavidade
de ÿ. 3 Em seguida provamos que a concentração global medida por ÿq num amplo
conjunto de dados parecerá superior à concentração local, pelo que a agregação de
dados europeus, por exemplo, daria um ÿq superior à medida média de concentração
entre países – uma "desigualdade sobre desigualdade". Em outras palavras,
afirmamos que o viés de estimativa ao usar ÿq(n) aumenta ainda mais quando se divide
eu ,
3 A mesma concavidade – e tendência geral – aplica-se quando a distribuição é lognormal e é exacerbada
por alta variância.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
14.3 uma desigualdade sobre a desigualdade agregada 277
a amostra em subamostras e tomando a média ponderada dos valores medidos ÿq(ni ).
Teorema 4
Particione os n dados em m subamostras N = N1 ÿ . . . ÿ Nm dos respectivos tamanhos
eu
n1 , . . . , nm, com ÿ i=1 ni = n, e seja S1 , . . . , Sm é a soma das variáveis de cada subamostra e S = ÿ
eu
eu=1
Seja isso em toda a amostra. Então nós temos:
eu
E [ ÿq(N) ] ÿ ÿ
eu=1
Bem, sim
S]
E [ ÿq(Ni ) ]
Se assumirmos ainda que a distribuição das variáveis Xj é a mesma em todas as subamostras.
Então nós temos:
eu
em
n E [ ÿq(Ni )]
E [ ÿq(N) ] ÿ ÿ
eu=1
Por outras palavras, a média das medidas de concentração das subamostras, ponderadas pela soma
total de cada subamostra, produz uma estimativa tendenciosa para baixo da medida de concentração da
amostra completa.
Prova. Uma indução elementar reduz a questão ao caso de duas subamostras.
Sejam q ÿ (0, 1) e (X1 , . . . , Xm) e ( X variáveis 1 , . . . , X n ) ser duas amostras de iid positivo
'
'
'está tendo distribuição
aleatórias, os Xi tendo distribuições p(dx) e os X j ÿ (dxÿ ). Para simplificar,
assumimos que ambos qm e qn são inteiros. Definimos ção p
eu
S=
n
ÿ
mq
' . Definimos A = X[i]ÿ onde X[i] é o i-ésimo maior valor de
' = ÿ X eu
Xi e S
eu=1
eu=1
eu=1
mq
'= ÿ
(X1 ,..., Xm) e A
X
'
ÿ onde X
[eu] [eu]
é o i-ésimo maior valor de (X
'
'
1 , . . . , X n ).
eu=1
Também definimos S
(m+n)q
X onde X [i] [i]
ÿ
“ = S + S ' e A” =
“
“
é o i-ésimo maior valor de
eu=1
'
1,...,X
a amostra conjunta (X1 , . . . , Xm, X
ÿ
n
).
A medida de q-concentração para as amostras X = (X1 , ..., Xm), X e X ) são:
= (X1 , . . . , Xm, X 1 , . . . , X n
“
'
'
A
k=
'K
S
=
A
'
K
'' = A
' = (X 1' , ..., X ' )
“
S”
S'
Devemos provar que a seguinte desigualdade é válida para as medidas de concentração esperadas.
certeza:
'
E [ ÿ "] ÿ E [ S
S ' ] E [k] + E [S See More
S'
Observamos que:
A = máx Jÿ{1,...,m}
iÿJ |J|=ÿm
ÿ
XI
] E [ Sr.
']
n
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
278 sobre os vieses de superaditividade e estimativa de contribuições quantílicas
‡
e, da mesma ' = maxJ ÿÿ{1,...,n},|J ÿ |=qn ÿiÿJ ÿ' Xe um
= maxJ
“ "ÿ{1,...,m+n},|J" |=q (m+n) ÿiÿJ “ Xi , para
forma, A onde denotamos Xm+i i = 1 . . . n. Se J ÿ {1, ..., m} , |J| = ÿm tem cardinal
'
m + n, portanto = J ÿ J
= X e Jÿ {m + 1, ..., m + n} , |J | = qn, então J
eu
eu
'
= ÿiÿJ “ Xi ÿ
'
A e temos:
“,
Um + Um
'
'
“
qualquer que seja a amostra específica. Portanto k
S __
“ÿ
S”
S'k + k
'
S”
'K
S ” k ] + E [S S ” ' ]
E [ ÿ "] ÿ E [ S
Vamos agora mostrar que:
E [S S ” k ] = E [ UMA
S ' ] ÿ E [S
MAR _ _ S]
Se for esse o caso, então obtemos de forma idêntica para ÿ :
'
'
'K
S ' ] ÿ E [S
E [S S ” ÿ ] = E [ UMA
'
'
MAR _ _ S ' ]
portanto teremos:
E [ ÿ "] ÿ E [ S
'
S ' ] E [k] + E [S See More
S'
] E [ Sr.
']
Seja T = X[mq] o ponto de corte (onde [mq] é a parte inteira de mq), tal que ÿ ÿ Xi1XiÿT e seja B =
eu
UMA =
eu
S ÿ eAB= são
Xi1Xi<T. Condicionalmente a T, A
eu=1
eu=1
independente: A é uma soma se mÿ amostras determinadas a estarem acima de T,
enquanto B é a soma de m(1 ÿ ÿ) amostras independentes restritas a estarem abaixo de T.
. Sejam pA(t, da) e pB(t, db) a distribuição de A e B e
Elas também são
denotam
independentes
de S ÿ (dsÿ
respectivamente, dado
T = t. Lembramos
que) é a distribuição de S
pq(dt) é o de T. Temos:
'
'
E [S S ” k ] =
a+
a
(dsÿ
ba + b + s q(dt) pa
+ b) pA(t, da) pB(t, db)
'
Para dados b, t e s' ,
uma ÿ
a+b
a+b+s ÿ
e um ÿ
um a + b
ÿ
são duas funções crescentes de
mesma variável a, portanto condicionalmente a T, B e S , temos:
'
E [S S ”
Senhor T, B, S
A+B+Sÿ
ÿ ] = E [ UMA
T, B, S
+ B+
+B
Sÿ
ÿ ] ÿ E [A
UMA
T, B, S
Sendo esta desigualdade válida para quaisquer valores de
expectativa dicional T, B e S, temos:
E [S S ” ÿ ] ÿ E [ S MAR _ _ S]
',
+B
' ] ESTÁAEM
T, B, S
']
é válido para o inconstante
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
14.4 distribuições mistas para o expoente da cauda 279
Se as duas amostras tiverem a mesma distribuição, teremos:
n
eu
E [ ÿ "] ÿ
m+n
E [k] +
'
m + n E [ Sr. ]
eu
eu
Na verdade, neste caso, observamos que E [ SS " ] =
m+n . Na verdade S = ÿeu=1 Xi e o Xi
“
são distribuídos de forma idêntica, portanto E [ SS " ] = mE [ XS " ] . Mas também temos E [ SS ' ] =
1
mês + n
1 = (m + n)E [ XS " ] portanto E [ XS " ] = . Da mesma
forma, E [ SS ” ] =
'
n
m+n , produzindo o
resultado.
Isso acaba com a prova do teorema.
Seja X uma variável aleatória positiva e h ÿ (0, 1). Lembramos a medida teórica de concentração
h, definida como:
P(X > h)E [X |X > h ] ÿh =
E [X]
A(n)
enquanto a medida de concentração ÿ de n amostras é ÿh (n) = onde A(n)como
e S(n) , S(n) são definidos
acima para uma n-amostra X = (X1 , . . . , Xn) de variáveis iid com a mesma distribuição de X.
Teorema 5
Para qualquer n ÿ N, temos:
E [ÿh (n)] < ÿh
e
limão
nÿ+ÿ
ÿh (n) = ÿh como e em probabilidade
Prova. O corolário acima mostra que a sequência nE [ÿh (n)] é superaditiva, portanto E [ÿh (n)] é
uma sequência crescente. Além disso, graças à lei dos grandes números, A(n) converge quase
1
1
certamente enem
probabilidade
paracom
E [X1X>h
] =eP(X
h)E [X |X > hpara
], portanto,
S(n)
converge quase
certeza
em >
probabilidade
E [X] e sua proporção
n
também converge quase certamente para ÿh . Por outro lado, esta razão é limitada por 1. O teorema
da convergência dominada por Lebesgue conclui o argumento sobre a convergência em
probabilidade.
14.4 distribuições mistas para o expoente da cauda
Considere agora uma variável aleatória X, cuja distribuição p(dx) é uma mistura de distribuições
paramétricas com diferentes valores do parâmetro: p(dx) =
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
280 sobre os vieses de superaditividade e estimativa de contribuições quantílicas
Figura 14.4:
Pierre Simon,
Marquês de
Laplace. Ele obteve
seu nome em uma
distribuição e em
alguns resultados,
mas estava por
trás das
distribuições de
Cauchy e
Gaussiana (ver a
lei da eponímia de Stigler [218]).
Retrato
póstumo de JeanBaptiste Paulin
Guérin, 1838.
eu
ÿ i=1 ÿi pÿi (dx). Uma n-amostra típica de X pode ser feita de ni = ÿ em amostras de Xÿi com distribuição pÿi . O
teorema acima mostra que, neste caso, temos:
eu
E [ ÿq(n, X) ] ÿ ÿ
eu=1
S(n,
E [ S(ÿin,
Xÿi ) X)
] E [ ÿq(ÿin, Xÿi ) ]
S(ÿin, Xÿi )
Quando n ÿ +ÿ, cada razão converge
quase certamente para ÿi respectivamente,
S(n, X)
portanto temos a seguinte desigualdade de convexidade:
eu
ÿq(X) ÿ ÿiÿq(Xÿi
ÿ
)
eu=1
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
14.4 distribuições mistas para o expoente da cauda 281
O caso da distribuição de Pareto é particularmente interessante. Aqui, o parâmetro ÿ representa
o expoente final da distribuição. Se normalizarmos as expectativas para 1,
o cdf de Xÿ é Fÿ(x) = 1 ÿ ( x
xmin )ÿÿ e temos:
uma-1
ÿq(Xÿ) = q
uma
e
2
d
(registro q)
uma-1
dÿ 2 ÿq (Xÿ) = q
uma
>0
3a _
Portanto, ÿq(Xÿ) é uma função convexa de ÿ e podemos escrever:
eu
ÿq(X) ÿ
ÿ ÿiÿq(Xÿi ) ÿ ÿq(Xÿ ÿ )
eu=1
eu
onde ÿ¯ = ÿ i=1 ÿiÿ.
Suponha agora que X é uma variável aleatória positiva com distribuição desconhecida, exceto
que sua cauda decai como uma potência baixa com expoente desconhecido. Uma estimativa
imparcial do expoente, com necessariamente alguma incerteza (ou seja, uma distribuição de
possíveis valores verdadeiros em torno de alguma média), levaria a uma estimativa tendenciosa
para baixo de ÿq.
Como a medida de concentração depende apenas da cauda da distribuição, esta desigualdade
também se aplica no caso de uma mistura de distribuições com decaimento de potência, como
na Equação 23.1:
N
P(X > x) =
(14.3)
ÿ ÿiLi (x)x ÿÿj
j=1
A menor incerteza sobre o expoente aumenta o índice de concentração.
Pode-se obter uma estimativa real desse viés considerando uma média ÿ¯ > 1 e dois valores
+
circundantes ÿ = ÿ + ÿ e ÿ = ÿ ÿ ÿ. A convexidade escreve-se desigualmente da seguinte forma:
ÿq(ÿ) = q
1ÿ
1
ÿ¯ <
1
1ÿ 1ÿ 1uma+d + q
2 (q
1
a-d )
Portanto, na prática, um ÿ¯ estimado em torno de 3/2, às vezes chamado de expoente "meio
cúbico", produziria resultados semelhantes aos do valor de ÿ muito mais próximo de ro 1, como
usamos na seção anterior. Simplesmente ÿq(ÿ) é convexo e dominado pelo segundo
1ÿ
efeito de ordem ln(q)q
1
ÿ+ÿ (ln(q)ÿ2(ÿ+ÿ)) , um efeito que é exacerbado em valores mais baixos de ÿ.
4
(ÿ+ÿ)
Para mostrar quão pouco confiáveis são as medidas de concentração de desigualdade a partir
de quantis, considere que um erro padrão de 0,3 na medição de ÿ faz com que ÿq(ÿ) aumente
em 0,25.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
282 sobre os vieses de superaditividade e estimativa de contribuições quantílicas
14.5 uma soma total maior é acompanhada por aumentos em ÿq
n
ÿ
Existe uma grande dependência entre o estimador ÿq e a soma S =
Xj :
j=1
condicional a um aumento em ÿq a soma esperada é maior. Na verdade, como mostrado no teorema
4, ÿq e S estão positivamente correlacionados.
Para o caso em que as variáveis aleatórias em causa são a riqueza, observamos como na Figura
14.5 esse aumento condicional; por outras palavras, como a distribuição é da classe de caudas
grossas em consideração, o máximo é da mesma ordem que a soma, riqueza adicional significa
desigualdade mais medida. Sob tal dinâmica, é bastante absurdo presumir que riqueza adicional
surgirá da base ou mesmo do meio. (O mesmo argumento pode ser aplicado a guerras, pandemias,
tamanho ou empresas, etc.)
K
n104
1,0
0,9
0,8
0,7
Figura 14.5: Efeito da riqueza
adicional em ÿˆ
0,6
0,5
0,4
0,3
Fortuna
60.000
80.000
100.000
120.000
14.6 conclusão e estimativa adequada de concentração
A concentração pode ser elevada ao nível do gerador, mas em pequenas unidades ou subsecções
observaremos um ÿq inferior. Assim, examinando as séries temporais, podemos facilmente obter uma
ilusão histórica de um aumento, digamos, na concentração de riqueza, quando esta sempre existiu ao
nível do processo; e uma expansão no tamanho da unidade medida pode ser parte da explicação.4
Mesmo a estimativa de ÿ pode ser tendenciosa em alguns domínios onde não se
veja o quadro completo: na presença de incerteza sobre o "verdadeiro" ÿ, pode ser mostrado que, ao
contrário de outros parâmetros, o que deve ser usado não são os expoentes ponderados pela
probabilidade (a média padrão), mas sim o mínimo em uma seção de ex-poentes.
Não se devem realizar análises de variações homólogas de ÿq sem ajustamento.
Não escapou à nossa atenção que algumas teorias são construídas com base em afirmações de tal
“aumento” da desigualdade, como em [191], sem levar em conta a verdadeira natureza da desigualdade.
4 A riqueza acumulada é tipicamente mais espessa do que o rendimento, ver [99].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
14.6 conclusão e estimativa adequada da concentração 283
ÿq, e promulgar teorias sobre a "variação" da desigualdade sem referência à estocasticidade
da estimativa - e a falta de consistência de ÿq ao longo do tempo e das subunidades. O que é
pior, a rejeição de tais teorias também ignorou o efeito de tamanho, ao contrapor-se a dados
de um tamanho de amostra diferente, tornando efetivamente o diálogo sobre a desigualdade
estatisticamente não informativo.5 O erro parece
ser comumente cometido em inferências comuns sobre dados de cauda gorda em a literatura.
A própria metodologia de utilização da concentração e mudanças na concentração é altamente
questionável. Por exemplo, na tese de Steven Pinker [194] de que o mundo está se tornando
menos violento, notamos uma inferência falaciosa sobre a concentração dos danos das guerras
de um ÿq com população minuciosamente pequena em relação à cauda gorda.6 Devido a
Considerando a grande quantidade de vítimas de guerra e as consequências dos conflitos
violentos, um ajustamento invalidaria rapidamente tais alegações de que a violência da guerra
sofreu um declínio estatístico.
14.6.1 Métodos robustos e uso de dados exaustivos
Muitas vezes enfrentamos argumentos do tipo “o método de medir a concentração a partir de
contribuições quantílicas ÿˆ é robusto e baseado em um conjunto completo de dados”. Métodos
robustos, infelizmente, tendem a falhar com dados de cauda gorda, ver Capítulo 8. Mas, além
disso, o problema aqui é pior: mesmo que tais métodos “robustos” fossem considerados
imparciais, um método de estimativa directa de percentis ainda está ligado a uma população
estática e específica e não agrega. Conseqüentemente, tais técnicas não nos permitem fazer
afirmações estatísticas ou declarações científicas sobre as verdadeiras propriedades que
deveriam necessariamente ser realizadas na amostra.
Contrate uma seguradora (ou, melhor, resseguradora). Os lucros “contábeis” em um ano em
que houve poucos sinistros não refletem na situação “econômica” da empresa e é inútil fazer
declarações sobre a concentração de perdas por evento segurado com base em uma amostra
de um único ano. Os lucros “contábeis” não são utilizados para prever variações ano a ano,
mas sim a exposição a eventos de cauda (e outros), análises que levam em conta a natureza
estocástica do desempenho. Esta diferença entre valores “contábeis” (determinísticos) e
“econômicos” (estocásticos) é importante para a formulação de políticas, especialmente sob
caudas grossas. O mesmo acontece com as guerras: não estimamos a gravidade de um risco
(futuro) com base em dados históricos anteriores da amostra.
14.6.2 Como devemos medir a concentração?
Os profissionais de gestores de risco tendem agora a calcular CVaR e outras métricas,
métodos que são extrapolativos e não côncavos, como as informações do expoente ÿ , levando
aquele mais próximo do limite inferior do intervalo de expoentes, como nós
5 Financial Times, 23 de maio de 2014 "Descobertas de Piketty prejudicadas por erros", por Chris Giles.
6 Usando os dados de Richardson, [194]: "(As guerras) seguiram uma regra 80:2: quase oitenta por cento das mortes foram causadas
por dois por cento (enf. dele) das guerras". Assim, parece que tanto Pinker como a literatura citada para as propriedades
quantitativas dos conflitos violentos estão a utilizar uma metodologia falha, que produz um enviesamento grave, uma vez que a
estimativa do percentil tem enviesamentos extremamente grandes com guerras de cauda gorda. Além disso, as afirmações sobre
a média tornam-se espúrias em expoentes baixos.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
284 sobre os vieses de superaditividade e estimativa de contribuições quantílicas
vimos em nossa extensão ao Teorema 2 e redescobrir o ÿ correspondente, ou, mais
rigorosamente, integrar as funções de ÿ entre os vários estados possíveis. Tais
métodos de ajustamento são menos tendenciosos e não se confundem com problemas
de agregação – são semelhantes aos métodos de “volatilidade estocástica” em
finanças matemáticas que consistem em ajustamentos aos preços das opções
adicionando um “sorriso” ao desvio padrão. , proporcionalmente à variabilidade do
parâmetro que representa a volatilidade e aos erros na sua medição. Aqui seria "alfa
estocástico" ou "expoente da cauda estocástica "7. Por extrapolativo, queremos dizer
a extensão incorporada da cauda na medição, levando em consideração realizações
fora do caminho da amostra que excedem os extremos observados.8 9
reconhecimento
O falecido Benoit Mandelbrot, Branko Milanovic, Dominique Guéguan, Felix Salmon,
Bruno Dupire, o falecido Marc Yor, Albert Shiryaev, a equipe do Restaurante Luciano
no Brooklyn e Naya em Manhattan.
7 Observe também que, além do problema de estimativa do percentil, alguns autores como [192] ao lidar com dados censurados,
usam interpolação de Pareto para informações insuficientes sobre as caudas (com base no parâmetro cauda), preenchendo o
colchete com média condicional contribuição de colchetes, que não é a mesma coisa que usar extensão total da lei de potência;
tal método mantém um viés significativo.
8 Mesmo a utilização de uma distribuição lognormal, ao ajustar o parâmetro de escala, funciona até certo ponto, pois um aumento
do desvio padrão extrapola a massa de probabilidade para a cauda direita.
9 Observamos também que os teoremas também se aplicariam aos saltos de Poisson, mas nos concentramos no caso da lei de
potência na aplicação, já que os métodos para ajustar os saltos de Poisson são interpolativos e provaram ser mais fáceis de
ajustar na amostra do que fora da amostra.
‡
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Parte V
MOMENTOS DE SOMBRA PA PERS
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
15 MOMENTOS DE SOMBRA
AP PA RENT LY INFINITE - MEAN
FENÔMENOS ‡
T
este capítulo propõe uma abordagem para calcular os momentos
condicionais de fenômenos de cauda gorda que, apenas olhando para os
dados, poderiam ser erroneamente considerados como tendo média
infinita. Este tipo de problema manifesta-se quando uma variável aleatória
Y tem uma distribuição de cauda pesada com uma distribuição extremamente ampla, mas
suporte limitado.
Introduzimos o conceito de distribuição dual, por meio de uma transformação logarítmica que
remove suavemente o limite superior. A cauda da distribuição dual pode então ser estudada
usando a teoria dos valores extremos, sem fazer suposições paramétricas excessivas, e
as estimativas obtidas podem ser usadas para estudar a distribuição original e calcular
seus momentos revertendo a transformação.
A diferença central entre a nossa abordagem e um truncamento simples está na suavidade
da transformação entre a distribuição original e a distribuição dual, permitindo o uso da
teoria dos valores extremos.
As baixas de guerra, o risco operacional, a degradação ambiental, as redes complexas e
muitos outros fenómenos econofísicos são possíveis campos de aplicação.
15.1 introdução
Considere uma variável aleatória de cauda pesada Y com suporte finito [L, H]. Wlog definiu L >>
0 para o limite inferior, enquanto para o limite superior H, suponha que seu valor seja notavelmente
grande, mas finito. É tão grande que a probabilidade de observar valores na sua vizinhança é
extremamente pequena, de modo que nos dados tendemos a encontrar observações apenas
abaixo de um certo M << H < ÿ.
Capítulo de pesquisa, com P. Cirillo.
287
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
288 momentos sombrios de fenômenos aparentemente infinitos
‡
A Figura 15.1 fornece uma representação gráfica do problema. Para nossa variável aleatória Y com
limite superior remoto H, a cauda real é representada pela linha contínua. No entanto, se observarmos
apenas valores até M << H, e - querendo ou não - ignorarmos a existência de H, o que é improvável de
ser visto, poderíamos estar inclinados a acreditar que a cauda é pontilhada, a aparente um. As duas
caudas são de fato indistinguíveis na maioria dos casos, já que a divergência só é evidente quando nos
aproximamos de H.
Agora suponhamos que queremos estudar a cauda de Y e, como ela tem cauda gorda e apesar de H <
ÿ, consideramos que ela pertence à chamada classe Fréchet2 .
Na teoria dos valores extremos
[184], diz-se que uma distribuição F de uma variável aleatória Y está na classe Fréchet se F¯(y) = 1 ÿ F(y)
= y ÿÿL(y), onde L(y) é uma função que varia lentamente.
Em outros termos,
a classe Fréchet é a classe de todas as distribuições cuja cauda direita se comporta como uma lei de
potência.
Observando os dados, poderíamos ser levados a acreditar que a cauda direita é a linha pontilhada na
Figura 15.1, e nossa estimativa de ÿ mostra que ela é menor que 1. Dadas as propriedades das leis de
potência, isso significa que E[Y] é não finito (como todos os outros momentos superiores). Isto também
implica que a média amostral é essencialmente inútil para fazer inferências, além de quaisquer
considerações sobre robustez [168]. Mas se H for finito, isto não pode ser verdade: todos os momentos
de uma variável aleatória com suporte limitado são finitos.
Uma solução para esta situação poderia ser ajustar um modelo paramétrico, que permita caudas
grossas e suporte limitado, como por exemplo um Pareto truncado [1]. Mas o que acontece se Y
apresentar um comportamento paretiano apenas na cauda superior, e não em toda a distribuição?
Devemos ajustar um modelo de mistura?
Na próxima seção propomos uma solução geral simples, que não depende de fortes suposições
paramétricas.
15.2 a distribuição dupla
Em vez de alterar as caudas da distribuição, achamos mais conveniente transformar os dados e confiar
em distribuições com propriedades bem conhecidas. Na Figura 15.1, as caudas real e aparente são em
grande parte indistinguíveis. Podemos usar esse fato a nosso favor, transformando Y para remover seu
limite superior H, de modo que a nova variável aleatória Z - a variável aleatória dupla - tenha a mesma
cauda que
a cauda aparente. Podemos então estimar o parâmetro de forma ÿ da cauda de Z e voltar a Y para
calcular seus momentos ou, para ser mais exato, calcular seus momentos excedentes, os momentos
condicionais acima de um determinado limite, visto que iremos apenas extrair o informações da cauda de
Z.
Pegue Y com suporte [L, H] e defina a função
ÿ(Y) = L ÿ H log ( H ÿ YH ÿ L ) .
(15.1)
2 Observe que tratar Y como pertencente à classe Fréchet é um erro. Se uma variável aleatória tem um limite superior finito
vinculado, não pode pertencer à classe Fréchet, mas sim à classe Weibull [116].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
:adtiu
e)ya
ri(-D
C
F
1
15.2 a distribuição dupla 289
M
Cauda Real
Cauda Aparente
H
e
Figura 15.1: Representação gráfica do que pode acontecer se ignorarmos a existência do limite superior
finito H, uma vez que apenas M é observado.
ÿ1
ÿ1
(L) = ÿ(L) = L.
Podemos verificar que ÿ é "suave": ÿ ÿ C ÿ, ÿ Então (ÿ) = H e ÿ
Z = ÿ(Y) define uma nova variável aleatória com limite inferior L e limite superior infinito.
Observe que a transformação induzida por ÿ(·) não depende de nenhum dos parâmetros
da distribuição de Y.
Por construção, z = ÿ(y) ÿ y para valores muito grandes de H. Isso significa que para um
limite superior muito grande, improvável de ser tocado, os resultados que obtemos para a
cauda de Y e Z = ÿ(Y) são essencialmente o mesmo, até não chegarmos a H. Mas
enquanto Y é limitado, Z não é. Portanto, podemos modelar com segurança a distribuição
dual ilimitada de Z como pertencente à classe Fréchet, estudar a sua cauda e depois
voltar a Y e aos seus momentos, que sob a distribuição dual de Z não poderiam existir.3
A cauda de Z pode ser estudada de diferentes maneiras, veja por exemplo [184] e [87].
Nossas sugestões são confiar nos chamados de Pickands, Balkema e no Teorema de de
Haan [116]. Este teorema nos permite focar na cauda direita de uma distribuição, sem nos
preocupar muito com o que acontece abaixo de um determinado limite u. No nosso caso
você ÿ eu.
3 Observe que o uso da transformação logarítmica é bastante natural no contexto da utilidade.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
290 momentos sombrios de fenômenos aparentemente infinitos
Considere uma variável aleatória Z com função de distribuição G e chame Gu de df
condicional de Z acima de um determinado limite u. Podemos então definir o rv W,
representando os excessos redimensionados de Z sobre o limiar u, de modo que
G(você + C) ÿ G(você)
Gu(w) = P(Z ÿ você ÿ w|Z > você) =
,
1 ÿ G(você)
para 0 ÿ w ÿ zG ÿ u, onde zG é o extremo direito de G.
Pickands, Balkema e de Haan mostraram que para uma grande classe de funções de
distribuição G, e um grande u, Gu pode ser aproximado por uma distribuição de Pareto
generalizada, ou seja, Gu(w) ÿ GPD(w; ÿ, ÿ), como você ÿ ÿ onde
Em
) ÿ1/ÿ se ÿ ÿ= 0
p
-
1ÿe
Em
GPD(w; ÿ, ÿ) = { 1 ÿ (1 + ÿ
, w ÿ 0.
(15.2)
se ÿ = 0
p
O parâmetro ÿ, conhecido como parâmetro de forma, e correspondente a 1/ ÿ, rege a
espessura das caudas e, portanto, a existência de momentos. O momento de ordem p de
uma variável aleatória distribuída de Pareto Generalizado só existe se e somente se ÿ < 1/p,
ou ÿ > p [184]. Tanto ÿ quanto ÿ podem ser estimados usando MLE ou o método dos
momentos [116].4
15,3 de volta a y: a média sombra (ou média populacional)
Com f e g, indicamos as densidades de Y e Z.
ÿ1
Sabemos que Z = ÿ(Y), então Y = ÿ
Agora, vamos supor que encontramos u = L
ÿ
(Z) = (L ÿ H)e
L-Z
H + H.
ÿ L, tal que Gu(w) ÿ GPD(w; ÿ, ÿ). Isto implica
ÿ
que a cauda de Y, acima do mesmo valor L que encontramos para Z, pode ser obtida a partir
da cauda de Z, ou seja, Gu.
Primeiro temos
ÿ
ÿ1
ÿ
eu *
Fi
g(z)dz = ÿ
(ÿ)
(15.3)
f(s) você.
eu *
E nós sabemos disso
g(z; ÿ, ÿ) =
Configuração ÿ = ÿ
ÿ1
,
1
1
ÿz
ÿ(1+
s )ÿ
_
ÿ1x
,
z ÿ [L
ÿ
, ÿ).
(15.4)
Nós temos
H(log(HÿL)ÿlog(Hÿy))
f(y; uma, s) =
H (1 +
ás
ÿ(H ÿ y)
)ÿÿÿ1
, y ÿ [L
ÿ
, H],
(15,5)
4 Existem métodos alternativos para enfrentar limites superiores finitos (ou côncavos), ou seja, o uso de leis de potência
temperadas (com amortecimento exponencial)[197] ou exponenciais esticadas [149]; embora sejam da mesma
natureza do nosso exercício, estes métodos não permitem aplicações imediatas da teoria dos valores extremos ou
métodos semelhantes de parametrização.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
15,3 de volta a y: a média sombra (ou média populacional) 291
Figura 15.2: CF
Gauss, pintado
por Christian
Albrecht Jensen.
Gauss tem seu
nome na
distribuição,
geralmente
atribuído a Laplace.
ou, em termos de função de distribuição,
H(log(H ÿ L) ÿ log(H ÿ y))
ás
F(y; ÿ, ÿ) = 1 ÿ ( 1 +
(15.6)
)ÿa .
Claramente, dado que ÿ é uma transformação biunívoca, os parâmetros de f e g obtidos
pelos métodos de máxima verossimilhança serão os mesmos - as funções de
verossimilhança de f e g diferem por uma constante de escala.
ÿ
Podemos derivar a média sombria5 de Y, condicionalmente em Y > L ,
como
H
E[Y|Y > L
ÿ
]=ÿ
yf(y; a, s) dy,
eu *
5 Chamamos a média da população – em oposição à amostra – de “sombra”, pois não é imediatamente visível
a partir dos dados.
(15.7)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
292 momentos de sombra de fenômenos aparentemente infinitos
obtendo
E[Y|Z > L
ÿ
] = (H ÿ L
A média condicional de Y acima de L
ÿ
ás
ás
)e
ÿ
ás
H ( H )ÿ C ( 1 ÿ ÿ,
ÿ
H ) + eu
.
(15.8)
ÿ L pode então ser estimado simplesmente
inserindo as estimativas ÿˆ e ÿˆ, como resultado da aproximação GPD da cauda de Z. Vale a pena
ÿ
ÿ
= L,
E[Y|Y
notar que se L ] = E[Y], ou seja, a média condicional
deentão
Y acima
de>YLé exatamente a média de Y.
Naturalmente, de forma semelhante, podemos obter os demais momentos, mesmo que
necessitemos de métodos numéricos para calculá-los.
Nosso método pode ser usado em geral, mas é particularmente útil quando, a partir dos dados,
a cauda de Y parece tão gorda que nenhum momento é finito, como é frequentemente o caso
quando se lida com perdas de risco operacional, a distribuição de graus de grandes redes
complexas ou outros fenómenos econofísicos.
ÿ
Por exemplo, suponha que para Z temos ÿ > 1. Então ambos E[Z|Z > L
] e E[Z] não
são finitos6 . A Figura 15.1 nos diz que podemos estar inclinados a assumir que também E[Y] é
infinito - e é isso que os dados provavelmente nos dirão se estimarmos ˆÿ a partir da cauda7 de Y.
Mas isso não pode ser verdade porque H < ÿ , e mesmo para ÿ > 1 podemos calcular o valor
ÿ
esperado E[Y|Z > L
] usando a equação (15.8).
Valor em risco e déficit esperado
Graças à equação (15.6), podemos calcular por inversão a função quantílica de Y quando Y ÿ L
ÿ,
aquilo é
ás
ÿ
Q(p; ÿ, ÿ, H, L) = e
H + Heÿ(p) ÿ Ele
e
ÿÿ(p) (EU
ás
H ),
(15.9)
ÿs(1ÿp) ÿ1/ÿ
onde ÿ(p) = e p ÿ [0, 1].
H Novamente, esta função quantílica está condicionada ao fato de Y ser
ÿ
.
maior que L
A partir da equação (15.9), podemos calcular facilmente o Valor em Risco (VaR) de Y|Y ÿ L
ÿ
para qualquer nível de confiança. Por exemplo, o VaR de 95% de Y, se Y representa perdas
operacionais ao longo de um horizonte temporal de 1 ano, é simplesmente
VaRY = Q(0,95; ÿ, ÿ, H, L).
0,95
Outra quantidade em que podemos estar interessados ao lidar com o risco de cauda de Y]. Isso
ÿ
é o chamado déficit esperado (ES), ou seja, E[Y|Y > u ÿ L mais do que uma não é nada
generalização da equação (15.8).
Podemos obter o déficit esperado calculando primeiro a função de excesso médio definida como
de Y|Y ÿ L
ÿ,
ÿ
ÿ eu(Y) = E[Y ÿ u|Y > u] =
em
(você ÿ y)f(y; ÿ, ÿ)dy
,
1 ÿ F(você)
6 Lembre-se que para uma variável aleatória GPD Z, E [Z p ] < ÿ se ÿ < 1/p.
7 Devido às semelhanças entre 1 ÿ F(y) e 1 ÿ G(z), pelo menos até M, a aproximação GPD será
forneça duas estimativas estatisticamente indistinguíveis de ÿ para ambas as caudas [184].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
15.4 comparação com outros métodos 293
ÿ
para y ÿ você ÿ L . Usando a equação (15.5), obtemos
a
ás
ás
eu(Y) = (H ÿ L)e
H log ( HÿL
H( H
+ 1ÿ
×
ás
ÿ
ás
(15.10)
C ( 1 ÿ uma, H Hÿu ) )ÿ ÿlog
ÿ +( H ÿ LH ÿ u )) .
O déficit esperado é então simplesmente calculado como
E[Y|Y > você ÿ L
ÿ
] = eu(Y) + u.
Tal como nas finanças e na gestão de riscos, o ES e o VaR podem ser combinados. Por exemplo,
ÿ
poderíamos estar interessados em calcular o ES de 95% de Y quando Y ÿ L . Isso é simplesmente
dado por VaRY 0,95 + eVaRY (E).
0,95
15.4 comparação com outros métodos
Existem três maneiras de cortar explicitamente uma distribuição paretiana nas caudas (sem contar
os métodos para esticar ou "temperar" a distribuição).
1) A primeira consiste no truncamento rígido, ou seja, na definição de um único ponto final para
a distribuição e normalização. Por exemplo, a distribuição seria normalizada entre L e H,
distribuindo o excesso de massa por todos os pontos.
2) A segunda assumiria que H é uma barreira absorvente, que todas as realizações da variável
aleatória em excesso de H seriam comprimidas numa função delta de Dirac em H – como praticado
em modelos derivativos. Nesse caso, a distribuição teria a mesma densidade que um Pareto
regular, exceto no ponto H.
3) O terceiro é o apresentado aqui.
O mesmo problema surgiu nas finanças quantitativas sobre o uso de normal truncado (para
corrigir o uso de uma Gaussiana direta por Bachelier) versus transformação logarítmica (Sprenkle,
1961 [216]), com o modelo padrão optando por transformação logarítmica. transformação e a
distribuição lognormal unicaudal associada. Além da aditividade dos retornos logarítmicos e outros
benefícios semelhantes, os modelos não produzem um "cliff", que é uma mudança abrupta na
densidade abaixo ou acima, com a instabilidade associada às medições de risco em função não
suave. .
Quanto ao uso da teoria dos valores extremos, Breilant et al. (2014)[? ] vá truncar
a distribuição tendo excesso nas caudas com a transformação Y (Y ÿ Hÿÿ ) e aplique EVT - a ÿ
a
ao -resultado.
Dado que a transformação inclui o parâmetro estimado, é necessário um novo MLE
para o parâmetro ÿ . Encontramos problemas com essa transformação não suave. O mesmo
problema ocorre com os modelos de ativos financeiros, particularmente a presença de um
“penhasco” abrupto abaixo do qual existe uma densidade, e acima do qual não existe nenhuma.
O efeito é que a expectativa obtida desta forma será superior à nossa, principalmente em valores
de ÿ < 1, como pode ser visto na Figura 15.3.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
‡
294 momentos sombrios de fenômenos aparentemente infinitos
Podemos demonstrar o último ponto da seguinte forma. Suponha que observamos que a distribuição
é um Pareto que está de fato truncado, mas tratamos isso como um Pareto. A densidade é f(x) =
1
( xÿL ás
[L, H].
ÿÿÿ1
( xÿL
+ 1)ÿÿÿ1 , ÿ ÿs +1) x ÿ [L, ÿ). O truncamento dá g(x) = x ÿ ÿ(1ÿÿ ÿÿ ÿ (ÿÿ+HÿL)ÿÿ) ,
Momentos de ordem p do Pareto truncado (ou seja, o que é visto nas realizações
do processo), M(p) são:
a
ÿipp (como) (ÿs ÿ L) p ÿ ÿ
M(p) =ÿe
( BHLÿas (p + 1, ÿÿ) ÿ B L
Lÿas
(p + 1, ÿÿ) ) )ÿ
(15.11)
( como
como
+HÿL ÿ 1
ÿ(a)ÿ(b)
onde B(., .) é a função Euler Beta, B(a, b) = ÿ(a+b)
1 a-1
(1 ÿt ) b-1 dt.
=ÿ0 t
Terminamos com r(H, ÿ), a razão entre a média do truncado suave e a do
Pareto truncado.
r(H, ÿ) =e
-
a
a
a
H ( H )a (
uma + H (
ÿ + H ÿ )ÿÿ+)ÿÿ )ÿÿ
(15.12)
(ÿ ÿ 1) ((Hÿ+ 1) ( ÿ ( ÿ+H
H )ÿ ÿ ( ÿ+HH )a) Ea ( a H )
ÿ
onde Eÿ ( uma
H ) é a integral exponencial eÿz = ÿ
1
t(ÿÿ)
en
dt.
15,5 aplicações
Risco operacional As perdas de uma empresa são limitadas pela capitalização, com perdas máximas
bem conhecidas.
Contratos de resseguro com limite Os contratos de resseguro quase sempre têm limites (ou seja,
um sinistro máximo); mas um ressegurador pode ter muitos desses contratos sobre a mesma fonte
de risco e a adição do contrato empurra o limite superior de tal forma que causa maiores danos
cumulativos potenciais.
Violência Embora as guerras sejam extremamente complicadas, o efeito máximo de qualquer evento
deste tipo não pode exceder a população mundial.
Risco de crédito Um empréstimo tem uma perda máxima finita, de forma semelhante aos contratos
de resseguro.
Tamanho da cidade Embora tenha sido demonstrado que as cidades têm distribuição Zipf, o tamanho de
uma determinada cidade não pode exceder o da população mundial.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
15,5 aplicações 295
E[Xsuave ]
E[Xtruncado ]
1,0
0,8
0,6
H = 105
0,4
H = 108
0,2
a
0,4
0,6
0,8
1,0
1.2
Figura 15.3: Razão entre a expectativa de transformação suave e truncada.
Danos ambientais Embora estas variáveis tenham uma cauda excessivamente gorda, o
risco é limitado pelo tamanho do planeta (ou do continente em que ocorrem) como um
limite superior firme.
Redes complexas O número de conexões é finito.
Tamanho da empresa As vendas de uma empresa estão vinculadas ao PIB.
Terremotos O dano máximo de um terremoto está limitado pela energia.
Hidrologia O nível máximo de uma inundação pode ser determinado.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16 SOBRE O RISCO VIOLENTO
CONFLITO (COM P. CIRILLO) ‡
história da era comum com foco em lidar com
Examinamos todos
ose quadros
estatísticos
de conflitos
plenitude
falta de confiabilidade
dospossíveis
dados. Aplicamos
métodosviolentos
de
teoria do valor extremo em dados transformados em log para remover como apoio do pacto, então, devido à limitação do número máximo de vítimas,
retransformar os dados e derivar os meios esperados. Descobrimos que a média estimada é
provavelmente pelo menos três vezes maior do que a média da amostra, o que significa uma
grave subestimação da gravidade dos conflitos devido à observação ingénua. Verificamos a
robustez por amostragem entre estimativas altas e baixas e analisando os dados. Estudamos
os tempos entre chegadas entre eventos finais e encontramos eventos (de primeira ordem)
sem memória. Os quadros estatísticos obtidos estão em desacordo com as afirmações sobre
uma “paz longa”.
16.1 introdução/resumo
Este estudo trata tanto de novas metodologias estatísticas com dados grossos (e não confiáveis),
bem como de variáveis aleatórias limitadas com comportamento local da Lei de Potência, quanto
das propriedades da violência.2
A violência é muito mais severa do que parece a partir das análises convencionais e da teoria
prevalecente da “paz longa”, que afirma que a violência diminuiu. Adaptando métodos da teoria dos
valores extremos e ajustando os erros nos relatórios de conflitos e estimativas históricas de vítimas,
analisamos os vários quadros estatísticos de conflitos violentos, com foco na parametrização
daqueles com mais de 50 mil
Capítulo de pesquisa.
2 Agradecimentos: O capitão Mark Weisenborn envolveu-se na tarefa ingrata e horrível de compilar os dados, verificar as fontes e
vincular cada conflito a uma narrativa na Wikipédia (ver Apêndice 1).
Beneficiámos também de ajuda generosa nas redes sociais onde colocamos dados para análise, bem como de conselhos de
historiadores agradecidos no mesmo apêndice. Agradecemos também ao falecido Benoit Mandelbrot pelos insights sobre as
propriedades posteriores das guerras e conflitos, bem como a Yaneer Bar-Yam, Raphael Douady...
297
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
298 sobre o risco de conflito violento (com p. cirillo)‡
Pr.
Figura 16.1: Valores do expoente
final ÿ do estimador de Hill obtidos
através de 100.000 diferentes
0,12
0,10
números de vítimas reescalonados,
selecionados uniformemente
entre estimativas baixas e altas
0,08
de conflito.
0,06
O expoente é ligeiramente (mas não
significativamente) diferente da
0,04
Máxima Verossimilhança para todos
os dados, uma vez que nos
0,02
concentramos nos 100 principais desvios.
a
0,00
0,48
0,50
0,52
0,54
0,56
0,58
Figura 16.2: Gráfico QQ dos
dados redimensionados na cauda
próxima plotados em relação a
uma distribuição estilo Pareto II-Lomax.
Figura 16.3: Número de mortes
causadas por “conflitos nomeados”
ao longo do tempo. Os conflitos
com duração superior a 25 anos
são desagregados em dois ou
mais conflitos, cada um com
duração de 25 anos.
vítimas (em proporção equivalente à população atual, o que corresponderia a ÿ 5 mil no
século XVIII ). Contrariamente às discussões actuais, todos os quadros estatísticos assim
obtidos mostram que 1) o risco de conflito violento não tem diminuído, mas é bastante
subestimado por técnicas que se baseiam em mudanças ingénuas da média de ano para ano,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16.1 introdução/resumo 299
Figura 16.4: Número de mortes
redimensionado em conflitos
armados e regimes ao longo do
tempo. Os dados são
redimensionados em relação à
população mundial atual. Os
conflitos com duração superior a
25 anos são desagregados em
dois ou mais conflitos, cada um com duração de 25 an
Significar
8×107
observada :
7x107
Figura 16.5
média “jornalística” comparada à
Média de probabilidade máxima
Amostra ("jornalística")
média MLE (derivada do
Significar
6×107
redimensionamento dos dados
para suporte compacto) para
5×107
diferentes valores de ÿ (portanto,
para permutações do par (ÿÿ, ÿ)).
4x107
O "intervalo de ÿ é aquele que
obtemos a partir de possíveis
3x107
variações dos dados de bootstrap
e simulações de confiabilidade.
2x107
Alcance de
1x107
0,40
0,45
0,50
0,55
0,60
0,65
0,70
ou usar a média amostral como um estimador da média verdadeira de um fenômeno de cauda
extremamente gorda; 2) os conflitos armados têm tempos entre chegadas sem memória, portanto
incompatíveis com a ideia de uma tendência temporal. Nossa análise utiliza 1) dados brutos,
registrados e estimados por historiadores; 2) uma transformação ingênua, utilizada por certos
historiadores e sociólogos, que redimensiona conflitos e vítimas do passado em relação à
população real; 3) mais importante ainda, uma transformação logarítmica para ter em conta o
facto de que o número de vítimas num conflito não pode ser maior do que a população mundial.
(Isso é semelhante à transformação de dados em retornos logarítmicos em finanças matemáticas,
a fim de usar distribuições com suporte na linha real.)
Em suma, entre as diferentes classes de dados (brutos e reescalados), observamos que 1) as
vítimas são distribuídas pela Lei de Potência.3 No caso de dados reescalados logarítmicos,
observamos 0,4 ÿ ÿ ÿ 0,7, indicando assim um valor extremamente fenômeno de cauda gorda
com média indefinida (resultado obtido de forma robusta); 2) os horários entre chegadas de
3 Muitos estudos anteriores encontraram Paretianidade nos dados, [? ],[38]. Nosso estudo, além do uso de técnicas de
valores extremos, bootstraps de confiabilidade e transformações de suporte compacto, varia tanto nas calibrações
quanto na interpretação.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
300 na cauda risco de conflito violento (com p. cirillo)‡
os conflitos acima do limiar dos 50 mil seguem um processo de Poisson homogéneo, não
indicando nenhuma tendência particular e, portanto, contradizendo uma narrativa popular sobre
o declínio da violência; 3) a verdadeira média esperada no futuro, e a mais compatível com os
dados, embora altamente estocástica, é ÿ 3× maior que a média passada.
Além disso, explicamos: 1) como a média (em termos de vítimas esperadas) é severamente
subestimada pelas análises de dados convencionais, uma vez que a média observada não é um
estimador da média verdadeira (ao contrário do expoente da cauda que fornece uma imagem
com menor ruído). ; 2) como os equívocos surgem dos longos (e voláteis) tempos entre chegadas
entre grandes conflitos.
Para remediar as imprecisões das avaliações numéricas históricas, fornecemos uma análise
bootstrap padrão das nossas estimativas, além de verificações de Monte Carlo quanto à falta de
fiabilidade das guerras e à ausência de eventos na história actualmente registada.
16.2 discussão estatística resumida
16.2.1 Resultados
Os métodos Peak-Over-Threshold das caudas Paretian mostram (variáveis brutas e
redimensionadas) exibirem um forte comportamento da cauda Paretian, com probabilidade de
ÿuma ,
sobrevivência P(X > x) = ÿ(x)x onde ÿ : [L, +ÿ) ÿ (0 , +ÿ) é uma função de variação lenta, definida
como ÿ(kx) limxÿ+ÿ
= 1 para qualquer
k > 0. ÿ(x)
Parametrizamos G(.), uma Distribuição de Pareto Generalizada (GPD), G(x) consulte a Tabela
, 16.4, com ÿ ÿ 1,88, ± 0,14 para dados redimensionados que correspondem
= 1 ÿ (1 + ÿy/ÿ) ÿ1/ÿ = 0,53,
para uma cauda ÿ =
± 0,04.
1x
Falta de memória no início dos conflitos As Tabelas 16.2 e 16.3 mostram os tempos entre
chegadas, o que significa que se pode esperar mais de cem anos por um evento como a
Segunda Guerra Mundial sem alterar as expectativas. Não há autocorrelação visível, nem
estrutura temporal estatisticamente detectável (ou seja, não podemos ver a marca de um
processo auto-excitante), ver Figura 16.8.
Distribuição(ões) completa(s) Os dados redimensionados ajustam-se a uma distribuição estilo
Lomax com a mesma cauda obtida pelo POT, com forte qualidade de ajuste. Para eventos com
vítimas > L = 10K, 25K, 50K, etc. ajustamos diferentes distribuições de Pareto II (Lomax) com
cauda correspondente ÿ (ajuste do GPD), com escala ÿ = 84, 360, ou seja, com densidade
ÿÿÿ1
ÿ( ÿL+ÿ+x ÿ )
p
, x ÿ eu.
Também consideramos uma gama mais ampla de "imagens" estatísticas dos pares ÿ, ÿÿ
através dos dados de potenciais valores alternativos de ÿ, com recalibração da máxima
verossimilhança ÿ, ver Figura 16.5.
Diferença entre a média amostral e a média de máxima verossimilhança : A Tabela 16.1
mostra a média verdadeira usando a parametrização da distribuição de Pareto acima
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16.2 discussão estatística resumida 301
e inverter a transformação de volta ao suporte compacto. "Verdadeiro" ou máximo
probabilidade, ou média "estatística", está entre 3 e 4 vezes a média observada.
Isto significa a observação “jornalística” da média, além da análise conceitual
erro de confiar na média amostral, subestima a média verdadeira em pelo menos 3
tempos e observações futuras mais elevadas não permitiriam a conclusão de que a violência
elevou".
Tabela 16.1: Médias amostrais e média de máxima verossimilhança estimada entre valores mínimos L –
Dados redimensionados.
eu
Razão Média de ML Média da Amostra
9,079 × 106 3,11 × 107 9,82 ×
3,43
10 mil
25 mil
106 3,62 × 107 1,12 × 107
3,69
50 mil
4,11 × 107 1,34 × 107 4,74 ×
3,67
100 mil
107 1,66 × 107 6,31 × 107
3,53
200 mil
2,48 × 107 8,26 × 107
3,79
3.31
500 mil
16.2.2 Conclusão
A história vista a partir da análise da cauda é muito mais arriscada e os conflitos muito mais violentos
do que o reconhecido pela observação ingênua do comportamento das médias no tempo histórico
Series.
Tabela 16.2: Tempos médios entre chegadas e seu desvio médio absoluto para eventos com mais de
1, 2, 5 e 10 milhões de vítimas, utilizando estimativas reais.
Limite médio MAD
1
26,71 31,66
2
5
10
42.19
57,74
101,58
47,31
68,60
144,47
Tabela 16.3: Tempos médios entre chegadas e seu desvio médio absoluto para eventos com mais de
1, 2, 5, 10, 20 e 50 milhões de vítimas, utilizando valores reescalonados.
Limite médio MAD
1
11,27 12,59
2
5
10
20
50
16,84 18,13
27.29
26h31
37,39
41h30
48,47
52.14
67,88
78,57
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
302 na cauda do risco de conflito violento (com p. cirillo)‡
Tabela 16.4: Estimativas (e erros padrão) dos parâmetros da Distribuição Generalizada de Pareto para vítimas
acima de um limite de 50 mil . Tanto para as vítimas reais como para as redimensionadas, também fornecemos
o número de eventos acima do limite (o número total de eventos nos nossos dados é 99).
Dados
Nº. Excessos
Dados não tratados
307
Redimensionamento ingênuo
524
ÿ ÿ 1,5886
3,6254 (0,1467)
(0,8191) 1,8718
14,3254 (0,1259)
(2,1111) 1,8717
524
Redimensionamento de log
14,3261 (0,1277)
(2,1422)
16.3 discussão metodológica
16.3.1 Método de redimensionamento
Removemos o suporte compacto para podermos usar leis de potência como segue (ver capítulos anteriores).
Usando Xt como o rv para o número de incidências de conflito nos momentos t, considere primeiro um
= Xt
reescalonamento ingênuo de X no período t. t
Ht , onde Ht é a população humana total
'
Veja o apêndice para métodos de estimativa de Ht .
A seguir, com a população máxima de hoje H e L o mínimo reescalonado ingenuamente para nossa
definição de conflito, introduzimos uma função de reescalonamento suave ÿ : [L, H] ÿ
[L, ÿ) satisfatório:
i ÿ é "suave": ÿ ÿ C ÿ,
eu ÿ
iiiÿ _
ÿ1
(ÿ) = H,
ÿ1
(L) = ÿ(L) = L.
Em particular, escolhemos:
(16.1)
ÿ(x) = L ÿ H log ( H ÿ x H ÿ L ) .
Podemos realizar análises apropriadas em xr = ÿ(x), visto que ele é ilimitado e se ajusta adequadamente
aos expoentes da Lei de Potência. Então podemos redimensionar novamente para as propriedades de X.
Observe também que ÿ(x) ÿ x para valores muito grandes de H. Isso significa que para um limite superior
muito grande, os resultados que obteremos para x e ÿ(x) será essencialmente o mesmo. A grande diferença
é apenas do ponto de vista filosófico/metodológico, no sentido de que removemos o limite superior
(improvável de ser alcançado).
A seguir usaremos as vítimas ingenuamente redimensionadas como entrada para a função ÿ(·) .
Escolhemos H = Pt0 para o exercício.
A distribuição de x pode ser derivada da seguinte forma a partir da distribuição de xr:
ÿ1
ÿ
ÿ
eu
Fi
f(xr) dxr = ÿ
(ÿ)
g(x)dx,
eu
(16.2)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16.3 discussão metodológica 303
onde ÿ
ÿ1
Oe
(você) = (L ÿ H)e H + H
Neste caso, do Pareto-Lomax selecionado:
f(xr) =
g(x) =
que verifica ÿ
H
eu
( ÿL+ÿ+xrÿ )ÿÿÿ1 ÿ
, xr ÿ [L, ÿ)
p
H-L )
ÿH ( ÿ ÿ H log p( H ÿ x )ÿÿÿ1
(16.3)
, x ÿ [L, H],
ÿ(H ÿ x)
xg(x) dx = 1. Daí a expectativa
H
-
a
Por exemplo (X; L, H, ÿ, ÿ) = ÿH (1
(H ÿ L)e ÿ/HEÿ+1 ( ÿ H )
H
ÿ
onde E.(.) é a integral exponencial Enz = ÿ
(16.4)
xg(x)dx,
Por exemplo (x; L, H, ÿ, ÿ) = eu
ÿ
1
(16,5)
)
t(ÿz)
e
_
dt. não
Observe que contamos com a propriedade de invariância:
Observação 16
Se ˆÿ é o estimador de máxima verossimilhança (MLE) de ÿ, então para uma função
absolutamente contínua ÿ, ÿ( ˆÿ) é o estimador MLE de ÿ(ÿ).
Para mais detalhes ver [211].
16.3.2 Expectativa por Condicionamento (menos rigoroso)
Estaríamos substituindo uma função suave em C pela
ÿ
por uma função passo de Heaviside, que
função indicadora 1: R ÿ {0, 1}, escrita como 1Xÿ[L,H] :
H
E(1Xÿ[L,H] ) =
ÿ xf(x)dx
H
ÿ f(x)dx
eu
eu
que para Pareto Lomax se torna:
E(1Xÿ[L,H] ) =
asa (HÿL)
ÿ ÿÿ(HÿL+ÿ) ÿ + (ÿ ÿ 1)EU + p
ÿÿ1
(16.6)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
304 na cauda do risco de conflito violento (com p. cirillo)‡
16.3.3 Confiabilidade dos Dados e Efeito nas Estimativas da Cauda
Os dados sobre a violência são em grande parte anedóticos, difundindo-se através de citações,
muitas vezes baseadas em estimativas vagas, sem que ninguém possa verificar as avaliações
utilizando fontes da época. Estima-se que um acontecimento ocorrido no século VII, como a
rebelião de Lushan, tenha matado 26 milhões de pessoas, sem nenhuma metodologia precisa ou
confiável que nos permita confiar no número. A guerra de independência da Argélia tem várias
estimativas, algumas da França, outras dos rebeldes, e nada obtido científica ou profissionalmente.
Como dito anteriormente, neste capítulo, usamos dados diferentes: dados brutos, dados
reescalados ingenuamente em relação à população mundial atual e dados reescalados
logarítmicos para evitar o problema teórico do limite superior.
Para algumas observações, juntamente com o número estimado de vítimas, resultante de fontes
históricas, também temos disponíveis um limite inferior e superior.
Seja Xt o número de vítimas num determinado conflito no tempo t. Em princípio, podemos definir
trigêmeos como l •
} para as estimativas reais (dados brutos), onde X
{Xt , u XX t , t
l e X t representam
em
t
o limite inferior e superior, se disponível.
P20015
P20015l _ E
=X
=X
t P20015
• {Yt = Xt } para Pt
os, dados
redimensionados
ingenuamente,
onde P2015 é a população mundial
t
Pt , t
Pt
eu
Sim
em
em
_
em 2015 e Pt é a população no tempo t = 1, ..., 2014. • {Zt = ÿ(Yt), Z
eu
t
= ÿ(S
em
eu
t
), COM
t
= ÿ(S
em
t
)} para os dados redimensionados em log.
Para evitar possíveis críticas sobre o uso de estimativas médias, quando limites estão presentes,
decidimos utilizar o seguinte procedimento de Monte Carlo (para mais detalhes [201]), não obtendo
nenhuma diferença significativa nas estimativas de todas as quantidades de interesse (como o
expoente da cauda ÿ = 1/ ÿ): 1. Para cada evento
X para o qual existem limites, assumimos que as baixas estão uniformemente distribuídas
entre o limite inferior e o superior, ou seja,
X ÿ você(X ). ,AXescolha da distribuição uniforme visa manter as coisas simples. Todas as
eu
em
outras distribuições limitadas gerariam de facto os mesmos resultados no limite, graças ao
teorema do limite central.
2. Geramos então um grande número de replicações de Monte Carlo e em cada replicação
atribuímos um valor aleatório a cada evento X de acordo com U(X
, X ).
eu
em
3. Para cada replicação calculamos as estatísticas de interesse, normalmente a
expoente da cauda, obtendo valores que calculamos posteriormente.
Este procedimento mostrou que a precisão das estimativas não afeta a cauda da distribuição de
vítimas, uma vez que o expoente da cauda é bastante estável.
Para aqueles eventos para os quais nenhum limite é dado, as opções eram usá-los como são,
ou perturbá-los criando limites fictícios em torno deles (e então tratá-los como os outros limites nas
replicações de Monte Carlo). Escolhemos a segunda abordagem.
O acima também se aplica a Yt e Zt .
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16.3 discussão metodológica 305
Observe que o ÿ final derivado de uma média é diferente de um alfa médio em diferentes
estimativas, e é por isso que realizamos as diversas análises entre estimativas.
Comentário técnico Estas simulações procuram em grande parte uma tendência “alfa
estocástica” resultante de erros e falta de fiabilidade dos dados (Capítulo 18). Com um
tamanho de amostra n, um parâmetro ˆÿm será o parâmetro médio obtido em um grande
número de execuções de Monte Carlo. Seja Xi um dado vetor simulado de Monte Carlo
indexado por i e Xµ é a estimativa intermediária entre os limites superior e inferior. Visto que,
ÿÿm
1
metro
1
m ÿÿmÿXjÿ1= ÿXµÿ1 através de Monte Carlo corre, mas ÿj , ÿXjÿ1ÿ= ÿXµÿ1 , ÿm = com
ÿ(Xj ) ÿ= ÿ(Xµ). Por exemplo, considere a estimativa de máxima verossimilhança ))ÿ1 . Com
de uma cauda paretiana, ÿ(Xi ) ÿ ( xi
ÿ(Xi ÿ ÿ) ÿ
1 ÿ
2
eu
ÿ ÿ xm, defina n ( ÿ1ÿiÿn log
n
n
+
n
ÿ ( xieuÿ ) i=1 logeu ) ÿ log ( ÿ
ÿ
n
( xieuÿ ) i=1 logeu ÿ ) + log ( ÿ
que, devido à concavidade da função logarítmica, dá a desigualdade
ÿÿ ÿ xm, ÿ(Xi ÿ ÿ) ÿ ÿ(Xi ).
16.3.4 Definição de um “Evento”
Os conflitos “nomeados” são uma designação arbitrária que, muitas vezes, não faz sentido
estatisticamente: um conflito pode ter dois ou mais nomes; dois ou mais conflitos podem ter o
mesmo nome e não encontramos nenhuma hierarquia satisfatória entre guerra e conflito.
Para uniformidade, tratamos os eventos como o evento mais curto ou a sua desagregação
em unidades com duração máxima de 25 anos cada. Assim, tratamos as guerras mongóis,
que duraram mais de um século e um quarto, como mais do que um único acontecimento.
Caso contrário, faz pouco sentido, pois seria o equivalente a tratar o período desde a guerra
franco-prussiana até à Segunda Guerra Mundial como "guerras alemãs(ic)", em vez de
eventos múltiplos, porque estas guerras tinham nomes individuais em fontes contemporâneas.
Efetivamente, as principais fontes, como a Enciclopédia da Guerra [189], listam numerosos
conflitos no lugar das "Invasões Mongóis" - quanto mais sofisticados os historiadores em uma
determinada área, maior a probabilidade de eles dividirem os conflitos em diferentes eventos
"nomeados". e, dependendo dos historiadores, as guerras mongóis variam entre 12 e 55 conflitos.
Que controvérsia sobre a definição de “nome” pode ser, mais uma vez, resolvida por
bootstrapping. A nossa conclusão, aliás, é invariável com a agregação ou desagregação das
guerras mongóis.
Além disso, na ausência de um protocolo claramente definido em estudos históricos, tem
sido difícil separar a morte directa das guerras e a morte dos efeitos menos directos sobre as
populações (por exemplo, bloqueios, fome). Por exemplo, a Primeira Guerra Judaica confundiu
os historiadores, pois estima-se que 30 mil mortes vieram da guerra, e um número
consideravelmente maior (entre 350 mil e o número 1 milhão de acordo com Josefo) da fome
ou das baixas civis.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
306 na cauda risco de conflito violento (com p. cirillo)‡
16.3.5 Eventos ausentes
Podemos supor que existem inúmeras guerras que não fazem parte da nossa amostra, mesmo que
duvidemos que tais eventos estejam na “cauda” da distribuição, dado que grandes conflitos têm maior
probabilidade de serem relatados por historiadores. Além disso, também assumimos que a sua ocorrência é
aleatória nos dados (no sentido de que não têm efeito no agrupamento).
Mas estamos cientes de um preconceito resultante do diferencial tanto na precisão como nos relatórios ao
longo do tempo: é mais provável que os eventos sejam registados nos tempos modernos do que no passado.
Aumentando o valor mínimo L, é provável que o número de tais eventos “perdidos” e o seu impacto diminuam
rapidamente. Na verdade, como verificação de robustez, elevar a fasquia para um mínimo L = 500K não
altera a nossa análise.
Um simples procedimento canivete, realizado removendo aleatoriamente uma proporção de eventos da
amostra e repetindo as análises, mostra-nos a dependência de nossa análise em eventos faltantes,
dependência que consideramos insignificante, quando focamos na cauda da distribuição de vítimas . Em
outras palavras, dado que estamos lidando com extremos, se a remoção de 30% dos eventos e a verificação
dos efeitos nos parâmetros não produzirem divergências em relação aos resultados iniciais, então não
precisamos nos preocupar em ter perdido 30% dos eventos, pois os eventos faltantes são provavelmente
não causará afinamento das caudas.4
16.3.6 Viés de Sobrevivência
Não tivemos em conta os preconceitos de sobrevivência na análise, assumindo que eram insignificantes
antes de 1960, uma vez que a probabilidade de um conflito afectar toda a humanidade era insignificante.
Essa probabilidade (e risco) tornou-se consideravelmente maior desde então, especialmente devido às
armas nucleares e outras armas de destruição em massa.
16.4 análise de dados
As Figuras 16.3 e 16.4 representam graficamente os nossos dados: o número de vítimas ao longo do tempo.
A Figura 16.3 refere-se ao número real estimado de vítimas, enquanto a Figura 16.4 mostra os montantes
reescalonados, obtidos através do reescalonamento da observação anterior em relação à população mundial
em 2015 (cerca de 7,2 mil milhões de pessoas)5 . A Figura 16.3 pode sugerir um aumento no número de
mortes em conflitos armados ao longo do tempo, apoiando assim a ideia de que a violência da guerra
aumentou. A Figura 16.4, pelo contrário, parece sugerir uma diminuição no número (reescalonado) de
vítimas, especialmente nos últimos cem anos, e possivelmente também na violência. A seguir mostramos
que ambas as interpretações são certamente ingênuas, porque não levam em consideração o fato de que
estamos lidando com eventos extremos.
4 O oposto não é verdade, o que está no cerne da assimetria do Cisne Negro: tal procedimento não corrige a falta da cauda, os
eventos do “Cisne Negro” no registro. Um único evento “Cisne Negro” pode engordar consideravelmente a cauda. Neste caso a
cauda é suficientemente gorda e nenhuma informação faltante parece capaz de torná-la mais fina.
5 Observe que, na equação (16.1), para H = 7,2 bilhões, ÿ(x) ÿ x. Portanto a Figura 16.4 também é representativa
para dados redimensionados em log.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16.4 análise de dados 307
16.4.1 Picos acima do limite
Dada a natureza detalhada dos dados, que pode ser facilmente observada com algumas
ferramentas gráficas básicas, como histogramas nos registros e gráficos QQ (a Figura 16.6
mostra o gráfico QQ de vítimas reais em relação a uma distribuição exponencial: a concavidade
clara é uma sinal de distribuição de cauda gorda), parece apropriado usar um método bem
conhecido da teoria dos valores extremos para modelar as baixas de guerra ao longo do tempo:
os Picos acima do Limiar ou POT [184].
De acordo com o método POT, os excessos de uma sequência iid sobre um limite alto u (que
temos que identificar) ocorrem nos momentos de um processo de Poisson homogêneo,
enquanto os próprios excessos podem ser modelados com uma Distribuição Generalizada de
Pareto (GPD) . Os horários de chegada e os excessos são considerados independentes entre
si.
No nosso caso, assumir a independência dos acontecimentos da guerra não parece uma
suposição forte, dada a separação temporal e espacial entre eles. Em relação aos outros
pressupostos, pelo contrário, temos que verificá-los.
Começamos identificando o limite u acima do qual a aproximação GPD pode se manter.
Diferentes ferramentas heurísticas podem ser utilizadas para esse fim, desde o gráfico de Zipf
até os gráficos de função de excesso médio, onde se procura a linearidade típica dos fenômenos
de cauda gorda [44, 82]. A Figura 16.7 mostra o gráfico da função de excesso médio para
vítimas reais6 : uma tendência ascendente está claramente presente, começando já com um
limiar igual a 5 mil vítimas. Para a qualidade do ajuste, pode ser apropriado escolher um limite
.
um pouco maior, como u = 50k 7
Figura 16.6: Gráfico QQ de vítimas reais em relação ao quantil exponencial padrão. A curvatura côncava dos
pontos de dados é um sinal claro de caudas pesadas.
6 Resultados semelhantes são válidos para os montantes reescalonados (ingénuos e log). Por uma questão de brevidade, sempre mostramos
gráficos para uma das duas variáveis, a menos que uma grande diferença seja observada.
7 Esta ideia também foi apoiada por testes subsequentes de adequação.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
308 na cauda risco de conflito violento (com p. cirillo)‡
Figura 16.7: Gráfico da função de excesso médio (MEPLOT) para vítimas reais. Uma tendência ascendente –
quase linear na primeira parte do gráfico – está presente, sugerindo a presença de uma cauda direita gorda. A
variabilidade da função de excesso médio para limiares mais elevados deve-se ao pequeno número de
observações que excedem esses limiares e não deve ser tida em consideração.
16.4.2 Lacunas em Séries e Autocorrelação
Para verificar se os eventos ao longo do tempo ocorrem de acordo com um processo de Poisson
homogêneo, pressuposto básico do método POT, podemos observar a distribuição dos tempos ou
intervalos entre chegadas, que devem ser exponenciais. As lacunas também não devem mostrar
autocorrelação.
Figura 16.8: Gráfico ACF de lacunas para vítimas reais, nenhuma autocorrelação significativa é visível.
A Figura 16.8 mostra claramente a ausência de autocorrelação. A plausibilidade de uma
distribuição exponencial para os tempos entre chegadas pode ser verificada positivamente usando
ferramentas heurísticas e analíticas. Aqui omitimos os resultados positivos por questões de brevidade.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16.4 análise de dados 309
Contudo, a fim de fornecer algumas informações úteis adicionais, nas Tabelas 16.2 e 16.3
fornecemos algumas estatísticas básicas sobre os tempos entre chegadas para eventos muito
catastróficos em termos de vítimas8 . A simples evidência aí contida já deveria ser suficiente
para sublinhar quão pouco fiável pode ser a afirmação de que a violência da guerra tem
diminuído ao longo do tempo. Para um evento com mais de 10 milhões de vítimas, se nos
referirmos a estimativas reais, o tempo médio de atraso é de 101,58 anos, com um desvio médio
absoluto de 144,47 anos9 . Isto significa que é totalmente plausível que nos últimos anos não
tenhamos observado um evento tão grande. Poderia simplesmente acontecer amanhã ou em
algum momento no futuro. Isto também significa que toda extrapolação de tendências não faz
muito sentido para este tipo de eventos extremos. Finalmente, temos de considerar que um
evento tão grande como a Segunda Guerra Mundial aconteceu apenas uma vez em 2014, se
lidarmos com vítimas reais (para baixas redimensionadas podemos considerar a rebelião de An
Lushan); neste caso o tempo de espera possível é ainda maior.
16.4.3 Análise da Cauda
Dado que os pressupostos do POT sobre o processo de Poisson parecem ser confirmados pelos
dados, é finalmente o momento de ajustar uma Distribuição Generalizada de Pareto aos
excedentes.
Considere uma variável aleatória X com df F e chame Fu de df condicional de X acima de um
determinado limite u. Podemos então definir um rv Y, representando os excessos redimensionados
de X acima do limite u, obtendo [184]
Fu(y) = P(X ÿ você ÿ y|X > você) =
F(você + y) ÿ F(você)
1 ÿ F(você)
para 0 ÿ y ÿ xF ÿ u, onde xF é o extremo direito da distribuição subjacente F. Pickands [190],
Balkema e de Haan [8], [9] e [10] mostraram que para uma grande classe de distribuição
subjacente funções F (seguindo o chamado domínio de atração da distribuição GEV [184]), e
um grande u, Fu pode ser aproximado por uma distribuição de Pareto generalizada: Fu(y) ÿ
G(y), como u ÿ ÿ onde
ÿ e+ ÿy/b
G(y) = { 1 ÿ1 (1
ÿy/ÿ) ÿ1/ÿ se ÿ ÿ= se
0 ÿ = 0.
.
(16.7)
Pode-se mostrar que a distribuição GPD é uma distribuição interpolada entre a distribuição
exponencial (para ÿ = 0) e uma classe de distribuições de Pareto. Referimo-nos a [184] para
mais detalhes.
Os parâmetros em (16.7) podem ser estimados usando métodos como máxima verossimilhança
ou momentos ponderados de probabilidade [184]. A qualidade do ajuste pode então ser testada
usando testes baseados em bootstrap [262].
8 A Tabela 16.2 não mostra o atraso médio para eventos com 20 milhões (50 milhões) ou mais de vítimas. Isto se deve à
quantidade limitada dessas observações em dados reais e não redimensionados. Em particular, todos os eventos com mais
de 20 milhões de vítimas ocorreram durante os últimos 150 anos e o tempo médio entre chegadas é inferior a 20 anos.
Estamos realmente vivendo em um mundo mais pacífico?
9 No caso de valores reescalonados, os tempos entre chegadas são mais curtos, mas a interpretação é a mesma.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
310 na cauda risco de conflito violento (com p. cirillo)‡
A Tabela 16.4 contém as nossas estimativas de mle para vítimas reais e reescalonadas
acima do limite de 50 mil vítimas. Este limiar é de facto aquele que proporciona o melhor
compromisso entre a qualidade do ajuste e um número suficiente de observações, para que
os erros padrão sejam fiáveis. Os dados reais e os dados reescalonados mostram dois
conjuntos diferentes de estimativas, mas a sua interpretação é fortemente consistente. Por
esta razão, focamos apenas nas vítimas reais para a discussão.
O parâmetro ÿ é o mais importante para nós: é o parâmetro que rege a espessura da
cauda direita. Um ÿ maior que 1 (temos 1,5886) significa que nenhum momento está
definido para nosso Pareto Generalizado: uma situação de cauda muito gorda. Naturalmente,
na amostra, podemos calcular todos os momentos que nos interessam, mas do ponto de
vista teórico eles são completamente pouco confiáveis e sua interpretação é extremamente
falha (embora um erro muito comum). De acordo com o nosso ajuste, acontecimentos muito
catastróficos não são de todo improváveis. Vale ressaltar que a estimativa é significativa,
visto que seu erro padrão é de 0,1467.
As Figuras 16.9 e 16.10 comparam nossos ajustes com dados reais. Em ambas as figuras
é possível ver a qualidade do ajuste do GPD para a maioria das observações acima do
limite de 50 mil vítimas. Alguns problemas surgem para eventos muito grandes, como a 2ª
Guerra Mundial e a rebelião de An Lushan 10. Neste caso, parece que a nossa adaptação
espera que eventos maiores tenham acontecido. Este é um problema bem conhecido para
dados extremos [184]. O evento muito grande pode estar logo atrás da esquina.
Da mesma forma, eventos com 5 a 10 milhões de vítimas (nem um pouco menores!)
parecem ser um pouco mais frequentes do que o esperado pelo nosso ajuste do GPD. Este
é outro sinal do carácter extremo das baixas de guerra, que não permite a extrapolação de
tendências simplistas.
Figura 16.9: Ajuste da cauda do GPD aos dados reais das vítimas (em 10k). Parâmetros conforme Tabela 16.4, primeira
linha.
10 Se removermos os dois maiores eventos dos dados, a hipótese do GPD não pode ser rejeitada na taxa de 5%.
nível de significância.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16.4 análise de dados 311
Figura 16.10: Distribuição cumulativa do GPD ajustada aos dados reais de vítimas (em 10k). Parâmetros conforme
Tabela 16.4, primeira linha.
16.4.4 Uma Visão Alternativa sobre Maxima
Outro método é a abordagem de máximos de bloco da teoria dos valores extremos. Nesta
abordagem os dados são divididos em blocos, e dentro de cada bloco apenas o valor máximo é
levado em consideração. O teorema de Fisher-Tippet [184] garante então que os máximos
normalizados convergem na distribuição para uma Distribuição Generalizada de Valores Extremos,
ou GEV.
1
ÿ
DAR(x; ÿ) =
exp ( ÿ(1 + ÿx) ÿ
ÿ
ÿ ) ÿ ÿ= 0
exp (ÿ exp (ÿx)) ÿ
, 1 + ÿx > 0
ÿ=0
Esta distribuição está naturalmente relacionada com o GPD, e referimo-nos a [184] para mais
detalhes.
Se dividirmos os nossos dados em blocos de 100 anos, obtemos 21 observações (o último bloco
é o residual de 2001 a 2014). As estimativas de máxima verossimilhança fornecem um ÿ maior que
2, indicando que estamos no chamado domínio máximo de atração de Fréchet, compatível com
fenômenos de cauda muito pesada. Um valor de ÿ maior que 2 na distribuição GEV confirma ainda
mais a ideia da ausência de momentos, um sinal claro de uma cauda direita muito pesada.
16.4.5 Análise Completa de Dados
Naturalmente, estando cientes das limitações, podemos tentar ajustar todos os nossos dados,
enquanto para vítimas superiores a 10.000, ajustamos a Distribuição de Pareto da Equação 16.3
com ÿ ÿ 0,53 por toda parte. A qualidade do ajuste para a “cauda próxima” (L=10K) pode ser vista
na Figura 16.2. Resultados semelhantes aos da Figura 16.2 são vistos para diferentes valores na
tabela abaixo, todos com a mesma qualidade de ajuste.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
312 na cauda do risco de conflito violento (com p. cirillo)‡
p
eu
10K 84, 260
25K 899, 953
50K 116, 794
100K 172, 733
200 mil 232, 358
500 mil 598, 292
Os diferentes valores possíveis da média na Equação 16.4 podem ser calculados através de
diferentes valores definidos de ÿ, com um único grau de liberdade: o ÿ correspondente é uma
estimativa MLE usando tal ÿ como fixo: para um tamanho de amostra n, e xi as observações
ÿn
maior que L, ÿÿ = { ÿ : A
p
n
ÿ (uma + 1) ÿ1
eu=1 xiÿL+ÿ
média amostral para L = 10K é 9,12 × 106
espalhada nos valores mostrados na Figura 16.15.
= 0, ÿ > 0 } .
, em 100 mil simulações, com o
A média "verdadeira" da Equação 16.4 produz 3,1 ÿ 107 , e repetimos para L = 10K, 20K,
50K, 100K, 200K e 500K, encontrando proporções entre a média estimada verdadeira e a
observada com segurança entre 3 e 4. Consulte a Tabela 16.1. Observe que este valor para
a média de ÿ 3,5 vezes a média amostral observada é apenas uma diretriz geral, uma vez
que, sendo estocástico, não revela nenhuma informação precisa além de nos impedir de
levar a sério a estimativa ingênua da média.
Para caudas gordas, a média derivada das estimativas de ÿ é mais rigorosa e tem um erro
menor, uma vez que a estimativa de ÿ é assintoticamente gaussiana enquanto a média de
uma lei de potência, mesmo quando existe, é consideravelmente mais estocástica. Veja a
discussão sobre “lentidão da lei dos grandes números” em 8 em conexão com o ponto.
Obtemos a média por truncamento para L=10K um pouco mais abaixo, na equação 16.6; cerca
de 1,8835 × 107 .
Constatamos finalmente que, para os valores de L considerados, 96% dos conflitos com
mais de 10.000 vítimas estão abaixo da média: onde m é a média,
-a
P(X < m) = 1 ÿ
ÿ
H log ( ÿe ÿ/HEÿ+1 ( ÿH ) ) ÿ
.
p
ÿ1 ÿ
ÿ
16,5 testes adicionais de robustez e confiabilidade
16.5.1 Bootstrap para o GPD
Para verificar nossa sensibilidade à qualidade/precisão de nossos dados, decidimos realizar
algumas análises de bootstrap. Tanto para os dados brutos quanto para os redimensionados,
geramos 100 mil novas amostras selecionando aleatoriamente 90% das observações, com
reposição. As Figuras 16.11, 16.12 e 16.13 mostram a estabilidade das nossas estimativas
de ÿ . Em particular, ÿ > 0 em todas as amostras, indicando a extrema cauda gorda do
número de vítimas em conflitos armados. As estimativas de ÿ na Tabela 16.4 aparecem
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16,5 testes adicionais de robustez e confiabilidade 313
ser boas aproximações para nossos parâmetros de forma real GPD, não obstante
imprecisões e observações faltantes nos dados.
Dados brutos: 100 mil amostras de bootstrap
000.01
amostras de boot-strap para reais
dados. Cada amostra é selecionada
aleatoriamente com reposição usando
0
aicnêuqerF
Figura 16.11: Parâmetros ÿ
distribuição de mais de 100 mil
90% das observações originais.
1.2
1,0
1.4
1.6
1,8
2.2
2,0
Dados redimensionados ingenuamente: 100 mil amostras de bootstrap
000.01
amostras de boot-strap para ingenuamente
dados redimensionados. Cada amostra
é selecionado aleatoriamente com
0
aicnêuqerF
Figura 16.12: Parâmetros ÿ
distribuição de mais de 100 mil
substituição usando 90% do
observações originais.
1.4
1.6
1,8
2,0
2.2
2.4
Dados redimensionados em log: 100 mil amostras de bootstrap
000.01
amostras de bootstrap para dados
redimensionados em log. Cada amostra
é selecionado aleatoriamente com
0
aicnêuqerF
Figura 16.13: Distribuição do
parâmetro ÿ em 100K
substituição usando 90% de
as observações originais.
1.4
1.6
1,8
2,0
2.2
2.4
16.5.2 Perturbação entre limites de estimativas
Realizamos análises para a “cauda próxima” usando as técnicas de Monte Carlo discutidas
na seção 16.3.3. Observamos os "valores p" de segunda ordem, que é a sensibilidade
dos valores p em diferentes estimativas na Figura 16.14 – praticamente todos os resultados
atendem à mesma significância estatística e qualidade de ajuste.
Além disso, analisamos os valores das médias amostrais e dos valores derivados de alfa.
Média MLE entre permutações, veja as Figuras 16.15 e 16.16.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
314 na cauda do risco de conflito violento (com p. cirillo)‡
Pr.
0,25
Figura 16.14: Valores P de
Pareto-Lomax em 100K
combinações. Isto não é para
0,20
determinar o valor p, em vez
para verificar a robustez por
olhando as variações
0,15
0,10
através de permutações de estimativas
companheiros.
0,05
0,00
0,6
0,7
0,8
0,9
1,0
com p
Pr.
0,10
0,08
0,06
Figura 16.15: Média amostral
redimensionada em 100 mil
estimativas entre máximo e mínimo.
0,04
0,02
0,00
eu
8,5×106
9,0×106
9,5×106
Pr.
0,08
0,06
Figura 16.16:
Média MLE em 100K
0,04
Redimensionado
estimativas entre alto-baixo.
0,02
0,00
eu
3,0×107
3,2×107
3,4×107
3,6×107
16.6 conclusão: o mundo é mais inseguro do que parece?
3,8×107
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
16.6 conclusão: o mundo é mais inseguro do que parece? 315
Registro(P>x )
0,100
f
0,010
g
Figura 16.17:
Comparação loglogplot
de f e g, mostrando um
limite de estilo de
colagem em torno de H.
0,001
10-4
10-5
Registro(x)
10
100
1000
104
Para colocar a nossa conclusão nos termos mais simples: a ocorrência de eventos
que aumentariam a violência média em um múltiplo de 3 não nos levaria a reescrever
este capítulo, nem a alterar os parâmetros nele calibrados.
• Na verdade, apenas com base na análise estatística, o mundo é mais inseguro do que
números examinados casualmente. A violência é subestimada pelos olhares
jornalísticos não estatísticos sobre a média e a falta de compreensão da estocasticidade
dos tempos entre chegadas.
• A transformação em suporte compacto permitiu-nos realizar as análises em caso de
e avaliar tal subestimação que subestimação , ruído, dá-nos uma ideia da
e seus limites.
• Por outras palavras, um grande evento e mesmo um aumento na violência média
observada não seriam inconsistentes com as propriedades estatísticas, o que significaria
que justificariam uma reacção de “nada mudou”.
• Evitamos discussões sobre homicídios, uma vez que limitamos L a valores > 10.000,
mas sua taxa não parece ter uma influência específica nas caudas. Pode ser uma gota
no oceano. Obedece dinâmicas diferentes. Podemos ter observado taxas mais baixas
de homicídio nas sociedades, mas a maioria dos riscos de morte advém de violência
conflito. (As baixas por homicídio, ao redimensionarmos a partir da taxa de 70 por 100
mil, dão-nos 5,04 × 106 vítimas por ano na população actual. Uma queda para níveis
mínimos permanece abaixo da diferença entre os erros na média da violência de
conflitos com mais de 10.000 vítimas.)
• Ignorámos o preconceito de sobrevivência na análise dos dados (ou seja, o facto de
que se o mundo tivesse sido mais violento, não estaríamos aqui para falar sobre isso).
Adicioná-lo aumentaria o risco. A presença de efeitos de cauda hoje faz com que
análises mais aprofundadas exijam levá-los em consideração. Desde 1960, um único
conflito – que quase aconteceu – tem a capacidade de atingir o máximo de vítimas,
algo que não tínhamos antes. (Podemos reescrever o modelo com um de fragmentação
do mundo, constituído por n variáveis aleatórias independentes isoladas "separadas"
Xi , cada uma com um valor máximo Hi , com o total ÿn ÿiHi = H, com todos wi > 0,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
316 na cauda risco de conflito violento (com p. cirillo)‡
ÿn ÿi = 1. Nesse caso, o máximo (que é o pior conflito) poderia exigir as probabilidades
conjuntas de que todos os X1 , X2, · · · Xn estejam próximos do seu valor máximo, o que, sob
subexponencialidade, é um evento de probabilidade muito menor do que ter uma única variável
atingindo seu máximo.)11
16,7 agradecimentos
Os dados foram compilados pelo capitão Mark Weisenborn. Agradecemos a Ben Kiernan pelos
comentários sobre os conflitos do Leste Asiático.
11 Quanto tempo teremos de esperar antes de fazer um pronunciamento científico sobre a queda na incidência de guerras
de certa magnitude? Simplesmente, como o tempo entre chegadas segue uma distribuição exponencial sem memória,
ÿ3
aproximadamente a função de sobrevivência de um desvio de três vezes a média é e ÿ 0,05. Significa esperar três
vezes mais que o tempo médio entre chegadas antes de dizer algo científico. Para grandes guerras como a Primeira e
a Segunda Guerra Mundial, espere 300 anos. É o que é.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
G O QUE ESTÁ EM ARETHECHANCESOFA
TERCEIRA GUERRA MUNDIAL? ÿ,†
T
isto é de um artigo que faz parte do debate com intelectuais públicos que
afirmam que a violência caiu “dos dados”, sem perceber que a ciência é
difícil; a significância requer mais dados sob caudas grossas e um exame
mais cuidadoso. Nossa resposta (do autor e P. Cirillo) fornece uma forma
de resumir
marize o principal problema do empirismo ingênuo sob caudas gordas.
Numa edição recente da Significance, o Sr. Peter McIntyre perguntou quais são as probabilidades
de ocorrer a Terceira Guerra Mundial neste século. O professor Michael Spagat escreveu que
ninguém sabe, ninguém pode realmente responder – e concordamos totalmente com ele nisso.
Depois acrescenta que “uma guerra realmente grande é possível, mas, na minha opinião,
extremamente improvável”. Para apoiar a sua declaração, o Prof. Spagat baseia-se parcialmente
no trabalho científico popular do Prof. Steven Pinker, expresso em The Better Angels of our Nature
e em espaços jornalísticos. O professor Pinker afirma que o mundo tem experimentado um
declínio de longo prazo na violência, sugerindo uma mudança estrutural no nível de beligerância da humanidade.
É lamentável que o Prof. Spagat, em sua resposta, se refira ao nosso artigo (este volume,
Capítulo 16 ), que faz parte de um projeto mais ambicioso no qual estamos trabalhando relacionado
a variáveis de cauda gorda.
O que caracteriza as variáveis de cauda gorda? Eles têm suas propriedades (como a média)
dominadas por eventos extremos, aqueles “nas caudas”. A versão mais conhecida é a "Pareto
80/20".
Mostramos que, simplesmente, os dados não apoiam a ideia de uma mudança estrutural na
beligerância humana. Portanto, o primeiro erro do Prof. Spagat é interpretar mal a nossa afirmação:
não estamos a fazer declarações pessimistas nem optimistas: apenas acreditamos que os
estatísticos devem respeitar os fundamentos da teoria estatística e evitar dizer aos dados o que
dizer.
Voltemos aos primeiros princípios.
Capítulo de discussão.
317
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
318 quais são as chances de uma terceira guerra mundial?ÿ,†
Figura G.1: Depois de Napoleão, houve uma calmaria na Europa. Até que o nacionalismo veio mudar a história.
Princípios Fundamentais
Fundamentalmente, a estatística visa garantir que as pessoas não construam teorias científicas a
partir do ar quente, isto é, sem se afastarem significativamente do aleatório. Caso contrário, é
patentemente “enganado pela aleatoriedade”.
Além disso, para variáveis de cauda gorda, o mecanismo convencional da lei dos grandes
números é consideravelmente mais lento e a significância requer mais dados e períodos mais
longos. Ironicamente, há afirmações que podem ser feitas com poucos dados: a inferência é
assimétrica em domínios de cauda gorda. Precisamos de mais dados para afirmar que não
existem Cisnes Negros do que para afirmar que existem Cisnes Negros, portanto precisaríamos
de muito mais dados para afirmar uma queda na violência do que para afirmar um aumento da mesma.
Finalmente, afirmações que não são consideradas estatisticamente significativas – e que o são
– nunca devem ser utilizadas para construir teorias científicas.
Estes princípios fundamentais são frequentemente ignorados porque, normalmente, a formação
estatística dos cientistas sociais é limitada a ferramentas mecanicistas de domínios de cauda fina
[2]. Na física, muitas vezes é possível reivindicar evidências de pequenos conjuntos de dados,
ignorando metodologias estatísticas padrão, simplesmente porque a variância dessas variáveis é baixa.
Quanto maior a variância, mais dados serão necessários para fazer afirmações estatísticas. Para
caudas gordas, a variância é normalmente alta e subestimada em dados anteriores.
O segundo erro – mais sério – que Spagat e Pinker cometeram foi acreditar que os eventos de
cauda e a média são de alguma forma animais diferentes, sem perceber que a média inclui esses
eventos de cauda.
Para variáveis de cauda gorda, a média é quase inteiramente determinada pelos extremos.
Se você não tiver certeza sobre as caudas, então não terá certeza sobre a média.
É, portanto, incoerente dizer que a violência diminuiu, mas talvez não o risco de eventos de cauda;
seria como dizer que alguém é “extremamente virtuoso, exceto durante o episódio do tiroteio na
escola, quando matou 30 alunos”.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
quais são as chances de uma terceira guerra mundial?ÿ,† 319
Robustez
Nosso estudo tentou traçar o quadro estatístico mais robusto da violência, contando com métodos da
teoria dos valores extremos e métodos estatísticos adaptados às caudas gordas.
Também implementámos verificações de robustez para lidar com a imperfeição dos dados recolhidos há
alguns milhares de anos: os nossos resultados têm de ser válidos mesmo que um terço (ou mais) dos
dados estejam errados.
Horários entre chegadas
Mostramos que os tempos entre as chegadas entre os principais conflitos são extremamente longos e
consistentes com um processo de Poisson homogéneo: portanto, nenhuma tendência específica pode
ser estabelecida: nós, como humanos, não podemos ser considerados menos beligerantes do que o
habitual. Para um conflito que gere pelo menos 10 milhões de vítimas, um evento menos sangrento do
que a Primeira ou a Segunda Guerra Mundial, o tempo de espera é, em média, de 136 anos, com um
desvio médio absoluto de 267 (ou 52 anos e 61 desvios para dados redimensionados para a população
de hoje). Os setenta anos do que é chamado de “Longa Paz” claramente não são suficientes para afirmar
muito sobre a possibilidade de uma Terceira Guerra Mundial num futuro próximo.
Subestimação da média
Descobrimos também que a violência média observada no passado subestima a verdadeira média
estatística em pelo menos metade. Por que? Considere que cerca de 90-97% das observações ficam
abaixo da média, o que requer algumas correções com a ajuda da teoria dos valores extremos. (Sob
caudas extremamente grossas, a média estatística pode estar mais próxima da observação máxima
anterior do que a média da amostra.)
Um erro comum
Erros semelhantes foram cometidos no passado. Em 1860, um certo HT Buckle2 usou o mesmo
raciocínio não estatístico de Pinker e Spagat.
Que esta busca bárbara está, no progresso da sociedade, em constante declínio, deve
ser evidente, mesmo para o leitor mais apressado da história europeia. Se compararmos
um país com outro, descobriremos que durante um longo período as guerras têm se
tornado menos frequentes; e agora o movimento está tão claramente marcado que, até
ao início tardio das hostilidades, tínhamos permanecido em paz durante quase quarenta
anos: uma circunstância sem paralelo (...) Surge a questão de saber qual a participação
dos nossos sentimentos morais teve para trazer essa grande melhoria.
Sentimentos morais ou não, o século que se seguiu à prosa do Sr. Buckle revelou-se o mais assassino
da história da humanidade.
2 Buckle, HT (1858) História da Civilização na Inglaterra, Vol. 1, Londres: John W. Parker e filho.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
320 quais são as chances de uma terceira guerra mundial?ÿ,†
Concluímos dizendo que achamos apropriado – e nos sentimos honrados – expor erros
estatísticos fundamentais em uma revista chamada Significance, já que o problema é
precisamente sobre significância e transmissão de noções de rigor estatístico para o público em geral.
público.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Parte VI
ME TA PROBABILIDADE PA PERS
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
17QUÃO ESPESSURA TA ILSEMERGEFROM
RECURSIVAEPISTÊMICA
UNCER DE INTY
†
com uma distribuição específica e termine com uma Gaussiana. O
O Opostocomece
do Limite
Central: Com o Teorema do Limite Central,
o oposto tem maior probabilidade de ser verdade. Lembre-se de como engordamos a cauda
do Gaussiano estocastizando a variância? Agora vamos usar
o mesmo método de metaprobabilidade, colocando camadas adicionais de incerteza.
O argumento da regressão (erro sobre erro) O principal problema por trás do Cisne Negro
é a compreensão limitada do erro do modelo (ou representação) e, para aqueles que o
entendem, a falta de compreensão dos erros de segunda ordem (sobre os métodos usados
para calcular os erros) e por um argumento de regressão, uma incapacidade de reaplicar
continuamente o pensamento até ao seu limite ( especialmente quando não se fornece
nenhuma razão para parar). Novamente, não há problema em parar a recursão, desde que
ela seja aceita como um a priori declarado que escapa aos métodos quantitativos e estatísticos.
Redederivação epistêmica e não estatística de leis de potência Observe que as
derivações anteriores de leis de potência foram estatísticas (vantagem cumulativa, apego
preferencial, efeitos de o vencedor leva tudo, criticidade) e as propriedades derivadas por
Yule, Mandelbrot , Zipf, Simon, Bak e outros resultam de condições estruturais ou da quebra
dos pressupostos de independência nas somas de variáveis aleatórias permitindo a aplicação
do teorema do limite central, [90] [212][100] [162] [161] . Este trabalho é inteiramente
epistêmico, baseado em dúvidas filosóficas padrão e argumentos de regressão.
Capítulo de discussão.
Uma versão deste capítulo foi apresentada no Memorial Científico de Benoit Mandelbrot em 29 de abril de 2011, em New
Haven, CT.
323
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
324 como caudas grossas emergem da incerteza epistêmica recursiva†
17.1 métodos e derivações
Figura 17.1: Uma versão
deste capítulo foi
apresentada no memorial
de Benoit Mandelbrot.
17.1.1 Camadas de incertezas
Tomemos uma distribuição de probabilidade padrão, digamos a Gaussiana. A
medida de dispersão, aqui ÿ, é estimada, e precisamos anexar alguma medida de
dispersão em torno dela. A incerteza sobre a taxa de incerteza, por assim dizer, ou
parâmetro de ordem superior, semelhante ao que chamamos de “volatilidade da
volatilidade” no jargão dos operadores de opções (ver Taleb, 1997, Derman, 1994,
Dupire, 1994, Hull e White , 1997) – aqui seria “taxa de incerteza sobre a taxa de
incerteza”. E não há razão para parar aí: podemos continuar a aninhar estas
incertezas em ordens superiores, com a taxa de incerteza da taxa de incerteza da
taxa de incerteza, e assim por diante. Não há razão para ter certeza em nenhum ponto do processo
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
17.1 métodos e derivações 325
17.1.2 Integrais de Ordem Superior no Caso Gaussiano Padrão
Começamos com o caso de uma Gaussiana e focamos a incerteza no desvio padrão
assumido. Defina ÿ(µ,ÿ;x) como a PDF gaussiana para o valor x com média µ e desvio
padrão ÿ.
Um desvio padrão estocástico de 2ª ordem é a integral de ÿ entre valores de ÿ ÿ com ÿ1
, sob o PDF f (ÿ¯, ÿ1 ; ÿ) ,
seu parâmetro de escala (nossa abordagem para traçar
o erro do erro), não necessariamente seu desvio padrão; o valor esperado de ÿ1 é ÿ1 .
R+
ÿ
f(x)1 = ÿ
0
ÿ(ÿ, ÿ, x)f (ÿ¯, ÿ1 ; ÿ) dÿ
Generalizando para a enésima ordem, a função densidade f(x) torna-se
ÿ
f(x)N = ÿ
0
ÿ
... ÿ0
ÿ(µ, ÿ, x)f (ÿ¯, ÿ1 , ÿ) f (ÿ1 , ÿ2, ÿ1). . .
f (ÿNÿ1 , ÿN, ÿNÿ1) dÿ dÿ1 dÿ2 ... dÿN (17.1)
O problema é que esta abordagem tem muitos parâmetros e requer as especificações
das distribuições subordinadas (em finanças, o lognormal tem sido tradicionalmente usado
2
2p
para ÿ ] uma vez que o uso
(ou
direto
Gaussiano
de umapara
Gaussiana
a razãopermite
Log[ 2pvalores
negativos).
t
_
Precisaríamos especificar uma medida f para cada camada de taxa de erro. Em vez disso,
isto pode ser aproximado usando o desvio médio para ÿ, como veremos a seguir.
Discretização usando séries aninhadas de dois estados para ÿ- um processo multiplicativo simples
acesso
Vimos no último capítulo uma simplificação bastante eficaz para capturar a convexidade,
a razão de (ou diferença entre) ÿ(µ,ÿ,x) e ÿ desvio padrão 0 ÿ(µ, ÿ, x)f (ÿ¯, ÿ1 , ÿ) dÿ (o
de primeira ordem) usando uma média ponderada de valores de ÿ, digamos, para um caso
simples de volatilidade estocástica de uma ordem:
ÿ
ÿ(1 ± uma(1))
com 0 ÿ a(1) < 1, onde a(1) é o desvio absoluto médio proporcional para ÿ, em outras
palavras, a medida da taxa de erro absoluta para ÿ. Usamos como probabilidade 2 de cada
estado. Ao contrário da situação anterior, não estamos preservando a variância, mas sim
o STD. Assim, a distribuição utilizando o desvio padrão estocástico de primeira ordem
pode ser expressa como:
1
f(x)1 =
2 ( ÿ(µ, ÿ (1 + a(1)), x) + ÿ(µ, ÿ(1 ÿ a(1)), x) )
(17.2)
Agora assuma a incerteza sobre a taxa de erro a(1), expressa por a(2), da mesma maneira
que antes. Assim, no lugar de a(1) temos a(1)( 1± a(2)).
12
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
326 como caudas grossas emergem da incerteza epistêmica recursiva†
a1 1 a2 1 a3 1 ÿ
a1 1 a2 1 S
a1 1 a2 1 1a3 ÿ
a1 1 S
a1 1 1a2 a3 1 ÿ
a1 1 1a2 S
a1 1 1a2 1a3 S
S
1a1 a2 1 a3 1 ÿ
1a1 a2 1 S
1a1 a2 1 1a3 ÿ
1a1 S
1a1 1a2 a3 1P
1a1 1a2 S
1a1 1a2 1a3 S
Figura 17.2: Três níveis de taxas de erro para ÿ seguindo um processo multiplicativo
O desvio padrão estocástico de segunda ordem:
1
f(x)2 =
4 ( ÿ ( µ, ÿ(1 + a(1)(1 + a(2))), x ) +
ÿ ( µ, ÿ(1ÿ a(1)(1 + a(2))), x ) + ÿ(µ, ÿ(1 + a(1)(1ÿ a(2)), x ) +ÿ ( µ, ÿ(1ÿ a(1)(1ÿ a(2))), x ) )
(17.3)
e a enésima ordem:
1
f(x)N =
onde MNº é o i
eu
2N
2N
ÿ ÿ(ÿ, ÿMN ix)
,
eu=1
escalar (linha) da matriz MN ( 2
N
× 1)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
17.1 métodos e derivações 327
Nº 2
MN =
ÿ N
ÿ
ÿ j=1
ÿ
ÿ (a(j)Ti,j + 1)
eu=1
e Ti,j o elemento da i linha e j coluna da matriz da combinação exaustiva de ntuplas do conjunto {ÿ1, 1}, que são as sequências de comprimento n (1, 1, 1, . ..)
representando todas as combinações de 1
e ÿ1. para N=3,
ÿ
1
1
1
1
1 ÿ1
ÿ
1 ÿ1 1
1 ÿ1 ÿ1
T=
1
ÿ1 1
ÿ1 1 ÿ1
ÿ1 ÿ1 1
ÿ1 ÿ1 ÿ1
ÿÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿÿÿÿÿ
e
ÿ
M3 =
ÿÿÿÿÿÿÿÿÿÿÿÿ
(1 ÿ a(1))(1 ÿ a(2))(1 ÿ a(3)) (1
ÿ
ÿ a(1))(1 ÿ a(2))(a(3) + 1) (1 ÿ
a(1))(a(2) + 1)(1 ÿ a(3)) (1 ÿ
a(1))(a(2) + 1)(a(3) + 1) (a(1) )
+ 1)(1 ÿ a(2))(1 ÿ a(3)) (a(1) +
1)(1 ÿ a(2))(a(3) + 1) (a(1) + 1)
(uma(2) + 1)(1 ÿ uma(3))
(uma(1) + 1)(uma(2) + 1)(uma(3) + 1)
ÿÿÿÿÿÿÿÿÿÿÿÿ
Então M3 = {(1 ÿ a(1))(1 ÿ a(2))(1 ÿ a(3))}, etc.
1
Note-se que as várias taxas de erro a(i) não são semelhantes aos erros de amostragem,
mas sim à projeção das taxas de erro no futuro. Eles são, repetindo, epistêmicos.
A distribuição final da mistura A distribuição média ponderada da mistura (lembrese de que ÿ é a PDF gaussiana comum com média µ, padrão ÿ para a variável
aleatória x).
Nº 2
eu ,
f(x|µ, ÿ, M, N) = 2ÿN ÿ ÿ ( µ, ÿMN
x)
eu=1
Poderia ser aproximado por uma distribuição lognormal para ÿ e o V correspondente como
sua própria variância. Mas é precisamente o V que nos interessa, e V depende de como os
erros de ordem superior se comportam.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
328 como caudas grossas emergem da incerteza epistêmica recursiva†
0,6
0,5
0,4
0,3
0,2
0,1
6
4
2
2
4
6
Figura 17.3: Caudas mais espessas (picos mais altos) para valores mais elevados de N; aqui N = 0, 5, 10, 25, 50, todos os valores de
1uma
= 10
A seguir, consideremos os diferentes regimes para erros de ordem superior.
regime 1 (explosivo): caso de parâmetro constante a
Caso especial de constante a: Suponha que a(1)=a(2)=...a(N)=a, ou seja, o caso
de taxa de erro proporcional plana a. A Matriz M colapsa em uma árvore binomial
convencional para a dispersão no nível N.
N
f(x|µ, ÿ, M, N) = 2ÿN ÿ
, x)
( N j ) ÿ ( µ, ÿ(a + 1)j (1 ÿ a) Nÿj
(17.4)
j=0
Devido à linearidade das somas, quando a é constante, podemos usar a distribuição
binomial como pesos para os momentos (observe novamente o efeito artificial de
restringir o primeiro momento µ na análise a um conjunto, certo e conhecido a a priori).
Momento
ÿ 1
2
3
ÿÿÿÿÿÿ
4 6m 2s 2 (uma 2
ÿ
eu
2p .
2
(a 3µs2
+ 1)N + µ
+ 1)N + µ
2+
(a
2
1)N + µ
4 + 3 (uma
3
4 2 + 6a
+ 1) Np 4
ÿÿÿÿÿÿ
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
17.1 métodos e derivações 329
Observe novamente a estranheza de que, apesar da natureza explosiva dos momentos mais
elevados, a expectativa do valor absoluto de x é independente de a e de N, uma vez que
as perturbações de ÿ não afetam o primeiro momento absoluto = ÿ 2
inicial assumido ÿ). A situação seria diferente com a adição de x.
Pi
2
Cada recursão multiplica a variância do processo por (1 + a
ÿ (isto é, o
). O processo é
semelhante a um modelo de volatilidade estocástica, com o desvio padrão (não a variância)
seguindo uma distribuição lognormal, cuja volatilidade cresce com M, portanto atingirá a variância
infinita no limite.
Consequências
Para uma constante a > 0, e no caso mais geral com a variável a onde a(n) ÿ a(n-1), os momentos
explodem.
menor valor de a >0, já que ( 1 + um segundo momento
2 )N é ilimitado, leva a A- Mesmo o
indo para o infinito (embora não o primeiro) quando Nÿ ÿ. Então, algo tão pequeno quanto a . A
taxa de erro de 001% ainda levará à explosão de momentos e 2 invalidação do uso da classe de
distribuições L.
B- Nessas condições, precisamos usar leis de potência por razões epistêmicas, ou, pelo menos,
2
distribuições fora do L
norma, independentemente de observações de dados passados.
Observe que precisamos de uma razão a priori (no sentido filosófico) para cortar o N em algum
lugar, limitando assim a expansão do segundo momento.
Convergência para propriedades semelhantes às leis de
potência Podemos ver no exemplo a seguir gráfico Log-Log (Figura 1) como, em ordens mais
altas de volatilidade estocástica, com coeficiente estocástico igualmente proporcional, (onde
a(1)=a(2) =...=a(N)= ) como
a densidade se aproxima daquela de uma Lei de Potência (assim como
1 10
a distribuição Lognormal com maior variância), conforme mostrado em densidade mais plana no
gráfico LogLog. As probabilidades continuam a aumentar nas caudas à medida que adicionamos
camadas de incerteza até que parecem atingir o limite da lei de potência, enquanto, ironicamente,
o primeiro momento permanece invariante.
O mesmo efeito ocorre quando a aumenta em direção a 1, já que no limite o expoente final P>x
se aproxima de 1, mas permanece >1.
17.1.3 Efeito em Pequenas Probabilidades
A seguir medimos o efeito na espessura das caudas. O efeito óbvio é o
surgimento de pequenas probabilidades.
Considere a probabilidade excedente, ou seja, a probabilidade de exceder K, dado N, para o
parâmetro uma constante:
N
P > K|N =
ÿ
j=0
2
K
ÿNÿ1 ( N j )erfc ( ÿ 2ÿ(a + 1)j (1 ÿ a) Nÿj ) (17,5)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
330 como caudas grossas emergem da incerteza epistêmica recursiva†
1
a
, N0,5,10,25,50
10
Registro de preço
0,1
104
107
1010
1013
Registro x
1,5
2,0
5,0
3,0
7,0
10,0
15,0 20,0
30,0
Figura 17.4: Gráfico LogLog da probabilidade de exceder x mostrando achatamento no estilo da lei de potência como N
sobe. Aqui todos os valores de a = 1/10
onde erfc(.) é o complementar da função de erro, 1-erf(.), erf(z) = ÿ
Efeito de convexidade A próxima tabela mostra a razão de probabilidade excedente sob
diferentes valores de N divididos pela probabilidade no caso de um Gaussiano padrão.
Tabela 17.1: Caso de a =
N P>3,N
P>3,N=0
5
P>5,N
P>5,N=0
1,01724 1,155 1,326
10 1.0345
15
1
10
P>10,N
P>10,N=0
7
45
1,05178 1,514 20 1,06908
221
1,720 25 1,0864
922
1.943
Tabela 17.2: Caso de a =
N P>3,N
P>3,N=0
5
2,74
10 4,43
3347
1
100
P>5,N
P>5,N=0
P>10,N
P>10,N=0
146
1,09 × 1012
805
8,99 × 1015
2,21 × 1017
15 5,98 20
1980
7,38 25
3529
1,20 × 1018
8,64
5321
3,62 × 1018
2
Pi
ÿ0
Com
e
-t
2
dt
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
17.2 regime 2: casos de decaimento dos parâmetros a( n)
17.2 regime 2: casos de decaimento dos parâmetros a( n)
Como dissemos, podemos ter (na verdade precisamos ter) razões a priori para diminuir o parâmetro
a ou parar N em algum lugar. Quando a ordem superior de a(i) diminui, então os momentos tendem a
ser limitados (as caudas herdadas virão da lognormalidade de ÿ).
17.2.1 Regime 2-a; “Sangria” de Erro de Ordem Superior
Faça um “sangramento” de erros de ordem superior na taxa ÿ, 0ÿ , tal como a(N) = ÿ
ÿ < 1 a(N-1), portanto N a(1), com a(1) a intensidade convencional do estocástico
a(N) =ÿ desvio padrão. Suponha µ=0.
Com N=2 , o segundo momento torna-se:
M2(2) = (uma(1)2 + 1) ÿ 2 (uma(1)2ÿ 2 + 1)
Com N=3,
M2(3) = p2 ( 1 + uma(1)2 ) (1 + ÿ 2 uma(1)2 ) (1 + ÿ 4 uma(1)2 )
finalmente, para o N geral:
2
N-1
M3(N) = (uma(1)2 + 1) ÿ
ÿ
2i
(a(1)2l
(17.6)
+1)
eu=1
Podemos reexpressar 17,6 usando o símbolo Q-Pochhammer (a; q)N = ÿ
M2(N) = ÿ 2 ( ÿa(1)2 ; ÿ
N-1
eu=1 ( 1 ÿ aqi )
2)N
O que nos permite chegar ao limite
limão
M2(N) = ÿ
2 2
2
2 ( eu ; eu ) 2 ( uma(1)2 ; eu )
2
(ÿ2 ÿ 1)
Nÿÿ
ÿ
(ÿ2 + 1)
Quanto ao quarto momento:
Por recursão:
M4 (N) = 3ÿ4
N-1
ÿ
(6a(1)2l
2i + um(1)4min4i
+1)
eu=0
M4 (N) = 3ÿ4 ((2 ÿ 2 ÿ 3 ) uma(1)2 ; ÿ 2 )
N ( ÿ ( 3 + 2ÿ 2 ) uma(1)2 ; ÿ 2 ) N
(17.7)
331
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
332 como caudas grossas emergem da incerteza epistêmica recursiva†
limão
Nÿÿ
M4 (N) = 3ÿ4 ((2 ÿ 2 ÿ 3 ) uma(1)2 ; ÿ 2 )
ÿ
( ÿ ( 3 + 2ÿ 2 ) a(1)2 ; ÿ 2 ) ÿ (17,8)
Portanto, o segundo momento limite para ÿ=0,9 e a(1)=0,2 é apenas 1,28 ÿ2 , um significativo
mas viés de convexidade relativamente benigno. O quarto momento limite é apenas 4 ,
9,88ÿ, mais de 3 vezes o de Gaussiano 4 ), mas ainda quarto momento finito. Para pequenos
(3 valores de ÿ de a e valores de ÿ próximos de 1, o quarto momento colapsa para o de
um Gaussiano.
17.2.2 Regime 2-b; Segundo método, uma taxa de erro não multiplicativa
Para N recursões,
ÿ(1 ± (a(1)(1 ± (a(2)(1 ± a(3)( ...)))
1
eu
P(X, µ, ÿ, N) =
f ( x, µ, ÿ ( 1 + ( T NA N ) i ) ÿ
eu =1
(MN.T + 1)i ) é o i- ésimo componente do (N × 1) produto escalar de T
N a matriz de
Tuplas em (xx) , L o comprimento da matriz e A contém os parâmetros
AN
= ( aj )
j=1,...N
Assim, por exemplo, para N = 3, T = ( 1, a, a 2 , 3a _ )
+
ÿ
32+a
+ aa 3 2 ÿa
a+a
ÿ
32aÿa
+ a 3 2 ÿa ÿ a +
a
A3T _ 3 =
32a+
a ÿ a 3 2 ÿa + a
ÿa
32aÿa
ÿ a 3 2 ÿa ÿ a ÿ a
ÿÿÿÿÿÿÿÿÿÿÿÿ
Os momentos são os seguintes:
M1 (N) = µ
M2(N) = µ2 + 2p
ÿÿÿÿÿÿÿÿÿÿÿÿ
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
17,3 limite de distribuição 333
M4 (N) = µ
4
+ 12µ 2s + 12s
2
N
ÿ
2e
um
eu=0
No limite:
2 12h
limão
Nÿÿ
M4 (N)=
2 1 ÿ uma
4 + m + 12µ 2p
o que é muito leve.
17.3 distribuição limite
Veja Taleb e Cirillo [241] para o tratamento da distribuição limite que será lognormal nas condições
certas. Na verdade, as aproximações lognormais funcionam bem quando os erros sobre os erros estão
em proporção constante.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
18 S PARA TA ILEXPONENTFOR CÁSTICO
AS YM METRICP OW ERL AW S†
classe com expoente de cauda estocástica,o expoente ÿ tendo
Examinamossua
variáveis
aleatórias
na lei de
potência/variação
lenta
própria distribuição.
Mostramos
o efeito
da estocasticidade de
ÿ
na expectativa e nos momentos mais altos das variáveis aleatórias
capaz. Por exemplo, os momentos de uma variável de cauda direita
ou assimétrica à direita, quando finitos, aumentam com a variância de ÿ; aqueles de
um assimétrico à esquerda diminuem. O mesmo se aplica ao déficit condicional (CVar)
ou funções de excesso de média.
Provamos o caso geral e examinamos a situação específica de ÿ ÿ [b, ÿ), b > 1 com
distribuição lognormal.
A estocasticidade do expoente induz um viés significativo na estimativa da média e
dos momentos superiores na presença de incerteza nos dados. Isto tem consequências
no erro de amostragem, uma vez que a incerteza sobre ÿ se traduz numa média
esperada mais elevada.
O viés é conservado sob soma, mesmo com um número suficientemente grande de
somas para garantir a convergência para a distribuição estável. Estabelecemos
desigualdades relacionadas à assimetria.
Consideramos também a situação das leis de potência limitada (ou seja, com apoio
compacto) e aplicamo-la ao estudo da violência realizado por Cirillo e Taleb (2016).
Mostramos que a incerteza relativa aos dados históricos aumenta a verdadeira
significar.
Capítulo de pesquisa.
Conferência: Extremos e Riscos em Dimensões Superiores, Lorentz Center, Leiden, Holanda, setembro de 2016.
335
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
336 expoente de cauda estocástica para leis de potência assimétricas†
Plano de fundo 18.1
A volatilidade estocástica foi introduzida heuristicamente nas finanças matemáticas por traders que
procuram preconceitos na avaliação de opções, onde se considera que uma distribuição gaussiana
tem várias variações possíveis, quer localmente, quer numa data futura específica. As opções longe
do dinheiro (ou seja, relativas a eventos de cauda) aumentam de valor com a incerteza na variância
da distribuição, uma vez que são convexas em relação ao desvio padrão.
Isso levou a uma família de modelos de movimento browniano com variância estocástica (ver
revisão em Gatheral [102]) e provou ser útil no rastreamento das distribuições do subjacente e do
efeito do caráter não gaussiano de processos aleatórios nas funções do processo (como preços das
opções).
Assim como as opções são convexas em relação à escala da distribuição, encontramos muitas situações
em que as expectativas são convexas em relação ao expoente final da Lei de Potência. Esta nota examina
dois casos:
• As leis de potência padrão, unicaudais ou assimétricas. • A lei da
pseudo-potência, onde uma variável aleatória parece ser uma lei da potência, mas tem suporte
compacto, como no estudo da violência [46] , onde as guerras têm o número de vítimas
limitado a um valor máximo.
18.2 distribuições unicaudais com alfa estocástico
18.2.1 Casos Gerais
Definição 18.1
Seja X uma variável aleatória pertencente à classe de distribuições com cauda direita de "lei de
potência", que é suportada em [x0, +ÿ) , ÿ
R: Subclasse P1 :
{X : P(X > x) = L(x)x
- a , ÿ qL(x)
= 0 para q ÿ 1}
ÿx q
(18.1)
Notamos que x_0 pode ser negativo por deslocamento, desde que x0 > ÿÿ.
Classe P:
{X : P(X > x) = L(x) x
-a
}
(18.2)
onde ÿ significa que o limite da razão ou rhs para lhs vai para 1 quando x ÿ ÿ. L : L(kx) [xmin, +ÿ) ÿ
(0,
+ÿ) é uma função de variação lenta, definida como limxÿ+ÿ = 1 para L(x) qualquer k > 0. L
'(x) é monótono. A constante ÿ > 0.
Assumimos ainda que:
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
18.2 distribuições unicaudais com alfa estocástico 337
limxÿÿ ' (x)x = 0
(18.3)
L limxÿÿ L ”(x) x = 0
(18.4)
Nós temos
P1 ÿ P
Notamos que a primeira classe corresponde às distribuições de Pareto (com deslocamento e
escalonamento adequados), onde L é uma constante e P às leis de potência unilaterais mais gerais.
18.2.2 Desigualdade Alfa Estocástica
Ao longo do resto do artigo usaremos como notação X a versão de X,
o caso ÿ constante .
'
para o alfa estocástico
Proposição 18.1
Seja p = 1, 2, ..., X ' ser a mesma variável aleatória que X acima em P1 (o regular unicaudal
classe de variação), com x0 ÿ 0, exceto com ÿ estocástico com todas as realizações > p que
preservam a média ÿ¯,
ANTIGO
'p ) ÿ E(Xp ) .
Proposição 18.2
Seja K um limite. Com X na classe P, temos o déficit condicional esperado (CVar):
limão
ANTIGO
' |Xÿ>K) ÿ limite
Kÿÿ
E(X|X>K).
Kÿÿ
O esboço da prova é o seguinte.
Observamos que E(X p ) é convexo para ÿ, no seguinte sentido. Seja Xÿi a variável aleatória
distribuída com expoente de cauda constante ÿi , com ÿi > p, ÿi, e ÿi os pesos positivos normalizados:
ÿi ÿi = 1, 0 ÿ |ÿi |ÿ 1, ÿi ÿiÿi = ÿ¯. Pela desigualdade de Jensen:
ai p ) ÿ E(ÿ (ÿiX
ANTIGO
p ÿi ÿ
eu
ai
)).
eu
Como as classes são definidas por suas funções de sobrevivência, primeiro precisamos resolver a
densidade correspondente: ÿ(x) = ÿx ÿÿÿ1L(x, ÿ) ÿ x ÿÿL (1,0)(x, ÿ) e obtenha a constante de
normalização.
a
eu(x0, ÿ) = x 0
-
2x0L (1,0)(x0, ÿ)
ÿÿ1
2
-
2x 0L
(2,0)(x0, a)
(ÿ ÿ 1)(ÿ ÿ 2)
,
(18,5)
ÿ ÿ= 1, 2 quando existem a primeira e a segunda derivada, respectivamente. A notação de slot L (p,0)
(x0, ÿ) é a abreviação de
ÿ pL(x,ÿ)
ÿx p
|x=x0 .
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
338 expoente de cauda estocástica para leis de potência assimétricas†
Pelo teorema de representação de Karamata, [22],[248], uma função L em [x0, +ÿ) está se movendo
lentamente (Definição) se e somente se puder ser escrita na forma
ÿ(t)
eu(x) = exp (ÿ x
tdt) + ÿ(x)
x0
onde ÿ(.) é uma função mensurável limitada convergindo para um número finito como x ÿ +ÿ, e ÿ(x) é uma
função mensurável limitada convergindo para zero como x ÿ
+ÿ.
'(x) vai para 0 quando x ÿ ÿ. (Assumimos ainda em 18.3 e 18.4 2
Assim, L
ÿ aquele L
(x) vai para 0 mais rápido que x e L “(x) vai para 0 mais rápido que x partes,
). Integrando por
ÿ
E(X p ) = x
p
0 + pÿ
x pÿ 1dF¯(x)
x0
onde F¯ é a função de sobrevivência nas Eqs. 23.1 e 18.2. Integrando por partes três vezes adicionais e
eliminando derivadas de L(.) de ordem superior a 2:
x
E(X p ) =
pÿÿ
0
x0 pÿÿ+1
_
eu(x0, ÿ)
L (1,0)(x0, a)
p - uma
x0 pÿÿ+2
_
+
-
(p ÿ ÿ)(p ÿ ÿ + 1)
L (2,0)(x0, a)
(18.6)
(p - ÿ) (p - ÿ + 1) (p - ÿ + 2)
que, para o caso especial de X em P1 se reduz a:
E(X p ) = x
a
p
(18.7)
0a-p
'
Quanto à Proposição 2, podemos abordar a prova a partir da propriedade de que limxÿÿ L 0. Isso permite (x) =
uma prova da lei de var der Mijk de que a igualdade de Paretian é invariante a E(X|X>K) o limite na cauda,
ou seja
converge para uma constante como K ÿ +ÿ.
K
A Equação 18.6 apresenta as condições exatas da forma funcional de L(x) para que a convexidade se
estenda às subclasses entre P1 e P.
Nossos resultados se referem a distribuições que são transformadas por deslocamento e escalonamento,
do tipo:
x ÿ x ÿ µ + x0 (Pareto II), ou com transformações adicionais para os tipos de Pareto II e IV.
Notamos que a representação P1 utiliza o mesmo parâmetro, x0, tanto para escala quanto para valor
mínimo, como simplificação.
Podemos verificar que a expectativa da Eq. 18,7 é convexo para ÿ: ÿÿ2
ÿE(X p ) x 0 p 2 =
(ÿÿ1)3 .
18.2.3 Aproximações para a Classe P
Para P \ P1, nossos resultados são válidos quando podemos escrever uma aproximação da expectativa de
-a
X como uma constante multiplicando a integral de x
E(X) ÿ k ÿ ÿ
para)
1
, nomeadamente
(18.8)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
18,3 somas de leis de potência 339
onde k é uma constante positiva que não depende de ÿ e ÿ(.) é aproximada por uma função linear
de ÿ (mais um limite). A expectativa será convexa para ÿ.
Exemplo: Distribuição T de Student Para a distribuição T de Student com cauda ÿ, a função
"sofisticada" de variação lenta de uso comum para leis de potência simétricas em finanças
quantitativas, a meia-média ou a média da distribuição unilateral (ou seja, com suporte em R+
torna-se
2ÿ(a) = 2
ÿ ÿÿ ( ÿ+12 )
ÿuma _
(1 + log(4))
Pi
ÿ ÿÿ ( ÿ 2 )
,
onde ÿ(.) é a função gama.
18,3 somas de leis de potência
Como estamos tratando daqui em diante de convergência para a distribuição estável, consideramos
situações de 1 < ÿ < 2, portanto p = 1 e nos preocuparemos apenas com a média.
Observamos que a convexidade da média é invariante aos somatórios das variáveis distribuídas
pela Lei de Potência como X acima. A distribuição Estável tem uma média que nas parametrizações
convencionais não parece depender de ÿ – mas na verdade depende dele.
Seja Y distribuído de acordo com uma distribuição de Pareto com densidade f(y) ÿ , y ÿ ÿ > 0 e
ÿÿÿy
ÿÿÿ1
com seu expoente final 1 < ÿ < 2. Agora, seja Y1 , Y2, . . . Sim
são cópias idênticas e independentes de Y. Seja ÿ(t) a função característica de f(y). Temos ÿ(t) =
ÿ(ÿit) ÿÿ(ÿÿ, ÿit), onde ÿ(., .) é a função gama incompleta. Podemos obter a média da função
característica da média de n somas
1
n (Y1
t n
) .
n
+ Y2 + ...Yn), ou seja, ÿ(
t n
)
ÿÿ( ÿeu n
ÿt
= (ÿi) ÿ(nÿ1)n 1ÿÿn
Tomando a primeira derivada:
ÿ nÿ ÿ(nÿ1)t ÿ(nÿ1)ÿ1ÿ
(18,9)
isto
istoÿ ÿa, ÿ
é
um e
( n )nÿ1 ( (ÿi) ÿ ÿÿÿ t ÿÿ ( ÿÿ, ÿ
n)ÿn
n)
e
t n
)
n
ÿÿ( limnÿÿ ÿiÿt
=
ÿ ÿ ÿ ÿ t=0
a
ÿÿ ÿ 1
(18.10)
Assim podemos ver como a distribuição assintótica convergente para a média terá como média
a
os tempos da escala ÿÿ1 ,
que não depende de n.
Seja ÿ S (t) ser a função característica da distribuição estável correspondente Sÿ,ÿ,µ,ÿ, da
distribuição de cópias infinitamente somadas de Y. Pelo teorema da continuidade de Lévy, temos
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
340 expoente de cauda estocástica para leis de potência assimétricas†
1
n ÿiÿnYi
•
D S, com distribuição Sa,ÿ,µ,ÿ, onde ÿÿ denota convergência
D
ÿÿ
na distribuição
e
S • x (t) = limnÿÿ ÿ(t/n) n
são equivalentes.
Portanto, estamos lidando com o resultado padrão [272],[209], para somas exatas de Pareto
[269], substituindo o µ convencional pela média acima:
ÿt
Sh
(t) = exp (eu ( ÿ
uma - 1
+ |t|
2 )sgn(t) + i ))) . a ( b
bronzeado (pa
18.4 distribuições estáveis assimétricas
Podemos verificar por simetria que, efetivamente, inverter a distribuição nas subclasses P1 e P2
em torno de y0 para torná-la negativa produz um valor negativo da média d momentos mais
elevados, daí a degradação do ÿ estocástico.
A questão central passa a ser:
Observação 17: Preservação da Assimetria
Uma soma normalizada na distribuição unicaudal P1 com expectativa que depende de ÿ
da forma na Eq. 18.8 convergirá necessariamente na distribuição para uma distribuição
estável assimétrica Sÿ,ÿ,µ,1 , com ÿ ÿ= 0.
Observação 18
'
Deixe Y ser Y sob ÿ estocástico com preservação de média. O efeito de convexidade torna-se
sinal (E(Y ' ) ÿ E(Y) ) = sinal(b).
O esboço da prova é o seguinte. Considere duas funções de variação lenta como em 23.1, cada
uma em um lado da cauda. Temos L(y) = 1y<yÿ L ÿ(y) + 1yÿyÿ L
ÿ
eu +
(y), L : [yÿ , +ÿ], calcárioÿÿ L
+
+
(e):
(y) = c
ÿÿ
ÿÿ
L ÿ(y), L : [ÿÿ, yÿ ], calcárioÿÿÿ L ÿ(y) = d.
De [209],
ÿ
P(X > x) ÿ cxÿÿ
, x ÿ +ÿ
se
então Y converge na distribuição para Sÿ,ÿ,µ,1
ÿÿ
ÿÿ
P(X < x) ÿ d|x| ÿÿ com , x ÿ +ÿ,
o coeficiente ÿ =
cÿd
c+d .
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Distribuição de Pareto 18,5 com distribuição lognormal ÿ 341
ÿ onde: ÿÿ1
Podemos mostrar que a média pode ser escrita como (ÿ+ ÿ ÿÿ)
ÿ
eu
ÿ+ ÿ ÿÿ se ÿ
yÿ
+
(y)dy, ÿ ÿ
yÿ
L ÿ(y) você
ÿÿ
Distribuição de Pareto 18,5 com distribuição lognormal ÿ
Agora suponha que ÿ esteja seguindo uma distribuição Lognormal deslocada com média ÿ0 e
2s 2 , _
valor mínimo b, ou seja, ÿ ÿ b segue um Lognormal L ( log(ÿ0) ÿ
ÿ ). O
o parâmetro b nos permite trabalhar com um limite inferior no expoente final para satisfazer a
expectativa finita. Sabemos que o expoente final acabará por convergir para b, mas o processo
pode ser bastante lento.
Proposição 18.3
Assumindo expectativa finita para X' e para o expoente o deslocamento lognormalmente distribuído
2p .
2,
variável ÿ ÿ b com lei L ( log(ÿ0) ÿ
'
EI
p ), b ÿ 1 valor mínimo para ÿ e escala ÿ:
(e
) = E(Y) + ÿ
2p .
ÿb )
(18.11)
ÿ0 ÿ b
Precisamos de b ÿ 1 para evitar problemas de expectativa infinita.
Seja ÿ(y, ÿ) a densidade com expoente de cauda estocástica. Com ÿ > 0, ÿ0 > b, b ÿ 1, ÿ > 0,
Yÿÿ>0
,
ÿ
E(S) = ÿ
ÿ
ÿ
b
vocêÿ(y; ÿ) dy daÿ
eu
a
ÿ
=ÿb
1
ÿuma ÿ 1 ÿ 2ÿs(a ÿ b)
2p .
ÿ ( log(ÿ ÿ b) ÿ log(ÿ0 ÿ b) + ÿÿÿ ÿ ( ÿ0
experiência
2s 2
(18.12)
2 )2 ÿ ÿÿ sim
+e
2p .
ÿb )
=
.
ÿ0 ÿ b
Aproximação da Densidade
Com b = 1 (que é o limite inferior para b), obtemos a densidade com ÿ estocástico:
1
ÿ(y; ÿ0, ÿ) = limite
kÿÿ
A2
k
ÿ
1
eu(ÿ0 ÿ 1)eu
não!
1
eu(euÿ1)p2
2
(log(ÿ) ÿ log(y))iÿ1 (i + log(ÿ) ÿ log(y))
eu=0
(18.13)
Este resultado é obtido expandindo ÿ em torno de seu limite inferior b (que simplificamos para b
= 1) e integrando cada soma.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
342 expoente de cauda estocástico para leis de potência assimétricas†
Distribuição pareto 18,6 com alfa distribuído gama
Proposição 18.4
'
Assumindo expectativa finita para escala ÿ, e para expoente uma distribuição gama deslocada
a variável X ÿ ÿ 1 com lei ÿ(.), média ÿ0 e variância s2 , todos os valores para ÿ maiores que 1:
ANTIGO
' ) = E(X ' )
2s _
+ (ÿ0 ÿ 1)(ÿ0 ÿ s ÿ 1)(ÿ0 + s ÿ 1)
(18.14)
Prova.
-
(ÿÿ1)(ÿ0ÿ1)
é
é2
e
(a0ÿ1)
2
( (ÿÿ1)(ÿ0ÿ1) ) ÿ
ÿ(a) =
2
é2
,
uma > 1
(18.15)
é
(ÿÿ1)ÿ ( (ÿ0ÿ1)
2 2)
ÿ
ÿ1
-
(18.16)
ala x ÿÿÿ1ÿ(ÿ) dÿ
(a0ÿ1)2
(ÿÿ1)(ÿ0ÿ1) 2
é
2s _
é
ÿ
um (e
= ÿ1
( (ÿÿ1)(ÿ0ÿ1))ÿ
2)
sim
é 2 )) +
(ÿ ÿ 1) ( (ÿ ÿ 1)ÿ ( (ÿ0ÿ1)2
=
1
2 (1 ÿ0 + s ÿ 1
+
1
ÿ0 ÿ s ÿ 1 2)
18.7 a lei de potência limitada em cirillo e taleb (2016)
Em [46] e [45], os estudos fazem uso de leis de poder limitado, aplicadas à violência
e ao risco operacional, respectivamente. Embora com ÿ < 1 a variável Z tenha
expectativas finitas devido ao limite superior.
Os métodos oferecidos foram uma transformação suave da variável da seguinte forma:
começamos com z ÿ [L, H), L > 0 e transformamos em x ÿ [L, ÿ), este último sendo
legitimamente distribuído pela Lei de Potência.
Portanto, a transformação logarítmica suave):
x = ÿ(z) = L ÿ H log ( H ÿHz - EU),
e
f(x) =
ás
( xÿL
+ 1)ÿÿÿ1 .
p
Obtemos assim a distribuição de Z que terá uma expectativa finita para todos os valores
positivos de ÿ.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
18,8 comentários adicionais 343
ÿ 2E(Z)
ÿÿ2
1
=
ás
H3 (H ÿ L) (e
uma + 1, uma + 1, uma + 1 1,
|
H ) 2,3 ( como
uma, uma,
H (2H 3G 4,03,4 ( como
) uma
ÿ2H _
2
(H + p)G
uma + 1, uma + 1
H
|
(18.17)
1, uma, uma
ás
2
+ ÿ ( ÿ2 + (ÿ + 1)H
3,0
+ 2ÿHÿ ) Eÿ (
H )) ÿ Hÿ(H + ÿ) )
o que parece ser positivo na faixa de perturbações numéricas em [46].3 Em um nível tão baixo de ÿ,
a expectativa é extremamente convexa
12 e
, o viés
será, portanto, extremamente pronunciado.
Esta convexidade tem a seguinte implicação prática. Os dados históricos sobre a violência nos
últimos dois milénios são fundamentalmente pouco fiáveis [46]. Conseqüentemente, uma imprecisão
sobre o expoente final, devido a erros embutidos nos dados, precisa estar presente nos cálculos. O
que foi dito acima mostra que a incerteza sobre ÿ tem mais probabilidade de tornar a média estatística
"verdadeira" (que é a média do processo em oposição à média da amostra) maior do que menor,
portanto, apóia a afirmação de que mais incerteza aumenta a estimativa de violência.
18,8 comentários adicionais
O viés na estimativa da média e as deficiências decorrentes da incerteza no expoente da cauda
podem ser adicionados às análises onde os dados são insuficientes, não confiáveis ou simplesmente
propensos a falsificações.
Além da inferência estatística, esses resultados podem se estender a processos, seja um processo
composto de Poisson com subordinação de leis de potência [217] (ou seja, um tempo de chegada
de Poisson e um salto que é distribuído pela Lei de Potência) ou um processo de Lévy. Este último
pode ser analisado considerando sucessivas “distribuições de fatias” ou discretização do processo
[50]. Como a expectativa de uma soma de saltos é a soma das expectativas, aparecerá a mesma
convexidade que obtivemos na Eq. 18.8.
18,9 agradecimentos
Marco Avellaneda, Robert Frey, Raphael Douady, Pasquale Cirillo.
3G
4,0
uma + 1, uma + 1, uma + 1 1,
H |
3.4 ( asc
uma, uma, uma
) é a função Meijer G.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
19 COM ELES - DISTRIBUIÇÃO DE JOGADORES FPS -VA
ANDP - HACKING ‡
para valores de p em conjuntos de fenômenos estatisticamente idênticos
Apresentamosena,
uma
distribuição
de probabilidade
exata
(meta-distribuição)
bem
como a distribuição
do valor p mínimo
entre
m testes independentes. Derivamos a distribuição para pequenas amostras
ples 2 < n ÿ n
ÿ
ÿ 30, bem como o limite à medida que o tamanho da
amostra n se torna grande. Também examinamos as propriedades do “poder” de um teste
através da distribuição de seu inverso para um determinado valor p e parametrização.
Os valores P mostram-se extremamente distorcidos e voláteis, independentemente do
tamanho da amostra n, e variam muito entre repetições exatamente dos mesmos protocolos
sob cópias estocásticas idênticas do fenômeno; tal volatilidade faz com que o valor mínimo
de p divirja significativamente do valor “verdadeiro”. É demonstrado que definir o poder
oferece pouca solução, a menos que o tamanho da amostra seja aumentado acentuadamente
ou o valor p seja reduzido em pelo menos uma ordem de grandeza.
As fórmulas permitem a investigação da estabilidade da reprodução dos resultados e do "phacking" e outros aspectos da meta-análise – incluindo uma metadistribuição dos resultados
p-hackeados.
Do ponto de vista probabilístico, nem um valor p de 0,05 nem um “poder” de 0,9 parecem
fazer o menor sentido.
Suponha que conheçamos o “verdadeiro” valor p, ps, como seriam suas realizações em várias
tentativas de cópias estatisticamente idênticas dos fenômenos? Por valor verdadeiro ps, entendemos
seu valor esperado pela lei dos grandes números em um conjunto m de amostras possíveis para o
fenômeno sob escrutínio, ou seja
1
eu
P
ÿÿmpi _
P
ÿÿ ps (onde ÿÿ denota convergência em probabilidade). Um argumento de convergência
semelhante também pode ser feito para a “mediana verdadeira” correspondente pM. O principal
resultado do artigo é que a distribuição de n pequenas amostras pode ser explicitada (embora com
funções inversas especiais), bem como sua limitação parcimoniosa
Capítulo de pesquisa.
345
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
346 meta-distribuição de valores p e p-hacking‡
um para n grande, sem outro parâmetro além do valor mediano pM. fomos
Não conseguimos obter uma forma explícita para ps , mas contornamos isso usando a mediana.
Finalmente, a distribuição do valor p mínimo abaixo pode ser explicitada,
em uma fórmula parcimoniosa que permite a compreensão de preconceitos na ciência
estudos.
PDF
10
8
n=5
n=10
n=15
6
n=20
n=25
4
2
0,00
0,05
0,10
0,15
0,20
p
Figura 19.1: Os diferentes valores para a Equ. 19.1 mostrando convergência para a distribuição limite.
Descobriu-se, como podemos ver na Figura 19.2 , que a distribuição é extremamente assimétrica
(inclinada para a direita), a ponto de 75% das realizações de um valor p "verdadeiro"
de 0,05 será <0,05 (uma situação limítrofe tem 3x mais probabilidade de passar do que reprovar em um determinado
protocolo) e, o que é pior, 60% do verdadeiro valor p de 0,12 estará abaixo de 0,05.
Embora com suporte compacto, a distribuição apresenta os atributos de
extrema cauda gorda. Para um valor p observado de, digamos, 0,02, o valor p "verdadeiro"
é provável que seja> 0,1 (e muito possivelmente próximo de 0,2), com um desvio padrão> 0,2
(sic) e um desvio médio em torno de 0,35 (sic, sic). Por causa do excesso
1 e eu
2
assimetria, medidas de dispersão em L
(e normas mais altas) variam
dificilmente com ps, então o desvio padrão não é proporcional, o que significa que um valor
p de 0,01 na amostra tem uma probabilidade significativa de ter um valor verdadeiro > 0,3.
Então, claramente, não sabemos do que estamos falando quando falamos sobre
valores p.
Tentativas anteriores de uma meta-distribuição explícita na literatura foram encontradas em
[132] e [208], embora para situações de subordinação gaussiana e parametrização menos
parcimoniosa. A gravidade do problema de significância do chamado "estatisticamente significativo"
foi discutida em [105] e ofereceu uma solução via bayesiana.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
19.1 provas e derivações 347
métodos em [138], que de fato recomenda o mesmo rigor dos padrões para
valores de p ÿ 0,01. Mas a gravidade da extrema assimetria da distribuição
dos valores-p só é aparente quando se olha para a metadistribuição.
Para notação, usamos n para o tamanho da amostra de um determinado estudo e m o número de
ensaios que levam a um valor p.
19.1 provas e derivações
Proposição 19.1
Seja P uma variável aleatória ÿ [0, 1]) correspondente ao valor p unilateral derivado da
amostra da estatística do teste T pareado (variância desconhecida) com valor mediano M(P)
= pM ÿ [0 , 1] derivado de uma amostra de tamanho n. A distribuição pelo conjunto de cópias
estatisticamente idênticas da amostra tem para PDF
1
2
ÿ(p;para
pM)H
ÿ(p; pM) = { ÿ(p; pM)L
p<
para p >
1
2
ÿ(p; pM)L = ÿ p (ÿnÿ1)
12
ÿp ( ÿpM ÿ 1 )
-
( ÿp ÿ 1 ) ÿpM ÿ 2 ÿ( 1 ÿ ÿp ) ÿp ÿ( 1 ÿ ÿpM ) ÿpM + 1 ÿ
1
ÿÿÿ
'
ÿ(p; pM)H = ( 1 ÿ ÿ p ) 1 ÿ ÿÿ
2
1
p
+ 1 ÿ1
2 ÿ 1ÿÿp ÿ
ÿpM ÿ ÿp ÿ1ÿÿpM 1ÿÿpM
-
'
ÿ1
2p ( n
1
ÿÿÿ
ÿ
( ÿÿpM ) + 2ÿ( 1 ÿ ÿ
ÿ1
2 ,2 ) , ÿpM = I 1ÿ2pM ( 1
n+1
2
(19.1)
'p ) eu'ÿÿ p ÿ( 1 ÿ ÿpM ) ÿpM + 1
ÿ
onde ÿp = eu
n/2
(ÿnÿ1)
( eup ÿ 1 ) ( ÿpM ÿ 1 )
ÿp _
ÿ
n
2 , 2 ),
__
p
= eu
ÿ1ÿl
ÿ1
n
2pÿ1 ( 1 2 , 2 ), e eu (.)
(., .) é o
função beta regularizada inversa.
Observação 19
Para p=12a distribuição não existe na teoria, mas existe na prática e podemos trabalhar
1
em torno dele com a sequência pmk = como
1 ± 2no
mil ,gráfico que mostra uma convergência para a
distribuição uniforme em [0, 1] na Figura 19.3. Observe também que o que é chamado de
hipótese “nula” é efetivamente um conjunto de medida 0.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
348 meta-distribuição de valores p e p-hacking‡
Prova. Seja Z uma variável aleatória normalizada com realizações ÿ, de um vetor ÿv de n realizações, com média
amostral mv e desvio padrão amostral sv, ÿ = (onde mh é o nível contra o qual é testado), portanto assumido
mvÿm
ÿsvn
como ÿ Student T com n graus de liberdade e, crucialmente, supostamente fornece uma média de ¯ÿ,
n+1
2
n
( ( ¯ÿÿÿ) 2+n )
f(ÿ; ¯ÿ) =
ÿ nB ( n 22) ,
1
onde B(.,.) é a função beta padrão. Seja g(.) a função de sobrevivência unicaudal da distribuição T de Student com
média zero e n graus de liberdade:
ÿ
1
Em _
1 2 ÿ 2+n ( n
g(ÿ) = P(Z > ÿ) =
1
ÿÿ
ÿÿ
ÿÿ0
2, 2)
2
2,
2 (eu (z z12+n
n
2 ) + 1) z < 0
onde I(.,.) é a função Beta incompleta.
Procuramos agora a distribuição de g ÿ f(ÿ). Dado que g(.) é uma função de Borel legítima, e nomeando p a
probabilidade como uma variável aleatória, temos um resultado padrão para a transformação:
f ( g (ÿ1) (p) )
ÿ(p, ÿÿ) = |
g ÿ ( g (ÿ1)(p) ) |
Podemos converter ¯ÿ na probabilidade de sobrevivência mediana correspondente devido à simetria de Z. Como
metade das observações cai em ambos os lados de ¯ÿ, podemos verificar que a transformação preserva a mediana:
g( ¯ÿ) = portanto ÿ(pM , .) = 2 . Portanto, acabamos tendo { ¯ÿ :
1
Em _
1 2 ¯ÿ 2+n ( n
1
2
2 (eu
z z 2+n
12 ,
1
2 , 2 ) = pM} (caso positivo) e { ¯ÿ : 2 ) + 1) = pM}
n
( 12 , (caso negativo). Substituindo obtemos a Eq.19.1 e a Proposição
a ção 19.1 está concluída.
Notamos que n não aumenta a significância, uma vez que os valores de p são calculados a partir de variáveis
normalizadas (daí a universalidade da metadistribuição); um n alto corresponde a uma convergência aumentada para
o gaussiano. Para n grande, podemos provar a seguinte proposição:
Proposição 19.2 Sob
as mesmas suposições acima, a distribuição limite para ÿ(.):
ÿerfcÿ1 (2pM)(erfcÿ1 (2pM)ÿ2erfcÿ1
(2p)) limnÿÿ ÿ(p; pM) = e
onde erfc(.) é a função de erro complementar e er fc(.)
ÿ1 é o inverso.
(19.2)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
19.1 provas e derivações 349
O CDF limite ÿ(.)
1
ÿ(k; pM) = 2
ergc ( foutÿ1 (1 ÿ 2k) ÿ foutÿ1 (1 ÿ 2pM) )
Prova. Para n grande, a distribuição de Z =
mv
(19.3)
torna-se o de um Gaussiano, e o
ÿsvn
função de sobrevivência unicaudal g(.) =
erfc ( ÿÿ 2 ) , ÿ(p) ÿ ÿ 2erfcÿ1 (p).
12
PDF/Frequ.
53% de realizações <0,05
25% de realizações <0,01
0,15
0,10
5%
ponto de corte
valor p
(verdadeira média)
Mediana
0,05
0,00
p
0,05
0,10
0,15
0,20
Figura 19.2: A distribuição de probabilidade de um valor p unilateral com valor esperado 0,11 gerado por
Monte Carlo (histograma), bem como analiticamente com ÿ(.) (a linha sólida). Extraímos todas as
subamostras possíveis de um conjunto com determinadas propriedades. A assimetria excessiva da
distribuição torna o valor médio consideravelmente superior ao da maioria das observações, causando assim
ilusões de "significância estatística".
Esta distribuição limitante se aplica a testes pareados com variância amostral conhecida
ou presumida, uma vez que o teste se torna uma variável gaussiana, equivalente à
convergência do teste T (Student T) para o gaussiano quando n é grande.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
350 meta-distribuição de valores p e p-hacking‡
f5
4
0,025
.1
.15
3
0,5
2
1
0,0
0,2
0,4
0,6
0,8
1,0
Figura 19.3: A distribuição de probabilidade de p em diferentes valores de pM. Observamos como pM =
para uma distribuição uniforme.
12
p
pistas
Observação 20
Para valores de p próximos de 0, ÿ na Equ. 19.2 pode ser calculado de forma útil como:
2
2ÿp M )
ÿ(p; pM) = ÿ 2ÿpM log ( 1 2 ))ÿ2 log(p)
e
ÿ ÿ log( 2ÿ log( 12ÿp ÿ ÿ log( 2ÿ log( 1
2ÿp
M ))ÿ2 log(pM)
2
2
+ O (p
A aproximação funciona mais precisamente para a faixa de valores relevantes 0 < p <
). (19.4)
1 2p .
A partir disso podemos obter resultados numéricos para convoluções de ÿ usando a Transformada de Fourier
ou métodos semelhantes.
Podemos obter a distribuição do valor p mínimo por m ensaios em situações estatisticamente idênticas,
assim, ter uma ideia de "p-hacking", definido como tentativas dos pesquisadores de obter os valores p mais
baixos de muitos experimentos, ou tentar até um dos testes produz significância estatística.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
19,2 potência inversa do teste 351
Proposição
19.3 A distribuição do mínimo de m observações de valores p estatisticamente
idênticos torna-se (sob a distribuição limite da proposição 19.2):
ÿm(p; pM) = m eerfcÿ1 (2pM)(2erfcÿ1 (2p)ÿerfcÿ1 (2pM))
1
( 1- 2 erfc ( erfcÿ1 (2p) ÿ erfcÿ1 (2pM) ))mÿ1 (19,5)
Prova. P (p1 > p, p2 > p, . . . , pm > p) = ÿni=1ÿ(pi ) = ÿ¯ (p) m. Tomando a primeira
derivada obtemos o resultado.
Fora da distribuição limite: integramos numericamente para diferentes valores de m
conforme mostrado na Figura 19.4. Então, mais precisamente, para m tentativas, a
expectativa é calculada como:
1
E(pmin) = ÿ
0
ÿm ÿ(p; pM) (ÿ p0 ÿ(u, .) du )mÿ1 dp
P-val mínimo esperado
0,12
0,10
n=5
0,08
n=15
0,06
0,04
0,02
m testes
2
4
6
8
10
12
14
Figura 19.4: O valor de “p-hacking” em m ensaios para pM = 0,15 e ps = 0,22.
19,2 potência inversa do teste
Seja ÿ o poder de um teste para um determinado valor p p, para sorteios aleatórios de X do
parâmetro não observado ÿ e um tamanho de amostra de n. Para avaliar a confiabilidade de ÿ
como uma verdadeira medida de potência, realizamos um problema inverso:
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
352 meta-distribuição de valores p e p-hacking‡
b
Xÿ,p,n
ÿ
b
ÿ1
(X)
Proposição 19.4
Seja ÿc a projeção do poder do teste a partir das realizações assumidas como sendo do
aluno T distribuídas e avaliadas sob o parâmetro ÿ. Nós temos
1
2
1
ÿ(ÿc)H
para
ÿ(ÿc) = { ÿ(ÿc)L
para
ÿc ÿc
< >
2
onde
-
ÿ(ÿc)L = ÿ 1 ÿ ÿ1ÿ
1
nº 2
c1
2
1
ÿ1ÿ
( - 2 ÿ c3
c3 ) ÿ1 ) n+1
1 ÿ1 ÿ ÿ(ÿ1ÿ1)ÿ1ÿ2 ÿ ÿ(ÿ1ÿ1)ÿ1+ÿ1 ( 2 c3
ÿ 1 ÿ ÿ (ÿ1 ÿ 1) ÿ1
(19.6)
n
,
2
2B (1
2)
n
ÿ(ÿc)H = ÿ ÿ2 (1 ÿ ÿ2) ÿ
ÿ
ÿ
1
ÿÿ ÿ2 (ÿ ÿ(ÿ2ÿ1)ÿ2 +ÿ2 )ÿ 1
ÿ3 ÿ1+2ÿ 1c3 ÿ1+2ÿ ÿ(ÿ2ÿ1)ÿ2ÿ1
c2ÿ1
+ 1
c3 ÿÿ
1
n+1
2
(19.7)
ÿ ÿ (ÿ2 ÿ 1) ÿ2B ( n 2 ),2 , 2 )
onde ÿ1 = eu
ÿ1
1
ÿ1
2,
2,
2ÿc ( n 2 ) , ÿ2 = I 2ÿcÿ1 ( 1
n
e ÿ3 = eu ÿ1
1
2,
(1,2psÿ1) ( n 2 ).
19.3 aplicação e conclusão
• Pode-se ver com segurança que sob tal estocasticidade para a realização dos valoresp e a distribuição do seu mínimo, para obter o que as pessoas querem dizer com 5%
de confiança (e as inferências que obtêm disso), elas precisam de um valor-p de pelo
menos pelo menos uma ordem de
grandeza menor. • As tentativas de replicar artigos, como o projecto de ciência aberta
[49], devem considerar uma margem de erro no seu próprio procedimento e uma
tendência pronunciada para resultados favoráveis (erro Tipo-I). Não deveria ser
surpresa que um teste anteriormente considerado significativo falhe durante a replicação
– na verdade, é a replicação de resultados considerados significativos numa margem
estreita que deveria ser surpreendente.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
19.3 aplicação e conclusão 353
• O "poder" de um teste tem o mesmo problema, a menos que se reduza os valores-p
ou define o teste em níveis mais elevados, como 0,99.
reconhecimento
Marco Avellaneda, Pasquale Cirillo, Yaneer Bar-Yam, gente simpática no twitter ...
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
H ALGUMAS CONFUSÕES INBEH DE IORAL
ECONOMIA
vimos anteriormente (Capítulos 3 e 11) que o problema da “superestimação
EM
das caudas” pelos agentes é mais atribuível ao uso de um modelo
“normativo” errado por psicólogos e cientistas de decisão que são inocentes
de caudas gordas. Aqui usamos dois casos ililustrativo de tal uso impróprio da probabilidade, descoberto com nossa
heurística simples de induzir um efeito de segunda ordem e ver o efeito da desigualdade de
Jensens no operador de expectativa.
Um desses usos pouco rigorosos da probabilidade (o puzzle do prémio de capital) envolve
o promotor do "cutucão", um método invasivo e sinistro concebido por psicólogos que visa
manipular as decisões dos cidadãos.
h.1 estudo de caso: como a aversão miópica à perda é mal especificada
O chamado “quebra-cabeça do prêmio de ações”, originalmente detectado por Mehra e Prescott
[169], é assim chamado porque as ações têm historicamente gerado um retorno muito alto em
relação aos investimentos de renda fixa; o enigma é por que não é arbitrado.
Podemos facilmente perceber que a análise ignora a ausência de ergodicidade neste domínio,
como vimos no Capítulo 3: os agentes não capturam realmente os retornos do mercado
incondicionalmente; é tolice usar probabilidades conjuntas e a lei dos grandes números para
investidores individuais que têm apenas uma vida. Além disso, “retornos esperados positivos” para
um mercado não são condição suficiente para um investidor obter uma expectativa positiva; é
necessária uma certa estratégia de escalonamento de caminho no estilo Kelly ou cobertura
dinâmica dependente do caminho.
Benartzi e Thaler [17] afirmam que a teoria da perspectiva Kahneman-Tversky [139] explica tal
comportamento devido à miopia. Isto pode ser verdade, mas tal análise desmorona sob caudas
grossas.
Então aqui engordamos as caudas da distribuição com a estocasticidade de, digamos, o
parâmetro de escala, e podemos ver o que acontece com alguns resultados na literatura que parecem ab355
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
356 algumas confusões na economia comportamental
surdos à primeira vista e, na verdade, são absurdos sob o uso mais rigoroso de análises probabilísticas.
Aversão míope à perda
H 1 a,
2
0,04
0,05
Figura H.1: O efeito da
"utilidade" de Ha,p(t) ou
teoria prospectiva do
efeito de segunda ordem
na variância. Aqui ÿ = 1,
µ = 1 e t variável.
0,06
0,07
0,08
Valores mais altos
de um
0,09
t
0,10
0,15
0,20
0,25
H
1a , 2
H1
1.6
Figura H.2: A razão (t)
1,5
Ha,
2
1 ou a degradação da
1.4
H0
“utilidade” sob efeitos de
segunda ordem.
1.3
1.2
1.1
a
0,2
0,4
0,6
0,8
Tomemos a função w de avaliação da teoria do prospecto para x mudanças na riqueza x, parametrizada
com ÿ e ÿ.
wÿ,a (x) = x
a
1xÿ0 ÿ ÿ(ÿx a ) 1x<0
Seja ÿµt,ÿ ÿ t (x) a densidade da distribuição normal com média e desvio padrão correspondentes
(escalonado por t)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
h.1 estudo de caso: como a aversão miópica à perda é mal especificada 357
A "utilidade" esperada (no sentido de prospect):
ÿ
H0(t) = ÿ
=
(H.1)
wÿ,ÿ (x)ÿµt,ÿ ÿ t (x) dx
ÿÿ
a
1
a
2
a
ÿ2 ( 1ÿ 2t )ÿ 2 ( ÿ ( ÿ + 21 ) ( ÿ ÿ
2 ÿp _
t a/2 ( 1ÿ 2t )a/2
a
ÿÿÿ t ÿ 1 2t ) 1F1 ( ÿ ÿ
+
2ÿÿt ÿ 1
1
2
1; ; ÿ 2
tµ 2
2s 2 )
(H.2)
uma+1
a
ÿ 2p µG ( 2 + 1) ( ÿ ÿ+1t
2
ÿ 2t ) 1F1 ( 1 ÿ ÿ +
3; ; ÿ 2
2
a
2
uma+1 uma t + p
+1 (1s
2t )
tµ
2 ( 1 ÿ 2t )a/2
2
2s 2 ))
Podemos ver pela H.2 que a amostragem mais frequente do desempenho se traduz
em pior utilidade. Portanto, o que Benartzi e Thaler fizeram foi tentar encontrar a
“miopia” do período de amostragem que se traduz na frequência de amostragem que
causa o “prêmio” – o erro é que eles perderam efeitos de segunda ordem.
Agora, sob variações de ÿ com efeitos estocáticos, capturados heuristicamente, a história
muda: e se houver uma probabilidade muito pequena de que a variância seja multiplicada por
um grande número, com a variância total permanecendo a mesma? A chave aqui é que nem
sequer estamos alterando a variância: estamos apenas mudando a distribuição para as
caudas. Estamos aqui generosamente assumindo que, pela lei dos grandes números, foi
estabelecido que o “quebra-cabeça dos prémios de acções” era verdadeiro e que as acções
realmente superaram as obrigações.
Então alternamos entre dois estados, (1 + a) ÿ2 wp p e (1 ÿ a) wp (1 ÿ p).
Reescrevendo H.1
ÿ
Ha,p(t) =
ÿ
ÿÿ
wÿ,ÿ (x) ( p ÿµ t, ÿ 1+a ÿ ÿ t (x) ) dx (x) + (1 ÿ p) ÿµ t, ÿ 1ÿa ÿ ÿ t
(H.3)
Resultado Conclusivamente, como pode ser visto nas figuras H.1 e H.2, os efeitos
de segunda ordem anulam as afirmações feitas sobre aversão à perda “míope”. Isto
não significa que a miopia não tenha efeitos, mas sim que não pode explicar o
“prémio de capital”, não do exterior (ou seja, a distribuição pode ter retornos
diferentes, mas do interior, devido à estrutura do Kahneman- Função de valor de Tversky v(x).
Comentário Usamos a heurística (1 + a) principalmente por motivos ilustrativos; poderíamos 2
usar uma distribuição completa para ÿ com resultados semelhantes. Por exemplo, a distribuição gama
em
c-1 e
-
av
-c
V(Va)
ção com densidade f(v) =
com a expectativa V correspondendo à variância
C(c)
utilizada na teoria do “prêmio de capital”.
Reescrevendo H.3 sob essa forma,
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
358 algumas confusões na economia comportamental
ÿ
ÿ
ÿ ÿ0
ÿÿ
wÿ,ÿ (x)ÿµ t, ÿ v t(x) f(v) dv dx
Que tem uma solução de formato fechado (embora um pouco demorada por aqui).
Verdadeiro problema com Benartzi e Thaler É claro que o problema tem a ver com caudas grossas
e com a convergência sob o LLN, que tratamos separadamente.
Preferência de tempo sob erro de modelo
Outro exemplo do efeito da aleatoriedade de um parâmetro – a criação de uma camada adicional de
incerteza, por assim dizer.
Este autor certa vez assistiu com grande horror a um Laibson [150], em uma conferência na
Universidade de Columbia, apresentar a ideia de que fazer uma massagem hoje para duas amanhã,
mas reverter daqui a um ano é irracional (ou algo do tipo) e precisamos remediar isso com alguma
política. (Para uma revisão dos descontos temporais e das preferências intertemporais, ver [96], uma
vez que os economistas tendem a transmitir aos agentes o que parece ser uma "taxa de desconto"
variável, derivada de um modelo simplificado).1
Intuitivamente, e se eu introduzir a probabilidade de que a pessoa que oferece a massagem esteja
cheia de bobagens? Isso claramente me faria preferir o imediatismo a quase qualquer custo e,
condicionalmente à presença dele em uma data futura, inverter a preferência. É isso que modelaremos
a seguir.
Primeiro, o desconto no tempo tem que ter uma forma geométrica, para que a preferência não se
torne negativa: o desconto linear na forma Ct, onde C é uma constante e t é o tempo no futuro, é
t
descartado: precisamos de algo como C ou , para extrair a taxa (1 + k), que pode ser matematicamente
t
simplificada em uma exponencial, levando-a ao limite de tempo contínuo. O desconto exponencial tem
a forma ÿk t. Efetivamente, tal método de desconto usando um modelo superficial evita "inconsistência
e
de tempo", portanto, com ÿ < t:
lim
tÿÿ
e -kt
eÿk (tÿÿ)
=e
ÿk ÿ
Agora adicione outra camada de estocasticidade: o parâmetro de desconto, para o qual usamos o
símbolo ÿ, agora é estocástico.
Então agora só podemos tratar H(t) como
-eu
tÿ(ÿ) dÿ.
H(t) = ÿ e
É fácil provar o caso geral que sob estocasticização simétrica em torno do centro da distribuição)
intensidade ÿÿ (isto é, com probabilidades usando
12
a mesma técnica que fizemos em 4.1:
1 Farmer e Geanakoplos [89] aplicaram uma abordagem semelhante ao desconto hiperbólico.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
h.1 estudo de caso: como a aversão miópica à perda é mal especificada 359
H ' (t, ÿÿ) = 2
Hÿ (t, ÿÿ)
=
Hÿ (t, 0)
1
e
2
ÿt (e
1
ÿ(ÿÿÿÿ)t + e
(e
(ÿÿÿÿÿ)t + e
ÿ(ÿ+ÿÿ)t )
(ÿÿÿÿ)t ) = cosh(ÿÿt )
Onde cosh é a função hiperbólica cosseno - que convergirá para um determinado valor onde as
preferências intertemporais forem planas no futuro.
Exemplo: Distribuição Gama Na distribuição gama com suporte em
-
a-
ÿ
R+ , ÿÿÿ com parâmetros ÿ e ÿ, ÿ(ÿ) = ÿ(ÿ) obtemos:
Libra
1e
eu
e
ÿ
e
H(t, ÿ, ÿ) = ÿ
-
b)
ÿÿ t ( ÿ ÿal ÿÿ1
C(a)
0
dÿ = b
ÿuma (1
b + t )ÿuma ,
então
lim
tÿÿ
H(t, uma, b)
=1
H(t ÿ ÿ, uma, b)
O que significa que as preferências se tornam planas no futuro, independentemente de quão
acentuadas sejam no presente, o que explica a queda na taxa de desconto na literatura económica.
Além disso, falsificando a distribuição e normalizando-a, quando
ÿ
k
-
ÿ(ÿ)=e
k
,
obtemos o chamado desconto hiperbólico obtido normativamente:
1
H(t) =
1 +kt,
o que acaba por não ser a "patologia" empírica que os investigadores ingénuos afirmam ser.
Acontece apenas que o modelo deles deixou passar uma camada de incerteza.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Parte VII
OPTIONTRADING E PREÇOS NGUNDER FAT TA ILS
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
20 FA ILURAS DA TEORIA FINANCEIRA
SEM OPÇÃO DE PREÇO
†
chamada "economia neoclássica", fracassa no mundo real. Como
Vamos discutir por
quefinanceira
a teoriaprecifica
das opções,
conforme
vista
de acordo
com a teoria
a teoria
produtos
financeiros?
O diretor
da escola
diferença de paradigma entre o apresentado por Bachelier em 1900, [6] e o financeiro moderno conhecido como Black-Scholes-Merton
[24] e [171] reside em algumas suposições centrais pelas quais
Bachelier estava mais próximo da realidade e da forma como os comerciantes fazem negócios e têm
fez negócios durante séculos.
0,012
0,010
0,008
0,006
0,004
0,002
Figura 20.1: A cobertura
erros para um portfólio de
opções (sob revisão diária
regime) ao longo de 3.000
dias, sob volatilidade constante
Student T com expoente de cauda
ÿ = 3. Tecnicamente os erros
não deveriam convergir em
tempo finito, pois sua
distribuição tem variância infinita.
0,000
20.1 bacharel, não negro
O modelo de Bachelier baseia-se numa expectativa atuarial de pagamentos finais – e não numa cobertura
dinâmica. Isso significa que você pode usar qualquer distribuição! Uma prova mais formal usando
Capítulo de discussão.
363
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
364 falhas da teoria financeira com precificação de opções†
0,012
0,010
0,008
0,006
0,004
Figura 20.2: Erros de hedge
para uma carteira de opções
(revisão diária) sob uma
carteira equivalente (bastante fictícia)
Mundo "Black-Scholes".
0,002
0,000
0,05
0,04
0,03
0,02
Figura
20.3 do
portfólio : Erros de hedge,
incluindo a quebra do mercado
de ações em 1987.
0,01
0,00
a teoria da medida é fornecida no Capítulo 21 , então, por enquanto, vamos apenas obter a
intuição sem muita matemática.
O mesmo método foi posteriormente usado por uma série de pesquisadores, como Sprenkle
[216] em 1964, Boness, [26] em 1964, Kassouf e Thorp, [253] em 1967, Thorp, [249] (publicado
apenas em 1973) .
Todos se depararam com o seguinte problema: como produzir um parâmetro de risco – uma
taxa de desconto de activos de risco – para torná-lo compatível com a teoria da carteira? O
Modelo de Precificação de Ativos de Capital exige que os títulos tenham uma taxa de retorno
esperada proporcional ao seu risco. Na abordagem Black-Scholes-Merton, o preço de uma
opção é derivado de hedge dinâmico de tempo contínuo, e apenas em propriedades obtidas
de hedge dinâmico de tempo contínuo – descreveremos o hedge dinâmico com alguns
detalhes mais adiante. Graças a este método, uma opção cai num retorno determinístico e
proporciona retornos independentes do mercado; portanto, não requer nenhum prêmio de
risco.
20.1.1 Distorção da Idealização
O problema que temos com a abordagem Black-Scholes-Merton é que os requisitos para o
hedge dinâmico são extremamente idealizados, exigindo as seguintes estritas
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
20.1 bacharel, não preto-escola 365
condições. Presume-se que o operador seja capaz de comprar e vender num mercado sem atrito,
sem incorrer em custos de transação. O procedimento não leva em consideração o impacto do fluxo
de ordens no preço – se um operador vender uma quantidade de ações, isso não deverá ter
consequências no preço subsequente. O operador conhece a distribuição de probabilidade, que é a
Gaussiana, com parâmetros fixos e constantes ao longo do tempo (todos os parâmetros não mudam).
Finalmente, a restrição mais significativa: não há saltos escaláveis. Numa revisão subsequente
[Merton, 1976] permite saltos, mas estes são considerados como tempo de chegada de Poisson e
fixos ou, na pior das hipóteses, gaussianos. A estrutura não permite o uso de leis de potência tanto
na prática quanto matematicamente. Examinemos a matemática por trás do fluxo de coberturas
dinâmicas na equação Black-Scholes-Merton.
Suponha que a taxa de juros livre de risco r = 0 sem perda de generalidade. O modelo canônico
Black-Scholes-Merton consiste na venda de uma opção de compra e na compra de ações que
fornecem uma proteção contra movimentos instantâneos no título. Assim, a carteira ÿ localmente
“hedged” contra a exposição ao primeiro momento da distribuição é a seguinte:
ÿ = ÿC +
ÿC
S ÿS
(20.1)
onde C é o preço da chamada e S o título subjacente.
Considere a variação dos valores da carteira
ÿC
ÿÿ = ÿÿC + ÿS ÿS
(20.2)
Expandindo em torno dos valores iniciais de S, temos as mudanças na carteira em tempo discreto. A
teoria das opções convencionais se aplica ao Gaussiano em que todas as ordens superiores a (ÿS)
2 e ÿt desaparece rapidamente.
2C ÿC 1 2 ÿÿÿ= ÿ ÿt ÿ
ÿS ÿS 2 ÿt 2 Tomando
+ O ( ÿS 3 )
expectativas
(20.3)
de ambos os lados, podemos ver em (3) requisitos muito rigorosos sobre a finitude do momento:
todos os momentos precisam convergir. Se incluirmos outro termo, ÿ 3C ÿ1 3 ÿS 6 ÿS 3
, pode ser significativo em uma distribuição de probabilidade com
º n em relação a S possa diminuir muito
termos cúbicos ou quárticos. Na verdade, embora a derivada
acentuadamente, para opções que têm um strike K afastado do centro da distribuição, verifica-se que
os momentos estão a aumentar desproporcionalmente rápido para que isso tenha um efeito atenuante.
Então aqui queremos dizer que todos os momentos precisam ser finitos e perder impacto – sem
aproximação. Observe aqui que o modelo de difusão por salto (Merton,1976) não causa muitos
problemas, pois possui todos os momentos. E o incômodo é que uma lei de potência terá todos os
momentos maiores que ÿ infinitos, fazendo com que a equação do portfólio Black-Scholes-Merton
falhe.
Como dissemos, a lógica da chamada solução Black-Scholes-Merton, graças ao lema de Itô, era
que a carteira colapsa num retorno determinístico. Mas vejamos quão rápida ou eficazmente isto
funciona na prática.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
366 falhas da teoria financeira com precificação de opções†
20.1.2 O processo de replicação real:
O retorno de uma opção de compra deve ser replicado com o seguinte fluxo de hedges dinâmicos, cujo
limite pode ser visto aqui, entre t e T
Lim
ÿtÿ0 (n=T/ÿt eu=1
ÿ
ÿC
ÿS
(20.4)
|S=St+(iÿ1)ÿt ,t=t+(iÿ1)ÿt, ( St+iÿt ÿ St+(iÿ1)ÿt ) )
Dividimos o período em n incrementos ÿt. Aqui o índice de hedge
ÿC
ÿS
é calculado a
partir do momento t +(i-1) ÿt, mas obtemos a diferença não antecipada entre o preço no momento em
que o hedge foi iniciado e o preço resultante em t+ i ÿt.
Supõe-se que isso torne o resultado determinístico no limite de ÿt ÿ 0. No mundo gaussiano, isso seria
uma integral Itô-McKean.
20.1.3 Falha: Como os erros de hedge podem ser proibitivos.
Como consequência da propriedade matemática vista acima, os erros de cobertura num ÿ cúbico
parecem ser indistinguíveis daqueles de um processo de variância infinita.
Além disso, esse erro tem um efeito desproporcionalmente grande nas eliminações do dinheiro.
Resumindo: a cobertura dinâmica num mundo de direito de potência não elimina qualquer risco.
próximo
O próximo capítulo utilizará a teoria da medida para mostrar por que as opções ainda podem ser neutras
ao risco.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
21 PREÇO DE OPÇÃO ÚNICA
MEDIDA (NODINÂMICA
HEDGING / COMPLETEMARKETS) ‡
restrições de paridade Put-Call, a medida de probabilidade para o
Apresentamos
a prova
que
sobtem
suposições
simples,
como
a avaliação
de umade
opção
europeia
a média derivada
de
o preço a prazo que pode, mas não tem de ser, o risco
neutro, sob qualquer distribuição de probabilidade geral, contornando o
argumento de cobertura dinâmica Black-Scholes-Merton, e sem a exigência de mercados
completos e outras suposições fortes. Confirmamos que as heurísticas utilizadas pelos traders
durante séculos são mais robustas, mais consistentes e mais rigorosas do que as sustentadas na
literatura económica.
Também mostramos que as opções podem ser precificadas usando distribuições de variância
infinita (média finita).
21.1 plano de fundo
As metodologias de avaliação de opções têm sido utilizadas pelos traders há séculos, de forma eficaz
(Haug e Taleb, [126]). Além disso, as avaliações por expectativa de retorno terminal forçam a média da
distribuição de probabilidade utilizada para os preços das opções a ser a do forward, graças à paridade
Put-Call e, se o forward tiver um preço neutro ao risco, o mesmo acontecerá com a opção. O argumento
Black-Scholes (Black e Scholes, 1973, Merton, 1973) é considerado para permitir a precificação de
opções neutras ao risco graças ao hedge dinâmico, à medida que a opção se torna redundante (uma
vez que seu retorno pode ser construído como uma combinação linear de dinheiro e o ativo subjacente
revisado dinamicamente ao longo do tempo). Isto é um enigma, uma vez que: 1) A cobertura dinâmica
não é operacionalmente viável nos mercados financeiros devido à predominância das alterações de
carteira resultantes de saltos, 2) O argumento da cobertura dinâmica não se sustenta matematicamente
sob caudas gordas; requer um "mundo Black-Scholes" muito específico com muitas suposições
impossíveis, uma das quais requer variações quadráticas finitas, 3) Os traders usam o mesmo
"argumento neutro ao risco" de Black-Scholes para a avaliação de opções sobre ativos.
Capítulo de pesquisa.
367
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
368 medidas exclusivas de precificação de opções (sem hedge dinâmico/mercados completos)‡
conjuntos que não permitem replicação dinâmica, 4) Os traders negociam opções
consistentemente em domínios onde os argumentos neutros ao risco não se aplicam 5)
Existem limites informacionais fundamentais que impedem a convergência da integral estocástica.2
Houve alguns antecessores da presente tese de que a paridade Put-Call é uma restrição
suficiente para impor alguma estrutura ao nível da média da distribuição subjacente, tais
como Derman e Taleb (2005), Haug e Taleb (2010).
Essas abordagens eram heurísticas, robustas, embora consideradas acenantes (Ruffino e
Treussard, [207]). Além disso, mostraram que os operadores precisam de utilizar a média
neutra ao risco. O que este capítulo faz é: • Vai
além do “acenar” com provas formais. • Utiliza uma abordagem
completamente isenta de distribuição e baseada em expectativas e prova o argumento
neutro ao risco sem cobertura dinâmica e sem qualquer pressuposto distribucional.
• Além da neutralidade ao risco, estabelece o caso de uma distribuição única de preços
para preços de opções na ausência de tal argumento. O preço a prazo (ou futuro)
pode incorporar expectativas e desviar-se do preço de arbitragem (devido, por exemplo,
a limitações regulamentares ou outras), mas as opções ainda podem ser precificadas
a uma distribuição correspondente à média de tal contrato a
prazo. • Mostra como se pode ter praticamente um mercado de opções sem “completude”
e sem que os teoremas da economia financeira sejam válidos.
Estas são feitas apenas com duas restrições: "horizontal", ou seja, paridade put-call, e
"vertical", ou seja, as diferentes avaliações entre os preços de exercício proporcionam uma
medida de probabilidade que se revela única. A única suposição económica feita aqui é que
o contrato a prazo é negociável – na ausência de um preço a prazo único, é inútil discutir o
preço padrão das opções. Também exigimos que as medidas de probabilidade correspondam
a distribuições com primeiro momento finito.
Os trabalhos anteriores nessa direção são os seguintes. Breeden e Litzenberger [31] e
Dupire [72], mostram como os spreads de opções fornecem uma medida de probabilidade
única; existem artigos que estabelecem um conjunto mais amplo de relações de arbitragem
entre opções, como Carr e Madan.
[37] 3 No entanto 1) nenhum desses artigos fez a ponte entre opções de compra e opções
de venda por meio do forward, traduzindo assim as relações de relações de arbitragem entre
opções que entregam uma probabilidade distribuição na necessidade de alinhar-se com a
média da distribuição do forward, portanto, o neutro ao risco (no caso do forward ser
arbitrado). 2) Nem nenhum artigo mostrou que na ausência do segundo momento (digamos,
infinito variação), podemos precificar opções com muita facilidade. Nossa metodologia e
provas não fazem uso da variância. 3) Nosso método é muito mais simples, mais direto e
robusto a mudanças nas suposições.
2 Além disso, num caso de quebra-cabeça científico, a fórmula exata chamada “Black-Scholes-Merton” foi
escrita (e usada) por Edward Thorp numa derivação heurística por expectativa que não exigia cobertura
dinâmica, ver Thorpe [251 ].
3 Ver também Green e Jarrow [114] e Nachman [175]. Sabemos da possibilidade de preços neutros ao risco
sem cobertura dinâmica desde Harrison e Kreps [123], mas a teoria necessita de suposições extremamente
fortes – e severamente irrealistas –, tais como mercados estritamente completos e um núcleo de preços
multiperíodo.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
21,2 prova 369
Não fazemos nenhuma suposição de integridade geral do mercado. As opções não são títulos
redundantes e assim permanecem. A Tabela 1 resume a essência do artigo.4 5
21.2 prova
Defina C(St0 , K, t) e P(St0 , K, t) como opções de compra e venda de estilo europeu com preço de
exercício K, respectivamente, com vencimento t, e S0 como título subjacente nos momentos t0, t ÿ t0, e
St o valor possível do título subjacente no momento t.
21.2.1 Caso 1: Encaminhar como medida neutra ao risco
Defina r =
t
1 tÿt0
t
1 tÿt0
ÿt0 rsds, o retorno de um fundo do mercado monetário livre de risco e ÿ = ÿsds o
ÿt0 pagamento do ativo (dividendo contínuo para uma ação, investimento estrangeiro).
interesse por uma moeda).
Q Temos o preço futuro de arbitragem F:
t
(1 + r) (tÿt0)
F Q (rÿÿ)(tÿt0)
= S0 ÿ S0 e t (1 + ÿ) (tÿt0)
(21.1)
arbitragem, ver Keynes 1924. Chamamos assim F mantido tQ o preço futuro (ou a termo) obtido por
P
por arbitragem, à taxa neutra ao risco. Seja F o futuro que exige tum “retorno esperado” m associado ao
risco, com preço futuro esperado:
Ft
P
_
= S0(1 + m) (tÿt0) m (tÿt0) ÿ S0 e
.
(21.2)
Observação: Por arbitragem, todos os valores negociáveis do preço a termo dado St0 precisam ser iguais
para
Q
Ft.
“Negociável” aqui não significa “negociado”, apenas sujeito à replicação de arbitragem por “cash and
carry”, ou seja, tomar dinheiro emprestado e possuir o título rendendo d se o retorno a termo embutido
divergir de r.
21.2.2 Derivações
A seguir, consideramos F como tendo dinâmica por si só – irrelevante para saber se estamos no caso 1
ou 2 – portanto, uma medida de probabilidade única Q.
4 O famoso paradoxo de Hakkanson é o seguinte: se os mercados são completos e as opções são redundantes, porque é que
alguém precisaria delas? Se os mercados estiverem incompletos, poderemos precisar de opções, mas como podemos precificá-las?
Esta discussão pode ter fornecido uma solução para o paradoxo: os mercados estão incompletos e podemos precificar as
opções.
5 Os preços das opções não são únicos no sentido absoluto: o prémio sobre os intrínsecos pode assumir todo um espectro de
valores; acontece apenas que as restrições de paridade de venda e de compra forçam as medidas utilizadas para as opções de
venda e de compra a serem as mesmas e a terem a mesma expectativa que o termo. No que diz respeito aos títulos, as opções
são títulos por si só; eles apenas têm uma ligação forte com o atacante.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
370 medidas exclusivas de precificação de opções (sem hedge dinâmico/mercados completos)‡
Tabela 21.1: Principais diferenças práticas entre o argumento de hedge dinâmico e o argumento Put-Call estático
paridade com a propagação das greves.
Black Scholes Merton
Paridade Put-Call com Spread-ing
Tipo
Reequilíbrio contínuo.
Hedge estático interpolativo.
Limite
Lei dos grandes números no tempo
(horizontal).
Lei dos grandes números
golpes (verticais).
Mercado
1) Mercados Contínuos, não
1) Lacunas e saltos aceitáveis.
lacunas, sem saltos.
Possibilidade de contínuo
Como-
suposições
Greves ou número aceitável
de greves.
Distribuição de
probabilidade
2) Capacidade de tomar emprestado e emprestar
2) Capacidade de tomar emprestado e emprestar
ativo subjacente para todas as datas.
activo subjacente para uma única data
futura.
3) Sem custos de transação no ativo
3) Baixos custos de transação em
comercial.
opções de negociação.
Requer que todos os momentos sejam
finitos. Exclui a classe de
Requer finito 1
st
momento (em-
a variância finita é aceitável).
distribuições variando lentamente
Integralidade do
Alcançado através de dinâmica
Mercado
completude
Realismo de
Baixo
Alto
Incerto; um grande salto
Robusto
Não obrigatório (no sentido tradicional)
Suposições
Convergência
muda a expectativa
Aptidão para a
Usado apenas depois de "falsificar"
Portmanteau, usando
realidade
desvios padrão por greve.
distribuição adaptada à realidade
Defina ÿ = [0, ÿ) = AK ÿ A
c
K
c
K
onde AK = [0, K] e A
= (K, ÿ).
Considere uma classe de espaços de probabilidade padrão (simplificados) (ÿ, µi ) indexados por i,
onde µi é uma medida de probabilidade, ou seja, satisfatória ÿ
Oh
dµi = 1.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
21,2 prova 371
Teorema 6
Para um determinado prazo T, existe uma medida única µQ que precifica opções de compra e opções de compra
europeias com base na expectativa de retorno terminal.
Q Esta medida pode ser neutra ao risco no sentido de que precifica o termo F não precisa t , mas
ser e transmite uma taxa de retorno às ações embutidas no termo.
Lema 21.1
Para um determinado prazo T, existem duas medidas µ1 e µ2 para opções de compra e opções de venda
europeias com o mesmo vencimento e o mesmo título subjacente associadas à avaliação por expectativa
de retorno terminal, que são únicas de modo que, para qualquer opção de compra e venda de ataque K,
temos:
C=ÿ
Oh
P=ÿ
Oh
fC dµ1 ,
(21.3)
fP dµ2 ,
(21.4)
e
respectivamente, e onde fC e fP são (St ÿ K)
+ e (K ÿ St)
+
respectivamente.
Prova. Para maior clareza, defina r e ÿ como 0 sem perda de generalidade. Pela arbitragem de
paridade Put-Call, uma retenção positiva de uma opção de compra ("longa") e negativa de uma
opção de venda ("curta") replica um termo negociável; devido às variações de P/L, usando sinal
positivo para longo e sinal negativo para curto:
P
t
C(St0 , K, t) ÿ P(St0 , K, t) + K = F
(21,5)
necessariamente desde FtP é negociável.
A paridade Put-Call é válida para todos os strikes, então:
C(St0 , K + ÿK, t) ÿ P(St0 ,
K + ÿK, t) + K + ÿK = F
P
t
(21.6)
para todo K ÿ ÿ
1
Agora, um spread de chamada em quantidades ÿK , expresso como
C(St0 , K, t) ÿ C(St0 , K + ÿK, t),
entrega $1 se St > K + ÿK (ou seja, corresponde à função do indicador 1S>K+ÿK), 0 se St ÿ K (ou
1S>K), e a quantidade vezes St ÿ K se K < St ÿ K + ÿK, ou seja, entre 0 e $1 (ver Breeden e
Litzenberger, 1978[31]). Da mesma forma, considere o argumento inverso para uma opção de
venda, com ÿK < St .
No limite, para ÿK ÿ 0
ÿC(St0 , K, t)
ÿK
= ÿP(St > K) = ÿ ÿ
dµ1 .
EK
(21.7)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
372 medida única de precificação de opções (sem hedge dinâmico/mercados completos)‡
Pelo mesmo argumento:
ÿP(St0 , K, t)
ÿK
=ÿ
dµ2 = 1 ÿ ÿ
E
EK
(21.8)
dµ2.
Como intervalos semifechados geram toda a ÿ-álgebra de Borel em ÿ, isso mostra que µ1 e µ2 são únicos.
Lema 21.2
As medidas de probabilidade de opções de venda e opções de compra são as mesmas, ou seja, para cada conjunto Borel
A em ÿ, µ1 (A) = µ2(A).
Prova. Combinando as Equações 21.5 e 21.6, dividindo por
-
ÿC(St0 , K, t)
ÿK
+
1ÿK
ÿP(St0 , K, t)
e tomando ÿK ÿ 0:
= 1 ÿK
(21.9)
para todos os valores de K, então
ÿE
dµ1 = ÿ
K
EK
(21.10)
dµ2,
portanto µ1 (AK) = µ2(AK) para todo K ÿ [0, ÿ). Sendo esta igualdade verdadeira para qualquer intervalo
semifechado, ela se estende a qualquer conjunto de Borel.
Lema 21.3 As
opções de venda e de compra devem, por arbitragem estática, ser avaliadas da mesma forma que a medida
neutra ao risco µQ do termo negociável.
Prova.
Ft
P
_
=ÿ
Oh
(21.11)
FtdµQ ;
da Equação 21.5
ÿ fC(K) dµ1 ÿ ÿ
Oh
Oh
fP(K) dµ1 = ÿ
Ft dµQ ÿ K
(21.12)
Oh
Derivando de ambos os lados, e como fC ÿ fP = S0 + K, obtemos o RadonDerivado de Nikodym:
dµQ
dµ1
para todos os valores de K.
=1
(21.13)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
21.3 caso em que o forward não é neutro ao risco 373
21.3 caso em que o forward não é neutro ao risco
Considere o caso em que Ft é observável, negociável e use-o apenas como um título subjacente com
dinâmica própria. Nesse caso, podemos ignorar completamente a dinâmica do S subjacente nominal, ou
usar uma taxa log ( F S0 ) neutra e sem risco , ligando o dinheiro ao futuro, mÿ = tÿt0 . a taxa m pode
incorporar prémio de risco, dificuldades de financiamento, impedimentos estruturais ou regulamentares à
obtenção de empréstimos, sem qualquer efeito no resultado final.
Nessa situação, pode-se mostrar que se aplicam exatamente os mesmos resultados de antes,
substituindo a medida µQ por outra medida µQÿ . Os preços das opções permanecem únicos
6.
21.4 comentário
Substituímos a complexidade e intratabilidade da cobertura dinâmica por um problema de interpolação
simples e mais benigno, e explicamos o desempenho dos operadores de opções pré-Black-Scholes
utilizando heurísticas e regras simples, contornando a estrutura dos teoremas da economia financeira.
As opções podem permanecer não redundantes e os mercados incompletos: estamos apenas a
defender aqui uma forma de fixação de preços de arbitragem (que inclui preços neutros ao risco ao nível
da expectativa da medida de probabilidade), nada mais. Mas isto é suficiente para usarmos qualquer
distribuição de probabilidade com primeiro momento finito, que inclui o Lognormal, que recupera BlackScholes.
Uma última comparação. No hedge dinâmico, perder um único hedge ou encontrar um único gap (um
evento de cauda) pode ser desastroso – como mencionamos, requer uma série de suposições além da
matemática, além de restrições severas e altamente irrealistas sobre a matemática. . Sob a classe de
distribuição de cauda gorda
Além disso, o aumento da frequência das coberturas não garante a redução do risco.
Além disso, o argumento padrão do hedge dinâmico requer a especificação exata do processo estocástico
neutro ao risco entre t0 e t, algo econometricamente difícil de manejar e que geralmente é submetido a
engenharia reversa a partir do preço das opções, como uma ferramenta de interpolação orientada para
a arbitragem, e não como uma ferramenta de interpolação orientada para a arbitragem. representação do
processo.
Aqui, em nossa metodologia baseada na paridade Put-Call, nossa capacidade de rastrear a distribuição
neutra ao risco é garantida pela adição de preços de exercício, e como as probabilidades somam 1, os
graus de liberdade que a medida recuperada µQ tem na área de gap entre um o preço de exercício K e
o próximo preço de exercício, K + ÿK, são severamente reduzidos, uma vez que a medida no intervalo é
c
limitada pela diferença ÿ dµ ÿ ÿ dµ. Por outras palavras, nenhum intervalo entre os golpes podeEafetar
c
significativamente
a medida de probabilidade, muito menos o primeiro momento, ao contrário do que
AK+ÿK
acontece com a cobertura dinâmica.
6 Assumimos taxa de desconto 0 para as provas; no caso de taxa diferente de zero, os prêmios são descontados à taxa de
o operador de arbitragem
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
374 medida única de precificação de opções (sem hedge dinâmico/mercados completos)‡
Na verdade, não é diferente dos métodos padrão de suavização de kernel para amostras
estatísticas, mas aplicado à distribuição entre preços de
exercício.7 A suposição sobre a presença de preços de exercício constitui uma condição
natural: condicionada à realização de uma discussão prática sobre opções, preços de exercício
de opções. precisa existir. Além disso, como é a experiência do autor, os criadores de mercado
podem adicionar greves no mercado de balcão à vontade, caso necessitem de o fazer.
agradecimentos
Peter Carr, Marco Avellaneda, Hélyette Geman, Raphael Douady, Gur Huberman, Espen Haug
e Hossein Kazemi.
7 Para métodos de interpolação da distribuição de probabilidade implícita entre golpes, ver Avellaneda et al.[4].
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
22
OPTIONTRADERS NUNCA USAM O
PRETO -ESCOLAS - MER TO N
FÓRMULA ÿ,‡
os negociantes de opções usam uma fórmula de precificação derivada
heuristicamente que eles adaptam falsificando e alterando as caudas e
assimetrias, variando um parâmetro, o desvio padrão de um gaussiano.
Tal fórmula é popularmente chamada de "Black-Scholes-Merton" devido
a uma descoberta homônima atribuída (embora a alteração do
parâmetro de desvio padrão esteja em contradição com ela). No entanto, temos
evidências históricas de que: (1) os ditos Black, Scholes e Merton não inventaram
O
nenhuma fórmula, apenas encontraram um argumento para tornar uma fórmula bem
conhecida (e usada) compatível com o establishment da economia, removendo o
parâmetro de risco através de hedge dinâmico, (2) os negociadores de opções usam (e
evidentemente têm usado desde 1902) heurísticas e truques sofisticados mais
compatíveis com as versões anteriores da fórmula de Louis Bachelier e Edward O.
Thorp (que permite uma ampla escolha de distribuições de probabilidade) e removeu o
parâmetro de risco usando a paridade put-call, (3) os traders de opções não usaram a
fórmula Black-Scholes-Merton ou fórmulas semelhantes depois de 1973, mas
continuaram mais com suas heurísticas bottom-up. robusto ao evento raro de alto
impacto. O capítulo baseia-se em métodos comerciais históricos e em referências do
século XIX e início do século XX ignoradas pela literatura financeira. É hora de parar de
usar a designação errada para precificação de opções.
22.1 quebrando a cadeia de transmissão
2
Para nós, profissionais, as teorias devem surgir da prática. Isto explica a nossa preocupação
com a noção “científica” de que a prática deve ajustar-se à teoria. Cobertura, precificação e
negociação de opções não são filosofia nem matemática. É um ofício rico com
Capítulo de pesquisa.
2 Para nós, nesta discussão, um “praticante” é considerado alguém envolvido em decisões repetidas sobre hedge de opções, ou seja,
com um P/L de risco e pele no jogo, e não um quant de suporte que escreve software de precificação ou um acadêmico que fornece
consultoria.
375
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
376 negociantes de opções nunca usam a fórmula black-scholes-mertonÿ,‡
traders aprendendo com traders (ou traders que copiam outros traders) e truques que se
desenvolvem sob pressões evolutivas, de baixo para cima. É techne, não episteme.
Se fosse uma ciência, não teria sobrevivido, pois a adequação empírica e científica das teorias
de preços e de cobertura oferecidas são, veremos, na melhor das hipóteses, defeituosas e não
científicas (e, na pior das hipóteses, os métodos de cobertura criam mais riscos). do que
reduzem). Nossa abordagem neste capítulo é descobrir evidências históricas da techne que
mostram como os traders de opções conduziam seus negócios no passado.
As opções, mostraremos, têm estado extremamente ativas no mundo financeiro pré-moderno.
Truques e metodologias derivadas heuristicamente na negociação de opções e na gestão de
risco de livros de derivativos foram desenvolvidos ao longo do século passado e utilizados de
forma bastante eficaz pelos operadores. Paralelamente, muitas derivações foram produzidas por
pesquisadores matemáticos. A literatura económica, no entanto, não reconheceu estas
contribuições, substituindo as redescobertas ou subsequentes reformulações feitas por (alguns)
economistas. Há evidências de um problema de atribuição com a fórmula de opções BlackScholes-Merton que foi desenvolvida, usada e, adaptada de forma robusta por uma longa tradição
de pesquisadores e usada heuristicamente por corretores de livros de opções. Além disso, num
caso de enigma científico, a fórmula exacta chamada Black-Sholes-Merton foi escrita (e usada)
por Edward Thorp que, paradoxalmente, embora robusta e realista, foi considerada pouco
rigorosa. Isto levanta o seguinte: 1) A inovação Black-Scholes-Merton foi apenas um argumento
financeiro neoclássico, não mais do que uma experiência mental 3 , 2) Não temos conhecimento
de comerciantes que utilizem o seu argumento ou a sua versão da fórmula.
É chegada a hora de dar crédito a quem ele pertence.
22.2 introdução/resumo
22.2.1 Black-Scholes foi uma discussão
Os negociantes de opções chamam a fórmula que usam de fórmula Black-Scholes-Merton sem
estarem cientes de que, por alguma ironia, de todas as fórmulas de opções possíveis que foram
produzidas no século passado, a que é chamada de fórmula Black-Scholes-Merton (em
homenagem a Black e Scholes, 1973, e Merton, 1973) é o que está mais distante do que estão
usando. Na verdade, das fórmulas escritas em uma longa história, é a única fórmula frágil a
saltos e eventos de cauda.
Em primeiro lugar, algo parece ter-se perdido na tradução: Black e Scholes [25] e Merton [172]
na verdade nunca apresentaram uma nova fórmula de opção, mas apenas um argumento
económico teórico construído sobre uma nova forma de derivar, em vez de re-derivar , uma
fórmula já existente e bem conhecida. O argumento, veremos, é extremamente frágil a
suposições. As bases da cobertura e da fixação de preços de opções já estavam estabelecidas
com muito mais firmeza antes deles. O Black-Scholes-Merton
3 Aqui questionamos a noção de confundir experiências mentais num mundo hipotético, sem poder preditivo,
com a ciência ou com a prática. O facto de o argumento Black-Scholes-Merton funcionar num mundo platónico
e parecer elegante não significa nada, uma vez que se pode sempre produzir um mundo platónico no qual
uma certa equação funcione, ou no qual uma prova rigorosa possa ser fornecida, uma processo chamado
engenharia reversa.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
22.2 introdução/resumo 377
Figura 22.1: Louis Bachelier, que inventou
uma fórmula de opção baseada na expectativa. Isso é
baseada em fundamentos mais rigorosos do que os
Argumento de hedge dinâmico de Black-Scholes, pois
não requer uma distribuição de cauda fina. Alguns
as pessoas estão cientes do fato de que os Black-Scholes
a chamada descoberta foi um argumento para remover
a expectativa do título subjacente, não
a derivação de uma nova equação.
argumento, simplesmente, é que uma opção pode ser coberta usando uma determinada metodologia
chamado de hedge dinâmico e depois se transformou em um instrumento livre de risco, já que a
carteira não seria mais estocástica. Na verdade, o que Black, Scholes e Merton fizeram
foi o marketing, encontrando uma forma de tornar uma fórmula bem conhecida palatável para o
establishment económico da época, pouco mais, e de facto distorcendo a sua essência.
Tal argumento requer suposições estranhas e absurdas: alguma liquidez no
nível de transações, conhecimento das probabilidades de eventos futuros (no estilo neoclássico de
Arrow-Debreu) e, mais criticamente, uma certa estrutura matemática que
requer caudas finas, ou aleatoriedade moderada, sobre a qual, mais tarde4 . Todo o argumento é,
de facto, bastante estranho e bastante inaplicável para alguém que, clinicamente e orientado pela
observação, está fora da economia neoclássica convencional. Simplesmente, a dinâmica
o argumento de cobertura é perigoso na prática, pois sujeita você a explosões; faz
não faz sentido, a menos que você esteja preocupado com a teoria econômica neoclássica. O
argumento e a equação de Black-Scholes-Merton fluem em uma teoria de equilíbrio geral de cima
para baixo, construída sobre as suposições de operadores que trabalham com pleno conhecimento do
distribuição de probabilidade de resultados futuros, além de uma coleção de suposições que,
veremos, são altamente inválidas matematicamente, sendo a principal delas a
capacidade de reduzir os riscos usando negociação contínua, que só funciona no caso muito restrito
de distribuições de cauda fina. Mas não são apenas essas falhas que
torná-lo inaplicável: os negociantes de opções não compram teorias, particularmente as especulativas
de equilíbrio geral, que consideram muito arriscadas para eles e extremamente arriscadas.
falta de padrões de confiabilidade. Uma teoria normativa simplesmente não é boa para
4 De todas as suposições equivocadas de Black Scholes que fazem com que seja um mero experimento mental, embora
extremamente elegante, uma falha compartilhada com a teoria moderna de portfólio, é o conhecimento certo do futuro
variância entregue para a variável aleatória (ou, equivalentemente, todas as probabilidades futuras). Isso é o que
faz com que entre em conflito com a prática: a rectificação pelo mercado que engorda as caudas é uma negação da
experiência mental de Black-Scholes.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
378 negociadores de opções nunca usam a fórmula black-scholes-mertonÿ,‡
tomada de decisão sob incerteza (particularmente se estiver em desacordo crónico com a
evidência empírica). As pessoas podem tomar decisões baseadas em teorias especulativas,
mas evitam a fragilidade das teorias ao correrem os seus riscos.
No entanto, os traders profissionais, incluindo os autores (e, infelizmente, a Academia
Sueca de Ciências) têm operado sob a ilusão de que foi a fórmula Black-ScholesMerton que eles realmente usaram, conforme nos disseram. Este mito foi
progressivamente reforçado na literatura e nas escolas de negócios, à medida que as
fontes originais foram perdidas ou consideradas anedóticas (Merton [174]).
Figura 22.2: A típica “redução
de risco” realizada pelo
argumento Black-ScholesMerton. Estas são as
variações de uma carteira
com hedge dinâmico (e
bastante padronizada).
O BSM de fato "suaviza" as
variações, mas expõe o
operador a eventos de cauda
massivos que lembram
explosões como o LTCM.
Outras fórmulas de opções
são robustas ao evento raro
e não fazem tais afirmações.
Esta discussão apresentará a nossa compreensão ecológica e real do preço das
opções e da cobertura com base no que os traders de opções realmente fazem e
fizeram durante mais de cem anos.
Este é um problema muito geral. Como dissemos, os negociantes de opções desenvolvem
uma cadeia de transmissão de techne, como muitas profissões. Mas o problema é que a
cadeia é muitas vezes quebrada porque as universidades não armazenam as competências
adquiridas pelos operadores. Efetivamente, muitas implementações robustas derivadas
heuristicamente foram desenvolvidas ao longo dos anos, mas o establishment da economia
recusou-se a citá-las ou reconhecê-las. Isso faz com que os traders
precisem reaprender o
'
assunto periodicamente. O fracasso do hedge dinâmico em 1987, por empresas como Leland
O'ZBrien Rubinstein, por exemplo, não parece aparecer na literatura acadêmica publicada
após o evento (Merton, [174], Rubinstein,[205], Ross [ 203]); pelo contrário, a cobertura
. padrão 5
dinâmica é considerada uma operação
Existem elementos centrais do mundo real que podem escapar-lhes. A investigação
académica sem feedback da prática (num campo prático e aplicado) pode causar os
desvios que testemunhamos entre os quadros laboratoriais e ecológicos. Isto explica
por que tantos académicos de finanças têm tido a tendência de produzir retornos
suaves e depois explodir usando as suas próprias teorias6 . Começamos ao contrário,
5 Por exemplo, como os erros nunca ressurgem na consciência, Mark Rubinstein foi galardoado em 1995 com o
prémio de Engenheiro Financeiro do Ano pela Associação Internacional de Engenheiros Financeiros. Não houve
menção ao seguro de carteira e ao fracasso da cobertura dinâmica.
6 Para uma reação padrão a um evento raro, veja o seguinte: “Quarta-feira é o tipo de dia que as pessoas vão se
lembrar na terra quântica por muito tempo”, disse o Sr. Rothman, Ph.D. da Universidade de Chicago. quem correu
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
22.3 mito 1: os traders não precificavam as opções antes do bsm 379
primeiro, por anos de negociação de opções, fazendo milhões de hedges e milhares de negociações
de opções. Isto, em combinação com a investigação do conhecimento antigo esquecido e ignorado
em precificação e negociação de opções, explicaremos alguns mitos comuns sobre precificação e
hedge de opções. Na verdade, existem dois mitos:
• Que tivemos que esperar pela fórmula de opções Black-Scholes-Merton para negociar o
produto, definir o preço das opções e gerir os livros de opções. Na verdade, a introdução do
argumento de Black, Scholes e Merton aumentou os nossos riscos e atrasou-nos na gestão
de riscos. De forma mais geral, é um mito que os traders confiem em teorias, ainda menos
numa teoria de equilíbrio geral, para definir o preço das opções.
• Que utilizemos a fórmula de precificação de opções Black-Scholes-Merton. Nós, simplesmente
não.
Na nossa discussão sobre estes mitos, concentrar-nos-emos na literatura ascendente sobre a
teoria das opções que tem estado escondida nos recantos escuros das bibliotecas. E isso aborda
apenas questões registradas e não a prática real de negociação de opções que foi perdida.
22.3 mito 1: os traders não precificavam as opções antes do bsm
Supõe-se que a teoria Black-Scholes-Merton foi o que tornou possível aos negociadores de opções
calcular a sua cobertura delta (em relação ao subjacente) e precificar as opções. Este argumento é
altamente discutível, tanto histórica quanto analiticamente.
As opções eram negociadas activamente, pelo menos já em 1600, conforme descrito por Joseph
De La Vega, implicando alguma forma de techne´n, um método heurístico para precificá-las e lidar
com a sua exposição. De La Vega descreve a negociação de opções nos Países Baixos, indicando
que os operadores tinham alguma experiência em preços de opções e cobertura. Ele aponta
difusamente para a paridade put-call, e seu livro nem sequer foi concebido para ensinar as pessoas
sobre os aspectos técnicos da negociação de opções. A nossa insistência na utilização da paridade
Put-Call é crítica pela seguinte razão: A reivindicação de fama dos Black-Scholes-Merton Zs é
eliminar a necessidade de um desvio baseado no risco do título subjacente para tornar a negociação
neutra em termos de risco. Mas não é necessária cobertura dinâmica para isso: a simples paridade
de opções de venda pode ser suficiente (Derman e Taleb, 2005), como discutiremos mais tarde. E
foi esta remoção central do prémio de risco que aparentemente esteve por detrás da decisão do
comité do Nobel de conceder a Merton e Scholes o (então denominado) Prémio do Banco da Suécia
em homenagem a Alfred Nobel: Black, Merton e Scholes deram um contributo vital demonstrando
que não é de facto necessário utilizar qualquer prémio de risco na avaliação de uma opção. Isto não
significa que o prémio de risco desapareça; em vez disso, já está incluído no preço das ações. Foi
por ter removido o efeito da deriva no valor da opção, através de uma experiência mental, que o seu
trabalho foi originalmente citado, algo que estava mecanicamente presente em qualquer forma de
negociação e conversão utilizando técnicas muito mais simples.
um fundo quantitativo antes de ingressar no Lehman Brothers. "Eventos que os modelos previram que aconteceriam apenas
uma vez em 10.000 anos aconteceram todos os dias durante três dias." Um "Quant Sees Shakeout For the Ages – '10,000
Years" Por Kaja Whitehouse,Wall Street Journal 11 de agosto de 2007; Página B3.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
380 negociantes de opções nunca usam a fórmula black-scholes-mertonÿ,‡
As opções têm uma história muito mais rica do que a mostrada na literatura convencional.
Os contratos a prazo parecem remontar às tabuletas de argila da Mesopotâmia que datam de
1750 a.C. Gelderblom e Jonker [104] mostram que os negociantes de cereais de Amsterdão já
tinham utilizado opções e contratos a prazo em 1550.
No final de 1800 e no início de 1900, havia mercados de opções activos em Londres e Nova
Iorque, bem como em Paris e em várias outras bolsas europeias. Ao que parece, os mercados
eram mercados de opções activos e extremamente sofisticados em 1870. Kairys e Valerio (1997)
discutem o mercado de opções sobre acções nos EUA na década de 1870, mostrando
indirectamente que os traders eram suficientemente sofisticados para precificar eventos de cauda7 .
Houve até negociações ativas de arbitragem de opções entre alguns desses mercados. Há uma
longa lista de tratados em falta sobre negociação de opções: rastreamos pelo menos dez tratados
alemães sobre opções escritos entre o final da década de 1800 e o episódio de hiperinflação8 .
22.4 métodos e derivações
Uma fonte informativa existente, Nelson [176], diz muito: Um comerciante de opções e arbitrador,
SA Nelson publicou um livro O ABC das Opções e Arbitragem com base em suas observações
por volta da virada do século XX. De acordo com Nelson (1904), até 500 mensagens por hora e
normalmente 2.000 a 3.000 mensagens por dia eram enviadas entre o mercado de Londres e de
Nova Iorque através das empresas de cabo. Cada mensagem foi transmitida pelo sistema de
transmissão em menos de um minuto. Num método heurístico que foi repetido em Dynamic
Hedging [225] , Nel-son descreve de forma isenta de teoria muitos aspectos rigorosamente
clínicos do seu negócio de arbitragem: o custo do envio de ações, o custo do seguro de ações,
as despesas com juros, o possibilidades de trocar ações diretamente entre alguém que está
comprado em títulos em Nova York e vendido em Londres e, dessa forma, economizando custos
de envio e seguro, além de muitos outros truques, etc.
7 A descrição histórica do mercado é informativa até Kairys e Valerio [140] tentarem avaliar se as opções na década de 1870
estavam sub ou sobrevalorizadas (usando métodos do estilo Black-Scholes-Merton). Houve um evento final neste período,
o grande pânico de setembro de 1873. Kairys e Valerio descobriram que manter opções de venda era lucrativo, mas
consideram que o pânico do mercado foi apenas um evento único: "No entanto, os contratos
de opções se beneficiam do pânico financeiro que atingiu o mercado em setembro de 1873. Considerando isso como um
evento único, repetimos a análise para opções de venda, excluindo quaisquer contratos não vencidos emitidos antes do
pânico no mercado de ações.
Usando referências à literatura econômica que também concluem que as opções em geral estavam superfaturadas nas
décadas de 1950, 1960 e 1970, eles concluem: "Nossa análise mostra que os contratos de opções eram geralmente
superfaturados e não eram atraentes para os investidores de varejo comprarem. Eles acrescentam: ÿIEmpiricamente,
descobrimos que tanto as opções de venda quanto as de compra eram regularmente superfaturadas em relação a um
modelo de avaliação teórico." Esses resultados são contrariados pelo praticante Nelson (1904): “A maioria dos grandes
negociantes de opções descobriu por experiência que foram os doadores, e não os tomadores, do dinheiro das opções que
obtiveram a vantagem no longo prazo”.
8 Aqui está uma lista parcial: Bielschowsky, R (1892): Ueber die natureza jurídica das transações de prêmios, Bresl.
Camarada-Escritor; Granichstaedten-Czerva, R (1917): As transações de prêmios na Bolsa de Valores de Viena, Frankfurt
am Main; Holz, L. (1905) As transações de prêmios, tese (doutorado) – Universidade de Rostock; Kitzing, C.
(1925):Transações premium: pré-prêmio, re-prêmio, depósito e transações adicionais; As transações especulativas mais
sólidas com seguros contra perdas de preços, Berlim; Reader, E, (1875): Sobre a história das transações premium; Szkolny,
I. (1883): Teoria e prática de transações de prêmios apresentadas de acordo com um método original., Frankfurt am Main;
Autor desconhecido (1925): A essência das transações premium, Berlim: Eugen Bab & Co., negócios bancários.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
22.4 métodos e derivações 381
Figura 22.3: Espen Haug
(coautor do capítulo) com
Mandelbrot e este autor
em 2007.
O cânone formal da economia financeira não inclui fontes históricas de fora da economia, um mecanismo
discutido em Taleb (2007)[227]. A paridade put-call estava de acordo com a literatura de opções formais
descrita pela primeira vez por Stoll [219], mas nem ele nem outros na área sequer mencionam Nelson. Não
apenas o argumento da paridade put-call foi totalmente compreendido e descrito em detalhes por Nelson,
mas ele, por sua vez, faz referências frequentes a Higgins (1902) [129]. Apenas como exemplo Nelson (1904)
referindo-se a Higgins (1902) escreve:
Pode ser digno de nota que as chamadas são negociadas com mais frequência do que as
opções, provavelmente sendo a razão pela qual a maioria dos apostadores em ações e ações
estão mais inclinados a olhar para o lado positivo das coisas e, portanto, veem com mais
frequência um aumento do que um aumento. queda nos preços.
Esta inclinação especial para comprar opções de compra e deixar as opções de venda severamente
em paz não tende, no entanto, a tornar as opções de compra caras e as opções de venda baratas, pois
pode ser demonstrado que o negociante hábil em opções pode converter uma opção de venda em uma
opção de compra, uma opção de compra em uma opção de compra. colocar, uma opção de compra ou
mais em uma opção de venda e compra, na verdade, qualquer opção em outra, negociando contra ela
nas ações. Podemos, portanto, assumir, com precisão tolerável, que a opção de compra de uma ação
custa a qualquer momento o mesmo que a opção de venda dessa ação e metade do valor da opção de
compra e venda.
O Put-and-Call era simplesmente uma opção de venda mais uma opção de compra com o mesmo preço
de exercício e maturidade, o que hoje chamaríamos de straddle. Nelson descreve a paridade put-call em
muitas páginas com todos os detalhes. O hedge delta neutro do mercado estático também era conhecido
naquela época, em seu livro Nelson, por exemplo, escreve:
Os vendedores de opções em Londres, fruto de uma longa experiência, se venderem uma
Call, compram imediatamente metade das ações contra as quais a Call é vendida; ou se uma
Put for vendida; eles vendem metade do estoque imediatamente.
Devemos interpretar o valor desta afirmação à luz de que as opções padrão em Londres naquela altura eram
emitidas no dinheiro (como explicitamente apontado por Nelson); além disso, todas as opções padrão em
Londres eram de estilo europeu. Em Londres, as opções dentro ou fora do dinheiro eram negociadas apenas
ocasionalmente e eram conhecidas como fantasias.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
382 negociantes de opções nunca usam a fórmula black-scholes-mertonÿ,‡
opções. Fica bastante claro neste e no restante do livro de Nelson que os negociantes de opções
estavam bem cientes de que o delta para opções no dinheiro era de aproximadamente 50%. Na verdade,
as opções negociadas no dinheiro em Londres naquela época foram ajustadas para serem a termo no
dinheiro, a fim de fazer opções de venda e opções de compra pelo mesmo preço. Sabemos hoje que as
opções que estão no dinheiro a prazo e que não têm um prazo de maturidade muito longo têm um delta
muito próximo de 50% (naturalmente menos 50% para opções de venda). As opções em Londres
naquela época normalmente tinham um mês para o vencimento quando emitidas.
Nelson também aponta difusamente para o delta hedging dinâmico, e que funcionou melhor na teoria
do que na prática (ver Haug [125]. Fica claro a partir de todos os detalhes descritos por Nelson que as
opções no início de 1900 eram negociadas ativamente e que os negociadores de opções naquela época
de forma alguma se sentiu impotente em precificá-los ou protegê-los.
Herbert Filer foi outro negociante de opções envolvido na negociação de opções de 1919 a 1960. Filer
(1959) descreve o que deve ser considerado um mercado de opções razoavelmente ativo em Nova
Iorque e na Europa no início das décadas de 1920 e 1930. Filer menciona, no entanto, que devido à
Segunda Guerra Mundial não houve negociação nas Bolsas Europeias, pois estavam fechadas. Além
disso, ele menciona que a negociação de opções em Londres não foi retomada antes de 1958. No início
de 1900, os negociadores de opções em Londres eram considerados os mais sofisticados, de acordo
com [177]. É bem possível que a Segunda Guerra Mundial e o subsequente encerramento da negociação
de opções durante muitos anos tenham sido a razão pela qual os princípios robustos de arbitragem
sobre opções foram esquecidos e quase perdidos, sendo parcialmente redescobertos por professores
de finanças como Stoll.
Anteriormente, em 1908, Vinzenz Bronzin publicou um livro derivando diversas fórmulas de precificação
de opções, e uma fórmula muito semelhante à que hoje é conhecida como fórmula Black-ScholesMerton, ver também Hafner e Zimmermann (2007, 2009) [117] . Bronzin baseou a sua avaliação de
opções neutras ao risco em princípios robustos de arbitragem, como a paridade put-call e a ligação entre
o preço a prazo e as opções call e put, de uma forma que foi redescoberta por Derman e Taleb (2005)
9 . Na verdade, a restrição da paridade put-call é suficiente para eliminar a necessidade de incorporar
um retorno futuro no título subjacente e força o alinhamento de opções ao preço a prazo10 .
Novamente, em 1910, Henry Deutsch descreve a paridade put-call, mas com menos detalhes do que
Higgins e Nelson. Em 1961, Reinach descreveu novamente a paridade put-call com bastante detalhe
(outro texto tipicamente ignorado pelos académicos). Os traders da bolsa de valores de Nova York
especializados em usar a paridade put-call para converter opções de venda em opções de compra ou
opções de compra em opções de venda eram na época conhecidos como Conversores. Reinach (1961) [198]:
9 O argumento Derman Taleb(2005) [63] estava presente em [225] , mas passou despercebido.
10 Ruffino e Treussard (2006) [204] aceitam que se poderia ter resolvido o prémio de risco por acaso, sem perceber
que a paridade put-call foi tão amplamente utilizada na história. Mas eles acham que é insuficiente. Na verdade, o
argumento pode não ser suficiente para alguém que posteriormente complicou a representação do mundo com
alguns instrumentos das finanças modernas, tais como "taxas de desconto estocásticas", ao mesmo tempo que a
simplificou para a limitar à Gaussiana e permitir a cobertura dinâmica. Eles escrevem que a utilização de uma taxa
de desconto não estocástica comum às opções de compra e de venda é inconsistente com a teoria moderna de
precificação de ativos de capital de equilíbrio. Dado que nunca vimos um profissional utilizar uma taxa de desconto
estocástica, nós, tal como os nossos predecessores de negociação de opções, sentimos que a paridade put-call é
suficiente e faz o trabalho.
A situação é semelhante à dos cientistas que ensinam às aves como voar e recebem crédito pelo seu desempenho
subsequente, só que aqui seria dar-lhes lições de forma errada.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
22.4 métodos e derivações 383
Embora não tenha números para fundamentar a minha afirmação, estimo que
mais de 60 por cento de todas as Chamadas são possíveis graças à existência de
Conversores.
Por outras palavras, os conversores (dealers) que funcionavam basicamente como criadores de
mercado conseguiram operar e cobrir a maior parte do seu risco através da cobertura estática de
opções com opções. Reinach escreveu que era um negociante de opções (Conversor) e deu
exemplos de como ele e seus colegas tendiam a fazer hedge e arbitrar opções contra opções,
tirando vantagem de opções embutidas em títulos conversíveis:
Escritores e traders descobriram outros procedimentos para obter lucros escrevendo Puts &
Calls. A maioria é muito especializada para todos, exceto para profissionais experientes.
Um desses procedimentos é a propriedade de um título conversível e, em seguida, a emissão de
opções de compra contra as ações nas quais os títulos são conversíveis. Se o estoque for
chamado convertido e o estoque for entregue.
Higgins, Nelson e Reinach descrevem a grande importância da paridade put-call e do hedge de
opções com opções. Os negociadores de opções não estavam de forma alguma impotentes na
cobertura ou na fixação de preços antes da fórmula Black-Scholes-Merton. Com base em
princípios simples de arbitragem, conseguiram cobrir opções de forma mais robusta do que com
Black-Scholes-Merton. Como já mencionado, o hedge delta estático de mercado neutro foi descrito
por Higgins e Nelson em 1902 e 1904. Além disso, WD Gann (1937) discute o hedge delta neutro
de mercado para opções no dinheiro, mas com muito menos detalhes do que Nelson (1904) .
Gann também indica algumas formas de hedge dinâmico auxiliar.
Mills (1927) ilustra como saltos e caudas gordas estavam presentes na literatura na época prémoderna da Teoria do Portfólio. Ele escreve: “(...) a distribuição pode afastar-se amplamente do
tipo gaussiano devido à influência de uma ou duas mudanças extremas de preços”.
22.4.1 Fórmulas de opções e Delta Hedging
O que nos leva às fórmulas de precificação de opções. O primeiro identificável foi Bachelier (1900)
[5]. Sprenkle em 1961 [215] estendeu o trabalho de Bachelier para assumir o preço lognormal em
vez do preço normal dos ativos distribuídos. Também evita descontos (sem efeito significativo,
uma vez que em muitos mercados, especialmente nos EUA, os prémios de opções foram pagos
no vencimento).
James Boness (1964) [26] também assumiu um preço lognormal do ativo. Ele deriva uma
fórmula para o preço de uma opção de compra que é na verdade idêntica à fórmula Black-ScholesMerton de 1973, mas a maneira como Black, Scholes e Merton derivaram sua fórmula com base
no hedge delta dinâmico contínuo ou, alternativamente, com base no CAPM, eles foram capazes
para ficar independente da taxa de retorno esperada. Por outras palavras, não é a fórmula em si
que é considerada a grande descoberta feita por Black, Scholes e Merton, mas como a derivaram.
Isto é entre vários outros também apontados por Rubinstein (2006) [206]:
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
384 negociantes de opções nunca usam a fórmula black-scholes-mertonÿ,‡
O verdadeiro significado da fórmula para a teoria financeira do investimento não reside em si
mesma, mas sim na forma como foi derivada. Dez anos antes, a mesma fórmula foi derivada pelo
Caso M. Sprenkle [215] e A. James Boness [26].
Samuelson (1969) e Thorp (1969) publicaram fórmulas de precificação de opções um tanto
semelhantes às de Boness e Sprenkle. Thorp (2007) afirma que ele realmente tinha uma fórmula
idêntica à fórmula Black-Scholes-Merton programada em seu computador anos antes de Black,
Scholes e Merton publicarem sua teoria.
Agora, cobertura delta. Como já mencionado, o hedge delta estático de mercado neutro foi
claramente descrito por Higgins e Nelson 1902 e 1904. Thorp e Kassouf (1967) apresentaram o
hedge delta estático de mercado neutro com mais detalhes, não apenas para opções no dinheiro,
mas para opções com qualquer delta. No seu artigo de 1969, Thorp descreve brevemente a
cobertura delta estática e neutra do mercado, também apontando brevemente na direcção de
alguma cobertura delta dinâmica, não como um dispositivo central de preços, mas como uma
ferramenta de gestão de risco. Filer também aponta o hedge dinâmico de opções, mas sem
demonstrar muito conhecimento sobre como calcular o delta. Outro texto ignorado e esquecido é
um livro/livreto publicado em 1970 por Arnold Bernhard & Co.
Os autores estão claramente cientes da cobertura delta estática neutra do mercado ou do que
eles chamam de cobertura equilibrada para qualquer nível no preço de exercício ou no preço do
ativo. Este livro tem vários exemplos de como comprar warrants ou títulos conversíveis e construir
um hedge delta neutro para o mercado, vendendo a descoberto a quantidade certa de ações
ordinárias. Arnold Bern-hard & Co também publicou deltas para um grande número de warrants e
obrigações convertíveis que distribuíram a investidores em Wall Street.
Referindo-se a Thorp e Kassouf (1967), Black, Scholes e Merton levaram a ideia de cobertura
delta um passo adiante, Black e Scholes (1973):
Se a cobertura for mantida continuamente, então as aproximações acima mencionadas tornamse exatas e o retorno da posição coberta é completamente independente da alteração no valor
da ação. Na verdade, o retorno da posição coberta torna-se certo. Isto nos foi apontado por
Robert Merton.
Esta pode ser uma ideia matemática brilhante, mas a negociação de opções não é teoria
matemática. Não basta ter uma ideia teórica tão distante da realidade e que esteja longe de ser
robusta na prática. O que é surpreendente é que o único princípio que os traders de opções não
usam e não podem usar é a abordagem nomeada após a fórmula, que é um ponto que
discutiremos a seguir.
22,5 mito 2: os comerciantes hoje usam black-scholes
Os comerciantes não fazem avaliação.
Primeiro, operacionalmente, um preço não é propriamente uma avaliação. A avaliação requer
um quadro teórico forte com a sua fragilidade correspondente tanto aos pressupostos como à
estrutura de um modelo. Para os traders, um preço produzido para comprar uma opção quando
não se tem conhecimento da distribuição de probabilidade do futuro não é uma avaliação, mas
um expediente. Esse preço pode mudar. Suas crenças não entram nesse preço. Também pode
ser determinado por seu inventário.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
22.6 sobre a impossibilidade matemática de cobertura dinâmica 385
Esta distinção é crítica: os comerciantes são engenheiros, sejam eles limitadamente racionais (ou
mesmo não interessados em qualquer forma de racionalidade probabilística), eles não estão a par da
transparência informacional sobre os estados futuros do mundo e as suas probabilidades. Portanto,
eles não precisam de uma teoria geral para produzir um preço, apenas de evitar arbitragens no estilo
holandês contra eles e da compatibilidade com alguma restrição padrão: além da paridade de venda e
compra, uma opção de compra de um determinado preço de exercício K não pode ser negociada a um
preço mais baixo do que uma opção de compra K + ÿK (evitando spreads negativos de opções de
compra e de venda), uma opção de compra realizada em K e uma opção de compra realizada em K +
2ÿK não pode ser mais cara do que o dobro do preço de uma opção de compra realizada em K + ÿ
(borboletas negativas), spreads horizontais de calendário não podem ser negativos (quando as taxas
de juros estão baixas), e assim por diante. Os graus de liberdade dos traders são assim reduzidos:
eles precisam respeitar a paridade put-call e a compatibilidade com outras opções no mercado.
Nesse sentido, os traders não realizam avaliação com algum núcleo de precificação até o vencimento
do título, mas, sim, produzem um preço de uma opção compatível com outros instrumentos do mercado,
com um tempo de manutenção estocástico. Eles não precisam de ciência de cima para baixo.
22.5.1 Quando valorizamos?
Se encontrarmos traders que operam sozinhos, numa ilha deserta, tendo para alguns produzir um
preço de opção e mantê-lo até ao vencimento, num mercado em que o forward está ausente, então
alguma avaliação seria necessária, mas o seu livro seria minúsculo.
E esta experiência mental é uma distorção: as pessoas não negociariam opções a menos que
estivessem no negócio de negociar opções, caso em que precisariam de ter um livro com negociações
de compensação. Pois sem negociações de compensação, duvidamos que os traders sejam capazes
de produzir uma posição além de um tamanho mínimo (e insignificante), uma vez que a cobertura
dinâmica não é possível. (Mais uma vez, não temos conhecimento de muitos comerciantes de opções
e instituições não explodidas que tenham conseguido operar no vácuo do argumento Black ScholesMerton). É perante a impossibilidade de tal cobertura que
vire a seguir.
22.6 sobre a impossibilidade matemática de cobertura dinâmica
Finalmente, discutimos a grave falha no conceito de hedge dinâmico. Assume, ou melhor, exige que
todos os momentos da distribuição de probabilidade existam11 .
Suponha que a distribuição de retornos tenha uma propriedade livre de escala ou fractal que P(X>nx)
podemos
simplificar da seguinte forma: para x grande o suficiente, (ou seja, nas caudas), depende
P(X>x) de n,
não em
x. Em títulos financeiros, digamos, onde X é um retorno diário, não há razão para P(X>20%)/P(X>10%)
ser diferente de P(X>15%)/P(X>7,5 %). Essa auto-similaridade em todas as escalas gera caudas de lei
de potência, ou paretianas, ou seja, acima de um ponto de cruzamento, P(X > x) = Kxÿ . Acontece,
olhando para milhões de pedaços de
11 Merton (1992) parecia aceitar a inaplicabilidade da cobertura dinâmica, mas talvez pensasse que
estes males seriam curados graças à sua previsão do mundo financeiro “em espiral rumo à
completude dinâmica”. Quinze anos depois, nós nos afastamos disso.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
386 negociadores de opções nunca usam a fórmula black-scholes-mertonÿ,‡
dados, que tal propriedade se mantém em todos os mercados, revelando erros amostrais. Para
evidências empíricas esmagadoras, ver Mandelbrot (1963), que antecede Black-ScholesMerton (1973) e o salto de difusão de Merton (1976); ver também Stanley et al. (2000) e Gabaix
et al. (2003). O argumento para assumir a ausência de escala é o seguinte: a distribuição pode
ter caudas finas em algum ponto (digamos, acima de algum valor de X). Mas não sabemos
onde está esse ponto, estamos epistemologicamente no escuro sobre onde colocar a fronteira,
o que nos obriga a usar o infinito.
Algumas críticas a estas "verdadeiras caudas gordas" aceitam que tal propriedade pode ser
aplicada a retornos diários, mas, devido ao Teorema do Limite Central, a distribuição é
considerada gaussiana sob agregação para casos em que ÿ é considerado superior a 2. Tal O
argumento não se sustenta devido aos pré-sintóticos das distribuições escaláveis: Bouchaud
e Potters (2003) e Mandelbrot e Taleb (2007) argumentam que os pré-sintóticos das
distribuições fractais são tais que o efeito do Teorema do Limite Central é excessivamente
lento nas caudas. na verdade, irrelevante. Além disso, há erro de amostragem, pois temos
menos dados para períodos mais longos, portanto, menos episódios de cauda, o que dá uma
ilusão de caudas mais finas na amostra. Além disso, o argumento de que a agregação reduz
as caudas não se aplica à cobertura dinâmica, na qual o operador depende necessariamente
de dados de alta frequência e das suas propriedades estatísticas. Enquanto estiver livre de
escala no período de hedge dinâmico, os momentos mais elevados tornam-se explosivos,
infinitos para impedir a formação de uma carteira de hedge dinâmico. Simplesmente uma
expansão de Taylor é impossível, pois momentos de ordem superior que importam criticamente,
um dos momentos será infinito.
A mecânica da cobertura dinâmica é a seguinte. Suponha que a taxa de juros livre de risco
seja 0 sem perda de generalidade. O pacote canônico Black-Scholes-Merton consiste na
venda de uma opção de compra e na compra de ações que fornecem uma proteção contra
movimentos instantâneos no título. Assim, a carteira ÿ localmente “hedged” contra a exposição
ao primeiro momento da distribuição é a seguinte:
ÿ = ÿC +
ÿC
S ÿS
onde C é o preço da chamada e S o título subjacente. Considere a mudança discreta no tempo
nos valores do portfólio
ÿC
ÿÿ = ÿÿC + ÿS ÿS
Expandindo em torno dos valores iniciais de S, temos as mudanças na carteira em tempo
discreto. A teoria das opções convencionais se aplica ao Gaussiano em que todas as ordens
2
superiores a ÿS
desaparecer rapidamente.
Considerando as expectativas de ambos os lados, podemos ver aqui requisitos muito
rigorosos quanto à finitude do momento: todos os momentos precisam convergir. Se incluirmos
outro termo, de, ordem 3 ÿS, tal termo pode ser significativo em uma distribuição de
probabilidade com termos cúbicos ou quárticos significativos. Na verdade, embora a n-ésima
derivada em relação a S possa diminuir muito acentuadamente, para opções que têm um
strike K longe do centro da distribuição, permanece que as ordens mais elevadas entregues
de S estão a subir desproporcionalmente rápido para que isso carregue um efeito mitigador nas coberturas. En
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
22.6 sobre a impossibilidade matemática de cobertura dinâmica 387
queremos dizer todos os momentos – sem aproximação. A lógica da chamada solução BlackScholes-Merton, graças ao lema de Ito, era que a carteira colapsa num retorno determinístico.
Mas vejamos quão rápida ou eficazmente isto funciona na prática.
O processo de replicação real é o seguinte: O retorno de uma chamada deve ser replicado com
o seguinte fluxo de hedges dinâmicos, cujo limite pode ser visto aqui, entre t e T:
ÿC
limão
ÿtÿ0 (n=T/ÿt eu=1
ÿ
ÿS
(22.1)
|S=St+(iÿ1)ÿt ,t=t+(iÿ1)ÿt, ( St+iÿt ÿ St+(iÿ1)ÿt ) )
Esta política não corresponde ao valor da opção de compra: a diferença permanece estocástica
(embora, segundo Black Scholes, deveria diminuir), a menos que se viva num mundo de fantasia
em que tal redução de risco seja possível.
Além disso, há uma inconsistência nos trabalhos de Merton que nos deixa confusos quanto ao
que a teoria considera aceitável: em Merton (1976) ele concorda que podemos usar a derivação
de opções ao estilo de Bachelier na presença de saltos e descontinuidades, sem cobertura
dinâmica, mas apenas quando o preço da ação subjacente não está correlacionado com o
mercado. Isto parece ser uma admissão de que o argumento da cobertura dinâmica se aplica
apenas a alguns títulos: aqueles que não saltam e estão correlacionados com o mercado.
22.6.1 A (confusa) Robustez do Gaussiano
O sucesso da fórmula desenvolvida pela última vez por Thorp, e chamada Black-Scholes-Merton,
deveu-se a um simples atributo da Gaussiana: você pode expressar qualquer distribuição de
probabilidade em termos de Gaussiana, mesmo que tenha caudas grossas, variando a desvio
padrão ÿ ao nível da densidade da variável aleatória. Isso não significa que você esteja usando
uma Gaussiana, nem que a Gaussiana seja particularmente parcimoniosa (já que é necessário
anexar um ÿ para cada nível de preço).
Significa simplesmente que o gaussiano pode expressar o que você quiser se você adicionar
uma função ao parâmetro ÿ, tornando-o uma função do preço de exercício e do tempo de vencimento.
Esse sorriso de volatilidade, ou seja, variar um parâmetro para produzir ÿ(K), ou superfície de
volatilidade, variando dois parâmetros, ÿ(S, t) é efetivamente o que foi feito de diferentes maneiras
por Dupire (1994, 2005) [72, 73] e Derman [61, 64] ver Gatheral (2006 [103]).
Eles assumem um processo de volatilidade não porque exista necessariamente algo como um
método de ajustar os preços das opções a uma Gaussiana. Além disso, embora o gaussiano
tenha um segundo momento finito (e todos os momentos superiores finitos também), você pode
expressar uma escalabilidade com variância infinita usando a superfície de volatilidade gaussiana.
Uma forte restrição ao parâmetro ÿ é que ele deve ser o mesmo para uma opção de venda e uma
opção de compra com o mesmo strike (se ambos forem de estilo europeu), e o desvio deve ser o
do forward.
Na verdade, ironicamente, o sorriso da volatilidade é inconsistente com a teoria Black-ScholesMerton. Isto levou a centenas, senão milhares de artigos que tentam estender (o que era percebido
como sendo) o modelo Black-Scholes-Merton para incorporar a volatilidade estocástica e a difusão
por salto. Vários desses pesquisadores ficaram surpresos com o fato de tão poucos traders
realmente usarem modelos de volatilidade estocástica. Não é um modelo que
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
388 negociadores de opções nunca usam a fórmula black-scholes-mertonÿ,‡
diz como deve ser o sorriso da volatilidade ou evolui ao longo do tempo; é uma cobertura
método que seja robusto e consistente com uma superfície de volatilidade livre de arbitragem que
evolui com o tempo.
Em outras palavras, você pode usar uma superfície de volatilidade como um mapa, não como um
território. No entanto, é tolice justificar Black-Scholes-Merton com base na sua utilização: repetimos
que o Gaussiano proíbe o uso de distribuições de probabilidade que não sejam gaussianas
enquanto as derivações de cobertura não dinâmicas (Bachelier, Thorp) não se baseiam em
o Gaussiano.
22.6.2 Fluxo de Pedidos e Opções
É claro que os negociantes de opções não estão necessariamente interessados na distribuição de
probabilidade no momento do vencimento, visto que isso é abstrato, até mesmo metafísico para eles.
Além das restrições à paridade put-call que, de acordo com as evidências, foram totalmente
desenvolvido já em 1904, podemos proteger o risco de estoque em opções com outros
opções. Uma implicação muito importante deste método é que se você cobrir opções com opções,
então o preço das opções será em grande parte baseado na demanda e na oferta.
Isto contrasta fortemente com a teoria de Black-Scholes-Merton (1973) que, baseada na
mundo idealizado de movimento geométrico browniano com cobertura delta em tempo contínuo, então
a demanda e a oferta de opções simplesmente não deveriam afetar o preço de
opções. Se alguém quiser comprar mais opções, os formadores de mercado podem simplesmente
fabricá-los por meio de hedge delta dinâmico que será um substituto perfeito para
a opção em si.
Isto levanta um ponto crítico: os traders de opções não estimam as probabilidades de eventos raros
precificando opções fora do dinheiro. Eles apenas respondem à oferta e à demanda.
A noção de distribuição de probabilidade implícita é apenas um tipo de proposição de compatibilidade
com o livro holandês.
22.6.3 Bachelier-Thorp
O argumento frequentemente proposto casualmente atribuindo o sucesso do volume de opções
à qualidade da fórmula Black-Scholes é bastante fraca. É particularmente enfraquecido pelo facto de as
opções terem tido tanto sucesso em diferentes períodos de tempo e
lugares.
Além disso, há evidências de que, embora tanto a Chicago Board Options Exchange como a fórmula
Black-Scholes-Merton tenham surgido em 1973, o modelo foi
"raramente utilizado pelos comerciantes" antes da década de 1980 (O'Connell, 2001). Quando um dos
autores (Taleb) se tornou um pit trader em 1992, quase duas décadas depois de Black-Scholes-Merton,
ele ficou surpreso ao descobrir que muitos traders ainda precificavam as folhas de opções gratuitamente,
precificando a borboleta e a conversão, sem recorrer a qualquer fórmula.
Até mesmo um livro escrito em 1975 por um acadêmico de finanças parece dar crédito a Thorpe e
Kassouf (1967) – em vez de Black-Scholes (1973), embora este último estivesse presente
em sua bibliografia. Auster (1975):
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
22.6 sobre a impossibilidade matemática de cobertura dinâmica 389
Sidney Fried escreveu sobre hedges de warrants antes de 1950, mas foi somente em 1967
que o livro Beat the Market, de Edward O. Thorp e Sheen T. Kassouf, explicou rigorosamente,
mas de forma simples, o warrant curto/hedge comum longo para um público amplo.
Concluímos com a seguinte observação. Infelizmente, todas as equações, desde a primeira
(Bachelier) até a última pré-Black-Scholes-Merton (Thorp) acomodam uma distribuição sem
escala. A noção de remover explicitamente a expectativa do avançado estava presente em
Keynes (1924) e mais tarde em Blau (1944) – e longo, um Call short, um put do mesmo strike
equivale a um forward. Essas relações de arbitragem pareciam ser bem conhecidas em 1904.
Poderíamos facilmente atribuir a explosão no volume de opções à era da informática e à
facilidade de processamento de transacções, somada ao longo período de crescimento
económico pacífico e à ausência de hiperinflação. Pelas evidências (uma vez removida a
propaganda), o desenvolvimento das finanças escolares parece ser um epifenômeno e não
uma causa da negociação de opções. Mais uma vez, ensinar aos pássaros como voar não
permite que alguém receba crédito subsequente.
É por isso que chamamos a equação de Bachelier-Thorp. Estávamos usando-o o tempo
todo e demos-lhe o nome errado, com base no método errado e com atribuição às pessoas
erradas. Isto não significa que a cobertura dinâmica esteja fora de questão; simplesmente não
é uma parte central do paradigma de preços. Isso levou à anotação de um certo processo
estocástico que poderá ter sua utilidade, algum dia, caso os mercados espiralem em direção
à completude dinâmica. Mas não no presente.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
23 PREÇOS DE OPÇÃO ABAIXO DO PREÇO
LEIS: AROBUSTHEURISTI Cÿ,‡
determinado preço da opção nas caudas com strike K e estende (para
Neste capítulo (de
pesquisa),
umacoloca
heurística
leva em
consideração
chama,
todos osconstruímos
golpes > K, para
todosque
os golpes
< K)
assumindo o
a continuação cai no que definimos como "constante Karamata"
ou "ponto Karamata" além do qual a forte lei de Pareto é válida.
A heurística produz preços relativos para opções, tendo como único parâmetro o índice de
cauda ÿ sob algumas restrições suaves de arbitragem.
Restrições usuais, como a finitude da variância, não são necessárias.
A heurística nos permite examinar a superfície da volatilidade e testar teorias de
precificação e sobrepreço de opções de cauda relativa, geralmente construídas em modelos
de cauda fina e modificação da fórmula de Black-Scholes.
Função de sobrevivência de registro
Figura 23.1: O ponto Karamata onde a função de
movimento lento é substituída com segurança por
uma constante L(S) = l. A constante varia quer
utilizemos o preço S ou o seu retorno geométrico
– mas não a inclinação assintótica que corresponde
ao índice de cauda ÿ.
ÿ
Histórico
Capítulo de pesquisa, com a equipe Universa: Brandon Yarckin, Chitpuneet Mann, Damir Delic e Mark
Spitznagel.
391
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
392 precificação de opções sob leis de potência: uma heurística robustaÿ,‡
Black-Scholes
Sorriso
Poder da lei
Preço da Opção
1.0
Figura 23.2: Mostramos um preço de opção
Black-Scholes direto (volatilidade constante),
um com um “sorriso” de volatilidade, ou seja,
a escala aumenta nas caudas e preços de
0,8
0,6
opções de lei de potência. No caso simplificado
de uma distribuição de lei de potência para o
subjacente, os preços das opções são lineares
em relação ao exercício.
0,4
0,2
K
115
120
125
130
23.1 introdução
A classe da lei de potência é convencionalmente definida pela propriedade da função de
sobrevivência, como segue. Seja X uma variável aleatória pertencente à classe de distribuições
com cauda direita "lei de potência", ou seja:
P(X > x) = L(x) x
-a
(23.1)
onde L : [xmin, +ÿ) ÿ (0, +ÿ) é uma função de variação lenta, definida como limxÿ+ÿ 1 para
qualquer k > 0 [22].
L(kx)
eu(x)
A função de sobrevivência de X pertence à classe de "variação regular" RVÿ.
Mais especificamente, uma função f : R+ ÿ R+ é um índice que varia no infinito com índice ÿ (f
ÿ RVÿ) quando
lim
tÿÿ
f(tx)
ÿ=x
.
f(t)
De forma mais prática, há um ponto onde L(x) se aproxima do seu limite, l, tornando-se uma
constante como na Figura 23.1 – chamamos-lhe "constante Karamata". Além desse valor, as
caudas das leis de potência são calibradas usando técnicas padrão como o estimador de Hill.
A distribuição nessa zona é apelidada de lei de Pareto forte por B.
Mandelbrot [162],[75].
23.2 preços de chamadas além da constante karamata
Agora defina um preço de chamada europeu C(K) com um preço de exercício K e um preço
+,
subjacente S, K, S ÿ (0, +ÿ), como
(S ÿ K) com sua avaliação realizada sob alguma medida de
ÿ
+
probabilidade P, permitindo-nos assim precificar a opção como EP(S ÿ K) = ÿ K (S ÿ K)dP.
Isso nos permite provar imediatamente o seguinte.
=
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
23.2 preços de chamadas além da constante karamata 393
23.2.1 Primeira abordagem, S está na classe de variação regular
Começamos com um caso simplificado, para construir a intuição. Seja S uma função de
sobrevivência na classe de variação regular RVÿ conforme 23.1. Para todo K > l e ÿ > 1,
K 1-a l a
C(K) =
(23.2)
uma - 1
Observação 21
Notamos que o parâmetro l, quando derivado de um preço de opção existente, contém
todas as informações necessárias sobre a distribuição de probabilidade abaixo de S = l, o
que sob um determinado parâmetro ÿ torna desnecessário estimar a média, a "volatilidade"
(isto é, escala) e outros atributos.
Suponhamos que ÿ seja definido exogenamente (derivado de distribuições ajustadas, ou,
simplesmente da experiência, em ambos os casos ÿ deve flutuar minimamente [239] ).
Notamos que C(K) é invariante às calibrações de distribuição e os únicos parâmetros necessários l
que, sendo constante, desaparece nas proporções. Agora considere como definido que o preço de
mercado de uma opção de cauda “âncora” no mercado é Cm com exercício K1 , definido como uma
opção cujo exercício tem outras opções precificadas em valor relativo. Nós
a-1
simplesmente gerar todos os ataques adicionais de l = ( (ÿ ÿ 1)CmK
Eq. 23.2.
1 )1/ÿ e a aplicação pode
Resultado 1: Preço relativo sob distribuição para S
Para K1 , K2 ÿ l,
C(K2) = ( K2K1 )1ÿÿ C(K1 ).
(23.3)
A vantagem é que todos os parâmetros nas distribuições são eliminados: tudo o que precisamos
é do preço da opção de cauda e do ÿ para construir um mecanismo de precificação único.
Observação 22: Evitando confusão sobre L e ÿ O
índice de cauda ÿ e a constante de Karamata l devem corresponder à distribuição atribuída
para o subjacente específico. Um índice de cauda ÿ para S na classe de variação regular
S-S0
conforme 23.1 levando à Eq. 23.2 é diferente daquele para r = ÿ RVÿ . Para
consistência,
S0
cada um deve ter seu próprio gráfico Zipf e outras representações. xÿX0 ) = Lb
XÿX0
- a , e P(
1. Se P(X > x) = La(x) x
> (x)o x X0 stant será - a , o ÿ conX0
mesmo, mas os vários L(.) atingirão seu nível constante em uma taxa diferente.
S 2. Se rc = log S0 , não está na classe de variação regular, veja o teorema.
A razão pela qual ÿ permanece o mesmo é devido ao atributo livre de escala do índice de cauda.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
394 precificação de opções sob leis de potência: uma heurística robustaÿ,‡
Teorema 7: Log de retornos
Seja S uma variável aleatória com função de sobrevivência ÿ(s) = L(s)s L(.) - a
é uma função de variação lenta. Seja rl o log de retorno rl = log na classe
RVÿ.
-
Prova. Imediato. A transformação ÿrl (rl ) = L(s)s
log(logÿ(s))
log(s)
ÿ RVÿ, onde .
é
s0
ÿrl (rl ) não é
.
Observamos, no entanto, que na prática, embora possamos precisar de composição contínua para
construir dinâmicas [229], nossa abordagem assume que tais dinâmicas estão contidas no preço da
opção âncora selecionada para a análise (ou l). Além disso, não há diferença tangível entre S e SÿS0 ,
fora da cauda
mais distante, entre log S0 S0 .
23.2.2 Segunda abordagem, S tem retornos geométricos na variação regular
aula
SÿS0
Apliquemos agora a casos do mundo real onde os retornos são paretianos. Considere, S0 para r > l, S =
(1 + r)S0, onde S0 é o valor inicial do subjacente e r ÿ P(l, ÿ)
(Distribuição Pareto I) com função de sobrevivência
K > S0(1 + l)
(K ÿ lS0
S0 )ÿa ,
(23.4)
1
uma
(ÿÿ1)1/ÿC ÿ1/m
(KÿS0) e ajustado para Cm usando l = S0
, o que, como antes, mostra que praticamente
todas as informações sobre a distribuição estão embutidas em l.
1ÿ
Seja SÿS0 na classe de variação regular. Para S ÿ S0(1 + l), S0
C(K, S0) =
(lS0 )a (K ÿ S0) 1-a
ÿÿ1
(23,5)
Podemos assim reescrever a Eq. 23.3 para eliminar l:
Resultado 2: Preço relativo sob distribuição para SÿS0
S0
Para K1 , K2 ÿ (1 + l)S0,
ÿ S0 )1ÿÿ C(K1 ).
C(K2) = ( K2 K1
ÿ S0
(23.6)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
23.2 preços de chamadas além da constante karamata 395
Figura 23.3: Preços de put no SP500 usando “fix K” como âncora (a partir da liquidação de 31 de dezembro de 2018 ) e
gerando preços de opção usando um índice de cauda ÿ que corresponde ao mercado (azul) (“modelo), e em preços vermelhos
para ÿ = 2,75. Podemos ver que os preços de mercado tendem a 1) ajustar-se a uma lei de potência (combina a volatilidade
estocástica com parâmetros falsificados), 2) mas com um ÿ que afina as caudas. Isso mostra como os modelos que alegam
superfaturamento das caudas são grosseiramente mal especificados .
Observação
23 Ao contrário dos métodos de precificação na classe de modificação Black-Scholes (modelos
estocásticos e de volatilidade local, (ver as exposições de Dupire, Derman e Gatheral, [74]
[102], [60], a finitude da variância não é necessária para nosso modelo ou precificação de
opções em geral, conforme mostrado em [229]. O único requisito é ÿ > 1, ou seja, finito primeiro
momento.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
396 precificação de opções sob leis de potência: uma heurística robustaÿ,‡
Figura 23.4: Mesmos resultados da Figura 23.3 , mas expressos usando volatilidade implícita. Combinamos o preço
com a volatilidade implícita para ataques negativos (âncora 90, 85 e 80) usando nosso modelo versus mercado, em índices.
Assumimos ÿ = 2,75.
Black-Scholes
ÿ=2
uma = 5
ÿ=3
2
log Preço da Opção
1
0,100
Figura 23.5: A intuição do gráfico Log log para a segunda
calibração
0,010
0,001
registro K
120
140
160
180
23.3 preços de venda
Consideramos agora os strikes de venda (ou as opções de compra correspondentes na cauda negativa,
que devem ser precificadas por meio de arbitragem de paridade de opção de venda). Ao contrário das
chamadas, só podemos considerar as variações
S0 , de S ÿ S0 e não os retornos logarítmicos (nem os de S
considerados separadamente).
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
23,4 limites de arbitragem 397
Construímos o lado negativo com um retorno negativo para o subjacente. Seja r a taxa de retorno S = (1
ÿ r)S0, e seja r > l > 0 uma distribuição de Pareto no domínio positivo, com densidade fr(r) = ÿ l ÿ
transformação e redimensionamento da PDF do subjacente:
ÿÿÿ 1r
. Temos por probabilística
S-S0
fS(S) = ÿ
ÿ(ÿ
lS0 )ÿÿÿ1
lS0
ÿ S ÿ [0, (1 ÿ l)S0)
1
onde a constante de escala ÿ = (
(ÿ1)ÿ+1(l ÿÿ1) ) é definido de forma a fazer com que fs(S) integre
para 1. O parâmetro ÿ, no entanto, é próximo de 1, tornando a correção insignificante, em aplicações onde
ÿ ÿ t ÿ (ÿ sendo a volatilidade implícita equivalente
de Black-Scholes e t o tempo até o vencimento da
12
opção).
Notavelmente, tanto os parâmetros le a escala ÿ são eliminados.
Resultado 3: Preço de venda
Para K1 , K2 ÿ (1 ÿ l)S0,
P(K2) = P(K 1 )
(ÿ1)1ÿÿS ÿÿ 0((ÿ ÿ 1)K2 + S0) ÿ (K2 ÿ S0)
(ÿ1)1ÿÿS ÿÿ ((ÿ0ÿ 1)K1 + S0) ÿ (K1 ÿ S0)
1-a
1-a
(23,7)
23.4 limites de arbitragem
Obviamente, não há arbitragem para strikes superiores ao K1 da linha de base nas equações anteriores.
Pois podemos verificar o resultado de Breeden-Litzenberger [32], onde a densidade é recuperada da
segunda derivada da opção em relação a ÿ 2C(K)
golpe ÿ 0.
ÿK2
|KÿK1 = ÿK ÿÿÿ1L ÿ o
No entanto, permanece a possibilidade de arbitragem entre os ataques K1 + ÿK, K1 e K1 ÿ ÿK violando
o seguinte limite: seja BSC(K, ÿ(K)) o valor de Black-Scholes da chamada para o ataque K com volatilidade
ÿ(K) uma função do strike e t tempo até o vencimento. Nós temos
C(K1 + ÿK) + BSC(K1 ÿ ÿK) ÿ 2 C(K1 ),
(23,8)
onde BSC(K1 , ÿ(K1 )) = C(K1 ). Para que a desigualdade 23,8 seja satisfeita, precisamos ainda de uma
desigualdade de spreads de chamadas, levada ao limite:
ÿBSC(K, ÿ(K)) ÿC(K)
|K=K1ÿ
ÿK ÿK
|K=K1
(23,9)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
398 precificação de opções sob leis de potência: uma heurística robustaÿ,‡
Tal arbitragem coloca um limite inferior no índice final ÿ. Assumindo taxas 0 para simplificar:
1ÿ
ÿ ÿ log (K ÿ S0) + log(l) + log (S0)
ÿ
2
registro
+ 2 log(K) ÿ 2 log (S0)
2 erfc ( tÿ(K)
)
2 ÿ 2 ÿ tÿ(K)
(23.10)
ÿÿÿÿÿ 1
registro(S0)
-
ÿ S0 ÿ tÿ' (K)K
tÿ(K)
2
1
+2
log2(K)+log2 (S0)
exp ( -
2 2tÿ(K)
-
tÿ(K)
18
ÿ
2)
ÿ 2p
ÿÿÿÿÿ
23,5 comentários
Como podemos ver na Figura 23.5, os modelos de volatilidade estocástica e adaptações
semelhantes (digamos, difusão de salto ou variações padrão de Poisson) eventualmente
falham "nas caudas" fora da zona para a qual foram calibrados. Tem havido tentativas fracas
de extrapolar os preços das opções usando uma distribuição de probabilidade de cauda fina
falsificada em vez de uma distribuição paretiana – daí as numerosas afirmações na literatura financeira sobre
O "sobrepreço" das opções de cauda combinado com algum psicolophastering sobre o "risco
terrível" não é rigoroso nesta base. Os métodos propostos permitem-nos abordar tais
afirmações com mais realismo.
Por fim, observe que nossa abordagem não se trata de uma precificação absolutamente errada de opções de
cauda, mas sim de um determinado strike mais próximo do dinheiro.
agradecimentos
Bruno Dupire, Peter Carr, alunos da NYU Tandon School of Engineering.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
24 FOURMIS TA KESINQUANTI TAT IVE
FINANÇAS Eÿ,‡
de risco
principal
para um
grande
fundo de
hedge)
comenta em Quantitativo
Discutimos adiretor
história
de Jeff
Holman
(que
na época
era,
surpreendentemente,
um
Finanças para ilustrar quatro erros críticos que os alunos devem aprender a
evitar:
1. Confundir cauda (4º momento e superior) com volatilidade (2º momento)
2. Faltando a Desigualdade de Jensen ao calcular o potencial de retorno 3.
Analisando os resultados de hedge sem o desempenho do subjacente
no
4. A necessidade de um numéraire em finanças.
A revisão do Antifrágil feita pelo Sr. Holman (4 de dezembro de 2013) está repleta de erros factuais,
lógicos e analíticos. Listaremos aqui apenas os críticos e generalizados para as comunidades de gestão
de risco e finanças quantitativas; estes devem ser ensinados aos estudantes de finanças quantitativas
como erros centrais a evitar, para que os quantistas iniciantes e os gestores de risco possam aprender
com estas falácias.
24.1 fusão do segundo e quarto momentos
É fundamental que os iniciantes não caiam no seguinte erro elementar. O Sr. Holman entende a relação
do VIX (contrato de volatilidade) com apostas em “eventos de cauda” ao contrário. Reafirmemos a noção
de “eventos de cauda” (vimos anteriormente no livro): significa um papel desproporcional das caudas na
determinação das propriedades de distribuição, o que, matematicamente, significa um papel menor para
o “corpo”. 2
Capítulo de discussão.
2 A questão está voltada para todos os usuários de planilhas: curtose, ou quarto momento em escala, a medida padrão
de fattailedness, implica normalizar o quarto momento pelo quadrado da variância.
399
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
400 quatro erros em finanças quantitativasÿ,‡
Holman parece entender a última parte dos atributos da cauda gorda ao contrário.
É um erro confundir o VIX com eventos finais. O VIX é principalmente afetado por opções no
dinheiro que correspondem ao centro da distribuição, mais próximo do segundo momento e
não do quarto (as opções no dinheiro são na verdade lineares em seu retorno e correspondem
ao primeiro momento condicional) . Conforme explicado há cerca de dezessete anos em
Dynamic Hedging (Taleb, 1997) (ver apêndice), na discussão sobre tais apostas de cauda,
ou "apostas de quarto momento", apostar no papel desproporcional dos eventos de cauda de
fattailedness é feito vendendo as opções em torno do dinheiro (o VIX) e as opções de compra
nas caudas, a fim de extrair o segundo momento e alcançar neutralidade para ele (uma
espécie de tornar-se "neutro em termos de mercado"). Tal neutralidade requer algum tipo de
“volatilidade curta” no corpo porque maior curtose significa menor ação no centro da
distribuição.
Uma formulação mais matemática está na versão técnica do Incerto: caudas gordas
significam “picos mais altos” para a distribuição, pois, quanto mais gordas as caudas, mais mar-
2 ( 5 ÿ ÿ 17) ÿ onde ÿ é
kets passam o tempo entre µ ÿ ÿ 1 2 ( 5 ÿ ÿ 17) ÿ e µ + ÿ 1
o desvio padrão e µ a média da distribuição (usamos aqui o Gaussiano como base para
facilitar a apresentação, mas o argumento se aplica a todas as distribuições unimodais com
curvas em "formato de sino", conhecidas como semicôncavas). E “picos mais altos” significam
menos variações que não sejam eventos de cauda, mais tempos de silêncio, e não menos.
Quanto às consequências sobre a precificação de opções, o leitor pode estar interessado em
um teste que costumo dar aos alunos após a primeira aula sobre derivativos: "O que acontece
com as opções no dinheiro quando se engorda a cauda?", cuja resposta é que elas deveriam
queda de valor. 3
Efetivamente, mas num argumento mais profundo, no artigo QF (Taleb e Douady 2013),
a nossa medida de fragilidade tem uma sensibilidade oposta a eventos em torno do centro
da distribuição, uma vez que, por um argumento de probabilidade de sobrevivência, o que
é frágil é sensível à cauda de choques e, criticamente, não deve variar no corpo (caso
contrário, seria quebrado).
24.2 faltando a desigualdade de Jensen na análise dos retornos das opções
Aqui está um erro que deve ser evitado a todo custo nas discussões sobre estratégias de
volatilidade ou, aliás, em qualquer coisa em finanças. Holman parece não perceber a
existência da desigualdade de Jensen, que é a razão de possuir uma opção, um ponto
que foi trabalhado em Antifrágil. Uma manifestação da falta do efeito de convexidade é um
erro de cálculo crítico na forma como se pode ingenuamente assumir que as opções
respondem ao VIX.
3 Ponto Técnico: Onde Começa a Cauda? Como vimos em 4.3, para uma classe geral de distribuição simétrica
ÿ 5a+ ÿ (a+1)(17a+1)+1
a-1
é
, gaussiano de volatilidade estocástica e s
Mas com leis de potência, a cauda começa em: ± com ÿ infinito
no caso
ÿ2
o desvio padrão. A “cauda” está localizada entre cerca de 2 e 3 desvios padrão. Isto decorre da definição heurística
de fragilidade como efeito de segunda ordem: a parte da distribuição é convexa a erros na estimativa da escala.
Mas, na prática, como as medições históricas de DST serão tendenciosas para baixo devido aos pequenos efeitos
amostrais (à medida que repetimos caudas grossas acentuando os efeitos de pequenas amostras), os desvios
serão > 2-3 DSTs.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
24.3 a inseparabilidade do seguro e do segurado 401
"Um investimento de US$ 1 em 1º de janeiro de 2007 em uma estratégia de compra e rolagem de
futuros de VIX de curto prazo teria atingido o pico de US$ 4,84 em 20 de novembro de 2008 - e
posteriormente perderia 99% de seu valor durante os próximos quatro anos e meio, terminando
abaixo de US$ 0,05 em 31 de maio de 2013." 4
Este erro no exemplo dado subestima os retornos das opções em até...várias ordens de
grandeza. Holman analisa o desempenho de uma estratégia de cauda usando investimentos
em opções financeiras usando o VIX (ou futuros de VIX) como proxy, o que é matematicamente
errôneo devido a efeitos de segunda ordem, pois a ligação é tênue (seria como avaliar
investimentos em esqui resorts analisando futuros de temperatura). Suponha uma rolagem
periódica de uma estratégia de opções: uma opção 5 STD longe do dinheiro 5 ganha 16 vezes
em valor se sua volatilidade implícita subir 4, mas só perde seu valor se a volatilidade chegar
a 0. Para uma 10 STD é 144 vezes. E, para mostrar a aceleração, supondo que sejam
negociadas, 20 opções STD em cerca de 210 mil vezes6 . Há um segundo erro crítico na
discussão: os cálculos do Sr. Holman aqui excluem a recompensa da situação real de estar
dentro do dinheiro.
É preciso lembrar que o VIX não é um preço, mas sim uma função inversa, um índice
derivado de um preço: não se compra “volatilidade” como se compra um tomate; os operadores
compram opções correspondentes a essa função inversa e há não linearidades graves, muito
graves no efeito. Embora mais linear do que as opções de cauda, o VIX ainda é convexo em
relação à volatilidade real do mercado, em algum lugar entre a variância e o desvio padrão,
uma vez que uma faixa de opções abrangendo todos os strikes deve fornecer a variância
(Gatheral, 2006). O leitor pode fazer um exercício simples. Digamos que o VIX seja “comprado”
a 10% – ou seja, as opções de componentes são compradas em uma combinação de
volatilidades que corresponde a um VIX nesse nível. Suponha que os retornos estejam em
quadrados. Devido à não linearidade, o pacote poderia beneficiar de um episódio de
volatilidade de 4% seguido de um episódio de 15%, para uma média de 9,5%; O Sr. Holman
acredita ou quer que o leitor acredite que estes 0,5 pontos percentuais deveriam ser tratados
como uma perda quando, na verdade, as desigualdades de segunda ordem nas variações de
volatilidade são mais relevantes do que o efeito de primeira ordem.
24.3 a inseparabilidade do seguro e do segurado
Nunca se deve calcular o custo do seguro sem compensá-lo com retornos gerados por
pacotes que não seriam adquiridos de outra forma.
Mesmo que tivesse acertado o sinal sobre a volatilidade, o Sr. Holman, no exemplo acima,
analisa o desempenho de uma estratégia de compra de opções para proteger um evento de
cauda sem adicionar o desempenho do portfólio em si, como contar o lado do custo do seguro
sem o desempenho daquilo que se está assegurando e que de outra forma não teria sido
comprado. Durante o mesmo período, ele discute que o mercado subiu mais de 100%: uma
abordagem saudável seria comparar dólar por dólar o que
4 Na discussão acima, o Sr. Holman também mostra evidências de retornos sombrios em opções de venda sobre índices que, como
dissemos antes, respondem à volatilidade e não a eventos de cauda. Estes são chamados, na linguagem, de "otários".
5 Estamos a utilizar a volatilidade implícita como referência para o seu STD.
6 Um evento que este autor testemunhou, na liquidação de Victor Niederhoffer, opções vendidas por US$ 0,05 foram compradas de
volta a US$ 38, o que levou a Refco à falência e, o que é notável, sem que as opções chegassem perto do dinheiro: foi apenas um
aumento de pânico na volatilidade implícita.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
402 quatro erros em finanças quantitativasÿ,‡
um investidor teria feito isso (e, claro, se livrando desse negócio “VIX” e focando em dólares
muito pequenos investidos em opções de cauda que permitiriam uma postura tão agressiva).
Muitos investidores (como este autor) teriam ficado fora do mercado, ou não teriam
acrescentado fundos ao mercado, sem esse seguro.
24.4 a necessidade de um numéraire em finanças
Há um erro analítico mais profundo.
Uma barra é definida como uma estratégia de investimento bimodal, apresentada como o
investimento de uma parte de seu portfólio no que é explicitamente definido como um
"repositório numérico de valor" (Antifragile), e o restante em títulos de risco (Antifragile indica
que tal numéraire seria, entre outras coisas, protegido contra a inflação). Holman prossegue
sem parar num discurso niilista sobre a ausência de tal numéraire sem risco (do tipo que pode
levar a tal sofisma como “ele está a dizer que estamos mais seguros em terra firme do que no
mar, mas e se houver um terramoto? ").
A familiar derivação de Black e Scholes utiliza um ativo sem risco como base; mas a
literatura desde cerca de 1977 substituiu a noção de "dinheiro" pela de numéraire, juntamente
com a noção de que se pode ter moedas diferentes, o que tecnicamente permite mudanças
na medida de probabilidade. Um numéraire é definido como a unidade à qual todas as outras
unidades se relacionam. (Praticamente, o numéraire é uma cesta cujas variações não afetam
o bem-estar do investidor.) Infelizmente, sem numéraire, não há medida de probabilidade,
nem quantitativa em finanças quantitativas, pois é necessária uma unidade para a qual todo
o resto é trazido de volta para. Neste discurso (emocional), o Sr. Holton não está apenas
rejeitando a barra em si, mas qualquer uso do operador de expectativa com qualquer variável
econômica, o que significa que ele deveria atacar as dezenas de milhares de artigos de
pesquisa e a própria existência da revista Quantitative Finance. .
É evidente que há uma grande densidade de outros erros ou declarações incoerentes na
onda de raiva da revisão do senhor deputado Holman; mas não tenho dúvidas de que estes
foram detectados pelo leitor de Finanças Quantitativas e, como dissemos, o objecto desta
discussão é a prevenção de erros analíticos em finanças quantitativas.
Para concluir, este autor acolhe com agrado as críticas da comunidade financeira que não
são argumentos de espantalho ou, como no caso do Sr. Holmam, que violam os fundamentos
do próprio campo.
Apêndice 24,5 (apostando nas caudas da distribuição)
Da cobertura dinâmica, páginas 264-265:
Uma aposta de quarto momento é comprada ou vendida na volatilidade da volatilidade. Isso
poderia ser alcançado com opções out-of-the-money ou com calendários. Exemplo: Um índice
"backspread" ou spread reverso é um método que inclui a compra de opções fora do dinheiro em
grandes quantidades e a venda de quantidades menores de opções no dinheiro, mas garantindo que o
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
24,5 apêndice (apostas nas caudas da distribuição) 403
Figura 24.1: Primeiro Método
Extrair o Quarto Momento, de
Dynamic Hedg-ing, 1997.
Figura 24.2: Segundo
Método para extrair o
Quarto Momento, de
Cobertura Dinâmica, 1997.
a negociação satisfaz a regra do “crédito” (isto é, a negociação gera inicialmente um fluxo de caixa positivo).
A regra do crédito é mais difícil de interpretar quando se utilizam opções dentro do dinheiro. Naquilo
caso, deve-se deduzir o valor presente da parte intrínseca de cada opção usando o
regra de paridade put-call para equipará-los a out-of-the-money.
A negociação mostrada na Figura 24.1 foi realizada com a compra de opções de venda e opções de compra
fora do dinheiro e com a venda de quantidades menores de straddles at-the-money com o mesmo
vencimento.
A Figura 24.2 mostra o segundo método, que envolve a compra de opções de 60 dias em
alguma quantia e vendendo opções de 20 dias sobre 80% do valor. Ambas as negociações mostram o
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
404 quatro erros em finanças quantitativasÿ,‡
posição beneficiando das caudas gordas e dos picos altos. Ambas as negociações, no entanto, terão
sensibilidades vega diferentes, mas próximas do vega modificado plano.
Veja O corpo, os ombros e as caudas da seção 4.3 , onde assumimos que as
caudas começam no nível de convexidade do segmento da distribuição de
probabilidade até a escala da distribuição.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
25 TA ILRESTRIÇÕES DE RISCO E
MAXIMUMENTROPIA (WD & H .
GEMAN) ‡
P
seleção de portfólio na literatura financeira tem essencialmente
analisado sob dois pressupostos centrais: pleno conhecimento
da distribuição de probabilidade conjunta dos retornos dos títulos que comporão a
carteira alvo; e as preferências dos investidores são expressas através de uma
função de utilidade. Na verdade
mundo, as operadoras constroem carteiras sob restrições de risco que são expressas
tanto pelos seus clientes como pelos reguladores e que suportam a perda máxima que
pode ser gerado durante um determinado período de tempo em um determinado nível de confiança (o
chamado Valor em Risco da posição). Curiosamente, na literatura financeira, uma discussão séria
sobre quanto ou pouco se sabe a partir de uma estimativa probabilística
ponto de vista sobre a densidade multidimensional dos retornos dos ativos parece
ser de relevância limitada.
Nossa abordagem, em contraste, é destacar essas questões e então adotar uma estrutura de
maximização de entropia para representar a ignorância do mundo real sobre as “verdadeiras”
distribuições de probabilidade, tanto univariadas quanto multivariadas.
dos retornos dos títulos negociados. Neste cenário, identificamos o portfólio ideal
sob uma série de restrições de risco descendente. Dois resultados interessantes são
exibido: (i) as restrições da cauda esquerda são suficientemente poderosas para anular todas
outras considerações da teoria convencional; (ii) a “carteira barbell”
(certeza máxima/risco baixo num conjunto de participações, incerteza máxima em
outro), que é bastante familiar aos comerciantes, surge naturalmente na nossa construção.
25,1 risco de cauda esquerda como restrição central da carteira
Habitualmente, quando trabalham num quadro institucional, os operadores e os tomadores de risco utilizam
principalmente limites de perda de cauda exigidos pela regulamentação para definir níveis de risco nos seus
Capítulo de pesquisa.
405
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
406 restrições de risco de cauda e entropia máxima (wd& h. geman)‡
carteiras (obrigatoriamente para bancos desde Basileia II). Eles se baseiam em testes de estresse, stoploss, valor em risco (VaR), déficit esperado (ou seja, a perda esperada condicional
sobre a perda que excede o VaR, também conhecido como CVaR), e redução de perdas semelhante
métodos, em vez de utilidade. Em particular, a margem das transacções financeiras
é calibrado por empresas de compensação e bolsas com base nas perdas extremas, vistas tanto
probabilisticamente como através de testes de esforço. (Na terminologia de tomada de risco, um stop loss é um
ordem obrigatória que tenta encerrar toda ou parte da exposição mediante
um gatilho, uma certa perda nominal pré-definida. Basileia II é um nome geralmente usado para
recomendações sobre leis e regulamentos bancários emitidas pelo Comitê de Supervisão Bancária da
Basileia. O valor em risco, VaR, é definido como um limite de perda
valor K tal que a probabilidade de que a perda na carteira ao longo do tempo determinado
horizonte excede esse valor é ÿ. Um teste de estresse é um exame do desempenho
mediante um desvio definido arbitrariamente nas variáveis subjacentes.) A informação
incorporada na escolha da restrição é, para dizer o mínimo, uma estatística significativa
sobre o apetite pelo risco e a forma da distribuição desejada.
As operadoras estão menos preocupadas com as variações da carteira do que com o rebaixamento
eles podem enfrentar durante uma janela de tempo. Além disso, eles ignoram a distribuição de
probabilidade conjunta dos componentes da sua carteira (exceto por uma vaga noção
de associação e hedge), mas pode controlar perdas organicamente com métodos de alocação baseados
em risco máximo. (A ideia de substituir o risco pela variância pode parecer
muito estranho para os praticantes da assunção de riscos. O objetivo da Teoria Moderna do Portfólio
reduzir a variância é inconsistente com as preferências de um investidor racional, independentemente da
sua aversão ao risco, uma vez que também minimiza a variabilidade no lucro
domínio – exceto na situação muito estreita de certeza sobre a média futura
retorno, e no caso rebuscado em que o investidor só pode investir em variáveis
ter uma distribuição de probabilidade simétrica e/ou ter apenas um retorno simétrico.
Os controles de stop loss e de risco de cauda violam essa simetria.) As noções convencionais
de utilidade e variância podem ser usadas, mas não diretamente, pois as informações sobre elas são
embutido na constante de perda de cauda.
Dado que o stop loss, as abordagens VaR (e o défice esperado) e outros métodos de controlo de risco
dizem respeito apenas a um segmento da distribuição, o lado negativo
do domínio de perdas, podemos obter uma abordagem dupla semelhante a uma separação de portfólio, ou
construção “estilo barra”, pois o investidor pode ter posturas opostas em diferentes
partes da distribuição de retorno. Nossa definição de barra aqui é a mistura de
duas propriedades extremas em um portfólio, como uma combinação linear de valores máximos
conservadorismo para uma fração w da carteira, com w ÿ (0, 1), por um lado e
risco máximo (ou alto) na fração restante (1 ÿ w).
Historicamente, a teoria financeira tem preferido métodos paramétricos e menos robustos. A ideia de
que um tomador de decisão tem conhecimento claro e livre de erros sobre o
A distribuição de resultados futuros sobreviveu apesar da sua falta de validade prática e teórica – por
exemplo, as correlações são demasiado instáveis para produzir medições precisas. É uma abordagem
que se baseia em certezas distributivas e paramétricas,
aquele que pode ser útil para pesquisa, mas não acomoda risco responsável
tirando. (As correlações são instáveis de uma forma instável, uma vez que os retornos conjuntos dos activos são
não elíptico, ver Bouchaud e Chicheportiche (2012) [42].)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
25,1 risco de cauda esquerda como a restrição central da carteira 407
Existem aproximadamente duas tradições: uma baseada na tomada de decisão altamente paramétrica
pelo establishment econômico (em grande parte representado por Markowitz [166]) e pelo
outro baseado em suposições um tanto esparsas e conhecido como critério de Kelly
(Kelly, 1956 [142], ver Bell e Cover, 1980 [15].) (Em contraste com a abordagem de variância mínima,
o método de Kelly, desenvolvido no mesmo período que Markowitz,
não requer distribuição conjunta ou função de utilidade. Na prática, é necessária a proporção de
lucro esperado ao retorno do pior caso ajustado dinamicamente para evitar a ruína. Obviamente,
o erro do modelo é de menor consequência sob o critério de Kelly: Thorp (1969) [250],
Haigh (2000) [119], Mac Lean, Ziemba e Blazenko [157]. Para uma discussão sobre
diferenças entre as duas abordagens, veja a objeção de Samuelson ao critério de Kelly e ao
dimensionamento logarítmico em Thorp 2010 [252].) O método de Kelly também está relacionado
ao controle da cauda esquerda devido ao investimento proporcional, que reduz automaticamente
a carteira em caso de perdas; mas o método original requer um pior cenário difícil e não paramétrico,
ou seja, títulos que tenham um limite inferior em seu valor.
variações, semelhantes a uma aposta num casino, que é algo que, em finanças, pode
só pode ser realizado através de opções binárias. O critério de Kelly, além disso, requer algum
conhecimento preciso dos retornos futuros, como a média. Nossa abordagem
vai além do último método ao acomodar mais incerteza sobre os retornos, pelo que um operador só
pode controlar a sua cauda esquerda através de derivadas e outros
formas de seguros ou construção dinâmica de carteiras baseadas em stop-loss. (Xu,
Wu, Jiang e Song (2014) [266] contrastam a variância média com a entropia máxima e
usa entropia para construir carteiras robustas.) Em poucas palavras, fixamos as restrições às perdas,
mas, por outro lado, assumimos a incerteza máxima sobre os retornos. Mais
precisamente, igualamos a distribuição de retorno com a extensão máxima de entropia
de restrições expressas como expectativas estatísticas sobre o comportamento da cauda esquerda, bem como
como na expectativa de retorno ou retorno logarítmico na zona de não perigo. (Observação
que usamos a entropia de Shannon o tempo todo. Existem outras medidas de informação,
como a entropia de Tsallis [256] , uma generalização da entropia de Shannon, e a entropia de Renyi,
[137] , alguns dos quais podem ser mais convenientes computacionalmente em especial
casos. No entanto, a entropia de Shannon é a mais conhecida e tem um
quadro de maximização. )
Aqui, o “comportamento de cauda esquerda” refere-se às restrições institucionais rígidas e explícitas
discutido acima. Descrevemos a forma e investigamos outras propriedades do
resultando na chamada distribuição maxent. Além de um resultado matemático que revela a ligação
entre a perda de cauda aceitável (VaR) e o retorno esperado no
Na estrutura gaussiana de média-variância, nossa contribuição é então dupla: 1) uma investigação da
forma da distribuição de retornos da construção de portfólio
sob restrições mais naturais do que aquelas impostas no método de média-variância,
e 2) o uso da entropia estocástica para representar a incerteza residual.
Os métodos VaR e CVaR não são isentos de erros – o VaR paramétrico é conhecido por ser ineficaz
como método de controle de risco por si só. No entanto, estes métodos podem ser
robustecidas por meio de construções que, ao pagar um preço de seguro, não mais
dependem de suposições paramétricas. Isto pode ser feito através de contratos de derivativos ou
pela construção orgânica (claramente se alguém tem 80% do seu portfólio em numéraire
títulos, o risco de perder mais de 20% é zero, independentemente de todos os possíveis
modelos de retornos, já que as flutuações no numéraire não são consideradas arriscadas).
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
408 restrições de risco de cauda e entropia máxima (wd& h. geman)‡
Utilizamos a “robustez pura” ou tanto o VaR como o défice zero através da “paragem brusca” ou
seguro, que é o caso especial no nosso artigo do que chamámos anteriormente de construção
“barbell”.
Vale ressaltar que é uma ideia antiga em economia que um investidor possa construir um portfólio
baseado em duas categorias de risco distintas, ver Hicks (1939) [128]. A Teoria Moderna do
Portfólio propõe o teorema dos fundos mútuos ou teorema da “separação”, ou seja, que todos os
investidores podem obter a carteira desejada misturando dois fundos mútuos, sendo um o ativo
sem risco e outro representando a carteira ótima de média-variância que é tangente ao seu valor.
restrições; ver Tobin (1958) [254], Markowitz (1959) [167] e as variações em Merton (1972) [170],
Ross (1978) [202]. No nosso caso, um ativo sem risco é a parte da cauda onde o risco é definido
exatamente como zero. Observe que a parte arriscada da carteira precisa ter uma variação mínima
na economia financeira tradicional; para o nosso método, a representação exatamente oposta é
tomada para o arriscado.
25.1.1 A barra vista por ET Jaynes
A nossa abordagem de restringir apenas o que pode ser restringido (de uma forma robusta) e de
maximizar a entropia noutros locais ecoa uma visão notável de ET Jaynes em “Como devemos
usar a entropia na economia?” [134]:
“Pode acontecer que um sistema macroeconómico não se mova em resposta (ou
pelo menos não apenas em resposta) às forças que deveriam existir nas teorias
actuais; pode simplesmente mover-se na direção de uma entropia crescente,
conforme limitado pelas leis de conservação impostas pela Natureza e pelo Governo.”
25.2 revisitando a configuração de variância média
Deixei ÿX = (X1 , ..., Xm) denotar m retornos de ativos durante um determinado período único com
densidade conjunta g(ÿx), retornos médios ÿµ = (µ1 , ..., µm) e matriz de covariância m × m ÿ: ÿij =
dos dados E(XiXj ) 1 ÿ i, j ÿ m. Suponha que ÿµ e ÿ possam ser estimados com segurança a partir
ÿ µiµj .
O retorno da carteira com pesos wÿ = (w1 , ..., wm) é então
eu
X = ÿ wiXi ,
eu=1
que tem média e variância
T
E(X) = wÿ ÿµ , V(X) = wÿ ÿwÿ
T
.
Na teoria padrão do portfólio, minimiza-se V(X) sobre todos wÿ sujeito a E(X) = µ para um retorno
médio desejado fixo µ. Equivalentemente, maximiza-se o retorno esperado
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
25.2 revisitando a configuração de variância média 409
E(X) sujeito a uma variância fixa V(X). Neste quadro, a variância é considerada um substituto do
risco.
Para estabelecer conexões com nossa abordagem centrada na entropia, consideramos dois casos
padrão:
(1) Mundo Normal: A distribuição conjunta g(ÿx) dos retornos dos ativos é multivariada Gaussiana
N(ÿµ, ÿ). Assumir a normalidade é equivalente a assumir que g(ÿx) tem entropia máxima
(Shannon) entre todas as distribuições multivariadas com as estatísticas de primeira e segunda
ordem fornecidas ÿµ e ÿ. Além disso, para uma média fixa E(X), minimizar a variância V(X) é
equivalente a minimizar a entropia (incerteza) de X. (Isso é verdade, uma vez que a normalidade
conjunta implica que X é normal univariada para qualquer escolha de pesos). e a entropia de
2
) variável é (1
um N (µ, ÿ
H=
+ log(2ÿÿ2 )).) Isso é natural em um mundo com informações completas.
12
(A ideia de entropia como incerteza média está em Philippatos e Wilson (1972) [188]; ver Zhou
–et al. (2013) [270] para uma revisão da entropia na economia financeira e Georgescu-Roegen
(1971) [ 107] para economia em geral.)
(2) Distribuição Multivariada Desconhecida: Como assumimos que podemos estimar a estrutura de
segunda ordem, ainda podemos realizar o programa de Markowitz, ou seja, escolher os pesos
da carteira para encontrar um desempenho médio-variância ideal, que determina E(X) = µ e V(X)
2
= ÿ distribuição do retorno X. Observe que assumindo . Contudo, não sabemos o
que X é normalmente distribuído N (µ, ÿ o normal maximiza a entropia em uma dada média e
2
variância,) é equivalente a assumir que a entropia de X é maximizada, uma vez que, novamente,
veja [188].
2
A nossa estratégia é generalizar o segundo cenário, substituindo a variância ÿ por duas restrições
de valor em risco de cauda esquerda e modelar o retorno da carteira como a extensão máxima de
entropia destas restrições, juntamente com uma restrição no desempenho global ou no crescimento.
da carteira na zona sem perigo.
25.2.1 Analisando as Restrições
Deixe X ter densidade de probabilidade f(x). Em tudo o que se segue, seja K < 0 uma constante de
normalização escolhida para ser consistente com a riqueza do tomador de risco. Para qualquer ÿ >
0 e ÿÿ < K, as restrições de valor em risco são:
(1) Probabilidade de cauda:
K
f(x) dx = ÿ.
P(X ÿ K) = ÿ
ÿÿ
(2) Déficit esperado (CVaR):
E(X|X ÿ K) = ÿÿ.
Supondo que (1) seja válido, a restrição (2) é equivalente a
K
E( XI(XÿK) ) = ÿ
xf(x) dx = ÿÿÿ.
ÿÿ
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
410 restrições de risco de cauda e entropia máxima (wd& h. geman)‡
Dados os parâmetros de valor em risco ÿ = (K, ÿ, ÿÿ), deixe ÿvar(ÿ) denotar o conjunto de
densidades de probabilidade f que satisfazem as duas restrições. Observe que ÿvar(ÿ) é
convexo: f1 , f2 ÿ ÿvar(ÿ) implica ÿ f1 + (1 ÿ ÿ)f2 ÿ ÿvar(ÿ). Posteriormente adicionaremos
outra restrição envolvendo a média geral.
25.3 revisitando o caso gaussiano
2
. princípio,
Suponha que assumimos que X é gaussiano com média µ e variância ÿ. Em
deveria ser possível satisfazer as restrições do VaR, uma vez que temos dois parâmetros livres.
Na verdade, como mostrado abaixo, as restrições da cauda esquerda determinam a média e
a variância; veja a Figura 25.1. Contudo, satisfazer as restrições do VaR impõe restrições
interessantes sobre µ e ÿ e leva a uma desigualdade natural do tipo “sem almoço grátis”.
0,4
Figura 25.1: Ao definir K (o
valor em risco), a probabilidade
ÿ de excedê-lo e o déficit ao
fazê-lo, não há margem de
manobra sob uma distribuição
gaussiana: ÿ e µ são
determinados, o que torna a
construção de acordo com a
teoria do portfólio menos relevante.
0,3
Área
K
0,2
0,1
_
Devoluções
-4
-2
2
4
Seja ÿ(ÿ) o quantil ÿ da distribuição normal padrão, –ou seja, ÿ(ÿ) = ÿÿ1 (ÿ), onde ÿ é o cdf
da densidade normal padrão ÿ(x). Além disso, defina
2
1
B(ÿ) = ÿ(ÿ(ÿ))
= {ÿÿ(ÿ)
ÿÿ(ÿ) ÿ
1exp
2ÿÿÿ(ÿ)
2
}.
Proposição 25.1
2
Se X ÿ N(µ, ÿ
) e satisfaz as duas restrições de VaR, então a média e a variância são
dado por:
K ÿ ÿÿ
ÿÿ + KB(ÿ)
, ÿ=
µ=
1 + B(ÿ)
ÿ(ÿ)(1 + B(ÿ)).
Além disso, B(ÿ) < ÿ1 e limÿÿ0 B(ÿ) = ÿ1.
A prova está no apêndice. As restrições do VaR levam diretamente a duas equações
lineares em µ e ÿ:
µ + ÿ(ÿ)ÿ = K, µ ÿ ÿ(ÿ)B(ÿ)ÿ = ÿÿ.
Considere as condições sob as quais as restrições do VaR permitem um retorno médio
positivo µ = E(X) > 0. Primeiro, a partir da equação linear acima em µ e ÿ em termos
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
25.3 revisitando o caso gaussiano 411
de ÿ(ÿ) e K, vemos que ÿ aumenta à medida que ÿ aumenta para qualquer média fixa µ, e que µ
K
> 0 se e somente se ÿ > ÿ(ÿ) , –ou seja, devemos aceitar um limite inferior na variância que
aumenta com ÿ, que é uma propriedade razoável. Em segundo lugar, a partir da expressão para
µ na Proposição 1, temos
µ > 0 ÿÿ |ÿÿ|> KB(ÿ).
Consequentemente, a única forma de obter um retorno esperado positivo é acomodar um risco
suficientemente grande expresso pelas várias compensações entre os parâmetros de risco ÿ
que satisfaçam a desigualdade acima. (Este tipo de restrição também se aplica de forma mais
geral a distribuições simétricas, uma vez que as restrições da cauda esquerda impõem uma
estrutura na localização e escala. Por exemplo, no caso de uma distribuição T de Student com
escala s, localização m e expoente final ÿ , a mesma relação linear entre i ÿ I 2ÿ ( ÿ s e m se
ÿ1
aplica:
s = (K ÿ m)ÿ(ÿ), onde ÿ(ÿ) = ÿ ÿ ÿ ÿ I 2ÿ ( ÿ o inverso do beta
1
2,
ÿ1
incompleto
2,
2)
1
2
)ÿ1
ÿ1 é
, onde eu
regularizado função I, e é a solução de
ÿ=
12
ÿs
2
Eu (kÿm) 2+ÿs 2
1
( a2 , 2 ).
25.3.1 Uma mistura de duas normais
Em muitas ciências aplicadas, uma mistura de duas normais fornece uma extensão útil e natural
da própria Gaussiana; em finanças, a hipótese de distribuição mista (denotada como MDH na
literatura) refere-se a uma mistura de dois normais e tem sido amplamente investigada (ver, por
exemplo, Richardson e Smith (1995)
[200]). H. Geman e T. Ané (1996) [2] mostram como uma mistura infinita de distribuições normais
para os retornos das ações surge da introdução de um "relógio estocástico" que leva em conta a
taxa desigual de chegada do fluxo de informações nos mercados financeiros.
Além disso, os negociantes de opções há muito usam misturas para contabilizar caudas gordas
e para examinar a sensibilidade de uma carteira a um aumento na curtose (“DvegaDvol”); ver
Taleb (1997) [225]. Finalmente, Brigo e Mercurio (2002) [34] utilizam uma mistura de duas
normais para calibrar a distorção nas opções de ações.
Considere a mistura
f(x) = ÿN(µ1 ,
2
em
1
) + (1 ÿ ÿ)N(µ2, p
2
2 ).
Um caso intuitivamente simples e atraente é fixar a média geral µ e tomar ÿ = ÿ e µ1 = ÿÿ, caso
em que µ2 é restrito a µÿÿÿÿ 1ÿÿ . Segue-se então que as restrições da cauda esquerda são
aproximadamente satisfeitas para ÿ1 , ÿ2 suficientemente pequenas.
Na verdade, quando ÿ1 = ÿ2 ÿ 0, a densidade é efetivamente composta por dois picos (normais
de pequena variância) com o esquerdo centrado em ÿÿ e o direito centrado em µÿÿÿÿ
1ÿÿ . O caso extremo é uma função de Dirac à esquerda, como veremos a seguir.
Stop Loss Dinâmico, Um Breve Comentário Pode-se definir um nível K abaixo do qual não há
massa, com resultados que dependem da precisão da execução de tal stop.
A distribuição à direita do stop loss não se parece mais com o padrão
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
412 restrições de risco de cauda e entropia máxima (wd& h. geman)‡
Gaussiano, pois constrói assimetria positiva de acordo com a distância do stop à média.
Limitamos qualquer discussão adicional às ilustrações da Figura 25.2.
Probabilidade
Figura 25.2: Um stop loss dinâmico
atua como uma barreira absorvente,
com uma função Dirac no stop
executado.
Certo
25,4 entropia máxima
Dos comentários e análises acima, fica claro que, na prática, a densidade f do retorno X
é desconhecida; em particular, nenhuma teoria fornece isso. Suponhamos que podemos
ajustar os parâmetros da carteira para satisfazer as restrições do VaR e talvez outra
restrição no valor esperado de alguma função de X (por exemplo, a média global).
Desejamos então calcular probabilidades e expectativas de interesse, por exemplo P(X
> 0) ou a probabilidade de perder mais de 2K, ou o retorno esperado dado X > 0. Uma
estratégia é fazer tais estimativas e previsões sob as condições mais imprevisíveis.
circunstâncias consistentes com as restrições. Ou seja, use a extensão de entropia
máxima (MEE) das restrições como modelo para f(x).
A “entropia diferencial” de f é h(f) = ÿ ÿ f(x) ln f(x) dx. (Em geral, a integral pode não
existir.) A entropia é côncava no espaço de densidades para o qual é definida. Em geral,
o MEE é definido como
fMEE = arg max h(f)
fÿÿ
onde ÿ é o espaço de densidades que satisfazem um conjunto de restrições da forma Eÿj
(X) = cj , j = 1, ..., J. Assumindo que ÿ não é vazio, é bem conhecido que fMEE é único e
(longe do limite de viabilidade) é uma distribuição exponencial nas funções de restrição,
–ou seja, é da forma
fMEE(x) = C
ÿ1
experiência
ÿ ÿjÿj
ÿ ÿÿ j
(x) ÿ
onde C = C(ÿ1 , ..., ÿM) é a constante de normalização. (Esta forma vem da diferenciação
de um funcional J(f) apropriado com base na entropia, e forçando a integral a ser unidade
e impondo as restrições com multiplicadores de Lagrange.) Nos casos especiais abaixo,
usamos esta caracterização para encontrar o MEE. para nossas restrições.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
25,4 entropia máxima 413
No nosso caso, queremos maximizar a entropia sujeita às restrições do VaR juntamente
com quaisquer outras que possamos impor. Na verdade, as restrições de VaR por si só não
admitem um MEE, uma vez que não restringem a densidade f(x) para x > K. A entropia pode
1ÿÿ
ser tornada arbitrariamente grande permitindo que f seja identicamente
C = sobre K < x < N
N-K
e deixando N ÿ ÿ. Suponhamos, contudo, que juntamos uma ou mais restrições ao
comportamento de f que são compatíveis com as restrições do VaR no sentido de que o
conjunto de densidades ÿ que satisfaz todas as restrições não é vazio. Aqui ÿ dependeria
dos parâmetros VaR ÿ = (K, ÿ, ÿÿ) juntamente com os parâmetros associados às restrições
adicionais.
25.4.1 Caso A: Restringindo a Média Global
O caso mais simples é adicionar uma restrição ao retorno médio, ou seja, fixar E(X) = µ.
Como E(X) = P(X ÿ K)E(X|X ÿ K) + P(X > K)E(X|X > K), adicionar a restrição média é
equivalente a adicionar a restrição
E(X|X > K) = ÿ+
onde ÿ+ satisfaz ÿÿÿ + (1 ÿ ÿ)ÿ+ = µ.
Definir
ÿ
fÿ(x) =
1
K-x
(Kÿÿÿ) exp [ ÿ Kÿÿÿ ] se x < K,
ÿ 0
se x ÿ K.
ÿ
e
ÿ
f+(x) =
1
xÿK
(ÿ+ÿK) exp [ ÿ ÿ+ÿK ] se x > K,
ÿ 0
ÿ
se x ÿ K.
É fácil verificar que fÿ e f+ se integram em um. Então
fMEE(x) = ÿ fÿ(x) + (1 ÿ ÿ)f+(x)
é o MEE das três restrições. Primeiro, evidentemente
K
1.ÿ _ÿÿ
2. ÿ
3. ÿ
K
ÿÿ
ÿ
K
fMEE(x) dx = ÿ;
x fMEE(x) dx = ÿÿÿ;
x fMEE(x) dx = (1 ÿ ÿ)ÿ+.
Portanto, as restrições são satisfeitas. Segundo, fMEE tem uma forma exponencial em
nossas funções de restrição:
fMEE(x) = C
ÿ1
exp [ ÿ(ÿ1x + ÿ2 I(xÿK) + ÿ3x I(xÿK) ) ] .
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
414 restrições de risco de cauda e entropia máxima (wd& h. geman)‡
A forma de fÿ depende da relação entre K e o déficit esperado ÿÿ. Quanto mais
próximo ÿÿ estiver de K, mais rapidamente a cauda cai. Como ÿÿ ÿ K, fÿ
converge para um pico unitário em x = K (Figuras 25.3 e 25.4).
Perturbador ÿ
0,4
0.
0,3
0,1
Figura 25.3: Caso A: Efeito de
diferentes valores de ÿ na forma
da distribuição.
0,25
0,2
0,5
0,1
-20
-10
10
20
Perturbador ÿ0,5
0,4
Figura 25.4: Caso A: Efeito de
diferentes valores de ÿÿ na
forma da distribuição.
0,3
0,2
0,1
-10
-5
5
10
25.4.2 Caso B: Restringindo a Média Absoluta
Se, em vez disso, restringirmos a média absoluta, ou seja,
E|X|= ÿ |x| f(x) dx = µ,
então o MEE é um pouco menos aparente, mas ainda pode ser encontrado. Defina fÿ(x)
como acima, e deixe
ÿ1 exp(ÿÿ1 |x|) se x ÿ K,
2ÿexp(ÿ1K)
0
se x < K.
f + (x) = {
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
25,4 entropia máxima 415
Então ÿ1 pode ser escolhido tal que
ÿ
ÿÿÿ + (1 ÿ ÿ) ÿ
K
|x| f+(x)dx = µ.
25.4.3 Caso C: Leis de Potência para a Cauda Direita
Se acreditarmos que os retornos reais têm “caudas gordas”, em particular que a cauda direita
decai como uma Lei de Potência em vez de exponencialmente (como acontece com uma
densidade normal ou exponencial), então podemos adicionar esta restrição às restrições de
VaR em vez de trabalhar com a média ou média absoluta. Tendo em vista a forma exponencial
do MEE, a densidade f+(x) terá uma lei de potência, a saber
1
f+(x) =
(1 + |x|) ÿ(1+a) , x ÿ K,
C(s)
para ÿ > 0 se a restrição for da forma
E (log(1 + |X|)|X > K) = A.
Além disso, novamente a partir da teoria MEE, sabemos que o parâmetro é obtido minimizando
o logaritmo da função normalizadora. Neste caso, é fácil mostrar que
1
ÿ
C(uma) = ÿK
(1 + |x|) ÿ(1+a) dx =
a
(2 ÿ (1 ÿ K)
-a
).
Segue-se que A e ÿ satisfazem a equação
1
UMA =
-
a
log(1 ÿ K)
.
2(1 ÿ K) ÿ ÿ 1
Podemos pensar nesta equação como a determinação da taxa de decaimento ÿ para um dado A ou,
alternativamente, como a determinação do valor de restrição A necessário para obter uma determinada
Lei de Potência ÿ.
A extensão MEE final das restrições de VaR juntamente com a restrição no log do retorno é
então:
1
fMEE(x) = ÿI(xÿK)
(K ÿ ÿÿ)
K-x
exp [ - K ÿ ÿÿ ] + (1 ÿ ÿ)I(x>K)
(1 + |x|) ÿ(1+uma)
C(s)
,
(ver Figuras 25.5 e 25.6).
25.4.4 Extensão para um cenário multiperíodo: um comentário
Considere o comportamento em multiperíodos. Utilizando uma abordagem ingênua, resumimos
o desempenho como se não houvesse resposta aos retornos anteriores. Podemos ver como o
Caso A se aproxima da Gaussiana regular, mas não do Caso C (Figura 25.7).
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
416 restrições de risco de cauda e entropia máxima (wd& h. geman)‡
Perturbador ÿ
1,5
1
3
1,0
Figura 25.5: Caso C: Efeito
de diferentes valores de na
forma da distribuição de
entropia máxima de cauda gorda.
2
2
5
2
0,5
3
-2
-1
1
2
3
Perturbador ÿ
1,5
1
3
Figura 25.6: Caso C: Efeito
de diferentes valores de na
forma da distribuição de
entropia máxima de cauda
gorda (K mais próximo).
2
1,0
2
5
2
3
0,5
-2
-1
1
2
3
Para o caso A, a função característica pode ser escrita:
A(t) =
e iKt(t(K ÿ ÿÿÿ + ÿ+(ÿ ÿ 1)) ÿ i) ÿ
(Kt ÿ ÿÿt ÿ i)(ÿ1 ÿ isto(K ÿ ÿ+))
Portanto, podemos deduzir das convoluções que a função ÿA(t) n converge para a de uma
Gaussiana com soma n. Além disso, a função característica do limite da média das
estratégias, nomeadamente
isto(ÿ++ÿ(ÿÿÿÿ+))
,
limnÿÿ ÿ UMA(t/n) n = e
(25.1)
é a função característica do delta de Dirac, visivelmente o efeito da lei dos grandes números
entregando o mesmo resultado que o Gaussiano com média ÿ+ + ÿ(ÿÿ ÿ ÿ+) .
Quanto à Lei de Potência no Caso C, a convergência para Gaussiana só ocorre para ÿ ÿ
2, e de forma bastante lenta.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
25,5 comentários e conclusão 417
0,5
Figura 25.7: Retorno médio para
ingênuo multiperíodo
estratégia para o Caso A, que
é, assumindo independência
0,4
0,3
de “dimensionamento”, como tamanho da posição
não depende do desempenho
passado. Eles agregam
perfeitamente para um gaussiano
padrão e (como mostrado na
Equação (25.1)), encolher para um
Dirac no valor médio.
0,2
0,1
-4
-2
2
4
6
8
10
25,5 comentários e conclusão
Observamos que o stop loss desempenha um papel maior na determinação das propriedades
estocásticas do que a composição da carteira. Simplesmente, a parada não é acionada por
componentes, mas por variações na carteira total. Isso libera a análise de
concentrando-nos em componentes individuais da carteira quando a cauda – através de derivados ou
construção orgânica – é tudo o que conhecemos e podemos controlar.
Para concluir, a maioria dos artigos que tratam da entropia na literatura matemática
financeira utilizou a minimização da entropia como critério de otimização. Por exemplo,
Fritelli (2000) [98] exibe a unicidade de uma "medida martingale de entropia mínima"
sob algumas condições e mostra que a minimização da entropia é equivalente a
maximizar a utilidade exponencial esperada da riqueza terminal. Temos, em vez disso,
e fora de qualquer critério de utilidade, propôs a maximização da entropia como o
reconhecimento da incerteza das distribuições de ativos. Abaixo do VaR e déficit esperado
restrições, obtemos em geral uma "carteira barbell" como a solução ótima, estendendo para
um cenário muito geral a abordagem da separação de dois fundos
teorema.
25.6 apêndice/provas
Prova da Proposição 1: Como X ÿ N(µ, p
ÿ = P(X < K) = P(Z <
2
), a restrição de probabilidade de cauda é
Kÿµ
p
) =ÿ(
Kÿµ
p
).
Por definição, ÿ(ÿ(ÿ)) = ÿ. Por isso,
K = µ + ÿ(ÿ)ÿ
(25.2)
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
418 restrições de risco de cauda e entropia máxima (wd& h. geman)‡
Para a restrição de déficit,
K
x
(x ÿ µ)
exp ÿ
E(X; X < k) = ÿ
ÿ 2ÿÿ 2ÿ 2
(Kÿµ)/
ÿ) xÿ(x) dx
= µÿ + ÿ ÿ
2
dx
ÿÿ
ÿÿ
p
= µÿ ÿ exp ÿ 2ÿ 2 ÿ 2ÿ
(K ÿ µ)
2
Visto que E(X; X < K) = ÿÿÿ, e da definição de B(ÿ), obtemos
ÿÿ = µ ÿ ÿ(ÿ)B(ÿ)ÿ
Resolvendo (25.2) e (25.3) para µ e ÿ
2
(25.3)
fornece as expressões da Proposição 1.
Finalmente, por simetria com a “desigualdade da cauda superior” da normal padrão,
ÿ(x)
ÿ tem, para x < 0, ÿ(x) ÿ ÿx nós. Escolher x = ÿ(ÿ) = ÿÿ1 (ÿ) resulta em ÿ = P(X < ÿ(ÿ))
ÿÿB(ÿ) ou 1 + B(ÿ ) ÿ 0. Como a desigualdade da cauda superior é assintoticamente
exata quando x ÿ ÿ temos B(0) = ÿ1, o que conclui a prova.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
BIBLIOGRAFIA E ÍNDICE
419
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
BIBLIOGRAFIA
[1] Inmaculada B Aban, Mark M Meerschaert e Anna K Panorska. Estimativa de parâmetros para
a distribuição de Pareto truncada. Jornal da Associação Estatística Americana, 101(473):270–
277, 2006.
[2] Thierry Ané e Hélyette Geman. Fluxo de pedidos, relógio de transações e normalidade de
retornos de ativos. O Jornal de Finanças, 55(5):2259–2284, 2000.
[3] Kenneth J Arrow, Robert Forsythe, Michael Gorham, Robert Hahn, Robin Hanson, John O
Ledyard, Saul Levmore, Robert Litan, Paul Milgrom, Forrest D Nelson, et al. A promessa dos
mercados de previsão. Ciência, 320(5878):877, 2008.
[4] Marco Avellaneda, Craig Friedman, Richard Holmes e Dominick Samperi. Calibração de
superfícies de volatilidade via minimização de entropia relativa. Finanças Matemáticas
Aplicadas, 4(1):37–64, 1997.
[5] L. Bachelier. Teoria da especulação em: P. Cootner, ed., 1964, O caráter aleatório dos preços
do mercado de ações. MIT Press, Cambridge, Massachusetts, 1900.
[6] Louis Bachelier. Teoria da especulação. Gauthier-Villars, 1900.
[7] Kevin P Balanda e HL MacGillivray. Curtose: uma revisão crítica. The American Statistician,
42(2):111–119, 1988.
[8] Agosto A Balkema e Laurens De Haan. Tempo de vida residual na idade avançada.
Os Anais de Probabilidade, páginas 792–804, 1974.
[9] Agosto A Balkema e Laurens De Haan. Limite as distribuições para estatísticas de pedidos.
eu. Teoria da Probabilidade e suas Aplicações, 23(1):77–92, 1978.
[10] Agosto A Balkema e Laurens de Haan. Limite as distribuições para estatísticas de pedidos. ii.
Teoria da Probabilidade e suas Aplicações, 23(2):341–358, 1979.
[11] Shaul K Bar-Lev, Idit Lavi e Benjamin Reiser. Inferência bayesiana para o processo de lei de
potência. Anais do Instituto de Matemática Estatística, 44(4):623–639, 1992.
[12] Nicolau Barberis. A psicologia dos eventos de cauda: progresso e desafios.
Revisão Econômica Americana, 103(3):611–16, 2013.
421
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
422 Bibliografia
[13] Jonathan Barão. Pensando e decidindo, 4ª Ed. Cambridge University Press,
2008.
[14] Norman C Beaulieu, Adnan A Abu-Dayya e Peter J McLane. Estimar a distribuição de uma soma de
variáveis aleatórias lognormais independentes.
Comunicações, Transações IEEE em, 43(12):2869, 1995.
[15] Capa de Robert M Bell e Thomas M. Otimalidade competitiva do investimento logarítmico. Matemática
da Pesquisa Operacional, 5(2):161–166, 1980.
[16] Shlomo Benartzi e Richard Thaler. Heurísticas e preconceitos na aposentadoria
comportamento de poupança. Perspectivas do Journal of Economic, 21(3):81–104, 2007.
[17] Shlomo Benartzi e Richard H Thaler. Aversão míope à perda e o quebra-cabeça do prêmio de ações.
O jornal trimestral de Economia, 110(1):73–92, 1995.
[18] Shlomo Benartzi e Richard H Thaler. Estratégias ingênuas de diversificação em planos de poupança
de contribuição definida. Revisão econômica americana, 91(1):79–98, 2001.
[19] Sergei Natanovich Bernstein. Sobre a lei dos grandes números. Comunicações da Sociedade
Matemática de Kharkow, 16(1):82–87, 1918.
[20]Patrick Billingsley. Probabilidade e medida. John Wiley e Filhos, 2008.
[21]Patrick Billingsley. Convergência de medidas de probabilidade. John Wiley & Filhos,
2013.
[22] Nicholas H Bingham, Charles M Goldie e Jef L Teugels. Variação regular, volume 27. Cambridge
University Press, 1989.
[23] Giulio Biroli, JP Bouchaud e Marc Potters. No autovalor superior de matrizes aleatórias de cauda
pesada. EPL (Cartas Eurofísicas), 78(1):10001, 2007.
[24] Fischer Black e Myron Scholes. A precificação de opções e empresas
passivos. 81:637–654, maio-junho de 1973.
[25] Fischer Black e Myron Scholes. O preço das opções e passivos corporativos. O jornal de economia
política, páginas 637–654, 1973.
[26] AJ Bones. Elementos de uma teoria do valor das opções de ações. 72:163–175, 1964.
[27] Jean-Philippe Bouchaud, Marc Mézard, Marc Potters, et al. Propriedades estatísticas das carteiras de
ordens de ações: resultados empíricos e modelos. Finanças Quantitativas, 2(4):251–256, 2002.
[28] Jean-Philippe Bouchaud e Marc Potters. Teoria do risco financeiro e precificação de derivativos: da
física estatística à gestão de risco. Imprensa da Universidade de Cambridge, 2003.
[29] Olivier Bousquet, Stéphane Boucheron e Gábor Lugosi. Introdução à teoria da aprendizagem
estatística. Em Palestras avançadas sobre aprendizado de máquina, páginas 169–207. Springer,
2004.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Bibliografia 423
[30] George Bragues. Mercados de previsão: as possibilidades práticas e normativas para a produção
social do conhecimento. Episteme, 6(1):91–106, 2009.
[31] DT Breeden e RH Litzenberger. Preço das reivindicações contingentes ao estado implícito
nos preços das opções. 51:621–651, 1978.
[32] Douglas T Breeden e Robert H Litzenberger. Preços contingentes ao estado
reivindicações implícitas nos preços das opções. Jornal de negócios, páginas 621–651, 1978.
[33] Henry Brighton e Gerd Gigerenzer. Homo heuristicus e o preconceito –
dilema da variância. Em Ação, Percepção e o Cérebro, páginas 68–91. Springer,
2012.
[34] Damiano Brigo e Fábio Mercúrio. A dinâmica da mistura lognormal e a calibração para a volatilidade
do mercado sorriem. Revista Internacional de Teoria e
Finanças Aplicadas, 5(04):427–446, 2002.
[35]Peter Carr. Movimento browniano limitado. Escola de Engenharia Tandon da NYU,
2017.
[36] Peter Carr, Hélyette Geman, Dilip B Madan e Marc Yor. Volatilidade estocástica para processos lévy.
Finanças matemáticas, 13(3):345–382, 2003.
[37] Peter Carr e Dilip Madan. Posicionamento ideal em títulos derivativos.
2001.
[38] Lars-Erik Cederman. Modelando o tamanho das guerras: das bolas de bilhar aos montes de areia.
Revisão de Ciência Política Americana, 97(01):135–150, 2003.
[39] Bikas K Chakraborty, Anirban Chakraborty, Satya R Chakravarty e Arnab
Chatterjee. Econofísica da distribuição de renda e riqueza. Cambridge University Press, 2013.
[40] David G. Champernowne. Um modelo de distribuição de renda. O econômico
Diário, 63(250):318–351, 1953.
[41] Shaohua Chen, Hong Nie e Benjamin Ayers-Glassey. Soma lognormal
aproximação com uma variante da distribuição de Pearson tipo iv. Cartas de Comunicações IEEE,
12(9), 2008.
[42] Rémy Chicheportiche e Jean-Philippe Bouchaud. A distribuição conjunta de
o retorno das ações não é elíptico. Revista Internacional de Teoria e Aplicada
Finanças, 15(03), 2012.
[43] Vice-Presidente Chistyakov. Um teorema sobre somas de variáveis aleatórias positivas independentes
e suas aplicações a processos aleatórios ramificados. Teoria da Probabilidade e Suas Aplicações,
9(4):640–648, 1964.
[44] Pasquale Cirillo. Seus dados são realmente distribuídos por Pareto? Física A: Mecânica Estatística
e suas Aplicações, 392(23):5947–5962, 2013.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
424 Bibliografia
[45] Pasquale Cirillo e Nassim Nicholas Taleb. Estimativa do déficit esperado para modelos de risco
operacional de média aparentemente infinita. Finanças Quantitativas, páginas 1–10, 2016.
[46] Pasquale Cirillo e Nassim Nicholas Taleb. Sobre as propriedades estatísticas e o risco de conflitos
violentos. Física A: Mecânica Estatística e suas Aplicações, 452:29–45, 2016.
[47] Pasquale Cirillo e Nassim Nicholas Taleb. Quais são as chances de guerra?
Significância, 13(2):44–45, 2016.
[48] Pasquale Cirillo e Nassim Nicholas Taleb. Risco de cauda de doenças contagiosas.
Física da Natureza, 2020.
[49] Colaboração de Ciência Aberta et al. Estimando a reprodutibilidade da ciência psicológica.
Ciência, 349(6251):aac4716, 2015.
[50] Rama Cont e Peter Tankov. Modelagem financeira com processos de salto, volume 2. CRC Press, 2003.
[51] Harald Cramer. Sobre a teoria matemática do risco. Centraltryckeriet, 1930.
[52] George Cybenko. Aproximação por superposições de uma função sigmoidal.
Matemática de controle, sinais e sistemas, 2(4):303–314, 1989.
[53] Camilo Dagum. Medidas de desigualdade entre distribuições de renda com aplicações.
Econometrica, 48(7):1791–1803, 1980.
[54] Camilo Dagum. Modelos de distribuição de renda. Biblioteca Online Wiley, 1983.
[55] Anirban DasGupta. Probabilidade para estatística e aprendizado de máquina: fundamentos e
tópicos avançados. Springer Ciência e Mídia de Negócios, 2011.
[56] Herbert A David e Haikady N Nagaraja. Estatísticas de pedidos. 2003.
[57] Bruno De Finetti. Probabilidade, indução e estatística. 1972.
[58] Bruno De Finetti. Palestras Filosóficas sobre Probabilidade: coletadas, editadas e anotadas por
Alberto Mura, volume 340. Springer Science & Business Media, 2008.
[59] Amir Dembo e Ofer Zeitouni. Técnicas e aplicações de grandes desvios,
volume 38. Springer Science & Business Media, 2009.
[60] Kresimir Demeterfi, Emanuel Derman, Michael Kamal e Joseph Zou. Um guia para swaps de
volatilidade e variância. O Jornal de Derivados, 6(4):9–32,
1999.
[61] Kresmir Demeterifi, Emanuel Derman, Michael Kamal e Joseph Zou.
Mais do que você jamais quis saber sobre swaps de volatilidade. Documento de trabalho,
Goldman Sachs, 1999.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Bibliografia 425
[62] Victor DeMiguel, Lorenzo Garlappi e Raman Uppal. Diversificação ideal versus diversificação
ingênua: quão ineficiente é a estratégia de portfólio 1/n? A revisão de estudos financeiros,
22(5):1915–1953, 2007.
[63] E. Derman e N. Taleb. A ilusão da replicação delta dinâmica. Finanças Quantitativas, 5(4):323–
326, 2005.
[64] Emanuel Derman. A percepção de tempo, risco e retorno durante períodos de especulação.
Documento de trabalho, Goldman Sachs, 2002.
[65] Marco Di Renzo, Fabio Graziosi e Fortunato Santucci. Resultados adicionais sobre a aproximação
da soma de potência log-normal via distribuição tipo iv de Pearson: uma fórmula geral para
cálculo de log-momentos. Transações IEEE sobre Comunicações, 57(4), 2009.
[66] Persi Diaconis e David Freedman. Sobre a consistência das estimativas bayesianas.
Os Anais de Estatística, páginas 1–26, 1986.
[67] Persi Diaconis e Sandy Zabell. Somatório fechado para distribuições clássicas: variações sobre
um tema de moivre. Ciência Estatística, páginas 284–302,
1991.
[68] Cornélio Frank Dietrich. Incerteza, calibração e probabilidade: as estatísticas da medição
científica e industrial. Routledge, 2017.
[69] Biblioteca Digital de Funções Matemáticas do NIST. http://dlmf.nist.gov/, Versão 1.0.19 de
22/06/2018. FWJ Olver, AB Olde Daalhuis, DW Lozier, BI
Schneider, RF Boisvert, CW Clark, BR Miller e BV Saunders, eds.
[70]Daniel Dufresne. Somas de lognormais. Em Atas da 43ª Atuarial
conferência de pesquisa. Universidade de Regina, 2008.
[71]Daniel Dufresne et al. A aproximação log-normal em cálculos financeiros e outros. Avanços na
Probabilidade Aplicada, 36(3):747–773, 2004.
[72]Bruno Dupire. Preços com um sorriso. 7(1), 1994.
[73]Bruno Dupire. Precificação de opções exóticas por calibração em sorrisos de volatilidade. Em
Matemática Avançada para Derivados: Conferência da Revista Risk, 1995.
[74] Bruno Dupire e outros. Preços com um sorriso. Risco, 7(1):18–20.
[75] Danny Dyer. Limites de probabilidade estrutural para a lei de Pareto forte. Canadian Journal of Statistics, 9(1):71–77, 1981.
[76] Ido Eliazar. Espectros de desigualdade. Física A: Mecânica Estatística e suas Aplicações
cações, 469:824–847, 2017.
[77] Ido Eliazar. Lei de Lindy. Física A: Mecânica Estatística e suas Aplicações,
486:797–805, 2017.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
426 Bibliografia
[78] Iddo Eliazar e Morrel H Cohen. Sobre a desigualdade social: analisando a disparidade entre ricos e
pobres. Physica A: Mecânica Estatística e suas Aplicações, 401:148–158, 2014.
[79] Iddo Eliazar e Igor M Sokolov. Maximização da heterogeneidade estatística: Da entropia de
Shannon ao índice de Gini. Physica A: Mecânica Estatística e suas Aplicações, 389(16):3023–
3038, 2010.
[80] Iddo I Eliazar e Igor M Sokolov. Caracterização de Gini de estatísticas de valores extremos. Physica
A: Mecânica Estatística e suas Aplicações, 389(21):4462–4472, 2010.
[81] Ido I Eliazar e Igor M Sokolov. Medindo a uniformidade estatística: uma visão panorâmica. Physica
A: Mecânica Estatística e suas Aplicações, 391(4):1323–1353, 2012.
[82] Paulo Embrechts. Modelagem de eventos extremos: para seguros e finanças, volume 33.
Springer, 1997.
[83] Paul Embrechts e Charles M Goldie. Nas caudas de convolução. Processos estocásticos e suas
aplicações, 13(3):263–278, 1982.
[84] Paul Embrechts, Charles M Goldie e Noël Veraverbeke. Subexponencialidade e divisibilidade
infinita. Teoria da Probabilidade e Campos Relacionados, 49(3):335–347, 1979.
[85] MÉmile Borel. Probabilidades contáveis e suas aplicações aritméticas. Rendiconti del Circolo
Matematico di Palermo (1884-1940), 27(1):247–271,
1909.
[86]Michael Falk e outros. Ao testar o índice de valor extremo através do método pot.
Os Anais de Estatística, 23(6):2013–2035, 1995.
[87] Michael Falk, Jürg Hüsler e Rolf-Dieter Reiss. Leis dos pequenos números: extremos e
acontecimentos raros. Springer Ciência e Mídia de Negócios, 2010.
[88] Kai-Tai Fang. Distribuições com contornos elípticos. Enciclopédia de Estatística
Ciências, 2006.
[89] Doyne James Farmer e John Geanakoplos. O desconto hiperbólico é racional: valorizar o futuro
distante com taxas de desconto incertas. 2009.
[90] J Doyne Farmer e John Geanakoplos. Leis de potência na economia e em outros lugares. No
Instituto Santa Fé, 2008.
[91] William Feller. 1971, uma introdução à teoria da probabilidade e suas aplicações,
vol. 2.
[92] William Feller. Uma introdução à teoria das probabilidades. 1968.
[93] Baruch Fischhoff, John Kadvany e John David Kadvany. Risco: Um tempo muito curto
introdução. Imprensa da Universidade de Oxford, 2011.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Bibliografia 427
[94] Ronald Aylmer Fisher e Leonard Henry Caleb Tippett. Formas limitantes da distribuição de
frequência do maior ou menor membro de uma amostra.
Em Mathematical Proceedings of the Cambridge Philosophical Society, volume 24, páginas 180–
190. Imprensa da Universidade de Cambridge, 1928.
[95] Andrea Fontanari, Pasquale Cirillo e Cornelis W Oosterlee. De perfis de concentração a mapas
de concentração. novas ferramentas para o estudo de distribuições de perdas. Seguros:
Matemática e Economia, 78:13–29, 2018.
[96] Shane Frederick, George Loewenstein e Ted O'donoghue. Desconto de tempo e preferência de
tempo: uma revisão crítica. Jornal de literatura econômica, 40(2):351–401, 2002.
[97] David Um Libertado. Notas sobre o argumento do livro holandês “. Notas de aula, Departamento
de Estatística, Universidade de Berkley em Berkley, http://www. Estado. Berkeley. edu/˜ censo/
dutchdef. pdf, 2003.
[98] Marco Fritelli. A medida martingale de entropia mínima e o problema de avaliação em mercados
incompletos. Finanças matemáticas, 10(1):39–52, 2000.
[99] Xavier Gabaix. Leis de potência em economia e finanças. Relatório técnico, NaBureau Nacional de Pesquisa Econômica, 2008.
[100] Xavier Gabaix. Leis de potência em economia: uma introdução. Jornal de EcoPerspectivas econômicas, 30(1):185–206, 2016.
[101] Armengol Gasull, Maria Jolis e Frederic Utzet. Nas constantes normativas para máximos normais.
Jornal de Análise Matemática e Aplicações, 422(1):376–396, 2015.
[102] Jim Reunião. A superfície da volatilidade: um guia prático. John Wiley & Filhos,
2006.
[103] Jim Reunião. A superfície da volatilidade: um guia prático. Nova York: John Wiley & Sons, 2006.
[104] Oscar Gelderblom e Joost Jonker. Amsterdã como o berço da moderna negociação de futuros e
opções, 1550-1650. William Goetzmann e K. Geert Rouwen-horst, 2005.
[105] Andrew Gelman e Hal Stern. A diferença entre “significativo” e “não significativo” não é em si
estatisticamente significativa. O Estatístico Americano, 60(4):328–331, 2006.
[106] Donald Geman, Hélyette Geman e Nassim Nicholas Taleb. Restrições de risco de cauda e
entropia máxima. Entropia, 17(6):3724, 2015.
[107] Nicholas Georgescu-Roegen. A lei da entropia e o processo econômico, 1971. Cambridge, Mass,
1971.
[108] Gerd Gigerenzer e Daniel G Goldstein. Raciocinando de maneira rápida e frugal: modelos de
racionalidade limitada. Revisão psicológica, 103(4):650, 1996.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
428 Bibliografia
[109] Gerd Gigerenzer e Peter M Todd. Heurísticas simples que nos tornam inteligentes. BoiFord University Press, Nova York, 1999.
[110] Corrado Gini. Variabilidade e mutabilidade. Reimpresso em Memórias de metodologia estatística (Ed.
Pizetti E, Salvemini, T). Roma: Livraria Eredi Virgilio Veschi, 1912.
[111] BV Gnedenko e AN Kolmogorov. Distribuições Limite para Somas de Variáveis Aleatórias
Independentes (1954).
[112] Charles M. Goldie. Distribuições subexponenciais e caudas de variação dominada. Journal of Applied
Probability, páginas 440–442, 1978.
[113]Daniel Goldstein e Nassim Taleb. Não sabemos bem do que estamos falando quando falamos de
volatilidade. Jornal de Gestão de Portfólio, 33(4),
2007.
[114] Richard C Green, Robert A Jarrow, et al. Abrangência e integralidade em mercados com reivindicações
contingentes. Jornal de Teoria Econômica, 41(1):202–210, 1987.
[115] Emil Julius Gümbel. Estatísticas de extremos. 1958.
[116] Laurens Haan e Ana Ferreira. Teoria do valor extremo: uma introdução.
Série Springer em Pesquisa Operacional e Engenharia Financeira (, 2006.
[117] Wolfgang Hafner e Heinz Zimmermann. Descoberta incrível: Vincenz
Modelos de precificação de opções da Bronzin. 31:531–546, 2007.
[118] Torben Hagerup e Christine Rüb. Uma visita guiada aos limites de Chernoff. Cartas de processamento
de informações, 33(6):305–308, 1990.
[119] John Haigh. O critério Kelly e comparações de apostas em apostas de spread. Journal of the Royal
Statistical Society: Série D (The Statistician), 49(4):531–539,
2000.
[120]Peter Hall. Sobre a taxa de convergência dos extremos normais. Jornal de Probabilidade Aplicada,
16(2):433–439, 1979.
[121] Mahmoud Hamada e Emiliano A Valdez. Capm e precificação de opções com distribuições de contorno
elíptico. Jornal de Risco e Seguros, 75(2):387–409, 2008.
[122] Godfrey Harold Hardy, John Edensor Littlewood e George Pólya. Desigualcidades. Imprensa da universidade de Cambridge, 1952.
[123] J Michael Harrison e David M Kreps. Martingales e arbitragem em mercados de valores mobiliários
multiperíodos. Journal of Economic Theory, 20(3):381–408, 1979.
[124] Trevor Hastie, Robert Tibshirani e Jerome Friedman. Os elementos da aprendizagem estatística:
mineração de dados, inferência e previsão, série springer em estatística, 2009.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Bibliografia 429
[125] Espen G. Haug. Derivados: Modelos em Modelos. Nova York: John Wiley & Sons,
2007.
[126] Espen Gaarder Haug e Nassim Nicholas Taleb. Os negociantes de opções usam heurísticas
(muito) sofisticadas, nunca a fórmula black-scholes-merton. Journal of Economic Behavior
& Organization, 77(2):97–106, 2011.
[127] Friedrich August Hayek. O uso do conhecimento na sociedade. A revisão econômica
americana, 35(4):519–530, 1945.
[128] John R. Hicks. Valor e capital, volume 2. Clarendon press Oxford, 1939.
[129] Leonard R. Higgins. O colocar e ligar. Londres: E. Wilson., 1902.
[130] Wassily Hoeffding. Desigualdades de probabilidade para somas de variáveis aleatórias
limitadas. Jornal da associação estatística americana, 58(301):13–30, 1963.
[131] PJ Huber. Estatísticas robustas. Wiley, Nova York, 1981.
[132] Sua Majestade James Hung, Robert T O'Neill, Peter Bauer e Karl Kohne. O comportamento
do valor p quando a hipótese alternativa é verdadeira. Biometria, páginas 11–22, 1997.
[133] Rob J Hyndman e Anne B Koehler. Outra análise das medidas de precisão das previsões.
Jornal internacional de previsão, 22(4):679–688, 2006.
[134] E.T. Jaynes. Como devemos usar a entropia na economia? 1991.
[135] Johan Ludwig William Valdemar Jensen. Sobre funções convexas e desigualdades entre
valores médios. Acta Matemática, 30(1):175–193, 1906.
[136] Hedegaard Anders Jessen e Thomas Mikosch. Funções que variam regularmente
ções. Publicações do Instituto de Matemática, 80(94):171–192, 2006.
[137] Petr Jizba, Hagen Kleinert e Mohammad Shefaat. Transferência de informações de Rényi
entre séries temporais financeiras. Physica A: Mecânica Estatística e suas Aplicações,
391(10):2971–2989, 2012.
[138] Valen E Johnson. Padrões revisados para evidências estatísticas. Anais da Academia
Nacional de Ciências, 110(48):19313–19317, 2013.
[139] Daniel Kahneman e Amos Tversky. Teoria do prospecto: uma análise de decisões
situação sob risco. Econometrica, 47(2):263–291, 1979.
[140] Joseph P Kairys Jr e Nicholas Valerius III. O mercado de ações
opções na década de 1870. The Journal of Finance, 52(4):1707–1723, 1997.
[141] Ioannis Karatzas e Steven E Shreve. Movimento browniano e cálculo estocástico
springer-verlag pesado. Nova York, 1991.
[142] John L. Kelly. Uma nova interpretação da taxa de informação. Teoria da Informação,
Transações IRE em, 2(3):185–189, 1956.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
430 Bibliografia
[143] Gideão Keren. Julgamentos de calibração e probabilidade: Conceitual e
questões metodológicas. Acta Psicológica, 77(3):217–273, 1991.
[144] Christian Kleiber e Samuel Kotz. Distribuições estatísticas de tamanho em economia
e ciências atuariais, volume 470. John Wiley & Sons, 2003.
[145] Andrei Nikolaevich Kolmogorov. Sobre os fundamentos lógicos da teoria das probabilidades. Dentro
Teoria da probabilidade e estatística matemática, páginas 1–5. Springer, 1983.
[146] Andrey Kolmogorov. Sobre a determinação empírica de uma lei de discontribuição. Inst. Ital. Actuari, Giorn., 4:83–91, 1933.
[147] Samuel Kotz e Norman Johnson. Enciclopédia de Ciências Estatísticas. Wiley,
2004.
[148] Kozlov VV, Madsen T e Sorokin AA. Médias ponderadas de variáveis aleatórias fracamente
dependentes. MATEMÁTICA DA UNIVERSIDADE DE MOSCOVO BUL-LATIN C/C DA
UNIVERSIDADE DE MATEMÁTICA WESTNIK-MOSCOVO,
59(5):36, 2004.
[149] Jean Laherrere e Didier Sornette. Distribuições exponenciais estendidas em
natureza e economia:“caudas gordas” com escamas características. The European Physical
Journal B-Condensed Matter and Complex Systems, 2(4):525–539, 1998.
[150]David Laibson. Ovos de ouro e descontos hiperbólicos. O Jornal Trimestral
final de Economia, 112(2):443–478, 1997.
[151] Deli Li, M Bhaskara Rao e RJ Tomkins. A lei do logaritmo iterado
e teorema do limite central para estatísticas l. Relatório técnico, PENSILVÂNIA
CENTRO DO PARQUE UNIVERSITÁRIO ESTADUAL UNIV PARA ANÁLISE MULTIVARIADA,
1997.
[152] Sarah Lichtenstein, Baruch Fischhoff e Lawrence D Phillips. Calibração
de probabilidades: O estado da arte. Em Tomada de decisão e mudança em humanos
assuntos, páginas 275–324. Springer, 1977.
[153] Sarah Lichtenstein, Paul Slovic, Baruch Fischhoff, Mark Layman e Barbara Combs. Frequência
julgada de eventos letais. Journal of experimental Psychology: Human learning and memory,
4(6):551, 1978.
[154] Michel Loève. Teoria da probabilidade. Fundações. Sequências aleatórias. Nova Iorque:
Companhia D. Van Nostrand, 1955.
[155] Philip Lundberg. I. Representação aproximada da função de probabilidade. II. Resseguro de riscos
coletivos. Tese acadêmica... de Filip Lundberg,... Almqvist
e Obras de Impressão de Wiksell, 1903.
[156] HL MacGillivray e Kevin P Balanda. Misturas, mitos e curtose. Communications in StatisticsSimulation and Computation, 17(3):789–802, 1988.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Bibliografia 431
[157] LC MacLean, William T Ziemba e George Blazenko. Crescimento versus segurança na
análise dinâmica de investimentos. Ciência de Gestão, 38(11):1562–1585,
1992.
[158] Dhruv Madeka. Previsão precisa dos resultados eleitorais. Pré-impressão arXiv
arXiv:1704.02664, 2017.
[159] Spyros Makridakis, Evangelos Spiliotis e Vassilios Assimakopoulos. A competição m4:
resultados, conclusões, conclusão e caminho a seguir. Jornal Internacional de Previsão,
34(4):802–808, 2018.
[160] Spyros Makridakis e Nassim Taleb. Tomada de decisão e planejamento sob
baixos níveis de previsibilidade, 2009.
[161] Benoit Mandelbrot. Uma nota sobre uma classe de funções de distribuição distorcida:
Análise e crítica de um artigo de ha simon. Informação e Controle, 2(1):90–99,
1959.
[162] Benoit Mandelbrot. A lei da taxa de pareto e a distribuição de renda. Revisão Econômica
Internacional, 1(2):79–106, 1960.
[163] Benoit Mandelbrot. A distribuição de renda paretiana estável quando o expoente aparente
está próximo de dois. Revisão Econômica Internacional, 4(1):111–115, 1963.
[164] Benoit B. Mandelbrot. Novos métodos em economia estatística. Em Fractals and Scaling in
Finance, páginas 79–104. Springer, 1997.
[165] Benoît B Mandelbrot e Nassim Nicholas Taleb. Salto aleatório, não aleatório
caminhada, 2010.
[166]Harry Markowitz. Seleção de portfólio*. O jornal de finanças, 7(1):77–91, 1952.
[167]Harry M Markowitz. Seleção de portfólio: diversificação eficiente de investimentos,
volume 16. Wiley, 1959.
[168] RARD Maronna, Douglas Martin e Victor Yohai. Estatísticas robustas. John
Wiley & Filhos, Chichester. ISBN, 2006.
[169] R. Mehera e EC Prescott. O prêmio de capital: um quebra-cabeça. Diário de
Economia Monetária, 15:145–161, 1985.
[170] Robert C. Merton. Uma derivação analítica da fronteira eficiente do portfólio.
Jornal de análise financeira e quantitativa, 7(4):1851–1872, 1972.
[171]Robert C. Merton. A relação entre preços de venda e de compra: Comentário. 28(1):183–
184, 1973.
[172]Robert C. Merton. Teoria da precificação racional de opções. 4:141–183, primavera de 1973.
[173]Robert C. Merton. Precificação de opções quando os retornos das ações subjacentes são descontados
tênue. 3:125–144, 1976.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
432 Bibliografia
[174] Robert C Merton e Paul Anthony Samuelson. Finanças em tempo contínuo.
1992.
[175] David C. Nachman. Extensão e integridade com opções. A revisão de estudos financeiros,
1(3):311–328, 1988.
[176] SA Nelson. O ABC das Opções e Arbitragem. A Biblioteca de Wall Street,
Nova York., 1904.
[177] SA Nelson. O ABC das Opções e Arbitragem. Nova York: Biblioteca de Wall Street., 1904.
[178] Hansjörg Neth e Gerd Gigerenzer. Heurísticas: Ferramentas para um mundo incerto.
Tendências emergentes nas ciências sociais e comportamentais: um recurso interdisciplinar,
pesquisável e vinculável, 2015.
[179] Donald J. Newman. Um seminário sobre problemas. Springer Ciência e Mídia de Negócios,
2012.
[180] Hong Nie e Shaohua Chen. Aproximação da soma lognormal com distribuição de Pearson tipo
iv. Cartas de Comunicações IEEE, 11(10), 2007.
[181] John P Nolan. Parametrizações e modos de distribuições estáveis. Estatisticas
& letras de probabilidade, 38(2):187–195, 1998.
[182] Bernt Oksendal. Equações diferenciais estocásticas: uma introdução com aplicações. Springer
Ciência e Mídia de Negócios, 2013.
[183] Joel Owen e Ramon Rabinovitch. Sobre a classe das distribuições elípticas e suas aplicações
à teoria da escolha de carteiras. The Journal of Finance, 38(3):745–752, 1983.
[184] T. Mikosch P. Embrechts, C. Kluppelberg. Modelagem de Eventos Extremos. Springer,
2003.
[185] Vilfredo Pareto. A curva de renda. Travaux de Sciences Sociales, páginas 299–345, 1896
(1964).
[186] O. Peters e M. Gell-Mann. Avaliando apostas usando dinâmica. Caos,
26(2), 2016.
[187] T Pham-Gia e TL Hung. A média e os desvios absolutos medianos. Modelagem Matemática
e Computacional, 34(7-8):921–936, 2001.
[188] George C Philippatos e Charles J Wilson. Entropia, risco de mercado e seleção de carteiras
eficientes. Economia Aplicada, 4(3):209–220, 1972.
[189] Charles Phillips e Alan Axelrod. Enciclopédia de Guerras:(Conjunto de 3 volumes). EmFobase Pub., 2004.
[190]James Pickands III. Inferência estatística usando estatísticas de ordem extrema. o
Anais de Estatística, páginas 119–131, 1975.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Bibliografia 433
[191] Thomas Piketty. Capital no século 21, 2014.
[192] Thomas Piketty e Emmanuel Saez. A evolução dos rendimentos de topo: uma perspectiva
histórica e internacional. Relatório técnico, National Bureau of Economic Research, 2006.
[193] Iosif Pinelis. Função característica da parte positiva de uma variável aleatória e resultados
relacionados, com aplicações. Cartas de Estatística e Probabilidade, 106:281–286, 2015.
[194]Steven Pinker. Os melhores anjos da nossa natureza: por que a violência diminuiu. CanetaGuin, 2011.
[195]Dan Pirjol. A integral logística-normal e suas generalizações. Jornal de Matemática Computacional
e Aplicada, 237(1):460–469, 2013.
[196] EJG Pitman. Funções de distribuição subexponencial. J. Austral. Matemática. Soc. Ser.
A, 29(3):337–347, 1980.
[197] Svetlozar T Rachev, Young Shin Kim, Michele L Bianchi e Frank J Fabozzi.
Modelos financeiros com processos Lévy e agrupamento de volatilidade, volume 187. John
Wiley & Sons, 2011.
[198] Anthony M. Reinach. A natureza das opções de venda e chamadas. Nova York: The Bookmailer,
1961.
[199] Lewis F Richardson. Frequência de ocorrência de guerras e outros quartéis fatais
rels. Natureza, 148(3759):598, 1941.
[200] Matthew Richardson e Tom Smith. Um teste direto da hipótese da mistura de distribuições:
Medindo o fluxo diário de informações. Jornal de Análise Financeira e Quantitativa, 29(01):101–
116, 1994.
[201] Christian Robert e George Casella. Métodos estatísticos de Monte Carlo. Springer
Mídia de ciência e negócios, 2013.
[202] Stephen A Ross. Separação de fundos mútuos na teoria financeira – as distribuições de
separação. Journal of Economic Theory, 17(2):254–286, 1978.
[203] Stephen A Ross. Finanças neoclássicas. Imprensa da Universidade de Princeton, 2009.
[204] Francesco Rubino, Antonello Forgione, David E Cummings, Michel Vix, Donatella Gnuli, Geltrude
Mingrone, Marco Castagneto e Jacques Marescaux. O mecanismo de controle do diabetes
após cirurgia de bypass gastrointestinal revela um papel do intestino delgado proximal na
fisiopatologia do diabetes tipo 2. Anais de cirurgia, 244(5):741–749, 2006.
[205] Mark Rubinstein. Rubinstein sobre derivativos. Livros de risco, 1999.
[206] Mark Rubinstein. Uma História da Teoria dos Investimentos. Nova York: John Wiley & Sons,
2006.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
434 Bibliografia
[207] Doriana Ruffino e Jonathan Treussard. 'As ilusões da replicação dinâmica' de Derman e Taleb: um
comentário. Finanças Quantitativas, 6(5):365–367, 2006.
[208] Harold Sackrowitz e Ester Samuel-Cahn. Valores de P como variáveis aleatórias – valores de p
esperados. O Estatístico Americano, 53(4):326–331, 1999.
[209] Gennady Samorodnitsky e Murad S Taqqu. Processos aleatórios não gaussianos estáveis:
modelos estocásticos com variância infinita, volume 1. CRC Press, 1994.
[210]D Schleher. Séries gram-charlier generalizadas com aplicação à soma de variáveis log-normais
(corresp.). Transações IEEE sobre Teoria da Informação, 23(2):275–280, 1977.
[211] Jun Shao. Estatística Matemática. Springer, 2003.
[212] Herbert A Simon. Em uma classe de funções de distribuição distorcida. Biometria,
42(3/4):425–440, 1955.
[213] SK Singh e GS Maddala. Uma função para distribuição de renda por tamanho: resposta.
Econometrica, 46(2), 1978.
[214] Didier Sornette. Fenômenos críticos em ciências naturais: caos, fractais, auto-organização e
desordem: conceitos e ferramentas. Springer, 2004.
[215] CM Polvilhar. Preços garantidos como indicadores de expectativas e preferências.
Ensaios de Economia de Yale, 1(2):178–231, 1961.
[216] CM Polvilhar. Preços garantidos como indicadores de expectativas e preferências: em P. Cootner,
ed., 1964, The Random Character of Stock Market Prices,. MIT Press, Cambridge, Massachusetts,
1964.
[217] AJ Stam. Variação regular da cauda de uma distribuição de probabilidade subordinada. Avanços
na Probabilidade Aplicada, páginas 308–327, 1973.
[218] Stephen M Stigler. Lei da eponímia de Stigler. Transações da Academia de Ciências de Nova
York, 39(1 Série II):147–157, 1980.
[219] Hans R Stoll. A relação entre os preços das opções de venda e de compra. The Journal of Finance,
24(5):801–824, 1969.
[220] Cass R Sunstein. Grupos deliberativos versus mercados de previsão (ou o desafio de Hayek a
Habermas). Episteme, 3(3):192–213, 2006.
[221] Giitiro Suzuki. Um estimador consistente para o desvio médio da distribuição do tipo Pearson.
Anais do Instituto de Matemática Estatística, 17(1):271–285, 1965.
[222] E. Schechtman S. Yitzhaki. A Metodologia Gini: Uma cartilha sobre uma metodologia estatística.
Springer, 2012.
[223] NN Taleb e R Douady. Definição matemática, mapeamento e detecção
de (anti)fragilidade. Finanças Quantitativas, 2013.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Bibliografia 435
[224] Nassim N Taleb e G Martin. A ilusão de caudas finas sob agregação
(uma resposta a Jack Treynor). Revista de Gestão de Investimentos, 2012.
[225] Nassim Nicholas Taleb. Hedge Dinâmico: Gerenciando Opções Vanilla e Exóticas. John Wiley
& Sons (Série Wiley em Engenharia Financeira), 1997.
[226] Nassim Nicholas Taleb. Incerto: Antifrágil, O Cisne Negro
, Enganado pelo
acaso, o leito de Procusto, pele em jogo. Random House e Pinguim,
2001-2018.
[227] Nassim Nicholas Taleb. Cisnes negros e os domínios da estatística. The American Statistician,
61(3):198–200, 2007.
[228] Nassim Nicholas Taleb. Erros, robustez e o quarto quadrante. International Journal of
Forecasting, 25(4):744–759, 2009.
[229] Nassim Nicholas Taleb. A finitude da variância é irrelevante na prática de
Finança quantitativa. Complexidade, 14(3):66–76, 2009.
[230] Nassim Nicholas Taleb. Antifrágil: coisas que ganham com a desordem. Aleatório
Casa e Pinguim, 2012.
[231] Nassim Nicholas Taleb. Quatro pontos que os gerentes de risco iniciantes devem aprender
dos erros de Jeff Holman na discussão do antifrágil. Pré-impressão arXiv
arXiv:1401.2524, 2014.
[232] Nassim Nicholas Taleb. A meta-distribuição dos valores p padrão. arXiv
pré-impressão arXiv:1603.07532, 2016.
[233] Nassim Nicholas Taleb. Expoente de cauda estocástica para leis de potência assimétricas.
Pré-impressão do arXiv arXiv:1609.02369, 2016.
[234] Nassim Nicholas Taleb. Previsões eleitorais como martingales: uma arbitragem
abordagem. Finanças Quantitativas, 18(1):1–5, 2018.
[235] Nassim Nicholas Taleb. De quantos dados você precisa? uma métrica operacional préassintótica para cauda gorda. Jornal Internacional de Previsão, 2018.
[236] Nassim Nicholas Taleb. Pele no jogo: assimetrias ocultas na vida cotidiana.
Penguin (Londres) e Random House (NY), 2018.
[237] Nassim Nicholas Taleb. Incerto Técnico, Vol 1: As Consequências Estatísticas de
Fat Tails, artigos e comentários. Monografia, 2019.
[238] Nassim Nicholas Taleb. Aplicações erradas e interpretações erradas comuns de
correlação na ciência social. Pré-impressão, Tandon School of Engineering, Nova York
Universidade, 2020.
[239] Nassim Nicholas Taleb. As consequências estatísticas das caudas gordas. STEM Academic
Press, 2020.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
436 Bibliografia
[240] Nassim Nicholas Taleb, Elie Canetti, Tidiane Kinda, Elena Loukoianova e Christian Schmieder. Uma
nova medida heurística de fragilidade e riscos de cauda: aplicação a testes de estresse. Fundo
Monetário Internacional, 2018.
[241] Nassim Nicholas Taleb e Pasquale Cirillo. Incerteza epistêmica ramificada
manchado e espessura das caudas. Pré-impressão do arXiv arXiv:1912.00277, 2019.
[242] Nassim Nicholas Taleb e Raphael Douady. Sobre os vieses de superaditividade e estimativa de
contribuições quantílicas. Physica A: Mecânica Estatística e suas Aplicações, 429:252–260, 2015.
[243] Nassim Nicholas Taleb e Daniel G Goldstein. O problema está além da psicologia: o mundo real é
mais aleatório do que as análises de regressão. International Journal of Forecasting, 28(3):715–
716, 2012.
[244] Nassim Nicholas Taleb e George A Martin. Como prevenir outras crises financeiras. Revisão SAIS
de Assuntos Internacionais, 32(1):49–60, 2012.
[245] Nassim Nicholas Taleb e Avital Pilpel. Os problemas epistemológicos da gestão de riscos. Daniele
Pace (ed.) "Economia do risco. Antologia de escritos sobre risco e decisão econômica", Giuffre,
Milão, 2004.
[246] Nassim Nicholas Taleb e Constantine Sandis. A heurística skin in the game para proteção contra
eventos de cauda. Revisão de Economia Comportamental, 1:1–21,
2014.
[247] NN Taleb e J Norman. Ética da precaução: Risco individual e sistêmico,
2020.
[248] Jozef L Teugels. A classe de distribuições subexponenciais. Os Anais da Probabilidade, 3(6):1000–
1011, 1975.
[249] Eduardo Thorp. Uma derivação corrigida do modelo de opções black-scholes.
Baseado em uma conversa privada com Edward Thorp e em uma cópia de um artigo de 7 páginas
que Thorp escreveu por volta de 1973, com a ressalva de que entendi Ed. Thorp corretamente.,
1973.
[250] Edward O. Thorp. Sistemas de jogo ideais para jogos favoráveis. Jornal do Instituto Internacional de
Estatística, páginas 273–293, 1969.
[251] Edward O. Thorp. Extensões do modelo de opção black-scholes. Anais da 39ª Sessão do Instituto
Internacional de Estatística, Viena, Áustria, páginas 522–29, 1973.
[252] Edward O. Thorp. Compreendendo o critério de Kelly. The Kelly Capital Growth Investment Criterion:
Theory and Practice', World Scientific Press, Singapura, 2010.
[253] Edward O. Thorp e ST Kassouf. Vença o mercado. Nova York: Aleatório
Casa, 1967.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Bibliografia 437
[254]James Tobin. Preferência pela liquidez como comportamento face ao risco. A revisão dos
estudos econômicos, páginas 65–86, 1958.
[255] Jack L. Treynor. Insights – o que Taleb pode aprender com Markowitz? Jornal de Gestão
de Investimentos, 9(4):5, 2011.
[256] Constantino Tsallis, Celia Anteneodo, Lisa Borland e Robert Osorio.
Mecânica estatística e economia não extensiva. Physica A: Mecânica Estatística e suas
Aplicações, 324(1):89–100, 2003.
[257] Vladimir V Uchaikin e Vladimir M Zolotarev. Chance e estabilidade: distribuições estáveis e
suas aplicações. Walter de Gruyter, 1999.
[258] Aad W Van Der Vaart e Jon A Wellner. Convergência fraca. Em Convergência fraca e
processos empíricos, páginas 16–28. Springer, 1996.
[259] Willem Rutger van Zwet. Transformações convexas de variáveis aleatórias, volume 7.
Centro de Matemática, 1964.
[260]SR Srinivasa Varadhan. Grandes desvios e aplicações, volume 46. SIAM,
1984.
[261]SR Srinivasa Varadhan. Processos estocásticos, volume 16. American Mathematical Soc.,
2007.
[262] José A Villaseñor-Alva e Elizabeth González-Estrada. Um teste de qualidade de ajuste de
bootstrap para a distribuição de Pareto generalizada. Estatística Computacional e Análise
de Dados, 53(11):3835–3841, 2009.
[263] Érico Weisstein. Wolfram MathWorld. Wolfram Research www.wolfram.com,
2017.
[264] Rafael Weron. Distribuições estáveis de impostos revisitadas: índice de cauda> 2 não
exclui o regime de impostos estáveis. Jornal Internacional de Física Moderna C, 12(02):209–
223, 2001.
[265] Heath Windcliff e Phelim P Boyle. O quebra-cabeça do investimento previdenciário 1/n.
Jornal Atuarial Norte-Americano, 8(3):32–45, 2004.
[266] Yingying Xu, Zhuwu Wu, Long Jiang e Xuefeng Song. Um método de entropia máxima para
um problema de portfólio robusto. Entropy, 16(6):3401–3415,
2014.
[267] Yingying Yang, Shuhe Hu e Tao Wu. A probabilidade final do produto de variáveis aleatórias
dependentes de domínios máximos de atração. Cartas de Estatística e Probabilidade,
81(12):1876–1882, 2011.
[268] Jay L. Zagorsky. Você tem que ser inteligente para ser rico? o impacto do QI na riqueza,
na renda e nas dificuldades financeiras. Inteligência, 35(5):489–501, 2007.
[269] IV Zaliapin, Yan Y Kagan e Federic P Schoenberg. Aproximando a distribuição das somas
de Pareto. Geofísica Pura e Aplicada, 162(6-7):1187–1228,
2005.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
438 Bibliografia
[270] Rongxi Zhou, Ru Cai e Guanqun Tong.Aplicações da entropia em finanças:
Uma revisão. Entropia, 15(11):4909–4931, 2013.
[271] Vladimir M. Zolotarev. Distribuições estáveis unidimensionais, volume 65. American
Mathematical Soc., 1986.
[272] V. M. Zolotarev. Sobre um novo ponto de vista dos teoremas limites levando em conta
grandes desviosr. Traduções selecionadas em Estatística Matemática e Probabilidade,
9:153, 1971.
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
ÍNDICE
ÿ métrica, 146
De Finetti, 243
Distribuição degenerada, 26, 42, 89,
Antifragilidade, 93, 399
Impressão ruim (outlier falso), 33
Regra de Bayes, 55
122, 131
Dose-resposta (curva S), 59
Cobertura dinâmica, 18
Métodos Bayesianos, 57
Beta (finanças), 31
Bimodalidade, 122
Cisne Negro, 15, 23, 43, 52, 59, 73, 91, 204, 221,
Econometria, 50, 52, 199, 203, 204
Autovalores, 105, 114, 124
Distribuição elíptica (Elipticalidade), 9, 25, 110
306, 323
Problema do Cisne Negro, 42, 45
Black-Scholes, 367, 376, 387, 402
Inicialização, 313
Pontuação de Brier, 235, 240, 245
Distribuição empírica, 33, 208
Entropia, 112, 407
Probabilidades ergódicas, 123
Ergodicidade, 37, 40, 62
Calibração especializada, 213
Princípio da catástrofe, 25
Distribuição de valor extremo, 162, 163
Teorema do limite central (CLT), 8, 29, 129, 151,
Teoria dos valores extremos, 37, 49, 145, 161, 253,
155, 188, 304, 323, 386
Função característica, 67, 69, 77, 78,
287, 288, 293, 297, 307,
319
109, 121, 130, 131, 133, 135 , 141,
149, 155 , 183, 256, 339, 416
Classe Fréchet, 161, 288, 311
Fragilidade, 59
Escala característica, 50, 93, 218
Fughedabaudit, 26
Desigualdade de Chebyshev, 128
Chernoff com destino, 177
Variância gama, 69
Anel de citação, 11, 304
Modelos econométricos GARCH, 2, 51, 185, 203
Suporte compacto, 27
Concavidade/Convexidade, 58, 59, 72, 74,
93
Convolução, 141
Pandemia de COVID-19, 49, 50, 100, 173
Condição de Cramer, 28, 40
CVaR, Valor Condicional em Risco, 13, 171, 221,
283, 335, 337, 406,
407
Teorema de Gauss-Markov, 33
Teorema do limite central generalizado (GCLT), 28, 129,
256, 269
Distribuição generalizada de valores extremos
ção, 163
Distribuição generalizada de Pareto, 167
Distribuição generalizada de Pareto (GPD),
313
439
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Índice 440
Coeficiente de Gini, 36
Mandelbrot, Benoit, 7, 55, 84, 145, 156, 190, 271,
284, 297, 323, 386,
Cisnes Cinzentos, 16, 95
392
Heterocedasticidade, 66, 101
Distribuição de Marchenko-Pastur, 35, 154
Propriedades ocultas, 31
Desigualdade de Markov, 178
Cauda escondida, 17
Martingale, 237, 238, 243
Dimensões mais altas (cauda grossa), 106, 110
Domínio máximo de atração, 14, 161, 162, 311
Transformada de Hilbert, 141
absoluto, 74–76, 141, 146, 148, 301, 325 Média-
Desvio médio
Desigualdade de Hoeffding, 179
teoria do portfólio de
variância, 23, 32, 110, 153, 185, 364 , 378, 405 ,
Independência, 9, 112
406, 409 Mediocristão vs.
Inseparabilidade da probabilidade, 230
Extremistão,
Invisibilidade do gerador, 42
QI, 118
10, 21, 22, 43, 47, 63, 89, 90 Transformada de
Mellin, 71 Metadistribuição,
Lema de Itô, 241-243, 365, 387
55 , 347 Método dos
momentos, 35 Teoria Moderna
Desigualdade de Jensen, 65-67, 76, 80, 196,
224, 230, 355, 400
do Portfólio (Markowitz), 152,
153, 187, 407, 408 Gráfico MS, 14, 139, 187, 193
Pedidos de subsídio de desemprego (salto na variável), 99
Métrica Kappa, 8, 143
Ponto Karamata, 10, 391
Distribuição estável
multivariada, 10, 112 Informação
mútua, 112 Aversão à perda míope, 356, 357
Teorema de Representação Karamata, 338
Curtose, 2, 68, 121, 136, 144, 148 , 152, 159 ,
187 , 192 , 399, 400
Constantes de normatização, 162
Princípio do grande desvio, 177
Normas L p , 141
Teoria do grande desvio, 36
Dinheiro, 402
Lei dos grandes números (LLN), 8, 26,
357
Lei dos grandes números (fraco vs. forte),
127
Lei dos grandes números para momentos
superiores, 14, 139, 188, 193
Lei dos números médios, 8, 127, 142,
143
Pandemias, 12, 48, 282
Paretian, Paretianidade, 6, 93, 111, 130, 135 ,
181 , 254, 260, 262, 264, 288, 293,
300, 305, 338
Pareto, Vilfredo, 271
Pico acima do limite, 307
Peso problemático, 203
Levy, Paulo, 129
Problema de peso (confusão), 204
Efeito Lindy, 92
Teorema de Picklands-Balkema-de Haan,
Regressão linear sob caudas gordas, 116
166
Família em escala de localização, 66, 262
Inferência pseudoestatística de Pinker, 34
Distribuição Log-Pareto, 99, 100
Saltos de Poisson, 204
Gestão de Capital de Longo Prazo (LTCM), 55
Popper, Karl, 44
Lei de potência, 7, 36, 65, 82 , 89, 93, 108 , 136,
Lucrécio (falácia), 91, 170
Falácia de Lucrécio, 161
143, 145 , 147–149, 151, 181, 182 ,
187 , 193, 271 , 273 , 288 , 297,
299, 300, 302 , 329, 336, 338, 415,
Aprendizado de Máquina, 207
416
Licenciado
para Rodrigo
Machine Translated
by Google Policena Bocatto - rodrigobocatto.1984@gmail.com - 318.864
Índice 441
329, 335, 336, 339, 341, 343, 411
Bacia da lei de potência, 136
Pré-sintóticos, 8, 12
Análise de componentes principais, 35
O rabo abana o efeito cachorro, 23
Lei da pseudopotência, 336
Probabilidade de transição, 123
Pseudo-empirismo, 12
Pseudo-empirismo (inferência pseudo-estatística),
Teorema da aproximação universal, 207
12, 35, 47-49
Pseudoconvergência, 83
Valor em Risco (VaR), 2, 13, 203, 221, 405, 406,
410 existia a lei
Psicometria, 118
de Wijk, 191
R-quadrado, 33, 117
Derivado de Radon-Nikodym, 168
Matrizes aleatórias, 113, 114, 154
Classe de variação regular, 95
Busca de aluguel, 12, 185
Resíduos (regressão), 117
Paridade de Risco, 110
Estatísticas robustas, 32
Ruína, 37
Média de sombra, 31, 290
Momento sombra, 17
Razão de Sharpe (coeficiente de variação),
2, 31
Sigmóide, 208
Pele no jogo, 13, 64, 204, 205, 232, 247, 376
Função de variação lenta, 7, 50, 94, 149, 181, 182,
273, 288, 300, 336,
339, 340, 392, 394
SP500, 50, 159, 185, 197, 395, 396
Distribuição estável (estável de Lévy), 10, 110,
129, 189
Processo estocástico, 241–243, 365, 387
Volatilidade estocástica, 68, 71, 75, 84, 101, 102,
136, 152, 185, 187, 188 , 336, 387,
400
Estocástica (de variância), 67
Estocástica, 13, 119
Lei de Pareto forte, 391
Classe subexponencial, 10
Subexponencialidade, 10
Dependência da cauda, 17
Expoente da cauda, 26, 34, 57, 73, 82, 95, 96,
111, 144, 145, 150, 151, 193 , 253,
281, 284, 300, 304,
Violência (ilusão de entrada), 35, 283,
317
von Neumann, João, 55
Distribuição em semicírculo de Wigner, 113, 114
Winsorizando, 32
O governante de Wittgenstein, 15, 55, 197
Download