#1 - Théorème Central Limite et Estimation de Monte Carlo
###1.1 Simulation de 1000 échantillon i.i.d Gaussien
gen_echan_law(function(n){return (rnorm(n,m=1,s=2))})
Soit \(S_{n}=\sum\limits_{i=1}^{n}X_{i}\) tq : \(X_{i}\) i.i.d en loi de moyenne \(\mu\) et variance \(\sigma^{2}\).
D’après le théorème centrale limite, comme \(N\) est assez grand, on en déduit que \(S_{n}\) peut être approchée une loi normal \(\mathcal{N}(n\mu,n\sigma^{2})\).
On pose : \({X_{n}} = \frac{S_{n}}{n}\) Ainsi, pour la moyenne : \(\mathbb{E}[ X_{n}]=\mathbb{E}[\frac{S_{n}}{n}]=\frac{1}{n}\mathbb{E}[S_{n}]=\frac{1}{n}\sum\limits_{i=0}^{n}\mathbb{E}[X_{i}]=\mathbb{E}[X_{i}]\) De même pour la variance : \(\mathbb{V}[{ X_{n}}]=\mathbb{V}[\frac{S_{n}}{n}]=\frac{1}{n^{2}}\mathbb{V}[S_{n}]=\frac{1}{n^{2}}\sum\limits_{i=0}^{n}\mathbb{V}[X_{i}]=\frac{1}{n}\mathbb{V}[X_{i}]\)
Dans le cas de la question 1. on a : \(\mathcal{N}(1,2)\) On note, avec les notations de l’énoncé, \((a_{n},b_{n})=(\mathbb{E}[X_i],\sqrt{\frac{1}{n}\mathbb{V}[Xi]})=(\mu,\sqrt\frac{\sigma^{2}}{n})\) Ce qui donne pour le cas présent : \((1,\frac{2}{\sqrt{n}})\)
Ainsi, on en déduit que \(U_{n}=\frac{{X_{n}} - a_{n}}{b_{n}}\) suit une loi normale centrée réduite \(\mathcal{N}(0,1)\).
mean_norm_hist(function(n) { return (rnorm(n, mean=1, sd=2)) }, "Distribution centrée réduite Gaussienne N(1, 2)")
###1.2 Loi de Pareto
Soit \(X\) une variable aléatoire suivant une loi de Pareto \(\mathcal{P}(a, \alpha)\),où \(\alpha > 2\). Alors, \(\mathbb{E}[X]=\frac{\alpha \times a}{\alpha - 1}\) et \(\mathbb{V}[X]=(\frac{\alpha \times a}{\alpha - 1})^2\frac{\alpha}{\alpha - 2}\)
En effet, on sait que \(\mathbb{E}[X]=\int_0^\infty\mathbb{P}(X>t)\), donc \(\mathbb{E}[X]=\int_0^\infty(\int_t^\infty f(x;a,\alpha)dx)dt=\int_0^\alpha(\int_a^\infty\lambda\frac{a^\alpha}{x^{\alpha+1}}dx)dt +\int_a^\infty(\int_t^\infty\alpha\frac{a^\alpha}{x^{\alpha+1}}dx)dt=a+[\frac{a^\alpha}{-\alpha+1}t^{-\alpha+1}]^\infty_a=\frac{a\times\alpha}{\alpha-1}\) On cherche encore une fois à appliquer le théorème centrale limite afin de mettre en avant que la loi de pareto peut-être approchée par un loi normale centrée réduite : On a déja une expression de l’espérance : \(\mathbb{E}[X_{i}]=\frac{\alpha\times a}{\alpha - 1}=a_{n}\) Pour l’expression de \(b_n\), on a : \[b_{n}=\frac{\sigma}{\sqrt{n}}=\frac{\sqrt{\mathbb{V}[X_{i}]}}{\sqrt{n}}=\frac{\frac{\alpha\times a}{\alpha - 1}\frac{(\alpha)^{1/2}}{(\alpha - 2)^{1/2}}}{\sqrt{n}} \]
gen_echan_law_pareto(function(n) {return(rpareto(n,1,3))})
gen_echan_law_norm_pareto(function(n) {return(rpareto(n,1,3))},1,3)
###1.3 Loi de Poisson
Soit X une variable aléatoire suivant une loi de Poisson qu’on notera \(\mathcal{P}(\lambda)\). Alors, \(\mathbb{E}[X]=\lambda\) et \(\mathbb{V}[X]=\lambda\) On cherche de nouveau à impliquer le théorème centrale limite : On a alors rapidement : \(a_n=\lambda\) et \(b_n=\sqrt{\frac{\lambda}{n}}\)
Comme pour les questions précédentes, on remarque que plus n est grand, plus la loi moyenne empirique normalisé semble suivre une loi N(0, 1).
mean_hist(function(n) { return (rpois(n, lambda=3)) }, "Distribution suivant une loi de Poisson P(3)")
mean_norm_hist_poisson(function(n) { return (rpois(n, lambda=3)) }, "Distribution centrée réduite d'une loi de Poisson P(3)")
###1.4 Méthodologie d’estimation
Soit \(X=(X_1, ..., X_n)\), où \(n \in \mathbb{R}\), un échantillon. De plus, on suppose que tous les \(X_{i}\) son i.i.d de même loi.
Soit \(T : \Omega^n \rightarrow \mathbb{R}\) statistique sur un echantillon de taille n.
Pour trouver une approximation, on fait : 1. Soit \(N\in\mathbb{N}\) tq \(N\gg1\) et soit N échantillons de taille n, notés \(X^i = (X^i_1, ..., X^i_n)\) tel que \(1\leq i\leq N\) On introduit :\(T_{N} = \frac{1}{N}\sum\limits_{i=1}^{N}{T(X^{i})}\)
D’après le théorème centrale limite, on en déduit que lorsque N devient grand alors: D’une part, on a : \(\mathbb{E}[ T_N] \xrightarrow[N \gg 1]{}\mathbb{E}[T(X)]\) et, d’autre part, on a aussi : \(\mathbb{V}[T_N] \xrightarrow[N\gg 1]{} \frac{1}{N}\mathbb{V}[T(X)] \xrightarrow[N\rightarrow +\infty]{}0\) Avec ce qui précéde, on a finalement \(T_n{\xrightarrow[N \rightarrow +\infty]{\mathbb {L}^{2}} \mathbb{E}[T(X)] = c^{te}}\).
N influence a qualité de l’approximation dans le sens où, comme observé dans les précédentes question, plus il est grand plus celle-ci est de bonne qualité.
#2. Moyenne et dispersion
###2.1 Inégalité de Tchebytchev
On considère une variable aléatoire X qui admet un moment d’ordre 2. On a alors l’inégalité bien connu : \[\forall \delta > 0, \mathbb{P}(|X-\mathbb{E}[X]|\geq\delta)<\frac{\mathbb{V}[X]}{\delta^{2}}\]
Dans le cas d’une loi Gaussienne, on a alors : \(\forall \delta > 0, \mathbb{P}(|X-\mu|\geq \delta)<\frac{\sigma^{2}}{\delta^{2}}\) Dans le cas d’une loi de Poisson, c’est : \(\forall \delta >0, \mathbb{P}(|X-\lambda|\geq \delta)<\frac{\lambda}{\delta^{2}}\)
###2.2 Monte-Carlo ####2.2.1 On a immédiatement que \(\mathbb{P}(|X-\mu|\geq\delta)=\mathbb{E}[1_{|X-\mu|\geq\delta}]\) On pose alors \(Z=1_{|X-\mu|\geq\delta}\)
####2.2.2
Par hypothèse N est supposé grand, on peut alors en réutilisant les conclusion de la partie 1, estimer \(\mathbb{E}[Z]\) par la moyenne empirique : \(Z_{n}= \frac{1}{n}\sum\limits_{i=1}^{n}T(Z^{i})\)
On obtient alors en appliquant aux différentes lois :
Gauss | Pareto | Poisson |
---|---|---|
0.3220322 | 0.5788579 | 0.7717772 |
On considère la moyenne empirique comme une variable aléatoire. Or : \(\mathbb{E}[Z_N]=\mathbb{E}[Z]\) et \(\mathbb{V}[Z_N]=\frac{1}{N}\mathbb{V}[Z]\) On injecte dans l’inégalité de Tchebytchev pour finalement obtenir avec la précision : \(\mathbb{P}(|X-\mu|\geq\delta)=\mathbb{E}[Z]\simeq \mathbb{E}[Z_N]\), \[\forall\delta>0, \mathbb{P}(|Z_N-\mathbb{E}[Z]|\geq\delta)\leq\frac{1}{\delta\times N}\mathbb{V}[Z]\]
Soit \(\delta=1\times 10^{-4}\)
En fonction des loi de X précèdentes, notre estimation de \(Z_N \simeq \mathbb{E}[Z]\) vérifie: \(\mathbb{P}[|Z_N -\mathbb{E}[Z]|\geq\delta] = \mathbb{P}(Z_N\notin [\mathbb{E}[Z] - \delta , \mathbb{E}[Z] + \delta])\)Loi |
---|
Gauss : 0.218337833783378 |
Pareto : 0.243814941494149 |
Poisson : 0.176196729672967 |
Pour plusieurs valeurs de \(\delta\) et \(\sigma\):
d.0.0001_s.1 | d.0.01_s.1 | d.1_s.1 | d.0.0001_s.10 | d.0.01_s.10 | d.1_s.10 | d.0.0001_s.100 | d.0.01_s.100 | d.1_s.100 | |
---|---|---|---|---|---|---|---|---|---|
Gauss | 0.0000000 | 0.0000587 | 2.16e-05 | 0.0000000 | 0.0000100 | 7.40e-06 | 0.0000000 | 0.000001 | 8.00e-07 |
Pareto | 0.0000000 | 0.0000259 | 2.19e-05 | 0.0000000 | 0.0000180 | 2.19e-05 | 0.0000000 | 0.000022 | 2.18e-05 |
Poisson | 0.2306186 | 0.0023323 | 2.31e-05 | 0.2327573 | 0.0023323 | 2.30e-05 | 0.2328098 | 0.002332 | 2.34e-05 |
On remarque que, plus \(\delta\) est négligeable devant 1, plus la précision diminue et plus \(\sigma\) est grand devant \(\delta\), plus la précision sera incertaine.
####2.2.4 Inégalité de Chernoff
Soit X une variable aléatoire admettant une fonction génératrice. L’inégalité de Chernoff donne: \(\forall \delta \in \mathbb{R}, \forall t\in \mathbb{R}^*_+\) tq \(\phi(t)=\mathbb E[e^{tX}]<+\infty,\) \(\mathbb{P}(X\geq \delta) \leq e^{t\delta} \mathbb{E}[e^{tX]}]\) et, \(\mathbb{P}(X \leq -\delta) \leq e^{-t\delta} \mathbb{E}[e^{tX}]\) Donc, Pour une variable Gaussienne : \(\mathbb{P}(X \geq \delta) \leq e^{\frac{-\delta^2}{2\sigma^2}}\) Pour une variable de Poisson : \(\mathbb{P}(X \geq \delta) \leq e^{\frac{-\delta^2}{2\lambda}}\)
d.0.0001_s.1 | d.0.01_s.1 | d.1_s.1 | d.0.0001_s.10 | d.0.01_s.10 | d.1_s.10 | d.0.0001_s.100 | d.0.01_s.100 | d.1_s.100 | |
---|---|---|---|---|---|---|---|---|---|
Gauss | 1 | 0.99995 | 0.6065307 | 1 | 0.9999995 | 0.9950125 | 1 | 1.0000000 | 0.9999500 |
Poisson | 1 | 0.99995 | 0.6065307 | 1 | 0.9999950 | 0.9512294 | 1 | 0.9999995 | 0.9950125 |
####2.3.1 On a l’inégalité de Chernoff : \(\mathbb{P}(Xn>t)\leq\exp(-\frac{n\delta^2}{2\sigma^2})\) On obtient plusieurs valeurs pour \(\delta=(0.0001,0.01,1)\):
## [1] "Pour n=20: 4.53999297624849e-05"
## [1] "Pour n=20: 1.92874984796392e-22"
## [1] "Pour n=20: 7.12457640674129e-218"
####2.3.2
On déduit que la moyenne empirique est un estimateur pour \(\mu\) et \(\lambda\).
####2.4.1
X20 | X100 | X1000 | X10000 | |
---|---|---|---|---|
moyenne empirique | -0.5967884 | -0.1545888 | -0.7319641 | -0.131172 |
La moyenne empirique donne des valeurs très différentes selon ‘n’, et ne semble pas converger.
####2.4.2 Une variable aléatoire \(X\) suivant une loi de Cauchy \(C(\theta)\) n’admet pas d’espérance: \(f_X(x, \theta) = \frac{1}{\pi}\frac{1}{1 + (x - \theta)^2}\), et quand \(x \rightarrow +\infty\), \(xf_X(x, \theta) \sim \frac{1}{x}\), donc: \(\mathbb{E}[X] = \int_{-\infty}^{+\infty}|xf_X(x, \theta)|dx\) diverge. Donc le théorème central limite ne s’applique pas: il n’y a pas d’espérance, donc la moyenne empirique ne converge pas. Ceci s’explique par le fait que la probabilité d’obtenir une valeur éloigné de \(\theta\) (la médiane) est trop elévé pour que la moyenne converge.
####2.4.3 La médiane d’une loi de Cauchy \(C(\theta)\) est \(\theta\). Si l’on sait qu’un phénomène suit une loi de Cauchy, il est possible de déterminer son paramètre \(\theta\) en suivant ce protocole: 1. Fixer \(n \in \mathbb{N}, n \gg 1\). 2. Générer un échantillon de taille \(n\). 3. Trier les valeurs de cette échantillon par ordre croissant. (ou décroissant) 4. La valeur au centre de l’échantillon trié (en \(\frac{n}{2}\) ) est un estimateur de \(\theta\). Application: On fait varier \(\theta\) dans {-1,0,1}.X20 | X100 | X1000 | X10000 | X20.1 | X100.1 | |
---|---|---|---|---|---|---|
médiane | -0.7173642 | -0.7351218 | -1.026091 | -1.029137 | 0.1303069 | 0.0849859 |
X1000 | X10000 | X20 | X100 | X1000.1 | X10000.1 | |
---|---|---|---|---|---|---|
médiane | -0.0759155 | 0.0038092 | 1.489666 | 1.065962 | 1.050527 | 0.9847867 |
Les valeurs obtenus par la simulation sont en accord avec celle attendu par notre protocole.