Normalverteilung

Normal_density.png
Die Normal- oder Gaußverteilung (nach Carl Friedrich Gauß) ist ein wichtiger Typ kontinuierlicher Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichte wird auch Gauß-Funktion, Gauß-Kurve, Gauß-Glocke oder Glockenkurve genannt.
Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, der besagt, dass eine Summe von n n unabhängigen, identisch verteilten Zufallsvariablen im Grenzwert nn\rightarrow\infty normalverteilt ist. Das bedeutet, dass man Zufallsvariablen dann als normalverteilt ansehen kann, wenn sie durch Überlagerung einer großen Zahl von Einflüssen entstehen, wobei jede einzelne Einflussgröße einen im Verhältnis zur Gesamtsumme unbedeutenden Beitrag liefert.
Viele natur-, wirtschafts- und ingenieurswissenschaftliche Vorgänge lassen sich durch die Normalverteilung entweder exakt oder wenigstens in sehr guter Näherung beschreiben (vor allem Prozesse, die in mehreren Faktoren unabhängig voneinander in verschiedene Richtungen wirken).
Zufallsgrößen mit Normalverteilung benutzt man zur Beschreibung zufälliger Versuche bei der Bestimmung von Geschwindigkeiten, Messfehlern, Beobachtungsfehlern wie:
  • zufällige Beobachtungs- und Messfehler.
  • zufällige Abweichungen vom Nennmaß bei der Fertigung von Werkstücken.
  • Beschreibung der Brownschen Molekularbewegung.
In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen.

Definition

Eine stetige Zufallsvariable XX mit der Wahrscheinlichkeitsdichte f:RR, xf(x)f:\R\to\R,\ x\mapsto f(x)
f(x)=1σ2πexp(12(xμσ)2)f(x) = \dfrac {1}{\sigma\sqrt{2\pi}}\exp\braceNT{-\dfrac {1}{2} \braceNT{\dfrac{x-\mu}{\sigma}}^2}
heißt μ\mu-σ\sigma-normalverteilt, auch geschrieben als XN(μ,σ2)X \sim \mathcal N(\mu, \sigma^2) oder (μ,σ2)(\mu,\sigma^2)-normalverteilt, wobei μ\mu der Erwartungswert und σ\sigma die Standardabweichung sind.
Die Verteilungsfunktion der Normalverteilung ist gegeben durch
F(x)=1σ2πxexp(12(tμσ)2)dtF(x) = \dfrac {1}{\sigma \sqrt{2\pi}} \int\limits_{-\infty}^x \exp\braceNT{-\dfrac {1}{2} \braceNT{\dfrac{t-\mu}{\sigma}}^2} \mathrm{d}t.
φ0;1(x)=12πe12x2 \varphi_{0;1}(x)=\dfrac {1}{\sqrt{2\pi}} \cdot e^{-\dfrac {1}{2} x^2}
Normalverteilung_deutsch.png
So sieht die Dichtefunktion einer Standardnormalverteilung aus. Angegeben sind die Intervalle im Abstand 1, 2 und 3 Standardabweichungen vom Erwartungswert 0, die rund 68%, 95,5% und 99,7% der Fläche unter der Glockenkurve umfassen. Die gleichen Prozentsätze gelten für alle Normalverteilungen in Bezug auf die entsprechenden Erwartungswerte und Standardabweichungen.
Die Normalverteilung ist eine Grenzverteilung, die nicht direkt beobachtet werden kann. Die Annäherung verläuft aber mit wachsendem n sehr schnell, so dass schon die Verteilung einer Summe von 30 oder 40 unabhängigen, identisch verteilten Zufallsgrößen einer Normalverteilung recht ähnlich ist.
Die Glockenkurve schmückte, neben dem Portrait von Carl Friedrich Gauß platziert, von 1989 bis 2001 die 10-DM-Banknote der Bundesrepublik Deutschland.

Eigenschaften

Symmetrie

Der Graph der Wahrscheinlichkeitsdichte f:RR f:\R\to\R ist eine Gauß'sche Glockenkurve, welche symmetrisch zum Wert von μ \mu ist und deren Höhe und Breite von σ \sigma abhängt. Mathematisch ausgedrückt wird diese Symmetrie durch
f(μx)=f(μ+x)f(\mu -x) = f(\mu + x)
und
F(μx)=1F(μ+x)F(\mu -x) = 1 - F(\mu + x).

Maximalwert und Wendepunkte der Dichtefunktion

Mit Hilfe der ersten und zweiten Ableitung lassen sich der Maximalwert und die Wendepunkte bestimmen.
df(x)dx=xμσ2f(x)\dfrac{\operatorname{d}f(x)}{\operatorname{d}x}= -\dfrac{x-\mu}{\sigma^2} f(x)
Das Maximum der Dichtefunktion der Normalverteilung liegt demnach bei xmax=μx_{max} = \mu und beträgt dort fmax=12πσf_{max} = \dfrac{1}{\sqrt{2\pi}\sigma}.
d2f(x)dx2=1σ2(1σ2(xμ)21)f(x)\dfrac{\operatorname{d}^2 f(x)}{\operatorname{d}x^2}= \dfrac 1{\sigma^2}\braceNT{\dfrac 1{\sigma^2}(x-\mu)^2-1} f(x)
Somit liegen die Wendepunkte der Dichtefunktion bei x=μ±σx=\mu\pm\sigma.

Normierung

Wichtig ist, dass die gesamte Fläche unter der Kurve gleich 1 ist, also der Wahrscheinlichkeit eines sicheren Ereignisses entspricht. Somit folgt, dass wenn zwei Gauß'sche Glockenkurven dasselbe μ \mu , aber unterschiedliche σ\sigma-Werte haben, jene Kurve mit dem größeren σ \sigma breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert von 1 haben und nur die Standardabweichung (oder " Streuung") höher ist). Zwei Glockenkurven mit dem gleichen σ \sigma , aber unterschiedlichen μ \mu haben gleich aussehende Graphen, die jedoch auf der x-Achse um die Differenz der μ \mu -Werte zueinander verschoben sind.
Da sich das Integral der Wahrscheinlichkeitsdichtefunktion nicht auf eine elementare Stammfunktion zurückführen lässt, wurde für die Berechnung früher meist auf Tabellen zurückgegriffen; heutzutage sind entsprechende Zellenfunktionen in üblichen Tabellenkalkulationsprogrammen stets verfügbar. Tabellen wie Zellenfunktionen gelten aber in der Regel nicht für beliebige μ \mu - und σ \sigma -Werte, sondern nur für die Standardnormalverteilung, bei der μ=0 \mu=0 und σ=1 \sigma=1 ist (man spricht auch von einer 0-1-Normalverteilung oder normierten Normalverteilung).
Die Tabellen sind also für die Wahrscheinlichkeitsfunktion Φ \Phi (auch Gauß'sches Fehlerintegral genannt) mit
Φ(z)=12πze12t2dt\Phi(z)=\dfrac 1{\sqrt{2\pi}} \cdot \int\limits_{-\infty}^z e^{-\dfrac 12 t^2} \mathrm{d}t
ausgelegt. Analog dazu wird die zugehörige normierte Wahrscheinlichkeitsdichtefunktion f f mit φ \phi bezeichnet.
Ist nun eine beliebige μ \mu -σ \sigma -Verteilung gegeben, so muss diese nur in eine Standardnormalverteilung transformiert werden.

Erwartungswert

Die Normalverteilung besitzt den Erwartungswert
E(X)=1σ2π+xexp((xμ)22σ2)dx=μ \operatorname{E}(X) =\dfrac{1}{\sigma\sqrt{2\pi}}\int\limits\limits_{-\infty}^{+\infty}x \exp\braceNT{-\dfrac{(x-\mu)^2}{2\sigma^2}}\operatorname{d}x = \mu.

Varianz und Standardabweichung

Die Varianz ergibt sich analog zu
Var(X)=1σ2π+(xμ)2exp((xμ)22σ2)dx=σ2\operatorname{Var}(X) = \dfrac{1}{\sigma\sqrt{2\pi}}\int\limits\limits_{-\infty}^{+\infty}(x-\mu)^2 \exp\braceNT{-\dfrac{(x-\mu)^2}{2\sigma^2}}\operatorname{d}x = \sigma^2.
Für die Standardabweichung ergibt sich
Var(X)=σ\sqrt{\operatorname{Var}(X)} = \sigma.

Variationskoeffizient

Aus Erwartungswert und Varianz erhält man unmittelbar den Variationskoeffizienten
VarK(X)=σμ\operatorname{VarK}(X) = \dfrac{\sigma}{\mu}.

Schiefe

Die Schiefe besitzt unabhängig von den Parametern μ\mu und σ\sigma immer den Wert 0.

Charakteristische Funktion

Die charakteristische Funktion für XN(μ,σ2)X \sim \mathcal{N}(\mu, \sigma^2) hat die Form
φX(s)=E(eis(σX+μ))=E(eisσXeisμ)\phi_{X}(s) = \operatorname{E}(e^{is(\sigma X + \mu)}) = \operatorname{E}(e^{is\sigma X}e^{is\mu}) =eisμE(isσX) = e^{is\mu}\operatorname{E}(^{is\sigma X}) =eisμφX(σs)=exp(isμσ2s22) = e^{is\mu}\varphi_{X}(\sigma s) = \exp\braceNT{is\mu-\dfrac{\sigma^2 s^2}2}.
Für die Standardnormalverteilung XN(0,1)X \sim \mathcal{N}(0,1) vereinfacht sich die charakteristische Funktion zu
φX(s) \phi_{X}(s) =12πeisxex22dx= \dfrac{1}{\sqrt{2\pi}}\int\limits\limits_{-\infty}^\infty e^{isx} e^{-\dfrac{x^2}2} \operatorname{d}x =12πe(xis)22es22dx= \dfrac{1}{\sqrt{2\pi}}\int\limits\limits_{-\infty}^\infty e^{-\dfrac{(x-is)^2}2} e^{-\dfrac{s^2}2} \operatorname{d}x =12πes22ex22dx= \dfrac{1}{\sqrt{2\pi}}e^{-\dfrac{s^2}2} \int\limits\limits_{-\infty}^\infty e^{-\dfrac{-x^2}2} \operatorname{d}x =es22= e^{-\dfrac{s^2}2}.

Momenterzeugende Funktion

Die momenterzeugende Funktion der Normalverteilung ist
mX(s)=exp(μs+σ2s22)m_X(s) = \exp\braceNT{\mu s+\dfrac{\sigma^2 s^2}2}.

Invarianz gegenüber Faltung

Die Normalverteilung ist invariant gegenüber der Faltung, d. h. die Faltung einer Gaußkurve der Halbwertsbreite Γa\Gamma_a mit einer Gaußkurve der Halbwertsbreite Γb\Gamma_b ergibt wieder eine Gaußkurve mit der Halbwertsbreite Γc=Γa2+Γb2\Gamma_c = \sqrt{\Gamma_a^2 + \Gamma_b^2}.
Anders gesprochen, die Summe zweier unabhängiger normalverteilter Zufallsgrößen ist wieder normalverteilt. Speziell ist das arithmetische Mittel unabhängiger und identisch normalverteilter Zufallsgrößen mit den Parametern μ,σ\mu,\, \sigma wieder eine normalverteilte Zufallsgröße mit μ\mu und σ/n\sigma/\sqrt{n}.
Die Dichtefunktion der Normalverteilung ist ein Fixpunkt der Fourier-Transformation, d.h. die Fourier-Transformierte einer Gaußkurve ist wieder eine Gaußkurve. Das Produkt der Standardabweichungen dieser korrespondierenden Gaußkurven ist konstant; es gilt die Heisenbergsche Unschärferelation.

Entropie

Die Normalverteilung hat unter den Verteilungen mit gleicher Varianz die größte Entropie.
s2=1n1i=1n(xixˉ)2s^2 = \dfrac 1{n- 1} \sum\limits_{i=1}^n{(x_i-\bar{x})^2}

Mehrdimensionale Verallgemeinerung

NormalVert2d_korrel.png
Dichte der zweidimensionalen Normalverteilung; die Standardabweichung der zweiten Koordinate Y ist 2, die Korrelation zwischen den Koordinaten 0.7
Das Wahrscheinlichkeitsmaß Nn(0,1)\mathcal{N}^n(0,1) auf Rn\mathbb{R}^n, das durch die Dichtefunktion
f:RnR, (x1,,xn)f: \R^n \to \R,\ (x_1,\ldots,x_n) (1(2π)n)exp((12)i=1nxi2) \mapsto \over{1 }{ \sqrt{(2\pi)^n}} \exp\bigg(-\over{1 }{ 2} \sum\limits_{i=1}^n x_i^2 \bigg)
definiert wird, heißt Standardnormalverteilung der Dimension n n . Ein Zufallsvektor X=(X1,,Xn)X = (X_1,\ldots,X_n) ist genau dann standardnormalverteilt auf Rn\R^n , wenn seine Komponenten X1,,XnX_1,\ldots,X_n standardnormalverteilt und stochastisch unabhängig sind.
Ein Wahrscheinlichkeitsmaß P P auf Rn\R^n heißt n n -dimensionale Normalverteilung, wenn eine Matrix ARn×nA \in \R^{n \times n} und ein Vektor bRnb \in \R^n existieren, so dass mit der affinen Abbildung u:RnRn, xAx+bu: \R^n \to \R^n,\ x \mapsto Ax+b gilt: u1(P)=Nn(0,1) u^{-1}(P) = \mathcal{N}^n(0,1).
Die multivariate Normalverteilung ist die einzige rotationssymmetrische multivariate Verteilung, deren Komponenten stochastisch unabhängig sind.
Die Dichtefunktion der zweidimensionalen Normalverteilung mit einem Korrelationskoeffizienten ρ\rho ist
f(x1,x2)=12πσ1σ21ρ2f(x_1,x_2)=\dfrac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} \, exp[(12(1ρ2))((x1μ1σ1)22ρx1μ1σ1x2μ2σ2+(x2μ2σ2)2)] \cdot \, \exp \ntxbraceL{ \braceNT{-\dfrac{1}{2(1-\rho^2)}} \braceNT{ \braceNT{\dfrac{x_1-\mu_1}{\sigma_1}}^2 -2\rho \, \dfrac{x_1-\mu_1}{\sigma_1} \, \dfrac{x_2-\mu_2}{\sigma_2}+ \braceNT{\dfrac{x_2-\mu_2}{\sigma_2}}^2}}
und schließlich im nn-dimensionalen Fall
fX(x1,,xN)=1(2π)N/2Σ1/2exp(12(xμ)Σ1(xμ)) f_X(x_1, \cdots, x_N) = \dfrac {1} {(2\pi)^{N/2} \ntxbraceI{\Sigma}^{1/2}} \exp \braceNT{ -\dfrac 12 (x-\mu)^\top \Sigma^{-1} (x-\mu) }
mit Σ|\Sigma| als der Determinante der Kovarianzmatrix Σ\Sigma.

Beziehungen zu anderen Verteilungsfunktionen

Transformation zur Standardnormalverteilung (z-Transformation)

Ist eine Normalverteilung mit beliebigen μ \mu und σ \sigma gegeben, so kann diese durch eine Transformation auf eine N(0,1)\mathcal{N}(0,1)-Normalverteilung zurückgeführt werden. Dazu wird die Verteilungsfunktion F(x) F(x) der allgemeinen Normalverteilung mit u=tμσ u=\dfrac{t-\mu}{\sigma} substituiert und die Integralgrenzen werden angepasst:
Nebenrechnung für die Substitution
u=tμσ u=\dfrac{t-\mu}{\sigma}
dudt=ddt(tμσ)=1σ \dfrac{\mathrm{d}u} {\mathrm{d}t}=\dfrac{\mathrm{d}} {\mathrm{d}t} \braceNT{\dfrac{t-\mu} {\sigma}}=\dfrac 1{\sigma}
dt=duσ \Rightarrow \mathrm{d}t=\mathrm{d}u \cdot \sigma
F(x)=1σ2πxe12(tμσ)2dt F(x) = \dfrac 1{\sigma \cdot \sqrt{2\pi}} \cdot \int\limits_{-\infty}^x e^{-\dfrac 12 \cdot \braceNT{ \dfrac{t-\mu}{\sigma}}^2} \mathrm{d}t
=1σ2πμσxμσe12u2duσ = \dfrac 1{\sigma \cdot \sqrt{2\pi}} \cdot \int\limits_{\dfrac{-\infty-\mu}{\sigma}}^{\dfrac{x-\mu}{\sigma}} e^{-\dfrac 12 u^2} \mathrm{d}u \cdot \sigma
=12πxμσe12u2du = \dfrac 1{\sqrt{2\pi}} \cdot \int\limits_{-\infty}^{\dfrac{x-\mu}{\sigma}} e^{-\dfrac 12 u^2} \mathrm{d}u
=Φ(xμσ) =\Phi \braceNT{\dfrac{x-\mu}{\sigma}}
Wird nun z:=xμσ z:= \dfrac{x-\mu}{\sigma} definiert und u u durch t t ersetzt, so erhält man die Verteilungsfunktion der Standardnormalverteilung:
Φ(z)=12πze12t2dt \Phi(z)=\dfrac 1{\sqrt{2\pi}} \cdot \int\limits_{-\infty}^z e^{-\dfrac 12 t^2} \mathrm{d}t
Geometrisch betrachtet entspricht die durchgeführte Substition einer flächentreuen Transformation der Glockenkurve von N(μ;σ) \mathcal{N}(\mu;\sigma) zur Glockenkurve von N(0;1) \mathcal{N}(0;1) .

Approximation der Binomialverteilung durch die Normalverteilung

Die Normalverteilung kann zur Approximation der Binomialverteilung verwendet werden, wenn der Stichprobenumfang nn hinreichend groß und in der Grundgesamtheit der Anteil pp der gesuchten Eigenschaft nicht zu klein ist. Als Faustregel dafür gilt: np(1p)9np(1-p)\geq 9.

Allgemeines

Um 1900 postulierte Max Planck das Energiequantum hν h\nu , um die Energieverteilung der schwarzen Strahlung erklären zu können und es wurde daraufhin in vielen anderen Erscheinungen der Natur wiederentdeckt. Der bis dahin geltende Satz 'natura non facit saltus' - die Natur macht keine Sprünge - wurde wirksam widerlegt und zeigt auch, dass viele Phänomene, die oberflächlich für stetig gehalten werden, bei sehr genauer Betrachtung doch nichtstetig bzw. sprunghaft sind. Die Normalverteilung liefert für diese Vorgänge eine sehr gute Approximation, denn viele endliche Zufallsvariablen sind näherungsweise normalverteilt. Eine in der Natur oft anzutreffende Wahrscheinlichkeitsverteilung ist die Binomialverteilung. Auch sie lässt sich in sehr guter Näherung mit der Normalverteilung beschreiben. Mathematisch wird dies durch den Grenzwertsatz belegt. Er besagt in diesem Fall, dass sich die nichtstetige Wahrscheinlichkeitsverteilung, die sich aus n n voneinander unabhängigen Zufallsgrößen ergibt, mit steigenden n n immer besser an die Normalverteilung angleicht. n n ist dabei die Anzahl der voneinander unabhängigen Zufallsversuche, von denen jeder einzelne eine Zufallsgröße ergibt.
Ein Beispiel für diese Angleichung der Häufigkeitsverteilung an die Normalverteilung ist folgender Würfelversuch: Gegeben seien zwei normale Würfel, wobei jeder eine Augenzahl von eins bis sechs aufweist. Sie sollen nun n n mal geworfen werden, d. h. es werden n n voneinander unabhängige Zufallsversuche durchgeführt. Bei jedem Versuch berechnet sich das Ergebnis aus der Gesamtanzahl der geworfenen Augen. Insgesamt werden einige hundert Würfe gemacht, wobei die Anzahl der gleichen Ergebnisse gezählt wird. Diese Häufigkeit kann anschließend in ein Diagramm eingetragen werden. Die resultierende Verteilung ist bei sehr wenigen Würfen rein zufällig, bei sehr hohen n n wird sie hingegen der Gauß'schen Glockenkurve (mit dem Erwartungswert von 7) immer ähnlicher, trotzdem ist sie immer noch diskret verteilt (d. h. der Graph besteht aus kleinen Stufen).

Approximation

Ist eine Binomialverteilung (siehe auch Bernoulli-Versuch) mit n n voneinander unabhängigen Stufen (bzw. Zufallsversuchen) mit einer Erfolgswahrscheinlichkeit p p gegeben, so lässt sich die Wahrscheinlichkeit für kk Erfolge allgemein durch P(X=k)=(nk)pkqnk P(X=k)= \chooseNT{n }{ k} \cdot p^k\cdot q^{n-k} für k=0,1,,n k=0,1,\dots,n berechnen (wobei q=1p q=1-p ist).
Für sehr große Werte von n n kann diese Binomialverteilung durch eine Normalverteilung approximiert werden (zentraler Grenzwertsatz). Dabei ist
Ist nun σ>3\sigma > 3, dann ist folgende Näherung brauchbar:
P(x1Xx2)=k=x1x2(nk)pkqnkBV P(x_1 \leq X \leq x_2) = {\sum\limits_{k=x_1}^{x_2} \chooseNT{n }{ k} \cdot p^k\cdot q^{n-k}}_{\mathrm{BV}} Φ(x2+0,5μσ)Φ(x10,5μσ)NV \approx {\Phi\braceNT{\dfrac{x_2+0,5-\mu}{\sigma}} -\Phi\braceNT{\dfrac{x_1-0,5-\mu}{\sigma}}}_{\mathrm{NV}}
Bei der Normalverteilung wird die untere Grenze um 0,5 verkleinert und die obere Grenze um 0,5 vergrößert, um eine bessere Approximation bei einer geringen Standardabweichung σ \sigma gewährleisten zu können. Dies nennt man auch Stetigkeitskorrektur. Nur wenn σ \sigma einen sehr hohen Wert besitzt, kann auf sie verzichtet werden.
Da die Binomialverteilung diskret ist, muss auf einige Punkte geachtet werden:
  • < < oder \leq (und auch größer und größer gleich) müssen beachtet werden (was ja bei der Normalverteilung nicht der Fall ist). Deshalb muss bei P(XBV<x) P(X_{BV}<x) die nächstkleinere natürliche Zahl gewählt werden, d. h.
P(XBV<x)=P(XBVx1) P(X_{BV}<x)=P(X_{BV}\leq x-1) bzw. P(XBV>x)=P(XBVx+1) P(X_{BV}>x)=P(X_{BV}\geq x+1)
damit mit der Normalverteilung weitergerechnet werden kann.
z. B. P(XBV<70)=P(XBV69) P(X_{BV}<70)=P(X_{BV}\leq 69)
  • Außerdem ist
P(XBVx)=P(0XBVx) P(X_{BV} \leq x) = P(0 \leq X_{BV} \leq x)
P(XBVx)=P(xXBVn) P(X_{BV} \geq x) = P(x \leq X_{BV} \leq n)
P(XBV=x)=P(xXBVx) P(X_{BV} = x) = P(x \leq X_{BV} \leq x) (unbedingt mit Stetigkeitskorrektur)
und lässt sich somit durch die oben angegebene Formel berechnen.
Der große Vorteil der Approximation liegt darin, dass sehr viele Stufen einer Binomialverteilung sehr schnell und einfach bestimmt werden können.

Beziehung zur Cauchy-Verteilung

Der Quotient von zwei N(0,1)\mathcal{N}(0,1) standardnormalverteilten Zufallsvariablen ist Cauchy-verteilt.

Beziehung zur Chi-Quadrat-Verteilung

  • Die Summe Xn=Z12++Zn2X_n=Z_1^2 + \ldots + Z_n^2 von nn unabhängigen quadrierten standardnormalverteilten Zufallsvariablen ZiN(0,1)(i=1,,n)Z_i\sim \mathcal{N}(0,1) (i=1,\ldots,n) genügt einer Chi-Quadrat-Verteilung Xnχn2X_n\sim\chi^2_n mit nn Freiheitsgraden.
  • Die Summe Xn1=1σ2i=1n(ZiZ)2 X_{n-1}=\dfrac{1}{\sigma^{2}}\sum\limits_{i=1}^{n} (Z_{i}-\overline Z)^{2} mit Z:=1ni=1nZi\overline Z:=\dfrac{1}{n}\sum\limits_{i=1}^{n} Z_i von nn unabhängigen quadrierten standardnormalverteilten Zufallsvariablen ZiN(0,1)(i=1,,n)Z_i\sim \mathcal{N}(0,1) (i=1,\ldots,n) genügt einer Chi-Quadrat-Verteilung Xn1χn12X_{n-1}\sim\chi^2_{n-1} mit n1n-1 Freiheitsgraden.
Die Chi-Quadrat-Verteilung wird zur Konfidenzschätzung für die Varianz einer normalverteilten Grundgesamtheit verwendet.

Beziehung zur logarithmischen Normalverteilung

Ist die Zufallsvariable XX normalverteilt mit N(μ,σ2)\mathcal{N}(\mu,\sigma^{2}), dann ist die Zufallsvariable Y=eXY=e^{X} logarithmisch-normalverteilt mit LN(μ,σ2)\mathcal{LN}(\mu,\sigma^{2}).
Die Entstehung einer logarithmischen Normalverteilung ist auf multiplikatives, die einer Normalverteilung auf additives Zusammenwirken vieler Zufallsgrößen zurückführen.

Beziehung zur F-Verteilung

Wenn die identischen normalverteilten Zufallsvariablen X1(1),X2(1),,Xn(1)X_1^{(1)}, X_2^{(1)}, \dots , X_n^{(1)} und X1(2),X2(2),,Xn(2)X_1^{(2)}, X_2^{(2)}, \dots , X_n^{(2)} die Parameter
E(Xi(1))=μ1,Var(Xi(1))=σ1E(X_{i}^{(1)})=\mu_{1}, \sqrt{Var(X_{i}^{(1)})}=\sigma_{1}
E(Xi(2))=μ2,Var(Xi(2))=σ2E(X_{i}^{(2)})=\mu_{2}, \sqrt{Var(X_{i}^{(2)})}=\sigma_{2}
mit σ1=σ2=σ\sigma_{1}=\sigma_{2}=\sigma besitzen, dann unterliegt die Zufallsvariable
Yn11,n21:=(n21)i=1n1(Xi(1)Xˉ(1))2(n11)j=1n2(Xi(2)Xˉ(2))2Y_{n_{1}-1,n_{2}-1}:=\dfrac{(n_{2}-1)\sum\limits\limits_{i=1}^{n_{1}}(X_{i}^{(1)}-\bar{{X}}^{(1)})^{2}} {(n_{1}-1)\sum\limits\limits_{j=1}^{n_{2}}(X_{i}^{(2)}-\bar{{X}}^{(2)})^{2}}
einer F-Verteilung mit ((n11,n21))((n_{1}-1,n_{2}-1)) Freiheitsgraden. Dabei sind
Xˉ(1)=1n1i=1n1Xi(1)Xˉ(2)=1n2i=1n2Xi(2)\bar{X}^{(1)}=\dfrac{1}{n_{1}}\sum\limits_{i=1}^{n_{1}}X_{i}^{(1)}\quad \bar{X}^{(2)}=\dfrac{1}{n_{2}}\sum\limits_{i=1}^{n_{2}}X_{i}^{(2)}.

Beziehung zur Students-t-Verteilung

Wenn die unabhängigen Zufallsvariablen X1,X2,,XnX_1, X_2, \dots , X_n identisch normalverteilt sind mit den Parametern μ\mu und σ\sigma, dann unterliegt die stetige Zufallsgröße
Yn1=Xˉμi=1n(XiXˉ)2n1nY_{n-1}=\dfrac{\bar{X}-\mu}{\sqrt{\dfrac{\sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}}{n-1}}}\sqrt{n}
einer Students t-Verteilung mit (n1)(n-1) Freiheitsgraden.
Die Students t-Verteilung wird zur Konfidenzschätzung für den Erwartungswert einer normalverteilten Zufallsvariable bei unbekannter Varianz verwendet.

Rechnen mit der Standardnormalverteilung

Bei Aufgabestellungen, bei denen die Wahrscheinlichkeit für normalverteilte Zufallsvariablen durch die Standardnormalverteilung ermittelt werden soll, ist es nicht nötig, die oben angegebene Transformation jedesmal durchzurechnen. Stattdessen wird einfach das Ergebnis der Transformation verwendet, um die Grenzen x1,x2 x_1 ,\, x_2 und die Zufallsvariable X X auf die Grenzen z1,z2 z_1 ,\, z_2 und die Zufallsvariable Z Z anzugleichen. Somit kann eine N(μ;σ2) \mathcal{N}(\mu;\sigma^2) Verteilung durch
z=xμσ z=\dfrac {x-\mu}{\sigma} beziehungsweise Z=Xμσ Z=\dfrac {X-\mu}{\sigma}
zu N(0;1) \mathcal{N}(0;1) transformiert werden.
Die Wahrscheinlichkeit für ein Ereignis, welches z. B. innerhalb der Werte x1 x_1 und x2 x_2 (für den Erwartungswert μ \mu und die Standardabweichung σ \sigma ) liegt, ist durch folgende Umrechnung gleich der Wahrscheinlichkeit der Standardnormalverteilung mit den neuen Grenzen z1 z_1 und z2 z_2 :
P(x1Xx2)=P(x1μσZ=Xμσx2μσ)=P(z1Zz2) P( x_1 \leq X \leq x_2 ) = P\braceNT{ \dfrac {x_1-\mu}{\sigma} \leq Z= \dfrac {X-\mu}{\sigma} \leq \dfrac {x_2-\mu}{\sigma}}= P(z_1 \leq Z \leq z_2)
(PP steht für die englische Bezeichnung "probability" oder das französische Wort "probabilité" der Wahrscheinlichkeit.)

Grundlegende Fragestellungen

Allgemein gibt die Verteilungsfunktion die Fläche unter der Glockenkurve bis zum Wert x x an, d. h. es wird das bestimmte Integral von -\infty bis x x berechnet.
Dies entspricht in Aufgabenstellungen einer gesuchten Wahrscheinlichkeit, bei der die Zufallsvariable X X kleiner oder kleiner gleich einer bestimmten Zahl x x ist. Durch die Verwendung der reellen Zahlen und der Stetigkeit der Normalverteilung macht es keinen Unterschied, ob nun < < oder \leq verlangt ist,
weil P(X=3)=33f(x)dx=0 P(X = 3) = \int\limits_3^3 f(x)dx = 0 und somit P(X<3)=P(X3) P(X<3) = P(X \leq 3) .
Dasselbe gilt für größer und größer gleich.
Dadurch, dass X X nur kleiner oder größer einer Grenze (oder innerhalb oder außerhalb zweier Grenzen) liegen kann, ergeben sich für Aufgaben bei normalverteilten Wahrscheinlichkeitsberechnungen folgende zwei grundlegende Fragestellungen:
  • Wie hoch ist die Wahrscheinlichkeit, dass bei einem Zufallsversuch die normalverteilte Zufallsvariable Z Z höchstens den Wert z z annimmt?
  • P(Zz)=Φ(z) P(Z \leq z)=\Phi(z)
In der Schulmathematik wird für diese Aussage auch die Bezeichnung Linker Spitz verwendet, da die Fläche unter der Gaußkurve von links bis zur Grenze verläuft. Für z z sind auch negative Werte erlaubt, trotzdem haben viele Tabellen der Standardnormalverteilung nur positive Einträge. Durch die Symmetrie der Kurve und der Negativitätsregel des linken Spitz stellt dies aber keine Einschränkung dar:
(Anm.: Das Minus von z z wird im folgenden explizit
ausgedrückt, d.h. z=z -z = -|z|, wenn z<0 z<0 )
Φ(z)=1Φ(z) \Phi(-z)=1-\Phi(z)
P(Zz)=1Φ(z) P(Z \geq z) = 1 - \Phi(z)
Analog wird hier oft die Bezeichnung Rechter Spitz verwendet. Ebenso gibt es eine Negativitätsregel:
P(Zz)=1Φ(z)=1(1Φ(z))=Φ(z) P(Z \geq -z)= 1- \Phi(-z)= 1-(1-\Phi(z)) = \Phi(z)
(Da jede Zufallsvariable X X der allgemeinen Normalverteilung sich in die Zufallsgröße Z Z der Standardnormalverteilung umwandeln lässt, gelten die Fragestellungen für beide Größen gleichbedeutend.)

Streubereich und Antistreubereich

Der Streubereich gibt die Wahrscheinlichkeit wieder, dass die normalverteilte Zufallsvariable Z Z Werte zwischen z1 z_1 und z2 z_2 annimmt:
P(z1Zz2)=Φ(z2)Φ(z1) P(z_1 \leq Z \leq z_2) = \Phi(z_2) - \Phi(z_1)
Beim Sonderfall des symmetrischen Streubereiches ( z1=z2 z_1=-z_2 , mit z2>0 z_2>0 ) gilt:
P(zZz)=P(Zz)= P(-z \leq Z \leq z ) = P (|Z| \leq z) =
=Φ(z)Φ(z)=Φ(z)(1Φ(z))= = \Phi(z)-\Phi(-z) =\Phi(z)-(1-\Phi(z))=
=2Φ(z)1 =2 \cdot \Phi(z)-1
Hingegen gibt der Antistreubereich die Höhe der Wahrscheinlichkeit an, dass die normalverteilte Zufallsvariable Z Z Werte außerhalb des Bereichs zwischen z1 z_1 und z2 z_2 annimmt:
P(Zz1 P(Z \leq z_1 oder Zz2)=Φ(z1)+(1Φ(z2)) Z \geq z_2) = \Phi(z_1) + (1-\Phi(z_2))
Somit folgt bei einem symmetrischen Antistreubereich:
P(Zz P(Z \leq -z oder Zz)=P(Zz)= Z \geq z) = P(|Z| \geq z)=
=Φ(z)+1Φ(z)=1Φ(z)+1Φ(z)= =\Phi(-z)+1-\Phi(z)= 1-\Phi(z)+1-\Phi(z)=
=22Φ(z) =2-2\cdot \Phi(z)

Streubereiche am Beispiel der Qualitätssicherung

Besondere Bedeutung haben beide Streubereiche z.B. bei der Qualitätssicherung von technischen oder wirtschaftlichen Produktionsprozessen. Hier gibt es einzuhaltende Toleranzgrenzen x1 x_1 und x2 x_2 , wobei es meist einen größten noch akzeptablen Abstand ϵ \epsilon vom Erwartungswert μ \mu (= dem optimalen Sollwert) gibt. σ \sigma kann hingegen empirisch aus dem Produktionsprozess gewonnen werden.
Wurde [x1;x2]=[μϵ;μ+ϵ] [x_1;x_2]=[\mu-\epsilon;\mu+\epsilon] als einzuhaltendes Toleranzintervall angegeben, so liegt (je nach Fragestellung) ein symmetrischer Streu- oder Antistreubereich vor.
Im Falle des Streubereiches gilt:
P(x1Xx2)=P(Xμϵ)= P(x_1 \leq X \leq x_2) = P(|X-\mu|\leq\epsilon)=
=P(μϵXμ+ϵ)=P(ϵσZϵσ)==P(\mu-\epsilon \leq X \leq \mu+\epsilon) = P\braceNT{\dfrac{-\epsilon}{\sigma} \leq Z \leq \dfrac{\epsilon}{\sigma}}=
=Φ(ϵσ)Φ(ϵσ)==\Phi\braceNT{\dfrac{\epsilon}{\sigma}}-\Phi\braceNT{\dfrac{-\epsilon}{\sigma}}=
=2Φ(ϵσ)1=γ= 2 \cdot \Phi\braceNT{\dfrac{\epsilon}{\sigma}}-1 =\gamma
Der Antistreubereich ergibt sich dann aus
P(Xμϵ)=1γ P(|X-\mu|\geq \epsilon )= 1-\gamma
oder wenn kein Streubereich berechnet wurde durch
P(Xμϵ)=2(1Φ(ϵσ))=α P(|X-\mu|\geq \epsilon )=2\cdot\braceNT{1-\Phi\braceNT{\dfrac{\epsilon} {\sigma}}}=\alpha .
Das Ergebnis γ \gamma ist also die Wahrscheinlichkeit für verkaufbare Produkte, während α \alpha die Wahrscheinlichkeit für Ausschuss bedeutet, wobei beides von den Vorgaben von μ,σ \mu ,\, \sigma und ϵ \epsilon abhängig ist.
Ist bekannt, dass die maximale Abweichung ϵ \epsilon symmetrisch um den Erwartungswert liegt, so sind auch Fragestellungen möglich, bei denen die Wahrscheinlichkeit vorgegeben und eine der anderen Größen zu berechnen ist.

Testen auf Normalverteilung

Quantile_graph.png
Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
Um zu testen, ob vorliegende Daten normalverteilt sind, können unter Anderem der Kolmogorov-Smirnov-Test und der Shapiro-Wilk-Test herangezogen werden. Mit Hilfe von Normal-Quantil-Plots (auch Quantil-Quantil-Plot oder Q-Q-Plot) ist eine einfache grafische Überprüfung auf Normalverteilung möglich.

Simulation normalverteilter Zufallsvariablen

Box-Muller-Methode

Nach der Box-Muller-Methode lässt sich eine standardnormalverteilte Zufallsvariable XX aus zwei gleichverteilten Zufallsvariablen u1,u2U(0,1)u_1,u_2 \sim U(0,1), sogenannten Standardzufallszahlen, simulieren:
X=(2logu1)cos(2πu2)X=\sqrt{(-2\log u_1)} \, \cos(2\pi u_2)

Polar-Methode

Die Polar-Methode von Marsaglia ist auf einem Computer noch schneller, da sie nur einen Logarithmus benutzt:
  1. Generiere zwei gleichverteilte Zufallsvariablen u1,u2=U(0,1)u_1,u_2=U(0,1)
  2. Berechne v=(2u11)2+(2u21)2v=(2u_1-1)^2+(2u_2-1)^2. Falls v1v \ge 1 wiederhole 1.
  3. x=(2u11)(2logv/v)1/2x=(2u_1-1)(-2\log v /v)^{1/2}
Durch lineare Transformation lassen sich hieraus auch beliebige normalverteilte Zufallszahlen generieren: Ist die Zufallsvariable XN(0,1)X \sim \mathcal{N}(0,1)-verteilt, so ist aX+b schließlich N(b,a2)\mathcal{N}(b,a^2)-verteilt.

Zwölferregel

Der zentrale Grenzwertsatz besagt, dass sich die Verteilung der Summe unabhängiger identisch verteilter Zufallszahlen einer Normalverteilung nähert.
Ein Spezialfall ist die Zwölferregel, die sich auf die Summe von 12 Zufallszahlen aus einer Gleichverteilung auf dem Intervall [0,1] beschränkt und bereits zu passablen Verteilungen führt.
Stark ins Gewicht fällt die Forderung der Unabhängigkeit der zwölf XiX_i, die von normalen Pseudozufallszahlen (LKG) nicht garantiert wird. Im Gegenteil wird vom Spektraltest meist nur die Unabhängigkeit von maximal vier bis sieben der XiX_i garantiert. Für numerische Simulationen ist die Zwölferregel daher sehr bedenklich! Andere sogar leichter zu programmierende Verfahren sind unbedingt vorzuziehen!

Verwerfungsmethode

Normalverteilungen lassen sich mit der Verwerfungsmethode (s. dort) simulieren.

Inversionsmethode

Selbstverständlich lässt sich die Normalverteilung auch mit der Inversionsmethode berechnen. Da das Fehlerintegral leider nicht explizit mit elementaren Funktionen integrierbar ist, muss man auf Reihenentwicklungen der inversen Funktion für einen Startwert (a1a14a_1 \dots a_{14} weiter unten) und anschließende Korrektur mit dem Newtonverfahren zurückgreifen. Dazu werden erf(x) und erfc(x) benötigt, die ihrerseits mit Reihenentwicklungen und Kettenbruchentwicklungen berechnet werden können - insgesamt ein relativ hoher Aufwand. Die notwendigen Entwicklungen sind in der Literatur zu finden William B. Jones, W. J. Thron; Continued Fractions: Analytic Theory and Applications; Addison Wesley, 1980.
Entwicklung des inversen Fehlerintegrals (wegen des Pols nur als Startwert für das Newtonverfahren verwendbar):
erf1(π2x)=x(a1+x2(a2+x2()))\operatorname{erf}^{-1} (\dfrac{\sqrt\pi}{2}x) = x(a_1 + x^2 (a_2 + x^2 (\dots)))
mit den Koeffizienten
ai=1,(13),(730),(127630),(436922680),(34807178200),(2003698397297200),(228035686310216206000),(49020204823198486288000),a_i= 1, \over{1}{ 3}, \over{7}{ 30}, \over{127}{ 630}, \over{4369}{ 22680}, \over{34807}{ 178200}, \over{20036983}{ 97297200}, \over{2280356863}{ 10216206000}, \over{49020204823}{ 198486288000},
(65967241200001237588086736000),(1577346142379376749893498214560000),(6558895890329922011803293578326240000), \over{65967241200001}{ 237588086736000}, \over{15773461423793767}{ 49893498214560000}, \over{655889589032992201}{ 1803293578326240000},
(94020690191035873697222759794969712000000),(6557822497995317143754891329207696584271504000000), \over{94020690191035873697}{ 222759794969712000000}, \over{655782249799531714375489}{ 1329207696584271504000000},\ldots
 
 

"Offensichtlich" ist das gefährlichste Wort in der Mathematik.

Eric Temple Bell

Copyright- und Lizenzinformationen: Diese Seite basiert dem Artikel Normalverteilung aus der frеiеn Enzyklοpädιe Wιkιpеdιa und stеht unter der Dοppellizеnz GNU-Lιzenz für freie Dokumentation und Crеative Commons CC-BY-SA 3.0 Unportеd (Kurzfassung). In der Wιkιpеdιa ist eine Listе dеr Autorеn des Originalartikels verfügbar. Da der Artikel geändert wurde, reicht die Angabe dieser Liste für eine lizenzkonforme Weiternutzung nicht aus!
Anbieterkеnnzeichnung: Mathеpеdιa von Тhοmas Stеιnfеld  • Dοrfplatz 25  •  17237 Blankеnsее  • Tel.: 01734332309 (Vodafone/D2)  •  Email: cο@maτhepedιa.dе