so jetzt konnt ich mir den text mal durchlesen - link geht wieder.
das mit der bonferroni-korrektur ist natürlich ein zweischneidiges schwert. die haben hier tatsächlich 5% durch 39 geteilt, also ein signifikanzniveau von 0,13% angesetzt.
ich erklärs mal als zwiegespräch zwischen forscher und statistiker:
forscher:
schau mal, hab ne untersuchung gemacht. hab folgendes gefunden: wir haben da eine bestimmte aufteilung von charaktereigenschaften auf die verschiedenen sternzeichen. und kuck mal, die wassermänner sind ein bisschen schlauer. was meinst du, ist das zufall?
statistiker:
pass auf, wir spielen ein spiel: stell dir vor, es regiert der zufall.
charaktereigenschaften werden, wie's der zufall will, irgendwie auf alle sternzeichen aufgeteilt. die müssen nicht unbedingt auf alle sternzeichen gleich verteilt sein, aber ein paar unterschiede wirds auch bei zufälliger aufteilung geben.
mal wassermänner sind bisschen schlauer, mal waagen viel geruhsamer, mal beides, krebse durchaus hübscher, was weiß ich. es ergibt sich eine bestimmte verteilung (aus der dann eine bestimmte prüfgröße errechnet wird).
wir spielen das spiel nochmal, es ergibt sich eine andere verteilung. wir spielen's nochmal und wieder eine andere verteilung. wir spielens... eigentlich unendlich oft. bei den meisten verteilungen bleiben die unterschiede im rahmen. es regiert ja könig zufall, da gleicht sich das aus. nur ganz wenige verteilungen haben da schon eindeutigere verteilungen, und ganz ganz selten passiert es auch mal bei zufall, dass die sternzeichen sich krass voneinander unterschieden.
und so ergibt sich eine bestimmte verteilung auch für diese ominöse prüfgröße. sie auszurechnen ist schnöde mathematik, hat mit freiheitsgraden zu tun und ist für das verständnis total unnötig. in vielen fällen hat so eine verteilung die form einer glockekurve. viele fälle in der mitte, wenige am rand.
die 95% in der mitte, die definieren wir als normal. da sagen wir, diese prüfgrößen können durchaus auch vom zufall verursacht sein. erst wenn sich eine prüfgröße ergibt, die außerhalb dieses bereichs liegt, sagen wir, boah, das ist wirklich selten unter zufallsbedingungen. da gibts wohl nen systematischen einfluss.
was war eigentlich nochmal deine prüfgröße in deiner stichprobe?
forscher:
bei mir? da war das 17.
[
um ehrlich zu sein, die zahl, die er nennt, ist ziemlich wurscht. die muss man mit schnöden formeln ausrechnen und das kapiert keiner und macht keinem spaß]
statistiker:
17? hmtja, mal nachschauen...
[
er schaut in unverständlichen tabellen nach. voll schnöder mathematik und total unnötig].
also, 17. stell dir vor, wir spielen das spiel nicht unendlich oft, das dauert zu lange. bleiben wir bei realistischen 1.000mal. da kommt
nur zweimal die prüfgröße 17 vor. was meinst, ist das selten genug?
[
das "zweimal" ist nicht mehr mathematik und wichtig. diesen wert spuckt jedes statistik-programm als p-wert aus. wozu also selbst ausrechnen?]
forscher:
was nur zweimal? na klar ist das selten genug. der zufall schaffts nur zweimal in tausend fällen, da muss es systematik geben. selbst 50 wär doch okay - ich erinnere mich schwammig an diese 5%.
bonferroni - aus der hölle:
ja, kruzifix, herrschaftszeiten. wie viele tests habt ihrs grechnet?
forscher und statistiker:
neununddreißig.
bonferroni:
neundunddreißig? ihr habt neunddreißigmal dieses spiel mit den tausend prüfwerten gespielt und seid jedesmal davon ausgegangen, wenn die prüfgröße seltener vorkommt als fünfzigmal, dann wars kein zufall. ihr geht jedesmal ein risiko ein, dass ihr euch dabei irrt. jedes mal fünf prozent. jedes mal. irgendwann fickt es aber jeden. und ihr irrt euch. weil die prüfgröße zwar seltener als fünfzigmal vorkommt - aber trotzdem zufall ist.
forscher:
wann fickts mich nochmal genau?
bonferroni:
das kann ich dir nicht sagen. aber wenn du hundert tests machst, sind bestimmt so um die fünfe davon faule eier. zufällig signifikant.
das heißt, wenn du bei hundert tests zehn signifikanzen findest (und hundert tests kriegt man schnell zusammen und mit signifikant meine ich, dass das zu 95% kein zufall ist), weißt du was das heißt?
das heißt, du hast das intellektuelle niveau einer münze. fifty-fifty trefferquote würd ich sagen, entweder deine hypothese stimmt oder sie stimmt nicht.
wie viele tests warens nochmal? knapp vierzig? da würd ich doch glatt mit zwei zufällig signifikanten ergebnissen rechnen. wie viel hast du nochmal rausgekriegt?
forscher:
nur einen. intelligenz und geburtsdatum.
bonferroni:
du armer. da hast du sogar richtig pech gehabt. hätte mit zwei gerechnet... also, immer schön dran denken und die signifikanzschranke durch die anzahl deiner tests teilen, sonst besteht täuschungsgefahr.
forscher:
na toll. und dann krieg ich gar nichts mehr raus. es besteht blindheitsgefahr.
bonferroni:
du sollst halt nicht einfach blind suchen. hast du dir denn überlegt, was du da machst?
forscher:
wie überlegt?
bonferroni:
ja, überlegt halt. warum sollen denn die wassermänner hübscher sein? wie schön müssten eigentlich fische sein? und wie konnte das passieren?
das musst du dir überlegen, und zwar genauestens, und zwar auch noch
vorher, du hoschi. nicht in die daten schauen, und dann dafür ne erklärung herbeireden. das ist schnöde rhetorik und klappt immer. ist aber voll der zirkelschluss und einfach mal verboten. du kuckst in die daten und suchst ne erklärung und dann erklärst du so die daten. no fuckin way.