Hypothese testen is een noodzakelijke procedure in de statistiek. Een hypothesetest evalueert twee elkaar uitsluitende uitspraken om te bepalen welke uitspraak het beste door de voorbeeldgegevens wordt ondersteund. Wanneer wordt gezegd dat een bevinding statistisch significant is, is dit het gevolg van een hypothesetest.
Verificatiemethoden
Methoden voor het testen van statistische hypothesen zijn methoden voor statistische analyse. Gewoonlijk worden twee sets statistieken vergeleken, of een gesamplede dataset wordt vergeleken met een synthetische dataset van een geïdealiseerd model. De gegevens moeten zo worden geïnterpreteerd dat er nieuwe betekenissen aan worden toegevoegd. Je kunt ze interpreteren door een bepaalde structuur van het eindresultaat aan te nemen en door statistische methoden te gebruiken om de aanname te bevestigen of te verwerpen. De veronderstelling wordt een hypothese genoemd en de statistische tests die voor dit doel worden gebruikt, worden statistische hypothesen genoemd.
H0 en H1 hypothesen
Er zijn twee belangrijkede concepten van het statistisch testen van hypothesen - de zogenaamde "hoofd- of nulhypothese" en " alternatieve hypothese". Ze worden ook wel Neyman-Pearson-hypothesen genoemd. De statistische toetsaanname wordt de nulhypothese, de hoofdhypothese of kortweg H0 genoemd. Het wordt vaak de standaardaanname genoemd of de aanname dat er niets is veranderd. Een schending van de testaanname wordt vaak de eerste hypothese, alternatieve hypothese of H1 genoemd. H1 is een afkorting voor een andere hypothese, want alles wat we erover weten is dat de H0-gegevens kunnen worden weggegooid.
Alvorens de nulhypothese te verwerpen of niet te verwerpen, moet het testresultaat worden geïnterpreteerd. Een vergelijking wordt als statistisch significant beschouwd als het onwaarschijnlijk is dat de relatie tussen de datasets de implementatie van de nulhypothese is volgens de drempelwaarschijnlijkheid - het significantieniveau. Er zijn ook goodness-of-fit-criteria voor het toetsen van statistische hypothesen. Dit is de naam van het hypothesetestcriterium, dat wordt geassocieerd met de veronderstelde wet van de onbekende verdeling. Dit is een numerieke maat voor de discrepantie tussen de empirische en theoretische verdelingen.
Procedure en criteria voor het testen van statistische hypothesen
De meest gebruikelijke methoden voor het selecteren van hypothesen zijn gebaseerd op het Akaike-informatiecriterium of de Bayesiaanse coëfficiënt. Het testen van statistische hypothesen is een sleuteltechniek voor zowel gevolgtrekking als Bayesiaanse gevolgtrekking, hoewel de twee typen opmerkelijke verschillen hebben. Statistische hypothesetestsdefinieer een procedure die de waarschijnlijkheid regelt om ten onrechte te beslissen over een onjuiste standaard- of nulhypothese. De procedure is gebaseerd op hoe waarschijnlijk het is dat het werkt. Deze kans op het maken van een verkeerde beslissing is de onwaarschijnlijkheid dat de nulhypothese waar is en dat er geen specifieke alternatieve hypothese bestaat. De test kan niet aantonen of het waar of niet waar is.
Alternatieve methoden van beslissingstheorie
Er bestaan alternatieve methoden van beslissingstheorie, waarbij de nul- en eerste hypothese op meer gelijke voet worden beschouwd. Andere besluitvormingsbenaderingen, zoals de Bayesiaanse theorie, proberen de gevolgen van slechte beslissingen in evenwicht te brengen over alle mogelijkheden in plaats van zich te concentreren op een enkele nulhypothese. Een aantal andere benaderingen om te beslissen welke van de hypothesen correct is, zijn gebaseerd op de gegevens, welke van hen de gewenste eigenschappen hebben. Maar het testen van hypothesen is de dominante benadering van data-analyse in veel wetenschapsgebieden.
De statistische hypothese testen
Wanneer een reeks resultaten verschilt van een andere reeks, moet men vertrouwen op statistische hypothesetests of statistische hypothesetests. Hun interpretatie vereist een goed begrip van p-waarden en kritische waarden. Het is ook belangrijk om te begrijpen dat, ongeacht het significantieniveau, tests nog steeds fouten kunnen bevatten. Daarom is de conclusie mogelijk niet correct.
Het testproces bestaat uit:meerdere stappen:
- Er wordt een eerste hypothese gemaakt voor onderzoek.
- Relevante nul- en alternatieve hypothesen worden aangegeven.
- Verklaart statistische veronderstellingen over de steekproef in de test.
- Bepalen welke test geschikt is.
- Selecteer het significantieniveau en de waarschijnlijkheidsdrempel waaronder de nulhypothese wordt verworpen.
- De verdeling van de nulhypothese-teststatistiek toont de mogelijke waarden waarbij de nulhypothese wordt verworpen.
- Berekening bezig.
- Er wordt een beslissing genomen om de nulhypothese te verwerpen of te accepteren ten gunste van een alternatief.
Er is een alternatief dat een p-waarde gebruikt.
Betekenistests
Pure gegevens hebben geen praktisch nut zonder interpretatie. In statistieken, als het gaat om het stellen van vragen over gegevens en het interpreteren van resultaten, worden statistische methoden gebruikt om de nauwkeurigheid of waarschijnlijkheid van antwoorden te garanderen. Bij het testen van statistische hypothesen wordt deze klasse van methoden statistische testen of significantietests genoemd. De term 'hypothese' doet denken aan wetenschappelijke methoden, waarbij hypothesen en theorieën worden onderzocht. In statistiek resulteert een hypothesetest in een hoeveelheid bij een gegeven aanname. Hiermee kunt u interpreteren of een aanname waar is of dat er een overtreding is gemaakt.
Statistische interpretatie van tests
Hypothese testenworden gebruikt om te bepalen welke onderzoeksresultaten leiden tot verwerping van de nulhypothese voor een vooraf bepaald significantieniveau. De resultaten van een statistische hypothesetest moeten worden geïnterpreteerd zodat er verder aan kan worden gewerkt. Er zijn twee veelvoorkomende vormen van criteria voor het testen van statistische hypothesen. Dit zijn p-waarde en kritische waarden. Afhankelijk van het geselecteerde criterium moeten de verkregen resultaten anders worden geïnterpreteerd.
Wat is een p-waarde
Output wordt beschreven als statistisch significant bij het interpreteren van de p-waarde. In feite betekent deze indicator de foutkans als de nulhypothese wordt verworpen. Met andere woorden, het kan worden gebruikt om een waarde te noemen die kan worden gebruikt om een testresultaat te interpreteren of te kwantificeren, en om de kans op fouten bij het verwerpen van de nulhypothese te bepalen. U kunt bijvoorbeeld een normaliteitstest uitvoeren op een steekproef van gegevens en vaststellen dat er weinig kans is op uitschieters. De nulhypothese hoeft echter niet te worden verworpen. Een statistische hypothesetest kan een p-waarde opleveren. Dit wordt gedaan door de waarde van p te vergelijken met een vooraf bepaalde drempelwaarde die het significantieniveau wordt genoemd.
Niveau van significantie
Het significantieniveau wordt vaak geschreven met de Griekse kleine letter "alpha". De algemene waarde die voor alfa wordt gebruikt, is 5% of 0,05. Een kleinere alfawaarde suggereert een betrouwbaardere interpretatie van de nulhypothese. De p-waarde wordt vergeleken metvooraf geselecteerde alfawaarde. Het resultaat is statistisch significant als de p-waarde kleiner is dan alfa. Het significantieniveau kan worden omgekeerd door het van één af te trekken. Dit wordt gedaan om het betrouwbaarheidsniveau van de hypothese te bepalen op basis van de waargenomen steekproefgegevens. Bij gebruik van deze methode voor het testen van statistische hypothesen is de P-waarde probabilistisch. Dit betekent dat men bij het interpreteren van het resultaat van een statistische test niet weet wat waar of onwaar is.
Statistische theorie voor het testen van hypothesen
Verwerping van de nulhypothese betekent dat er voldoende statistisch bewijs is dat het waarschijnlijk lijkt. Anders betekent dit dat er niet genoeg statistieken zijn om het te verwerpen. Aan statistische tests kan men denken in termen van de dichotomie van verwerpen en accepteren van de nulhypothese. Het gevaar van het statistisch toetsen van de nulhypothese is dat deze, indien geaccepteerd, waar kan lijken. In plaats daarvan zou het juister zijn om te zeggen dat de nulhypothese niet wordt verworpen omdat er onvoldoende statistisch bewijs is om deze te verwerpen.
Dit moment verwart vaak beginnende extra's. In zo'n geval is het belangrijk om jezelf eraan te herinneren dat het resultaat waarschijnlijk is en dat zelfs het accepteren van de nulhypothese nog steeds een kleine kans op fouten heeft.
Waar of niet waar nulhypothese
Interpretatie van de waarde van p betekent niet dat nulde hypothese is waar of onwaar. Dit betekent dat er op basis van de empirische gegevens en de gekozen statistische toets een keuze is gemaakt om de nulhypothese bij een bepaald niveau van statistische significantie al dan niet te verwerpen. Daarom kan de p-waarde worden gezien als de waarschijnlijkheid van de gegevens die worden gegeven onder een vooraf bepaalde aanname die is ingebed in de statistische tests. De p-waarde is een maatstaf voor hoe waarschijnlijk het is dat de gegevenssteekproef wordt waargenomen als de nulhypothese waar is.
Interpretatie van kritische waarden
Sommige tests komen niet terug p. In plaats daarvan kunnen ze een lijst met kritieke waarden retourneren. De resultaten van een dergelijk onderzoek worden op een vergelijkbare manier geïnterpreteerd. In plaats van een enkele p-waarde te vergelijken met een vooraf bepaald significantieniveau, wordt de teststatistiek vergeleken met een kritische waarde. Als het minder blijkt te zijn, betekent dit dat het niet mogelijk was om de nulhypothese te verwerpen. Indien groter dan of gelijk aan, moet de nulhypothese worden verworpen. De betekenis van het algoritme voor het testen van statistische hypothesen en de interpretatie van het resultaat is vergelijkbaar met de p-waarde. Het gekozen significantieniveau is een probabilistische beslissing om de basistestaanname gezien de gegevens te verwerpen of niet.
Fouten in statistische tests
De interpretatie van een statistische hypothesetest is probabilistisch. De taak van het testen van statistische hypothesen is niet om een waar of onwaar bewering te vinden. Testbewijs kan onjuist zijn. Als de alfa bijvoorbeeld 5% was, betekent dit dat voor het grootste deel 1 op 20de nulhypothese wordt per abuis verworpen. Of niet vanwege de statistische ruis in de gegevenssteekproef. Gezien dit punt kan een kleine p-waarde waarbij de nulhypothese moet worden verworpen, betekenen dat deze onjuist is of dat er een fout is gemaakt. Als dit type fout wordt gemaakt, wordt het resultaat een vals positief genoemd. En zo'n fout is een fout van de eerste soort bij het testen van statistische hypothesen. Aan de andere kant, als de p-waarde groot genoeg is om verwerping van de nulhypothese te betekenen, kan dit betekenen dat deze waar is. Of is niet correct, en er heeft zich een onwaarschijnlijke gebeurtenis voorgedaan waardoor de fout is gemaakt. Dit type fout wordt een fout-negatief genoemd.
Kans op fouten
Bij het testen van statistische hypothesen is er nog steeds een kans op het maken van een van dit soort fouten. Valse gegevens of verkeerde conclusies zijn zeer waarschijnlijk. Idealiter wordt een significantieniveau gekozen dat de kans op een van deze fouten minimaliseert. Het statistisch testen van nulhypothesen kan bijvoorbeeld een zeer laag significantieniveau hebben. Hoewel significantieniveaus zoals 0,05 en 0,01 gebruikelijk zijn in veel wetenschapsgebieden, is het meest gebruikte significantieniveau 310^-7 of 0,0000003. Het wordt vaak "5-sigma" genoemd. Dit betekent dat de conclusie willekeurig was met een kans van 1 op 3,5 miljoen onafhankelijke herhalingen van de experimenten. Voorbeelden van het testen van statistische hypothesen bevatten vaak dergelijke fouten. Dit is ook de reden waarom het belangrijk is om onafhankelijke resultaten te hebben.verificatie.
Voorbeelden van het gebruik van statistische verificatie
Er zijn verschillende veelvoorkomende voorbeelden van het testen van hypothesen in de praktijk. Een van de meest populaire staat bekend als "Theeproeverij". Dr. Muriel Bristol, een collega van biometrie-oprichter Robert Fisher, beweerde met zekerheid te kunnen zeggen of het eerst aan een kopje thee of melk werd toegevoegd. Fisher bood aan om haar willekeurig acht kopjes (vier van elke variëteit) te geven. De teststatistiek was simpel: het tellen van het aantal successen bij het kiezen van een beker. Het kritieke gebied was het enige succes van 4, mogelijk gebaseerd op het gebruikelijke waarschijnlijkheidscriterium (< 5%; 1 op 70 1,4%). Fisher voerde aan dat een alternatieve hypothese niet vereist is. De dame identificeerde elk kopje correct, wat als een statistisch significant resultaat werd beschouwd. Deze ervaring leidde tot Fisher's boek Statistical Methods for Investors.
Beklaagde Voorbeeld
De statistische procesprocedure is vergelijkbaar met een strafrechter waar de verdachte voor onschuldig wordt gehouden totdat zijn schuld is bewezen. De officier van justitie probeert de schuld van de verdachte te bewijzen. Pas als er voldoende bewijs is voor een aanklacht, kan de verdachte schuldig worden bevonden. Aan het begin van de procedure zijn er twee hypothesen: "De verdachte is niet schuldig" en "De verdachte is schuldig." De hypothese van onschuld kan alleen worden verworpen als een fout zeer onwaarschijnlijk is omdat men een onschuldige verdachte niet wil veroordelen. Een dergelijke fout wordt een Type I-fout genoemd en het optreden ervanzelden gecontroleerd. Als gevolg van dit asymmetrische gedrag komt type II-fout, d.w.z. vrijspraak van de dader, vaker voor.
Statistieken zijn handig bij het analyseren van grote hoeveelheden gegevens. Dit geldt evenzeer voor het testen van hypothesen, die de conclusies kunnen rechtvaardigen, zelfs als er geen wetenschappelijke theorie bestaat. In het voorbeeld van een theeproeverij was het "duidelijk" dat er geen verschil was tussen melk in thee gieten of thee in melk gieten.
Echte praktische toepassing van hypothesetesten omvat:
- testen of mannen meer nachtmerries hebben dan vrouwen;
- document toeschrijving;
- De invloed van de volle maan op gedrag beoordelen;
- het bepalen van het bereik waarbinnen een vleermuis een insect kan detecteren met behulp van een echo;
- de beste manier kiezen om te stoppen met roken;
- Controleren of bumperstickers het gedrag van de autobezitter weerspiegelen.
Het testen van statistische hypothesen speelt een belangrijke rol in statistiek in het algemeen en bij statistische gevolgtrekking. Waardetesten worden gebruikt als vervanging voor de traditionele vergelijking van voorspelde waarde en experimenteel resultaat in de kern van de wetenschappelijke methode. Wanneer een theorie alleen in staat is het teken van een relatie te voorspellen, kunnen gerichte hypothesetoetsen zo worden geconfigureerd dat alleen een statistisch significant resultaat de theorie ondersteunt. Deze vorm van evaluatietheorie is de meest rigidekritiek op het gebruik van hypothesetesten.