De aannames in statistische modellering beschrijven een reeks kansverdelingen, waarvan sommige verondersteld worden de verdeling adequaat te benaderen. Uit de definitie wordt een specifieke set gegevens geselecteerd. De kansverdelingen die inherent zijn aan statistische modellering, onderscheiden statistische modellen van andere, niet-statistische, wiskundige modellen.
Verbinding met wiskunde
Deze wetenschappelijke methode is voornamelijk geworteld in de wiskunde. Statistische modellering van systemen wordt meestal gegeven door wiskundige vergelijkingen die een of meer willekeurige variabelen en mogelijk andere niet-willekeurige variabelen met elkaar in verband brengen. Een statistisch model is dus een "formele representatie van een theorie" (Hermann Ader, die Kenneth Bollen citeert).
Alle statistische hypothesetoetsen en alle statistische schattingen zijn afgeleid van statistische modellen. Meer in het algemeen maken statistische modellen deel uit van de basis van statistische inferentie.
Statistische methodenmodelleren
Informeel kan een statistisch model worden gezien als een statistische aanname (of een reeks statistische aannames) met een bepaalde eigenschap: deze aanname stelt ons in staat om de waarschijnlijkheid van een gebeurtenis te berekenen. Beschouw als voorbeeld een paar gewone zeszijdige dobbelstenen. We zullen twee verschillende statistische veronderstellingen over het bot bestuderen.
De eerste statistische aanname vormt het statistische model, omdat we met slechts één aanname de waarschijnlijkheid van een gebeurtenis kunnen berekenen. De alternatieve statistische aanname vormt geen statistisch model, omdat we met slechts één aanname niet de waarschijnlijkheid van elke gebeurtenis kunnen berekenen.
In het bovenstaande voorbeeld met de eerste aanname is het gemakkelijk om de waarschijnlijkheid van een gebeurtenis te berekenen. In sommige andere voorbeelden kan de berekening echter complex of zelfs onpraktisch zijn (het kan bijvoorbeeld miljoenen jaren aan berekening vergen). Voor de aanname die een statistisch model vormt, is deze moeilijkheid acceptabel: het uitvoeren van de berekening hoeft niet praktisch haalbaar te zijn, alleen theoretisch mogelijk.
Voorbeelden van modellen
Stel dat we een populatie schoolkinderen hebben met gelijkmatig verdeelde kinderen. De lengte van een kind is stochastisch gerelateerd aan de leeftijd: als we bijvoorbeeld weten dat een kind 7 jaar oud is, heeft dit invloed op de kans dat het kind 5 voet lang wordt (ongeveer 152 cm). We zouden deze relatie kunnen formaliseren in een lineair regressiemodel, bijvoorbeeld: groei=b0 + b1agei+ εi, waarbij b0 het snijpunt is, b1 de parameter is waarmee de leeftijd wordt vermenigvuldigd bij het verkrijgen van de groeiprognose, εi is de foutterm. Dit houdt in dat de lengte wordt voorspeld door leeftijd met een foutje.
Een geldig model moet overeenkomen met alle gegevenspunten. Dus een rechte lijn (heighti=b0 + b1agei) kan geen vergelijking zijn voor een datamodel - tenzij het precies op alle datapunten past, d.w.z. alle datapunten liggen perfect op de lijn. De foutterm εi moet in de vergelijking worden opgenomen om het model op alle gegevenspunten te laten passen.
Om een statistische gevolgtrekking te maken, moeten we eerst enkele kansverdelingen voor εi aannemen. We kunnen bijvoorbeeld aannemen dat de verdelingen van εi Gaussiaans zijn, met een nulgemiddelde. In dit geval heeft het model 3 parameters: b0, b1 en de variantie van de Gauss-verdeling.
Algemene beschrijving
Een statistisch model is een speciale klasse van wiskundige modellen. Wat een statistisch model onderscheidt van andere wiskundige modellen is dat het niet-deterministisch is. Het wordt gebruikt om statistische gegevens te modelleren. In een statistisch model dat is gedefinieerd met wiskundige vergelijkingen, hebben sommige variabelen dus geen specifieke waarden, maar in plaats daarvan kansverdelingen; dat wil zeggen, sommige variabelen zijn stochastisch. In het bovenstaande voorbeeld is ε een stochastische variabele; zonder deze variabele was het modelzou deterministisch zijn.
Statistische modellen worden vaak gebruikt bij statistische analyse en modellering, zelfs als het fysieke proces dat wordt gemodelleerd deterministisch is. Zo is het opgooien van munten in principe een deterministisch proces; toch wordt het meestal als stochastisch gemodelleerd (via een Bernoulli-proces).
Parametrische modellen
Parametrische modellen zijn de meest gebruikte statistische modellen. Over semi-parametrische en niet-parametrische modellen zei Sir David Cox: "Ze bevatten over het algemeen minder aannames over de structuur en vorm van de verdeling, maar bevatten meestal sterke aannames over onafhankelijkheid." Net als alle andere genoemde modellen, worden ze ook vaak gebruikt in de statistische methode van wiskundige modellering.
Modellen met meerdere niveaus
Modellen met meerdere niveaus (ook bekend als hiërarchische lineaire modellen, geneste gegevensmodellen, gemengde modellen, willekeurige coëfficiënten, modellen voor willekeurige effecten, modellen met willekeurige parameters of gepartitioneerde modellen) zijn statistische parametermodellen die op meer dan één niveau variëren. Een voorbeeld is een prestatiemodel voor leerlingen dat zowel statistieken voor individuele leerlingen bevat als voor klaslokalen waarin leerlingen gegroepeerd zijn. Deze modellen kunnen worden gezien als generalisaties van lineaire modellen (in het bijzonder lineaire regressie), hoewel ze ook kunnen worden uitgebreid tot niet-lineaire modellen. Deze modellen zijn gewordenveel populairder zodra er voldoende rekenkracht en software beschikbaar kwam.
Modellen op meerdere niveaus zijn bijzonder geschikt voor onderzoeksprojecten waarbij gegevens voor deelnemers op meer dan één niveau zijn georganiseerd (dwz geneste gegevens). Analyse-eenheden zijn meestal individuen (op een lager niveau) die zijn genest binnen context/aggregatie-eenheden (op een hoger niveau). Hoewel het laagste gegevensniveau in modellen met meerdere niveaus doorgaans individueel is, kunnen herhaalde metingen van individuen ook worden overwogen. Modellen met meerdere niveaus bieden dus een alternatief type analyse voor univariate of multivariate analyse van herhaalde metingen. Individuele verschillen in groeicurves kunnen worden overwogen. Bovendien kunnen multilevel-modellen worden gebruikt als alternatief voor ANCOVA, waarbij de scores van afhankelijke variabelen worden aangepast voor covariabelen (bijv. individuele verschillen) voordat wordt getest op behandelingsverschillen. Modellen met meerdere niveaus kunnen deze experimenten analyseren zonder de aanname van uniforme regressiehellingen vereist door ANCOVA.
Modellen met meerdere niveaus kunnen worden gebruikt voor gegevens met veel niveaus, hoewel modellen met twee niveaus het meest voorkomen en de rest van dit artikel daarop is gericht. De afhankelijke variabele moet op het laagste analyseniveau worden onderzocht.
Modelselectie
Modelselectieis de taak van het selecteren uit een reeks kandidaat-modellen op basis van de gegevens, uitgevoerd in het kader van statistische modellering. In de eenvoudigste gevallen wordt gekeken naar een reeds bestaande dataset. De taak kan echter ook het ontwerpen van experimenten omvatten, zodat de verzamelde gegevens goed geschikt zijn voor de modelselectietaak. Gezien kandidaatmodellen met vergelijkbare voorspellende of verklarende kracht, is het eenvoudigste model waarschijnlijk de beste keuze (het scheermes van Occam).
Konishi & Kitagawa zegt: "De meeste statistische gevolgtrekkingsproblemen kunnen worden beschouwd als problemen die verband houden met statistische modellering." Evenzo zei Cox: "Hoe de vertaling van het onderwerp in het statistische model wordt gedaan, is vaak het belangrijkste onderdeel van de analyse."
Modelselectie kan ook verwijzen naar het probleem van het selecteren van een paar representatieve modellen uit een groot aantal rekenmodellen voor beslissings- of optimalisatiedoeleinden onder onzekerheid.
Grafische patronen
Grafisch model, of probabilistisch grafisch model, (PGM) of gestructureerd probabilistisch model, is een probabilistisch model waarvoor de grafiek de structuur uitdrukt van een voorwaardelijke relatie tussen willekeurige variabelen. Ze worden vaak gebruikt in kansrekening, statistiek (vooral Bayesiaanse statistiek) en machine learning.
Econometrische modellen
Econometrische modellen zijn statistische modellen die worden gebruikt ineconometrie. Een econometrisch model definieert de statistische relaties waarvan wordt aangenomen dat ze bestaan tussen verschillende economische grootheden die verband houden met een bepaald economisch fenomeen. Een econometrisch model kan worden afgeleid van een deterministisch economisch model dat rekening houdt met onzekerheid, of van een economisch model dat zelf stochastisch is. Het is echter ook mogelijk om econometrische modellen te gebruiken die niet gebonden zijn aan een bepaalde economische theorie.