Een statistisch model is een wiskundige projectie die een reeks verschillende veronderstellingen belichaamt over het genereren van enkele voorbeeldgegevens. De term wordt vaak gepresenteerd in een veel geïdealiseerde vorm.
De veronderstellingen die in het statistische model zijn uitgedrukt, laten een reeks kansverdelingen zien. Veel daarvan zijn bedoeld om de verdeling waaruit een bepaalde set informatie wordt gehaald, correct te benaderen. De kansverdelingen die inherent zijn aan statistische modellen, onderscheiden de projectie van andere wiskundige modificaties.
Algemene projectie
Wiskundig model is een beschrijving van het systeem met behulp van bepaalde concepten en taal. Ze zijn van toepassing op de natuurwetenschappen (zoals natuurkunde, biologie, aardwetenschappen, scheikunde) en technische disciplines (zoals informatica, elektrotechniek), evenals de sociale wetenschappen (zoals economie, psychologie, sociologie, politieke wetenschappen).
Het model kan het systeem helpen verklaren enbestudeer de invloed van verschillende componenten en maak voorspellingen van gedrag.
Wiskundige modellen kunnen vele vormen aannemen, waaronder dynamische systemen, statistische projecties, differentiaalvergelijkingen of speltheoretische parameters. Deze en andere typen kunnen elkaar overlappen, en dit model bevat veel abstracte structuren. In het algemeen kunnen wiskundige projecties ook logische componenten bevatten. In veel gevallen hangt de kwaliteit van een wetenschappelijk veld af van hoe goed de theoretisch ontwikkelde wiskundige modellen overeenkomen met de resultaten van herhaalde experimenten. Gebrek aan overeenstemming tussen theoretische processen en experimentele metingen leidt vaak tot belangrijke vooruitgang naarmate er betere theorieën worden ontwikkeld.
In de natuurwetenschappen bevat het traditionele wiskundige model een groot aantal van de volgende elementen:
- Controlevergelijkingen.
- Extra submodellen.
- Definieer vergelijkingen.
- Constituentvergelijkingen.
- Aannames en beperkingen.
- Initiële en randvoorwaarden.
- Klassieke beperkingen en kinematische vergelijkingen.
Formule
Een statistisch model wordt in de regel bepaald door wiskundige vergelijkingen die een of meer willekeurige variabelen en mogelijk andere natuurlijk voorkomende variabelen combineren. Evenzo wordt projectie beschouwd als "het formele concept van een concept."
Alle statistische hypothesetests en statistische evaluaties worden verdiend met wiskundige modellen.
Inleiding
Informeel kan een statistisch model worden gezien als een aanname (of een reeks aannames) met een specifieke eigenschap: het stelt iemand in staat om de waarschijnlijkheid van een gebeurtenis te berekenen. Beschouw als voorbeeld een paar gewone zeszijdige dobbelstenen. Twee verschillende statistische veronderstellingen over het bot moeten worden onderzocht.
De eerste veronderstelling is:
Voor elk van de dobbelstenen is de kans om een van de getallen (1, 2, 3, 4, 5 en 6) te krijgen: 1/6.
Vanuit deze aanname kunnen we de kans op beide dobbelstenen berekenen: 1:1/6×1/6=1/36.
Meer in het algemeen kun je de kans op een gebeurtenis berekenen. Het moet echter duidelijk zijn dat het onmogelijk is om de waarschijnlijkheid van een andere niet-triviale gebeurtenis te berekenen.
Alleen de eerste mening verzamelt een statistisch wiskundig model: vanwege het feit dat het met slechts één veronderstelling mogelijk is om de waarschijnlijkheid van elke actie te bepalen.
In het bovenstaande voorbeeld met initiële toestemming is het gemakkelijk om de mogelijkheid van een evenement te bepalen. Met enkele andere voorbeelden kan de berekening moeilijk of zelfs onrealistisch zijn (er kan bijvoorbeeld vele jaren aan berekeningen voor nodig zijn). Voor een persoon die een statistisch analysemodel ontwerpt, wordt een dergelijke complexiteit als onaanvaardbaar beschouwd: de uitvoering van berekeningen zou niet praktisch onmogelijk en theoretisch onmogelijk moeten zijn.
Formele definitie
In wiskundige termen wordt het statistische model van een systeem meestal beschouwd als een paar (S, P), waarbij S isde verzameling mogelijke waarnemingen, d.w.z. de steekproefruimte, en P is de verzameling kansverdelingen op S.
De intuïtie van deze definitie is als volgt. Er wordt aangenomen dat er een "echte" kansverdeling is die wordt veroorzaakt door het proces dat bepaalde gegevens genereert.
Set
Hij is het die de parameters van het model bepa alt. Parametrering vereist over het algemeen verschillende waarden om te resulteren in verschillende distributies, d.w.z.
moet vasthouden (met andere woorden, het moet injectief zijn). Een parametrisering die aan de vereiste voldoet, wordt identificeerbaar genoemd.
Voorbeeld
Veronderstel dat er een aantal studenten zijn van verschillende leeftijden. De lengte van het kind zal stochastisch gerelateerd zijn aan het geboortejaar: als een schooljongen bijvoorbeeld 7 jaar oud is, heeft dit invloed op de kans op groei, alleen zodat de persoon groter wordt dan 3 centimeter.
Je kunt deze benadering formaliseren in een rechtlijnig regressiemodel, bijvoorbeeld als volgt: hoogte i=b 0 + b 1agei + εi, waarbij b 0 het snijpunt is, b 1 de parameter is waarmee de leeftijd wordt bepaald. vermenigvuldigd bij het verkrijgen van hoogtebewaking. Dit is een foutterm. Dat wil zeggen, het gaat ervan uit dat de lengte wordt voorspeld door leeftijd met een bepaalde fout.
Een geldig formulier moet overeenkomen met alle informatiepunten. De rechtlijnige richting (niveau i=b 0 + b 1agei) kan dus geen vergelijking zijn voor een gegevensmodel - als het niet absoluut alle punten duidelijk beantwoordt. D.w.zzonder uitzondering ligt alle informatie feilloos op de lijn. De foutmarge εi moet in de vergelijking worden ingevoerd, zodat het formulier absoluut overeenkomt met alle informatie-items.
Om een statistische gevolgtrekking te maken, moeten we eerst enkele kansverdelingen voor ε i aannemen. Men kan bijvoorbeeld aannemen dat de verdelingen van ε i een Gauss-vorm hebben met een nulgemiddelde. In dit geval heeft het model 3 parameters: b 0, b 1 en de variantie van de Gauss-verdeling.
U kunt het model formeel specificeren als (S, P).
In dit voorbeeld wordt het model gedefinieerd door S te specificeren en dus kunnen er enkele veronderstellingen worden gemaakt over P. Er zijn twee opties:
Deze groei kan worden benaderd door een lineaire functie van leeftijd;
Dat de fouten in de benadering worden verdeeld als binnen een Gaussiaans.
Algemene opmerkingen
Statistische parameters van modellen zijn een speciale klasse van wiskundige projectie. Wat maakt de ene soort anders dan de andere? Het statistische model is dus niet-deterministisch. Dus daarin hebben bepaalde variabelen, in tegenstelling tot wiskundige vergelijkingen, geen bepaalde waarden, maar in plaats daarvan een verdeling van mogelijkheden. Dat wil zeggen, individuele variabelen worden als stochastisch beschouwd. In het bovenstaande voorbeeld is ε een stochastische variabele. Zonder dit zou de projectie deterministisch zijn.
Het bouwen van een statistisch model wordt vaak gebruikt, zelfs als het materiële proces als deterministisch wordt beschouwd. Zo is het opgooien van munten in principe een vooraf bepaalde handeling. Dit wordt echter in de meeste gevallen nog steeds als stochastisch gemodelleerd (via een Bernoulli-proces).
Volgens Konishi en Kitagawa zijn er drie doelen voor een statistisch model:
- Voorspellingen.
- Informatiemining.
- Beschrijving van stochastische structuren.
Projectiegrootte
Veronderstel dat er een statistisch voorspellingsmodel is, Het model heet parametrisch als O een eindige dimensie heeft. In de oplossing moet je schrijven dat
waarbij k een positief geheel getal is (R staat voor alle reële getallen). Hier wordt k de afmeting van het model genoemd.
Als voorbeeld kunnen we aannemen dat alle gegevens afkomstig zijn van een univariate Gauss-verdeling:
In dit voorbeeld is de afmeting van k 2.
En als een ander voorbeeld kan worden aangenomen dat de gegevens bestaan uit (x, y) punten, waarvan wordt aangenomen dat ze in een rechte lijn zijn verdeeld met Gauss-residuen (met nulgemiddelde). Dan is de dimensie van het statistisch-economisch model gelijk aan 3: het snijpunt van de lijn, zijn helling en de variantie van de verdeling van residuen. Opgemerkt moet worden dat in de geometrie een rechte lijn een afmeting heeft van 1.
Hoewel de bovenstaande waarde technisch de enige parameter is met dimensie k, wordt er soms van uitgegaan dat deze k verschillende waarden bevat. Met een eendimensionale Gauss-verdeling is O bijvoorbeeld de enige parameter met een grootte van 2, maar wordt soms beschouwd als een parameter met tweeindividuele parameter - gemiddelde waarde en standaarddeviatie.
Een statistisch procesmodel is niet-parametrisch als de verzameling O-waarden oneindig-dimensionaal is. Het is ook semi-parametrisch als het zowel eindig-dimensionale als oneindig-dimensionale parameters heeft. Formeel, als k een dimensie is van O en n het aantal steekproeven is, hebben semi-parametrische en niet-parametrische modellen
dan is het model semi-parametrisch. Anders is de projectie niet-parametrisch.
Parametrische modellen zijn de meest gebruikte statistieken. Over semi-parametrische en niet-parametrische projecties zei Sir David Cox:
"Normaal gesproken bevatten ze de minste hypothesen over textuur en distributievorm, maar ze bevatten krachtige theorieën over zelfvoorziening."
Geneste modellen
Verwar ze niet met projecties op meerdere niveaus.
Twee statistische modellen zijn genest als de eerste kan worden geconverteerd naar de tweede door beperkingen op te leggen aan de parameters van de eerste. De verzameling van alle Gauss-verdelingen heeft bijvoorbeeld een geneste verzameling van nulgemiddelde verdelingen:
Dat wil zeggen, je moet het gemiddelde in de verzameling van alle Gauss-verdelingen beperken om verdelingen met een gemiddelde nul te krijgen. Als tweede voorbeeld heeft het kwadratische model y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) een ingebed lineair model y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - d.w.z. parameter b2 is gelijk aan 0.
In beide voorbeelden heeft het eerste model een hogere dimensionaliteit dan het tweede model. Dit is vaak, maar niet altijd het geval. Een ander voorbeeld is de verzameling Gauss-verdelingen met een positief gemiddelde, met dimensie 2.
Vergelijking van modellen
Er wordt aangenomen dat er een "echte" kansverdeling is die ten grondslag ligt aan de waargenomen gegevens die zijn geïnduceerd door het proces dat deze heeft gegenereerd.
En ook modellen kunnen met elkaar worden vergeleken, met behulp van verkennende analyse of bevestigend. In een verkennende analyse worden verschillende modellen geformuleerd en wordt beoordeeld hoe goed elk van hen de gegevens beschrijft. In een bevestigende analyse wordt de eerder geformuleerde hypothese vergeleken met de oorspronkelijke. Gebruikelijke criteria hiervoor zijn P 2, Bayesiaanse factor en relatieve waarschijnlijkheid.
Konishi en Kitagawa's gedachte
“De meeste problemen in een statistisch wiskundig model kunnen worden gezien als voorspellende vragen. Ze zijn meestal geformuleerd als vergelijkingen van verschillende factoren.”
Verder zei Sir David Cox: "Als vertaling van het onderwerp is het probleem in het statistische model vaak het belangrijkste onderdeel van de analyse."