Statistische informatie: verzameling, verwerking, analyse

Inhoudsopgave:

Statistische informatie: verzameling, verwerking, analyse
Statistische informatie: verzameling, verwerking, analyse
Anonim

In de geschiedenis van de statistiek zijn er verschillende pogingen gedaan om een taxonomie van meetniveaus te creëren. Psychofysicus Stanley Smith Stevens definieerde nominale, ordinale, interval- en proportionele schalen.

Nominale metingen hebben geen significante rangorde tussen waarden en staan elke één-op-één conversie toe.

Gewone dimensies hebben onnauwkeurige verschillen tussen opeenvolgende waarden, maar hebben een specifieke volgorde van die waarden en laten elke transformatie toe die de volgorde behoudt.

Intervalmetingen hebben betekenisvolle afstanden tussen punten, maar de nulwaarde is willekeurig (zoals in het geval van lengte- en temperatuurmetingen in Celsius of Fahrenheit) en maakt elke lineaire transformatie mogelijk.

Ratio-dimensies hebben zowel een betekenisvolle nulwaarde als afstanden tussen verschillende dimensies, en maken elke scha altransformatie mogelijk.

Image
Image

Variabelen en classificatie van informatie

Omdat de variabelendie alleen overeenkomen met nominale of ordinale metingen, kunnen redelijkerwijs niet numeriek worden gemeten en worden soms gegroepeerd als categorische variabelen. De verhoudings- en intervalmetingen zijn gegroepeerd als kwantitatieve variabelen, die vanwege hun numerieke karakter ofwel discreet of continu kunnen zijn. Dergelijke verschillen zijn vaak losjes gerelateerd aan het gegevenstype in de informatica, aangezien dichotome categorische variabelen kunnen worden weergegeven door booleaanse waarden, polytome categorische variabelen met willekeurige gehele getallen in een integraal gegevenstype en continue variabelen met echte componenten die drijvende-kommaberekening inhouden. Maar de weergave van statistische informatiegegevenstypen hangt af van welke classificatie wordt toegepast.

Statistische informatie over werknemers
Statistische informatie over werknemers

Andere classificaties

Er zijn ook andere classificaties van statistische gegevens (informatie) gemaakt. Zo maakten Mosteller en Tukey onderscheid tussen rangen, rangen, getelde aandelen, tellingen, bedragen en saldi. Nelder beschreef ooit continue tellingen, continue verhoudingen, correlatie van tellingen en categorische manieren om gegevens te communiceren. Al deze classificatiemethoden worden gebruikt bij het verzamelen van statistische informatie.

Problemen

De vraag of het gepast is om verschillende soorten statistische methoden toe te passen op gegevens die zijn verkregen via verschillende meet- (verzamel)procedures, wordt gecompliceerd door problemen met betrekking tot de conversie van variabelen en de precieze interpretatie van vragenOnderzoek. De relatie tussen gegevens en wat het beschrijft, weerspiegelt eenvoudigweg het feit dat bepaalde soorten statistische uitspraken waarheidswaarden kunnen hebben die niet invariant zijn onder bepaalde transformaties. Of de transformatie het overwegen waard is, hangt af van de vraag die je probeert te beantwoorden.

Een voorbeeld van statistische informatie
Een voorbeeld van statistische informatie

Wat is een gegevenstype

Het gegevenstype is een fundamenteel onderdeel van de semantische inhoud van een variabele en bepa alt welke soorten kansverdelingen logisch kunnen worden gebruikt om de variabele te beschrijven, de bewerkingen die erop zijn toegestaan, het type regressieanalyse dat wordt gebruikt om deze te voorspellen, enz. Het concept van een gegevenstype is vergelijkbaar op het concept van meetniveau, maar specifieker - datatellingen vereisen bijvoorbeeld een andere verdeling (Poisson of binomiaal) dan voor niet-negatieve reële waarden, maar beide vallen onder hetzelfde meetniveau (coëfficiëntschaal).

Statistische informatie over rechters
Statistische informatie over rechters

Schalen

Er zijn verschillende pogingen gedaan om een taxonomie van meetniveaus te maken voor het verwerken van statistische informatie. Psychofysicus Stanley Smith Stevens definieerde nominale, ordinale, interval- en proportionele schalen. Nominale metingen hebben geen significante rangorde tussen de waarden en laten een één-op-één conversie toe. Gewone metingen hebben onnauwkeurige verschillen tussen opeenvolgende waarden, maar verschillen in de significante volgorde van die waarden, en latenelke ordebehoudende transformatie. Intervalmetingen hebben betekenisvolle afstanden tussen metingen, maar de nulwaarde is willekeurig (zoals in het geval van lengte- en temperatuurmetingen in Celsius of Fahrenheit) en maakt elke lineaire transformatie mogelijk. Verhoudingsdimensies hebben zowel een betekenisvolle nulwaarde als afstanden tussen verschillende gedefinieerde dimensies, en maken elke scha altransformatie mogelijk.

Schemamodel
Schemamodel

Gegevens die niet met een enkel getal kunnen worden beschreven, worden vaak opgenomen in willekeurige vectoren van echte willekeurige variabelen, hoewel er een groeiende trend is om ze zelf te verwerken. Dergelijke voorbeelden zullen hieronder worden besproken.

Willekeurige vectoren

Individuele elementen kunnen al dan niet gecorreleerd zijn. Voorbeelden van verdelingen die worden gebruikt om gecorreleerde willekeurige vectoren te beschrijven, zijn de multivariate normale verdeling en de multivariate t-verdeling. Over het algemeen kunnen er willekeurige correlaties zijn tussen alle elementen, maar dit wordt vaak onhandelbaar boven een bepaalde grootte, waardoor extra beperkingen op de gecorreleerde componenten nodig zijn.

statistische attributen
statistische attributen

Willekeurige matrices

Willekeurige matrices kunnen lineair worden gerangschikt en worden behandeld als willekeurige vectoren, maar dit is misschien geen efficiënte manier om correlaties tussen verschillende elementen weer te geven. Sommige kansverdelingen zijn specifiek ontworpen voor willekeurige matrices, zoals de normale matrixdistributie en Wishart-distributie.

Willekeurige sequenties

Soms worden ze als hetzelfde beschouwd als willekeurige vectoren, maar in andere gevallen wordt de term specifiek toegepast op gevallen waarin elke willekeurige variabele alleen correleert met nabijgelegen variabelen (zoals in een Markov-model). Dit is een speciaal geval van het Bayesiaanse netwerk en wordt gebruikt voor zeer lange sequenties, zoals genketens of lange tekstdocumenten. Een aantal modellen is speciaal ontworpen voor dergelijke sequenties, zoals verborgen Markov-sequenties.

Typische grafiek
Typische grafiek

Willekeurige processen

Ze lijken op willekeurige reeksen, maar alleen wanneer de lengte van de reeks onbepaald of oneindig is en de elementen in de reeks één voor één worden verwerkt. Dit wordt vaak gebruikt voor gegevens die kunnen worden omschreven als tijdreeksen. Dit geldt bijvoorbeeld als het gaat om de koers van het aandeel de volgende dag.

Conclusie

De analyse van statistische informatie hangt volledig af van de kwaliteit van de verzameling. Dit laatste is op zijn beurt sterk gerelateerd aan de mogelijkheden van zijn classificatie. Natuurlijk zijn er veel soorten classificatie van statistische informatie, die de lezer zelf zou kunnen zien bij het lezen van dit artikel. Niettemin zullen de aanwezigheid van effectieve hulpmiddelen en een goede beheersing van wiskunde, evenals kennis op het gebied van sociologie, hun werk doen, zodat u elke enquête of studie kunt uitvoeren zonder significante correcties voor fouten. Bronnen van statistische informatie in het formuliermensen, organisaties en andere onderwerpen van de sociologie zijn gelukkig in overvloed vertegenwoordigd. En geen enkele moeilijkheid kan een echte ontdekkingsreiziger in de weg staan.

Aanbevolen: