Logistische regressie: model en methoden

Inhoudsopgave:

Logistische regressie: model en methoden
Logistische regressie: model en methoden
Anonim

Methoden van logistische regressie en discriminantanalyse worden gebruikt wanneer het nodig is om respondenten duidelijk te onderscheiden op doelcategorieën. In dit geval worden de groepen zelf weergegeven door niveaus van één enkele variantparameter. Laten we het logistische regressiemodel eens nader bekijken en uitzoeken waarom het nodig is.

logistische regressie
logistische regressie

Algemene informatie

Een voorbeeld van een probleem waarbij logistische regressie wordt gebruikt, is de indeling van respondenten in groepen die mosterd kopen en niet. Differentiatie vindt plaats op basis van sociaal-demografische kenmerken. Deze omvatten met name leeftijd, geslacht, aantal familieleden, inkomen, enz. In operaties zijn er differentiatiecriteria en een variabele. De laatste codeert de doelcategorieën waarin de respondenten eigenlijk moeten worden verdeeld.

Nuances

Het moet gezegd worden dat het bereik van gevallen waarin logistische regressie wordt toegepast veel kleiner is dan voor discriminantanalyse. In dit verband wordt het gebruik van de laatste als een universele methode van differentiatie overwogenmeer de voorkeur. Bovendien raden experts aan classificatiestudies te starten met discriminantanalyse. En alleen bij onzekerheid over de resultaten kun je logistische regressie gebruiken. Deze behoefte is te wijten aan verschillende factoren. Logistische regressie wordt gebruikt wanneer er een duidelijk begrip is van het type onafhankelijke en afhankelijke variabelen. Dienovereenkomstig wordt een van de 3 mogelijke procedures geselecteerd. Bij discriminantanalyse heeft de onderzoeker altijd te maken met één statische operatie. Het gaat om één afhankelijke en meerdere onafhankelijke categorische variabelen met elk type schaal.

Beelden

De taak van een statistisch onderzoek dat logistische regressie gebruikt, is om de waarschijnlijkheid te bepalen dat een bepaalde respondent aan een bepaalde groep wordt toegewezen. Differentiatie wordt uitgevoerd volgens bepaalde parameters. In de praktijk is het volgens de waarden van een of meer onafhankelijke factoren mogelijk om respondenten in te delen in twee groepen. In dit geval vindt binaire logistische regressie plaats. Ook kunnen de gespecificeerde parameters worden gebruikt bij het verdelen in groepen van meer dan twee. In een dergelijke situatie vindt multinomiale logistische regressie plaats. De resulterende groepen worden uitgedrukt in niveaus van een enkele variabele.

logistische regressie
logistische regressie

Voorbeeld

Laten we zeggen dat er antwoorden zijn van respondenten op de vraag of ze geïnteresseerd zijn in het aanbod om een stuk grond in de buitenwijken van Moskou te kopen. De opties zijn "nee"en ja. Het is noodzakelijk om erachter te komen welke factoren een overheersende invloed hebben op de beslissing van potentiële kopers. Om dit te doen, worden de respondenten vragen gesteld over de infrastructuur van het gebied, de afstand tot de hoofdstad, het gebied van de site, de aanwezigheid / afwezigheid van een woongebouw, enz. Met behulp van binaire regressie is het mogelijk om te distribueren de respondenten in twee groepen. De eerste omvat degenen die geïnteresseerd zijn in de overname - potentiële kopers, en de tweede respectievelijk degenen die niet geïnteresseerd zijn in een dergelijk aanbod. Voor elke respondent wordt bovendien de kans berekend om in een of andere categorie te worden ingedeeld.

Vergelijkende kenmerken

Het verschil met de twee bovenstaande opties is het verschillende aantal groepen en het type afhankelijke en onafhankelijke variabelen. Bij binaire regressie wordt bijvoorbeeld de afhankelijkheid van een dichotome factor van een of meer onafhankelijke condities bestudeerd. Bovendien kan de laatste elk type schaal hebben. Multinomiale regressie wordt beschouwd als een variatie op deze classificatieoptie. Daarin behoren meer dan 2 groepen tot de afhankelijke variabele. De onafhankelijke factoren moeten een ordinale of een nominale schaal hebben.

Logistieke regressie in spss

In het statistische pakket 11-12 werd een nieuwe versie van analyse geïntroduceerd - ordinaal. Deze methode wordt gebruikt wanneer de afhankelijke factor tot dezelfde naam (ordinale) schaal behoort. In dit geval worden onafhankelijke variabelen van één specifiek type geselecteerd. Ze moeten ordinaal of nominaal zijn. De indeling in verschillende categorieën wordt als de meest beschouwduniverseel. Deze methode kan worden gebruikt in alle onderzoeken die logistische regressie gebruiken. De enige manier om de kwaliteit van een model te verbeteren, is door alle drie de technieken te gebruiken.

toereikendheid kwaliteitscontrole en logistische regressie
toereikendheid kwaliteitscontrole en logistische regressie

Ordinale classificatie

Het moet gezegd worden dat er eerder in het statistische pakket geen typische mogelijkheid was om gespecialiseerde analyses uit te voeren voor afhankelijke factoren met een ordinale schaal. Voor alle variabelen met meer dan 2 groepen werd de multinominale variant gebruikt. De relatief recent geïntroduceerde ordinale analyse heeft een aantal kenmerken. Ze houden rekening met de bijzonderheden van de schaal. Ondertussen wordt ordinale logistische regressie in leermiddelen vaak niet als een aparte techniek beschouwd. Dit komt door het volgende: ordinale analyse heeft geen significante voordelen ten opzichte van multinomiale. De onderzoeker kan de laatste gebruiken in aanwezigheid van zowel een ordinale als een nominaal afhankelijke variabele. Tegelijkertijd verschillen de classificatieprocessen zelf bijna niet van elkaar. Dit betekent dat het uitvoeren van ordinale analyse geen problemen oplevert.

Analyse optie

Laten we een eenvoudig geval bekijken - binaire regressie. Stel dat in het proces van marktonderzoek de vraag naar afgestudeerden van een bepaalde grootstedelijke universiteit wordt beoordeeld. In de vragenlijst werden de respondenten vragen gesteld, waaronder:

  1. Bent u in loondienst? (ql).
  2. Voer het jaar van afstuderen in (q 21).
  3. Wat is het gemiddeldeafstudeerscore (gem).
  4. Geslacht (q22).

Logistische regressie evalueert de impact van onafhankelijke factoren aver, q 21 en q 22 op de variabele ql. Simpel gezegd, het doel van de analyse is om de waarschijnlijke tewerkstelling van afgestudeerden te bepalen op basis van informatie over het vakgebied, het jaar van afstuderen en GPA.

logistische sigmoïde regressie-indicator
logistische sigmoïde regressie-indicator

Logistische regressie

Om parameters in te stellen met behulp van binaire regressie, gebruikt u het menu Analyseren►Regressie►Binaire logistiek. Selecteer in het venster Logistieke regressie de afhankelijke factor uit de lijst met beschikbare variabelen aan de linkerkant. Het is ql. Deze variabele moet in het veld Afhankelijk worden geplaatst. Daarna is het noodzakelijk om onafhankelijke factoren in de Covariates-plot te introduceren - q 21, q 22, aver. Vervolgens moet u kiezen hoe u ze in uw analyse wilt opnemen. Als het aantal onafhankelijke factoren meer dan 2 is, wordt de methode van gelijktijdige introductie van alle variabelen, die standaard is ingesteld, gebruikt, maar stap voor stap. De meest populaire manier is Backward:LR. Met de knop Selecteren kunt u niet alle respondenten in het onderzoek opnemen, maar alleen een specifieke doelcategorie.

Definieer categorische variabelen

De knop Categorisch moet worden gebruikt als een van de onafhankelijke variabelen nominaal is met meer dan 2 categorieën. In deze situatie wordt in het venster Categorische variabelen definiëren precies zo'n parameter in de sectie Categorische covariabelen geplaatst. In dit voorbeeld is er geen dergelijke variabele. Daarna volgt in de vervolgkeuzelijst Contrastselecteer het item Afwijking en druk op de knop Wijzigen. Als resultaat zullen uit elke nominale factor meerdere afhankelijke variabelen worden gevormd. Hun aantal komt overeen met het aantal categorieën van de beginconditie.

Sla nieuwe variabelen op

Door de knop Opslaan in het hoofddialoogvenster van de studie te gebruiken, wordt het aanmaken van nieuwe parameters ingesteld. Ze zullen de indicatoren bevatten die in het regressieproces zijn berekend. In het bijzonder kunt u variabelen maken die het volgende definiëren:

  1. Behorend tot een specifieke classificatiecategorie (Groepslidmaatschap).
  2. Kans om een respondent toe te wijzen aan elke onderzoeksgroep (Kansen).

Bij gebruik van de knop Opties krijgt de onderzoeker geen noemenswaardige opties. Dienovereenkomstig kan het worden genegeerd. Nadat u op de knop "OK" hebt geklikt, worden de resultaten van de analyse weergegeven in het hoofdvenster.

logistische regressiecoëfficiënt
logistische regressiecoëfficiënt

Kwaliteitscontrole op toereikendheid en logistische regressie

Bekijk de tabel Omnibus-tests van modelcoëfficiënten. Het toont de resultaten van de analyse van de kwaliteit van de benadering van het model. Omdat er een stapsgewijze optie is ingesteld, moet je kijken naar de resultaten van de laatste fase (stap 2). Een positief resultaat zal worden overwogen als een toename van de Chi-kwadraat-indicator wordt gevonden bij het overgaan naar de volgende fase met een hoge mate van significantie (Sig. < 0,05). De kwaliteit van het model wordt beoordeeld in de Modelregel. Als een negatieve waarde wordt verkregen, maar deze niet als significant wordt beschouwd met de algehele hoge materialiteit van het model, is de laatstekan als praktisch geschikt worden beschouwd.

Tafels

Modelsamenvatting maakt het mogelijk om de totale variantie-index te schatten, die wordt beschreven door het geconstrueerde model (R Square-index). Het wordt aanbevolen om de Nagelker-waarde te gebruiken. De parameter Nagelkerke R Square kan als een positieve indicator worden beschouwd als deze hoger is dan 0,50. Daarna worden de resultaten van de classificatie geëvalueerd, waarbij de feitelijke indicatoren van het behoren tot een of andere onderzochte categorie worden vergeleken met die voorspeld op basis van het regressiemodel. Hiervoor wordt de Classificatietabel gebruikt. Het stelt ons ook in staat om conclusies te trekken over de juistheid van differentiatie voor elke groep in kwestie.

logistisch regressiemodel
logistisch regressiemodel

De volgende tabel biedt de mogelijkheid om de statistische significantie te achterhalen van de onafhankelijke factoren die in de analyse zijn ingevoerd, evenals van elke niet-gestandaardiseerde logistische regressiecoëfficiënt. Op basis van deze indicatoren is het mogelijk te voorspellen of elke respondent in de steekproef tot een bepaalde groep behoort. Met de knop Opslaan kunt u nieuwe variabelen invoeren. Ze zullen informatie bevatten over het behoren tot een bepaalde classificatiecategorie (Voorspelde categorie) en de kans om in deze groepen te worden opgenomen (Voorspelde waarschijnlijkheden lidmaatschap). Nadat u op "OK" hebt geklikt, verschijnen de berekeningsresultaten in het hoofdvenster van Multinomial Logistic Regression.

De eerste tabel, die indicatoren bevat die belangrijk zijn voor de onderzoeker, is Model Fitting Information. Een hoog niveau van statistische significantie zou duiden op hoge kwaliteit engeschiktheid van het gebruik van het model bij het oplossen van praktische problemen. Een andere belangrijke tabel is Pseudo R-Square. Hiermee kunt u het aandeel van de totale variantie in de afhankelijke factor schatten, die wordt bepaald door de onafhankelijke variabelen die voor analyse zijn geselecteerd. Volgens de tabel Likelihood Ratio Tests kunnen we conclusies trekken over de statistische significantie van deze laatste. Schattingen van parameters weerspiegelen niet-gestandaardiseerde coëfficiënten. Ze worden gebruikt bij de constructie van de vergelijking. Bovendien werd voor elke combinatie van variabelen de statistische significantie van hun impact op de afhankelijke factor bepaald. Ondertussen wordt het bij marktonderzoek vaak nodig om respondenten per categorie te differentiëren, niet individueel, maar als onderdeel van de doelgroep. Hiervoor wordt de tabel Waargenomen en voorspelde frequenties gebruikt.

Praktische toepassing

De weloverwogen analysemethode wordt veel gebruikt in het werk van handelaren. In 1991 werd de logistische sigmoïde regressie-indicator ontwikkeld. Het is een eenvoudig te gebruiken en effectief hulpmiddel om waarschijnlijke prijzen te voorspellen voordat ze "oververhit" raken. De indicator wordt op de kaart weergegeven als een kanaal gevormd door twee evenwijdige lijnen. Ze staan even ver van de trend af. De breedte van de gang is uitsluitend afhankelijk van het tijdsbestek. De indicator wordt gebruikt bij het werken met bijna alle activa - van valutaparen tot edele metalen.

logistische regressie in spss
logistische regressie in spss

In de praktijk zijn er 2 belangrijke strategieën voor het gebruik van het instrument ontwikkeld: voor doorbraak envoor een beurt. In het laatste geval zal de handelaar zich richten op de dynamiek van prijsveranderingen binnen het kanaal. Naarmate de waarde de steun- of weerstandslijn nadert, wordt er gewed op de waarschijnlijkheid dat de beweging in de tegenovergestelde richting zal beginnen. Als de prijs in de buurt van de bovengrens komt, kunt u het activum kwijtraken. Als het op de ondergrens is, moet u nadenken over kopen. De breakout-strategie omvat het gebruik van orders. Ze worden op relatief kleine afstand buiten de limieten geïnstalleerd. Rekening houdend met het feit dat de prijs in sommige gevallen deze voor een korte tijd schendt, moet u op veilig spelen en stop-loss instellen. Tegelijkertijd moet de handelaar natuurlijk, ongeacht de gekozen strategie, de situatie die zich op de markt heeft voorgedaan, zo kalm mogelijk waarnemen en evalueren.

Conclusie

Het gebruik van logistische regressie stelt u dus in staat om respondenten snel en gemakkelijk in categorieën in te delen op basis van de gegeven parameters. Bij het analyseren kunt u elke bepaalde methode gebruiken. In het bijzonder is multinomiale regressie universeel. Experts raden echter aan om alle hierboven beschreven methoden in combinatie te gebruiken. Dit komt doordat in dit geval de kwaliteit van het model aanzienlijk hoger zal zijn. Dit zal op zijn beurt het bereik van zijn toepassing uitbreiden.

Aanbevolen: