Multivariate scaling (MDS) is een hulpmiddel om de mate van overeenkomst van individuele gevallen in een dataset te visualiseren. Het verwijst naar een reeks verwante ordinatiemethoden die worden gebruikt bij de visualisatie van informatie, met name om de informatie in een afstandsmatrix weer te geven. Dit is een vorm van niet-lineaire dimensionaliteitsreductie. Het MDS-algoritme heeft tot doel elk object zo in een N-dimensionale ruimte te plaatsen dat de afstanden tussen objecten zo goed mogelijk behouden blijven. Elk object krijgt vervolgens coördinaten toegewezen in elk van de N-dimensies.
Het aantal dimensies van de MDS-grafiek kan groter zijn dan 2 en wordt a priori gespecificeerd. Door N=2 te selecteren, wordt de objectplaatsing geoptimaliseerd voor de 2D-spreidingsgrafiek. U kunt voorbeelden van multidimensionale schaling zien in de afbeeldingen in het artikel. Voorbeelden met symbolen in het Russisch zijn bijzonder illustratief.
Essentie
Methode van multidimensionaal schalen (MMS,MDS) is een uitgebreide set van klassieke tools die de optimalisatieprocedure generaliseert voor een set verliesfuncties en invoermatrices van bekende afstanden met gewichten enzovoort. In deze context wordt een bruikbare verliesfunctie stress genoemd, die vaak wordt geminimaliseerd door een procedure die stress-majorisatie wordt genoemd.
Handleiding
Er zijn verschillende opties voor multidimensionaal schalen. MDS-programma's minimaliseren automatisch de belasting om een oplossing te krijgen. De kern van het niet-metrische MDS-algoritme is een tweeledig optimalisatieproces. Eerst moet de optimale monotone proximity-transformatie worden gevonden. Ten tweede moeten configuratiepunten optimaal worden gepositioneerd, zodat hun afstanden zo goed mogelijk overeenkomen met de geschaalde nabijheidswaarden.
Uitbreiding
Een uitbreiding van metrische multidimensionale schaling in statistieken waarbij de doelruimte een willekeurige gladde niet-euclidische ruimte is. Waar de verschillen afstanden op een oppervlak zijn en de doelruimte een ander oppervlak is. Met thematische programma's kunt u een bijlage vinden met minimale vervorming van het ene oppervlak in het andere.
Stappen
Er zijn verschillende stappen bij het uitvoeren van een onderzoek met behulp van multivariate schaling:
- Formulering van het probleem. Welke variabelen wil je vergelijken? Hoeveel variabelen wil je vergelijken? Met welk doel wordt het onderzoek gebruikt?
- Invoergegevens ophalen. Aan de respondenten wordt een reeks vragen gesteld. Voor elk paar producten wordt hen gevraagd de overeenkomst te beoordelen (meestal op een 7-punts Likertschaal van zeer vergelijkbaar tot zeer ongelijk). De eerste vraag kan bijvoorbeeld voor Coca-Cola/Pepsi zijn, de volgende voor bier, de volgende voor Dr. Pepper, enz. Het aantal vragen hangt af van het aantal merken.
Alternatieve benaderingen
Er zijn twee andere benaderingen. Er is een techniek genaamd "Perceptuele gegevens: afgeleide benadering" waarin producten worden ontleed in attributen en de evaluatie wordt gedaan op een semantische differentiële schaal. Een andere methode is de 'preferentiegegevensbenadering', waarbij respondenten worden gevraagd naar voorkeuren in plaats van naar overeenkomsten.
Het bestaat uit de volgende stappen:
- Lancering van het statistische programma MDS. Software voor het uitvoeren van de procedure is beschikbaar in veel statistische softwarepakketten. Er is vaak een keuze tussen metrische MDS (die zich bezighoudt met gegevens op interval- of verhoudingsniveau) en niet-metrische MDS (die zich bezighoudt met ordinale gegevens).
- Bepalen van het aantal metingen. De onderzoeker moet bepalen hoeveel metingen hij op de computer wil maken. Hoe meer metingen, hoe beter de statistische fit, maar hoe moeilijker het is om de resultaten te interpreteren.
- Resultaten weergeven en metingen definiëren - het statistische programma (of gerelateerde module) zal de resultaten weergeven. Op de kaart wordt elk product weergegeven (meestal in 2D).ruimte). De nabijheid van producten bij elkaar geeft hun overeenkomst of voorkeur aan, afhankelijk van welke benadering werd gebruikt. Hoe metingen werkelijk overeenkomen met metingen van systeemgedrag is echter niet altijd duidelijk. Een subjectief oordeel over conformiteit kan hier worden gemaakt.
- Controleer de resultaten op betrouwbaarheid en validiteit - bereken R-kwadraat om het aandeel geschaalde gegevensvariantie te bepalen dat kan worden verklaard door de MDS-procedure. Vierkant R 0,6 wordt beschouwd als het minimaal aanvaardbare niveau. R kwadraat 0,8 wordt als goed beschouwd voor metrische schaling, terwijl 0,9 als goed wordt beschouwd voor niet-metrische schaling.
Diverse testen
Andere mogelijke tests zijn stresstests van het Kruskal-type, gesplitste gegevenstests, gegevensstabiliteitstests en betrouwbaarheidstests voor hertesten. Schrijf in detail over de resultaten van de test. Samen met het in kaart brengen moet ten minste een maat voor afstand (bijv. Sorenson-index, Jaccard-index) en betrouwbaarheid (bijv. stresswaarde) worden gespecificeerd.
Het is ook zeer wenselijk om een algoritme te geven (bijv. Kruskal, Mather) dat vaak wordt bepaald door het gebruikte programma (soms ter vervanging van het algoritmerapport), als je een startconfiguratie hebt gegeven of een willekeurige keuze hebt gehad, nummer van dimensiereeksen, Monte Carlo-resultaten, aantal iteraties, stabiliteitsscore en proportionele variantie van elke as (r-kwadraat).
Visuele informatie en data-analysemethodemultidimensionaal schalen
Informatievisualisatie is de studie van interactieve (visuele) representaties van abstracte gegevens om de menselijke cognitie te verbeteren. Abstracte gegevens omvatten zowel numerieke als niet-numerieke gegevens, zoals tekstuele en geografische informatie. Informatievisualisatie verschilt echter van wetenschappelijke visualisatie: "het is informatief (informatievisualisatie) wanneer een ruimtelijke representatie wordt gekozen, en scivis (wetenschappelijke visualisatie) wanneer een ruimtelijke representatie wordt gegeven."
Het gebied van informatievisualisatie is voortgekomen uit onderzoek naar mens-computerinteractie, computerwetenschappelijke toepassingen, grafische afbeeldingen, visueel ontwerp, psychologie en bedrijfsmethoden. Het wordt steeds meer gebruikt als een essentieel onderdeel in wetenschappelijk onderzoek, digitale bibliotheken, datamining, financiële gegevens, marktonderzoek, productiecontrole, enzovoort.
Methoden en principes
Informatievisualisatie suggereert dat visualisatie- en interactiemethoden profiteren van de rijkdom van menselijke waarneming, waardoor gebruikers tegelijkertijd grote hoeveelheden informatie kunnen zien, verkennen en begrijpen. Informatievisualisatie is bedoeld om benaderingen te creëren voor het communiceren van abstracte gegevens, informatie op een intuïtieve manier.
Data-analyse is een integraal onderdeel van al het toegepaste onderzoek en het oplossen van problemen in de industrie. MeestDe fundamentele benaderingen van data-analyse zijn visualisatie (histogrammen, spreidingsgrafieken, oppervlakteplots, boomkaarten, parallelle coördinatenplots, enz.), Statistiek (hypothesetesten, regressie, PCA, enz.), gegevensanalyse (matching, enz.)..d.) en machine learning-methoden (clustering, classificatie, beslisbomen, enz.).
Van deze benaderingen is informatievisualisatie of visuele gegevensanalyse het meest afhankelijk van de cognitieve vaardigheden van de analytische staf en maakt het de ontdekking mogelijk van ongestructureerde bruikbare inzichten die alleen worden beperkt door menselijke verbeeldingskracht en creativiteit. Een analist hoeft geen complexe technieken te leren om datavisualisaties te kunnen interpreteren. Informatievisualisatie is ook een schema voor het genereren van hypothesen dat kan en gaat meestal gepaard met meer analytische of formele analyse, zoals het testen van statistische hypothesen.
Studeren
De moderne studie van visualisatie begon met computergraphics, die "vanaf het begin werd gebruikt om wetenschappelijke problemen te bestuderen. In de beginjaren beperkte het gebrek aan grafische kracht echter vaak het nut ervan. De prioriteit op visualisatie begon te ontwikkelen in 1987, met de release van speciale software voor Computer Graphics en Visualisatie in Scientific Computing. Sindsdien zijn er verschillende conferenties en workshops georganiseerd door de IEEE Computer Society en ACM SIGGRAPH".
Ze behandelden de algemene onderwerpen van datavisualisatie, informatievisualisatie en wetenschappelijke visualisatie,evenals meer specifieke gebieden zoals volumeweergave.
Samenvatting
Generalized Multidimensional Scaling (GMDS) is een uitbreiding van metrische multidimensionale schaling waarbij de doelruimte niet-Euclidisch is. Wanneer de verschillen afstanden op een oppervlak zijn en de doelruimte een ander oppervlak is, stelt GMDS u in staat de nesting van het ene oppervlak in het andere te vinden met minimale vervorming.
GMDS is een nieuwe onderzoekslijn. Momenteel zijn de belangrijkste toepassingen de herkenning van vervormbare objecten (bijvoorbeeld voor 3D-gezichtsherkenning) en texture mapping.
Het doel van multidimensionale schaling is om multidimensionale gegevens weer te geven. Multidimensionale gegevens, dat wil zeggen gegevens waarvoor meer dan twee of drie dimensies nodig zijn om weer te geven, kunnen moeilijk te interpreteren zijn. Een benadering van vereenvoudiging is om aan te nemen dat de van belang zijnde gegevens zich op een ingebed niet-lineair verdeelstuk in een hoogdimensionale ruimte bevinden. Als de collector een voldoende lage dimensie heeft, kunnen de gegevens worden gevisualiseerd in een laagdimensionale ruimte.
Veel van de niet-lineaire dimensionaliteitsreductiemethoden zijn gerelateerd aan lineaire methoden. Niet-lineaire methoden kunnen grofweg in twee groepen worden ingedeeld: methoden die in kaart brengen (ofwel van hoogdimensionale ruimte naar laagdimensionale inbedding, of vice versa), en methoden die eenvoudigweg visualisatie bieden. In de context van machine learning kunnen kaartmethoden worden gezien als:een voorstadium van feature-extractie, waarna patroonherkenningsalgoritmen worden toegepast. Meestal zijn degenen die alleen visualisaties geven gebaseerd op nabijheidsgegevens - d.w.z. afstandsmetingen. Multidimensionale schaalvergroting is ook heel gebruikelijk in de psychologie en andere geesteswetenschappen.
Als het aantal attributen groot is, dan is de ruimte van unieke mogelijke strings ook exponentieel groot. Dus hoe groter de afmeting, hoe moeilijker het wordt om de ruimte weer te geven. Dit zorgt voor veel problemen. Algoritmen die werken op hoog-dimensionale gegevens hebben over het algemeen een zeer hoge tijdscomplexiteit. Het reduceren van gegevens tot minder dimensies maakt analyse-algoritmen vaak efficiënter en kan machine learning-algoritmen helpen om nauwkeurigere voorspellingen te doen. Dit is de reden waarom multidimensionale gegevensschaling zo populair is.