Clusteringmethode: beschrijving, basisconcepten, applicatiefuncties

Inhoudsopgave:

Clusteringmethode: beschrijving, basisconcepten, applicatiefuncties
Clusteringmethode: beschrijving, basisconcepten, applicatiefuncties
Anonim

De clustermethode is de taak om een set objecten zo te groeperen dat ze in dezelfde groep meer op elkaar lijken dan op objecten in andere industrieën. Het is de primaire taak van datamining en een algemene statistische analysetechniek die op veel gebieden wordt gebruikt, waaronder machine learning, patroonherkenning, beeldherkenning, het ophalen van informatie, gegevenscompressie en computergraphics.

Optimalisatieprobleem

met behulp van de clustering methode
met behulp van de clustering methode

De clustermethode zelf is niet één specifiek algoritme, maar een algemene taak die moet worden opgelost. Dit kan worden bereikt met verschillende algoritmen die aanzienlijk verschillen in het begrijpen van wat een groep vormt en hoe deze efficiënt kan worden gevonden. Het gebruik van de clustermethode voor de vorming van metasubjecten omvat het gebruik van een groep metkleine afstanden tussen leden, dichte ruimtegebieden, intervallen of bepaalde statistische verdelingen. Daarom kan clustering worden geformuleerd als een optimalisatieprobleem met meerdere doelstellingen.

De juiste methode en parameterinstellingen (inclusief items zoals de te gebruiken afstandsfunctie, de dichtheidsdrempel of het aantal verwachte clusters) zijn afhankelijk van de individuele dataset en het beoogde gebruik van de resultaten. Analyse als zodanig is geen automatische taak, maar een iteratief proces van kennisontdekking of interactieve optimalisatie met meerdere doelstellingen. Deze clustermethode omvat pogingen met vallen en opstaan. Het is vaak nodig om de gegevensvoorverwerking en modelparameters te wijzigen totdat het resultaat de gewenste eigenschappen heeft.

Naast de term 'clustering' zijn er een aantal woorden met vergelijkbare betekenissen, waaronder automatische classificatie, numerieke taxonomie, bothryologie en typologische analyse. Subtiele verschillen liggen vaak in het gebruik van de clusteringmethode om metasubjectrelaties te vormen. Terwijl bij gegevensextractie de resulterende groepen van belang zijn, is het bij automatische classificatie al het discriminerende vermogen dat deze functies vervult.

Clusteranalyse was gebaseerd op talrijke werken van Kroeber in 1932. Het werd in 1938 door Zubin en in 1939 door Robert Tryon in de psychologie geïntroduceerd. En deze werken worden sinds 1943 door Cattell gebruikt om de classificatie van clusteringmethoden in theorie aan te geven.

Termijn

gebruikmethode
gebruikmethode

Het concept van "cluster" kan niet precies worden gedefinieerd. Dit is een van de redenen waarom er zoveel clusteringmethoden zijn. Er is een gemeenschappelijke noemer: een groep data-objecten. Verschillende onderzoekers gebruiken echter verschillende modellen. En elk van deze toepassingen van clusteringmethoden omvat verschillende gegevens. Het concept dat door verschillende algoritmen wordt gevonden, verschilt aanzienlijk in zijn eigenschappen.

Het gebruik van de clustermethode is de sleutel tot het begrijpen van de verschillen tussen de instructies. Typische clusterpatronen zijn onder meer:

  • Centroid s. Dit is bijvoorbeeld wanneer k-means clustering elke cluster vertegenwoordigt met één gemiddelde vector.
  • Connectiviteitsmodel s. Dit is bijvoorbeeld hiërarchische clustering, die modellen bouwt op basis van connectiviteit op afstand.
  • Distributiemodel s. In dit geval worden clusters gemodelleerd met behulp van de clustermethode om metasubject statistische distributies te vormen. Zoals multivariate normale scheiding, die van toepassing is op het verwachtingsmaximalisatie-algoritme.
  • Dichtheidsmodel s. Dit zijn bijvoorbeeld DBSCAN (Spatial Clustering Algorithm with Noise) en OPTICS (Order Points for Structure Detection), die clusters definiëren als verbonden dichte gebieden in de gegevensruimte.
  • Subruimtemodel c. Bij biclustering (ook bekend als co-clustering of twee modi) worden groepen gemodelleerd met beide elementen en met de juiste attributen.
  • Model s. Sommige algoritmen doen dat nietverfijnde relatie voor hun clusteringmethode om meta-subjectresultaten te genereren en eenvoudig informatiegroepering te bieden.
  • Model gebaseerd op grafiek s. Een kliek, dat wil zeggen een subset van knooppunten, zodanig dat elke twee verbindingen in het randdeel kan worden beschouwd als een prototype van de clustervorm. De verzwakking van de totale vraag staat bekend als quasi-kliekjes. Precies dezelfde naam wordt gepresenteerd in het HCS-clusteralgoritme.
  • Neurale modellen s. Het bekendste onbewaakte netwerk is de zelforganiserende kaart. En het zijn deze modellen die meestal kunnen worden gekarakteriseerd als vergelijkbaar met een of meer van de bovenstaande clusteringsmethoden voor de vorming van meta-subjectresultaten. Het omvat deelruimtesystemen wanneer neurale netwerken de noodzakelijke vorm van hoofd- of onafhankelijke componentanalyse implementeren.

Deze term is in feite een verzameling van dergelijke groepen, die gewoonlijk alle objecten in de verzameling methoden voor gegevensclustering bevatten. Daarnaast kan het de relatie van clusters tot elkaar aangeven, zoals een hiërarchie van in elkaar ingebouwde systemen. De groepering kan worden onderverdeeld in de volgende aspecten:

  • Harde zwaartepuntclustermethode. Hier hoort elk object bij een groep of staat er buiten.
  • Zacht of wazig systeem. Op dit punt behoort elk object tot op zekere hoogte al tot een cluster. Het wordt ook wel de c-means fuzzy clustering-methode genoemd.

En subtielere verschillen zijn ook mogelijk. Bijvoorbeeld:

  • Strikte partitionering clustering. Hierelk object behoort tot precies één groep.
  • Strikte partitionering van clustering met uitbijters. In dit geval kunnen objecten ook niet tot een cluster behoren en als onnodig worden beschouwd.
  • Overlappende clustering (ook alternatief, met meerdere weergaven). Hier kunnen objecten tot meer dan één tak behoren. Meestal met solide clusters.
  • Hiërarchische clusteringmethoden. Objecten die tot een onderliggende groep behoren, behoren ook tot het bovenliggende subsysteem.
  • Vorming van deelruimte. Hoewel ze vergelijkbaar zijn met overlappende clusters, mogen onderlinge groepen elkaar binnen een uniek gedefinieerd systeem niet overlappen.

Instructies

de clustermethode gebruiken om te vormen
de clustermethode gebruiken om te vormen

Zoals hierboven vermeld, kunnen clusteringalgoritmen worden geclassificeerd op basis van hun clustermodel. In de volgende bespreking worden alleen de meest prominente voorbeelden van deze instructies vermeld. Aangezien er mogelijk meer dan 100 gepubliceerde algoritmen zijn, bieden ze niet allemaal modellen voor hun clusters en kunnen ze daarom niet gemakkelijk worden geclassificeerd.

Er is geen objectief correct clusteringalgoritme. Maar, zoals hierboven opgemerkt, de instructie bevindt zich altijd in het gezichtsveld van de waarnemer. Het meest geschikte clusteralgoritme voor een bepaald probleem moet vaak experimenteel worden gekozen, tenzij er een wiskundige reden is om het ene model boven het andere te verkiezen. Opgemerkt moet worden dat een algoritme dat is ontworpen voor een enkel type meestal niet werkt met:een dataset die een radicaal ander onderwerp bevat. K-means kan bijvoorbeeld geen niet-convexe groepen vinden.

Op verbindingen gebaseerde clustering

clustering methode
clustering methode

Deze vakbond is ook bekend onder zijn naam, het hiërarchische model. Het is gebaseerd op het typische idee dat objecten meer verbonden zijn met aangrenzende delen dan met die veel verder weg. Deze algoritmen verbinden objecten en vormen verschillende clusters, afhankelijk van hun afstand. Een groep kan vooral worden beschreven door de maximale afstand die nodig is om de verschillende delen van het cluster met elkaar te verbinden. Op alle mogelijke afstanden zullen zich andere groepen vormen, die kunnen worden weergegeven met een dendrogram. Dit verklaart waar de algemene naam "hiërarchische clustering" vandaan komt. Dat wil zeggen, deze algoritmen bieden geen enkele partitie van de dataset, maar bieden in plaats daarvan een uitgebreide autoriteitsvolgorde. Het is aan hem te danken dat er op bepaalde afstanden een afvoer met elkaar is. In een dendrogram geeft de y-as de afstand aan waarop de clusters samenkomen. En de objecten zijn gerangschikt langs de X-lijn zodat de groepen niet vermengen.

Clustering op basis van verbindingen is een hele reeks methoden die verschillen in de manier waarop ze afstanden berekenen. Naast de gebruikelijke keuze van afstandsfuncties, moet de gebruiker ook beslissen over het verbindingscriterium. Omdat een cluster uit meerdere objecten bestaat, zijn er veel mogelijkheden om het te berekenen. Een populaire keuze staat bekend als groepering met één hendel, dit is de methodevolledige link, die UPGMA of WPGMA bevat (ongewogen of gewogen ensemble van paren met rekenkundig gemiddelde, ook bekend als mean link clustering). Bovendien kan het hiërarchische systeem agglomeratief zijn (beginnend met individuele elementen en deze combineren in groepen) of delen (beginnend met een volledige dataset en deze in secties verdelen).

Gedistribueerde clustering

clustering methode om te vormen
clustering methode om te vormen

Deze modellen zijn het meest verwant aan statistieken die zijn gebaseerd op splitsingen. Clusters kunnen eenvoudig worden gedefinieerd als objecten die hoogstwaarschijnlijk tot dezelfde distributie behoren. Een handig kenmerk van deze aanpak is dat het erg lijkt op de manier waarop kunstmatige datasets worden gemaakt. Door willekeurige objecten uit een distributie te samplen.

Hoewel de theoretische basis van deze methoden uitstekend is, hebben ze last van één belangrijk probleem, bekend als overfitting, tenzij er beperkingen worden opgelegd aan de complexiteit van het model. Een grotere associatie zal de gegevens meestal beter verklaren, waardoor het moeilijk is om de juiste methode te kiezen.

Gaussiaans mengselmodel

Deze methode gebruikt allerlei algoritmen voor het maximaliseren van verwachtingen. Hier wordt de dataset meestal gemodelleerd met een vast (om overschrijvend) aantal Gauss-distributies te voorkomen die willekeurig worden geïnitialiseerd en waarvan de parameters iteratief zijn geoptimaliseerd om beter bij de dataset te passen. Dit systeem zal convergeren naar een lokaal optimum. Daarom kunnen meerdere runs gevenverschillende resultaten. Om de kleinste clustering te krijgen, worden kenmerken vaak toegewezen aan de Gauss-verdeling waartoe ze waarschijnlijk behoren. En voor zachtere groepen is dit niet nodig.

Op distributie gebaseerde clustering creëert complexe modellen die uiteindelijk de correlatie en afhankelijkheid tussen attributen kunnen vastleggen. Deze algoritmen leggen echter een extra belasting op de gebruiker. Voor veel datasets uit de echte wereld is er mogelijk geen beknopt gedefinieerd wiskundig model (bijvoorbeeld aannemen dat een Gauss-verdeling een vrij sterke aanname is).

Dichtheid gebaseerde clustering

clustering om te vormen
clustering om te vormen

In dit voorbeeld worden de groepen in principe gedefinieerd als gebieden met een hogere ondoordringbaarheid dan de rest van de dataset. Objecten in deze zeldzame delen, die nodig zijn om alle componenten te scheiden, worden meestal beschouwd als ruis en randpunten.

De meest populaire op dichtheid gebaseerde clusteringmethode is DBSCAN (Spatial Noise Clustering Algorithm). In tegenstelling tot veel nieuwere methoden, heeft het een goed gedefinieerde clustercomponent die "bereikbaarheid van de dichtheid" wordt genoemd. Net als bij link-based clustering, is het gebaseerd op verbindingspunten binnen bepaalde afstandsdrempels. Deze methode verzamelt echter alleen die items die voldoen aan het dichtheidscriterium. In de originele versie, gedefinieerd als het minimum aantal andere objecten in deze straal, bestaat het cluster uit alledichtheidsgerelateerde items (die een vrije-vormgroep kunnen vormen, in tegenstelling tot veel andere methoden), en alle objecten die binnen het toegestane bereik vallen.

Een andere interessante eigenschap van DBSCAN is dat de complexiteit ervan vrij laag is - het vereist een lineair aantal bereikquery's tegen de database. En ook ongebruikelijk is dat het in elke run in wezen dezelfde resultaten zal vinden (dit is deterministisch voor kern- en ruispunten, maar niet voor grenselementen). Daarom is het niet nodig om het meerdere keren uit te voeren.

Het belangrijkste nadeel van DBSCAN en OPTICS is dat ze een zekere daling van de dichtheid verwachten om clustergrenzen te detecteren. In datasets met overlappende Gauss-verdelingen - een veelvoorkomend gebruik voor kunstmatige objecten - lijken de clustergrenzen die door deze algoritmen worden gegenereerd, vaak willekeurig. Dit gebeurt omdat de dichtheid van groepen steeds kleiner wordt. En in een Gaussiaanse mengdataset presteren deze algoritmen bijna altijd beter dan methoden zoals EM-clustering, die dit soort systemen nauwkeurig kunnen modelleren.

Gemiddelde verplaatsing is een clusterbenadering waarbij elk object naar het dichtste gebied in de buurt beweegt op basis van een schatting van de hele kern. Uiteindelijk convergeren de objecten naar lokale ondoordringbaarheidsmaxima. Net als bij k-means clustering, kunnen deze "density attractors" dienen als vertegenwoordigers voor een dataset. Maar de gemiddelde verschuivingkan willekeurig gevormde clusters detecteren die lijken op DBSCAN. Vanwege de dure iteratieve procedure en schatting van de dichtheid is de gemiddelde verplaatsing meestal langzamer dan DBSCAN of k-Means. Bovendien is de toepasbaarheid van het typische verschuivingsalgoritme op hoogdimensionale gegevens moeilijk vanwege het niet-uniforme gedrag van de schatting van de kerndichtheid, wat leidt tot overmatige fragmentatie van de clusterstaarten.

Beoordeling

clustermethode voor de vorming van metasubject
clustermethode voor de vorming van metasubject

Het verifiëren van clusterresultaten is net zo moeilijk als het clusteren zelf. Populaire benaderingen zijn onder meer "interne" scores (waarbij het systeem wordt teruggebracht tot één enkele kwaliteitsmaat) en, natuurlijk, "externe" scores (waarbij de clustering wordt vergeleken met een bestaande classificatie van de "grondwaarheid"). En de handmatige score en indirecte score van de menselijke expert worden gevonden door het nut van clustering in de beoogde toepassing te onderzoeken.

Interne vlagmaatregelen hebben het probleem dat ze kenmerken vertegenwoordigen die zelf als clusterdoelen kunnen worden beschouwd. Het is bijvoorbeeld mogelijk om gegevens te groeperen die worden gegeven door de Silhouette-coëfficiënt, behalve dat er geen efficiënt algoritme bekend is om dit te doen. Met behulp van zo'n interne maatstaf voor evaluatie, is het beter om de gelijkenis van optimalisatieproblemen te vergelijken.

De buitenste markering heeft vergelijkbare problemen. Als er zulke labels van "grondwaarheid" zijn, is het niet nodig om te clusteren. En in praktische toepassingen zijn er meestal geen dergelijke concepten. Aan de andere kant weerspiegelen de labels slechts één mogelijke partitie van de dataset, wat niet betekent:dat er geen andere (misschien zelfs betere) clustering is.

Dus geen van deze benaderingen kan uiteindelijk de werkelijke kwaliteit beoordelen. Maar dit vereist menselijke evaluatie, die zeer subjectief is. Niettemin kunnen dergelijke statistieken informatief zijn bij het identificeren van bad clusters. Maar men mag de subjectieve beoordeling van een persoon niet buiten beschouwing laten.

Binnenste merkteken

Wanneer het resultaat van een clustering wordt geëvalueerd op basis van gegevens die zelf zijn geclusterd, wordt dit deze term genoemd. Deze methoden wijzen over het algemeen het beste resultaat toe aan een algoritme dat groepen creëert met een hoge gelijkenis binnen en weinig tussen groepen. Een van de nadelen van het gebruik van interne criteria bij clusterevaluatie is dat hoge scores niet noodzakelijkerwijs leiden tot effectieve toepassingen voor het ophalen van informatie. Ook is deze score bevooroordeeld ten opzichte van algoritmen die hetzelfde model gebruiken. K-means clustering optimaliseert bijvoorbeeld op natuurlijke wijze de afstanden tussen objecten, en een intern criterium dat daarop is gebaseerd, zal waarschijnlijk de resulterende clustering overschatten.

Daarom zijn deze evaluatiemaatregelen het meest geschikt om een idee te krijgen van situaties waarin het ene algoritme beter presteert dan het andere. Maar dit betekent niet dat elke informatie betrouwbaardere resultaten geeft dan andere. De geldigheidsperiode die door een dergelijke index wordt gemeten, hangt af van de bewering dat de structuur in de dataset bestaat. Een voor sommige typen ontwikkeld algoritme heeft geen kans als de set radicaal bevatandere samenstelling of als de beoordeling verschillende criteria meet. K-means clustering kan bijvoorbeeld alleen convexe clusters vinden, en veel score-indices nemen hetzelfde formaat aan. In een dataset met niet-convexe modellen is het ongepast om k-means en typische evaluatiecriteria te gebruiken.

Externe evaluatie

Bij dit soort balling worden clusterresultaten geëvalueerd op basis van gegevens die niet zijn gebruikt voor groepering. Dat wil zeggen, zoals bekende klasselabels en externe tests. Dergelijke vragen bestaan uit een reeks vooraf geclassificeerde items en worden vaak gemaakt door experts (mensen). Als zodanig kunnen referentiekits worden gezien als de gouden standaard voor evaluatie. Dit soort scoremethoden meten hoe dicht de clustering bij bepaalde referentieklassen ligt. Onlangs is echter besproken of dit voldoende is voor echte gegevens of alleen voor synthetische sets met werkelijke grondwaarheid. Omdat klassen interne structuur kunnen bevatten en de bestaande attributen mogelijk geen scheiding van clusters toestaan. Ook vanuit het oogpunt van kennisontdekking levert het reproduceren van bekende feiten niet noodzakelijk het verwachte resultaat op. In een speciaal beperkt clusterscenario waarin meta-informatie (zoals klasselabels) al wordt gebruikt in het groeperingsproces, is het niet triviaal om alle informatie te bewaren voor evaluatiedoeleinden.

Nu is het duidelijk wat niet van toepassing is op clusteringmethoden en welke modellen hiervoor worden gebruikt.

Aanbevolen: