Datamining is Concept, algoritmeanalyse, doel en toepassing

Inhoudsopgave:

Datamining is Concept, algoritmeanalyse, doel en toepassing
Datamining is Concept, algoritmeanalyse, doel en toepassing
Anonim

De ontwikkeling van informatietechnologie levert praktische resultaten op. Maar taken als het vinden, analyseren en gebruiken van informatie hebben nog geen effectief instrument van hoge kwaliteit gekregen. Er zijn analyse- en kwantitatieve tools, ze werken echt. Maar een kwalitatieve revolutie in het gebruik van informatie is er nog niet.

Lang voor de komst van computertechnologie moest een persoon grote hoeveelheden informatie verwerken en kon hij dit naar beste weten en beschikbare technische mogelijkheden aan.

De ontwikkeling van kennis en vaardigheden heeft altijd aan reële behoeften voldaan en beantwoordde aan de huidige taken. Datamining is een verzamelnaam die wordt gebruikt om te verwijzen naar een reeks methoden voor het ontdekken van voorheen onbekende, niet-triviale, praktisch bruikbare en toegankelijke kennis in gegevens, die nodig is voor het nemen van beslissingen op verschillende gebieden van menselijke activiteit.

Mens, intelligentie, programmering

Een persoon weet altijd hoe te handelen in elke situatie. Onwetendheid of een onbekende situatie weerhoudt hem er niet van om een beslissing te nemen. De objectiviteit en redelijkheid van elke menselijke beslissing kan in twijfel worden getrokken, maar zal worden geaccepteerd.

Intelligentie is gebaseerd op: erfelijk "mechanisme", verworven, actieve kennis. Kennis wordt toegepast om problemen op te lossen die zich voordoen voor een persoon.

  1. Intelligentie is een unieke verzameling kennis en vaardigheden: kansen en fundamenten voor menselijk leven en werk.
  2. Intelligentie evolueert voortdurend en menselijk handelen heeft invloed op andere mensen.

Programmeren is de eerste poging om de representatie van gegevens en het proces van het maken van algoritmen te formaliseren.

Man, intelligentie, programmering
Man, intelligentie, programmering

Kunstmatige intelligentie (AI) is een verspilling van tijd en middelen, maar de resultaten van mislukte pogingen van de vorige eeuw op het gebied van AI bleven in het geheugen, werden gebruikt in verschillende deskundige (intelligente) systemen en werden getransformeerd, in het bijzonder in algoritmen (regels) en wiskundige (logische) data-analyse en datamining.

Informatie en de gebruikelijke zoektocht naar een oplossing

Een gewone bibliotheek is een opslagplaats van kennis, en het gedrukte woord en de afbeeldingen hebben de computertechnologie nog niet overgeleverd. Boeken over natuurkunde, scheikunde, theoretische mechanica, design, natuurlijke historie, filosofie, natuurwetenschappen, plantkunde, leerboeken, monografieën, werken van wetenschappers, conferentiemateriaal, rapporten over ontwikkelingswerk, enz. zijn altijd relevant en betrouwbaar.

Bibliotheek is een heleboel verschillende bronnen die verschillenpresentatievorm van materiaal, herkomst, structuur, inhoud, presentatiestijl, etc.

Bibliotheek: boeken, tijdschriften en ander drukwerk
Bibliotheek: boeken, tijdschriften en ander drukwerk

Uiterlijk is alles zichtbaar (leesbaar, toegankelijk) voor begrip en gebruik. Je kunt elk probleem oplossen, de taak correct instellen, de oplossing rechtvaardigen, een essay of scriptie schrijven, materiaal voor een diploma selecteren, bronnen analyseren over het onderwerp van een proefschrift of een wetenschappelijk en analytisch rapport.

Elk informatieprobleem kan worden opgelost. Met de nodige doorzettingsvermogen en vaardigheid zal een nauwkeurig en betrouwbaar resultaat worden verkregen. In deze context is datamining een heel andere benadering.

Naast het resultaat ontvangt een persoon "actieve links" naar alles wat werd bekeken tijdens het bereiken van het doel. De bronnen die hij heeft gebruikt bij het oplossen van het probleem kunnen worden geraadpleegd en niemand zal het bestaan van de bron betwisten. Dit is geen garantie voor authenticiteit, maar het is een zeker getuigenis aan wie de verantwoordelijkheid voor authenticiteit is "uitgeschreven". Vanuit dit oogpunt betekent datamining grote twijfels over de betrouwbaarheid en geen "actieve" links.

Door verschillende problemen op te lossen, krijgt een persoon resultaten en breidt zijn intellectuele potentieel uit tot vele "actieve links". Als een nieuwe taak een reeds bestaande link "activeert", weet de persoon hoe deze op te lossen: het is niet nodig om opnieuw naar iets te zoeken.

"Actieve link" is een vaste associatie: hoe en wat te doen in een bepaald geval. Het menselijk brein onthoudt automatisch alles wat het potentieel interessant en nuttig lijkt.of in de toekomst nodig zal zijn. In veel opzichten gebeurt dit op een onbewust niveau, maar zodra zich een taak voordoet die kan worden geassocieerd met een "actieve link", komt deze onmiddellijk in het hoofd op en wordt een oplossing verkregen zonder extra zoeken naar informatie. Datamining is altijd een herhaling van het zoekalgoritme en dit algoritme verandert niet.

Regelmatig zoeken: "artistieke" problemen

Wiskundebibliotheek en het zoeken naar informatie daarin is een relatief zwakke taak. Het vinden van een of andere manier om een integraal op te lossen, een matrix te bouwen of de bewerking van het optellen van twee denkbeeldige getallen uit te voeren is arbeidsintensief, maar eenvoudig. Je moet een aantal boeken doorzoeken, waarvan er vele in een specifieke taal zijn geschreven, de juiste tekst vinden, bestuderen en de gewenste oplossing krijgen.

Na verloop van tijd zal het tellen vertrouwd worden, en de verzamelde ervaring stelt u in staat om door de bibliotheekinformatie en andere wiskundige problemen te navigeren. Dit is een beperkte informatieruimte met vragen en antwoorden. Kenmerkend: door zo'n zoektocht naar informatie wordt kennis verzameld om soortgelijke problemen op te lossen. Iemands zoektocht naar informatie laat sporen ("actieve links") in zijn geheugen achter over mogelijke oplossingen voor andere problemen.

Zoek in fictie het antwoord op de vraag: "Hoe leefden mensen in januari 1248?" heel moeilijk. Nog moeilijker is de vraag te beantwoorden wat er in de winkelrekken lag en hoe de levensmiddelenhandel was georganiseerd. Zelfs als een schrijver hier duidelijk en direct over schreef in zijn roman, als de naam van deze schrijver kon worden gevonden, dan twijfels overde betrouwbaarheid van de ontvangen gegevens blijft. Betrouwbaarheid is een essentieel kenmerk van elke hoeveelheid informatie. De bron, de auteur en het bewijs dat de onjuistheid van het resultaat uitsluit, zijn belangrijk.

Objectieve omstandigheden van een bepaalde situatie

De mens ziet, hoort, voelt. Sommige specialisten spreken vloeiend een uniek gevoel - intuïtie. De probleemstelling vereist informatie, het proces van het oplossen van het probleem gaat meestal gepaard met een verfijning van de probleemstelling. Dit is het minste probleem dat gepaard gaat met het verplaatsen van informatie naar de ingewanden van een computersysteem.

Informatie in de virtuele ruimte
Informatie in de virtuele ruimte

De bibliotheek en collega's zijn indirecte deelnemers aan het besluitvormingsproces. Het ontwerp van het boek (bron), de afbeeldingen in de tekst, de kenmerken van het splitsen van informatie in kopjes, voetnoten per zin, de onderwerpindex, de lijst met primaire bronnen - alles roept associaties op bij een persoon die indirect het proces van oplossen beïnvloeden het probleem.

De tijd en plaats van het oplossen van het probleem is essentieel. Een persoon is zo gearrangeerd dat hij onwillekeurig aandacht schenkt aan alles wat hem omringt tijdens het oplossen van een probleem. Het kan afleidend zijn, of het kan stimulerend zijn. Datamining zal het nooit "begrijpen".

Informatie in virtuele ruimte

Een persoon is altijd alleen geïnteresseerd geweest in betrouwbare informatie over een gebeurtenis, fenomeen, object of algoritme voor het oplossen van een probleem. De mens heeft zich altijd precies voorgesteld hoe hij het gewenste doel kan bereiken.

Het uiterlijk van computers en informatiesystemen had het leven van een persoon gemakkelijker moeten maken, maar alles is alleen maar ingewikkelder geworden. Informatie migreerde naar de ingewanden van computersystemen en verdween uit het zicht. Om de benodigde gegevens te selecteren, moet u een correct algoritme maken of een query naar de database formuleren.

Gegevens in het informatiesysteem
Gegevens in het informatiesysteem

De vraag moet correct zijn. Alleen dan kun je een antwoord krijgen. Maar er blijven twijfels over de authenticiteit. In die zin is datamining eigenlijk "opgravingen", het is "informatie-extractie". Dit is hoe het in de mode is om deze zin te vertalen. De Russische versie is datamining of dataminingtechnologie.

In het werk van gezaghebbende specialisten worden de taken van Data Mining als volgt aangegeven:

  • classificatie;
  • clustering;
  • vereniging;
  • reeks;
  • voorspelling.

Vanuit het oogpunt van de praktijk die een persoon begeleidt bij het handmatig verwerken van informatie, zijn al deze posities discutabel. In ieder geval verwerkt een persoon informatie automatisch en denkt hij niet na over het classificeren van gegevens, het samenstellen van thematische groepen objecten (clustering), het zoeken naar tijdelijke patronen (sequentie) of het voorspellen van het resultaat.

Al deze posities in de menselijke geest worden vertegenwoordigd door actieve kennis, die meer posities bestrijkt en dynamisch gebruik maakt van de logica van het verwerken van de initiële gegevens. Het onderbewustzijn van een persoon speelt een belangrijke rol, vooral wanneer hij een specialist is op een bepaald kennisgebied.

Voorbeeld: Groothandel in computerapparatuur

De taak is eenvoudig. Er zijn meerderetientallen leveranciers van computerapparatuur en randapparatuur. Elk heeft een prijslijst in xls-formaat (Excel-bestand), die kan worden gedownload van de officiële website van de leverancier. Het is vereist om een webresource te maken die Excel-bestanden leest, ze omzet in databasetabellen en klanten in staat stelt de gewenste producten tegen de laagste prijzen te selecteren.

Problemen ontstaan onmiddellijk. Elke leverancier biedt zijn eigen versie van de opbouw en inhoud van het xls-bestand aan. U kunt het bestand verkrijgen door het te downloaden van de website van de leverancier, het per e-mail te bestellen of een downloadlink te verkrijgen via uw persoonlijke account, dat wil zeggen door u officieel te registreren bij de leverancier.

Virtuele computerwinkel
Virtuele computerwinkel

De oplossing van het probleem (aan het begin) is technologisch eenvoudig. Bij het laden van bestanden (initiële gegevens), wordt voor elke leverancier een bestandsherkenningsalgoritme geschreven en worden de gegevens in één grote tabel met begingegevens geplaatst. Nadat alle gegevens zijn ontvangen, nadat het mechanisme van continu wisselen (dagelijks, wekelijks of bij wijziging) van nieuwe gegevens is ingesteld:

  • assortiment wijzigen;
  • prijswijzigingen;
  • verduidelijking van de hoeveelheid in voorraad;
  • aanpassing van garantievoorwaarden, specificaties, etc.

Hier beginnen de echte problemen. Het punt is dat de leverancier kan schrijven:

  • notebook Acer;
  • notebook Asus;
  • Dell-laptop.

We hebben het over hetzelfde product, maar van verschillende fabrikanten. Hoe koppel je notebook=laptop of hoe verwijder je Acer, Asus en Dell uit een productlijn?

Voorde mens is geen probleem, maar hoe zal het algoritme "begrijpen" dat Acer, Asus, Dell, Samsung, LG, HP, Sony handelsmerken of leveranciers zijn? Hoe koppelt u "printer" en printer, "scanner" en "MFP", "kopieerapparaat" en "MFP", "koptelefoon" aan "headset", "accessoires" aan "accessoires"?

Een categorieboom maken op basis van brongegevens (bronbestanden) is al een probleem als je alles op automatisch moet zetten.

Gegevensbemonstering: opgravingen van de "vers gegoten"

De taak om een database te maken van leveranciers van computerapparatuur is opgelost. Er is een boomstructuur met categorieën gebouwd, een gemeenschappelijke tabel met aanbiedingen van alle leveranciers functioneert.

Typische Data Mining-taken in de context van dit voorbeeld:

  • vind een product tegen de laagste prijs;
  • selecteer het item met de laagste verzendkosten en prijs;
  • productanalyse: kenmerken en prijzen op criteria.

In het echte werk van een manager die gegevens van enkele tientallen leveranciers gebruikt, zullen er veel variaties op deze taken zijn, en zelfs meer reële situaties.

Er is bijvoorbeeld een leverancier "A" die de ASUS VivoBook S15 verkoopt: vooruitbetaling, levering 5 dagen na de daadwerkelijke ontvangst van het geld. Er is een leverancier "B" van hetzelfde product van hetzelfde model: betaling bij ontvangst, levering na het sluiten van het contract binnen een dag, de prijs is anderhalf keer zo hoog.

Datamining begint - "opgravingen". Figuurlijke uitdrukkingen: "opgravingen" of "datamining" zijn synoniemen. Het gaat erom hoe je een reden krijgt om een beslissing te nemen.

Leveranciers "A" en "B" hebben een geschiedenis van leveringen. Cijfervooruitbetaling in het eerste geval tegen betaling bij ontvangst in het tweede geval rekening houdend met het feit dat de leveringsfout in het tweede geval 65% hoger is. Het risico op boetes van de opdrachtgever is hoger/lager. Hoe en wat te bepalen en welke beslissing te nemen?

Aan de andere kant: de database is gemaakt door een programmeur en een manager. Als de programmeur en manager zijn veranderd, hoe kan ik dan de huidige staat van de database bepalen en leren hoe deze correct te gebruiken? Je zult ook aan datamining moeten doen. Data Mining biedt een verscheidenheid aan wiskundige en logische methoden die er niet toe doen wat voor soort gegevens worden onderzocht. Dit geeft in sommige gevallen de juiste oplossing, maar niet in alle.

De virtualiteit ingaan en betekenis vinden

Datamining-methoden worden zinvol zodra de informatie in de database wordt geschreven en uit het "gezichtsveld" is verdwenen. Handelen in computerapparatuur is een interessante taak, maar het is gewoon een bedrijf. Hoe goed hij is georganiseerd in het bedrijf hangt af van het succes ervan.

Klimaatveranderingen op de planeet en het weer in een bepaalde stad zijn voor iedereen interessant, niet alleen voor professionele klimaatexperts. Duizenden sensoren meten wind, vochtigheid, druk, gegevens van kunstmatige aardsatellieten en er is een geschiedenis van gegevens voor jaren en eeuwen.

Weergegevens gaan niet alleen over beslissen of je een paraplu mee naar je werk neemt. Datamining-technologieën zijn de veilige vlucht van een vliegtuig, de stabiele werking van een snelweg en de betrouwbare bevoorrading van aardolieproducten over zee.

"Ruwe" gegevens worden naar de informatie gestuurdsysteem. De taken van Data Mining zijn om ze om te zetten in een gesystematiseerd systeem van tabellen, koppelingen tot stand te brengen, groepen homogene gegevens te markeren en patronen te detecteren.

Klimaat, weer en onbewerkte gegevens
Klimaat, weer en onbewerkte gegevens

Wiskundige en logische methoden sinds de dagen van kwantitatieve analyse OLAP (On-line Analytical Processing) hebben hun bruikbaarheid bewezen. Hier stelt technologie je in staat om betekenis te vinden en niet te verliezen, zoals in het voorbeeld van het verkopen van computerapparatuur.

Bovendien, in globale taken:

  • transnationale zaken;
  • luchtvervoersbeheer;
  • studie van de ingewanden van de aarde of sociale problemen (op staatsniveau);
  • onderzoek naar het effect van medicijnen op een levend organisme;
  • voorspellen van de gevolgen van de bouw van een industriële onderneming, enz.

Data Mine-technologieën en het omzetten van "zinloze" gegevens in echte gegevens waarmee u objectieve beslissingen kunt nemen, is de enige optie.

Menselijke mogelijkheden eindigen waar er een grote hoeveelheid ruwe informatie is. Dataminingsystemen verliezen hun bruikbaarheid waar het nodig is om informatie te zien, te begrijpen en te voelen.

Redelijke verdeling van functies en objectiviteit

Mens en computer moeten elkaar aanvullen - dit is een axioma. Het schrijven van een proefschrift is een prioriteit voor een persoon, en een informatiesysteem is een hulp. Hier zijn de gegevens die dataminingtechnologie heeft heuristieken, regels, algoritmen.

Het opstellen van een wekelijkse weersvoorspelling is de prioriteit van het informatiesysteem. De mens beheert de gegevens, maar baseert zijn beslissingen op de resultaten van de berekeningen van het systeem. Het combineert dataminingmethoden, gespecialiseerde gegevensclassificatie, handmatige controle van de toepassing van algoritmen, automatische vergelijking van gegevens uit het verleden, wiskundige voorspellingen en veel kennis en vaardigheden van echte mensen die betrokken zijn bij de toepassing van het informatiesysteem.

Mens en computer
Mens en computer

Kansrekening en wiskundige statistiek zijn niet de meest "favoriete" en begrijpelijke kennisgebieden. Veel specialisten staan er ver van verwijderd, maar de methoden die op deze gebieden zijn ontwikkeld, geven bijna 100% correcte resultaten. Door systemen toe te passen die gebaseerd zijn op de ideeën, methoden en algoritmen van Data Mining, kunnen oplossingen objectief en betrouwbaar worden verkregen. Anders is het gewoon onmogelijk om een oplossing te vinden.

Farao's en mysteries van de afgelopen eeuwen

Geschiedenis werd periodiek herschreven:

  • staten - omwille van hun strategische belangen;
  • gezaghebbende wetenschappers - omwille van hun subjectieve overtuigingen.

Het is moeilijk te zeggen wat waar is en wat niet. Het gebruik van Data Mining stelt ons in staat om dit probleem op te lossen. De technologie van het bouwen van piramides werd bijvoorbeeld beschreven door kroniekschrijvers en bestudeerd door wetenschappers in verschillende eeuwen. Niet alle materialen zijn op internet terechtgekomen, niet alles is hier uniek en veel gegevens hebben mogelijk niet:

  • beschreven tijdstip;
  • tijdstip van schrijven van de beschrijving;
  • data waarop de beschrijving is gebaseerd;
  • auteur(s), meningen (links) in aanmerking genomen;
  • bevestiging van objectiviteit.

Bbibliotheken, tempels en "onverwachte plaatsen" vind je manuscripten uit verschillende eeuwen en materieel bewijs uit het verleden.

Interessant doel: alles samenbrengen en de "waarheid" blootleggen. Kenmerk van het probleem: informatie kan worden verkregen vanaf de eerste beschrijving door een kroniekschrijver, tijdens het leven van de farao's, tot de huidige eeuw, waarin dit probleem door veel wetenschappers met moderne methoden wordt opgelost.

Rationale voor het gebruik van datamining: handenarbeid is niet mogelijk. Te veel hoeveelheden:

  • informatiebronnen;
  • representatietalen;
  • onderzoekers beschrijven hetzelfde op verschillende manieren;
  • data, evenementen en voorwaarden;
  • term correlatieproblemen;
  • analyse van statistieken door gegevensgroepen kan in de loop van de tijd verschillen, enz.

Aan het einde van de vorige eeuw, toen een ander fiasco van het idee van kunstmatige intelligentie duidelijk werd, niet alleen voor de leek, maar ook voor een geavanceerde specialist, verscheen het idee: "om de persoonlijkheid opnieuw te creëren".

Bijvoorbeeld, volgens de werken van Pushkin, Gogol, Tsjechov, wordt een bepaald systeem van regels, logica van gedrag gevormd en wordt een informatiesysteem gecreëerd dat bepaalde vragen kan beantwoorden zoals een persoon zou doen: Pushkin, Gogol of Tsjechov. Theoretisch is zo'n taak interessant, maar in de praktijk uiterst moeilijk uit te voeren.

Het idee van een dergelijke taak suggereert echter een zeer praktisch idee: "hoe maak je een intelligente zoekactie naar informatie." Het internet is veel ontwikkelingsbronnen, een enorme database en dit is een geweldige kans om datamining toe te passen in combinatie met mensenlogica in de vorm van gezamenlijke ontwikkeling.

Machine en mens samen
Machine en mens samen

Een machine en een man gekoppeld is een uitstekende taak en een onbetwist succes op het gebied van "informatie-archeologie", hoogwaardige opgravingen in gegevens en resultaten die iets in twijfel zullen trekken, maar u ongetwijfeld in staat zullen stellen om nieuwe kennis op te doen en er zal veel vraag naar zijn in de samenleving.

Aanbevolen: