Frequentie tekstanalyse: functies en voorbeelden

Inhoudsopgave:

Frequentie tekstanalyse: functies en voorbeelden
Frequentie tekstanalyse: functies en voorbeelden
Anonim

Je bent dit concept meer dan eens in je leven tegengekomen als je met teksten moest werken. U kunt met name een beroep doen op online rekenmachines die exact de frequentieanalyse van de tekst uitvoeren. Deze handige tools laten zien hoe vaak een bepaald teken of letter voorkomt in een tekstpassage. Vaak wordt ook een percentage getoond. Waarom is dit nodig? Hoe draagt frequentieanalyse van tekst bij aan het "kraken" van eenvoudige cijfers? Wat is de essentie, wie heeft het uitgevonden? We zullen deze en andere belangrijke vragen over dit onderwerp in de loop van het artikel beantwoorden.

Definitie

Frequentieanalyse is een van de varianten van cryptanalyse. Het is gebaseerd op de veronderstelling van wetenschappers over het bestaan van een statistische niet-triviale verdeling van individuele karakters en hun regelmatige reeksen in zowel platte als cijfertekst.

Er wordt aangenomen dat een dergelijke distributie, tot aan de vervanging van individuele karakters, ook behouden zal blijven in de coderings-/decoderingsprocessen.

frequentieanalyse van systemen
frequentieanalyse van systemen

Proceskenmerk

Laten we nu eens kijken naar frequentieanalyse in eenvoudige bewoordingen. Dit houdt in dat het aantal keren dat hetzelfde alfabetische teken voorkomt in teksten van voldoende lengte hetzelfde is in verschillende teksten die in dezelfde taal zijn geschreven.

En hoe zit het nu met monoalfabetische codering? Er wordt aangenomen dat als er een karakter is met zo'n vergelijkbare waarschijnlijkheid van voorkomen in de sectie met versleutelde tekst, het realistisch is om aan te nemen dat het die versleutelde letter is.

Volgers van frequentietekstanalyse passen dezelfde redenering toe op digrammen (reeksen van twee letters). Trigrammen - dit is voor het geval van reeds polyalfabetische cijfers.

Geschiedenis van de methode

Frequentieanalyse van woorden is geen vondst van de moderniteit. Het is al sinds de 9e eeuw bekend in de wetenschappelijke wereld. De oprichting ervan wordt geassocieerd met de naam Al-Kindi.

Maar de bekende gevallen van toepassing van de methode van frequentieanalyse stammen uit een veel latere periode. Het meest opvallende voorbeeld hiervan is de ontcijfering van Egyptische hiërogliefen, geproduceerd in 1822 door J.-F. Champollion.

Als we ons tot fictie wenden, kunnen we veel interessante verwijzingen naar deze decoderingsmethode vinden:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Kinderen van Kapitein Grant".
  • Edgar Poe - "Gold Bug".

Sinds het midden van de vorige eeuw zijn de meeste algoritmen die bij encryptie worden gebruikt echter ontwikkeld rekening houdend met hun weerstand tegen dergelijke frequentiecryptanalyse. daarom is hettegenwoordig worden ze meestal alleen gebruikt voor het trainen van toekomstige cryptografen.

tekst frequentie analyse
tekst frequentie analyse

Basismethode

Laten we nu de frequentieresponsanalyse in detail presenteren. Dit soort analyse is direct gebaseerd op het feit dat de test uit woorden bestaat, en die op hun beurt weer uit letters. Het aantal letters dat de nationale alfabetten vult, is beperkt. Brieven kunnen hier eenvoudig worden vermeld.

De belangrijkste kenmerken van zo'n tekst zijn zowel de herhaling van letters, verschillende bigrams, trigrammen en n-grammen, als de compatibiliteit van verschillende letters met elkaar, de afwisseling van medeklinkers / klinkers en andere varianten van deze symbolen.

Het belangrijkste idee van de methoden is het tellen van mogelijke n-grammen (aangeduid met nm) in leesbare tekst, lang genoeg voor analyse (aangeduid met T=t1t2…tl) samengesteld uit letters van het nationale alfabet (aangegeven met {a1, a2, …, an}). Al het bovenstaande veroorzaakt enkele opeenvolgende m-grammen van de tekst:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Als dit het aantal keren is dat de m-gram ai1ai2…doel in een bepaalde tekst T, en L het totale aantal m-grammen is dat door de onderzoeker is geanalyseerd, dan is het mogelijk om empirisch vast te stellen dat voor voldoende grote L, zullen de frequenties voor zo'n m-gram weinig van elkaar verschillen.

frequentie analyse
frequentie analyse

Veel voorkomende letters van het Russische alfabet

Maar tijd-frequentieanalyse, ondanks de gelijkaardige naam, heeft niets te maken met het onderwerp van ons gesprek. Dit soort analyse wordt uitgevoerd voor:signalen van laag-waarneembare radarstations met behulp van een speciale wavelet-transformatie.

Laten we nu teruggaan naar het hoofdonderwerp. Wanneer u een frequentieanalyse uitvoert, kunt u erachter komen welke letters van het Russische alfabet het vaakst worden gevonden in vrij omvangrijke teksten (percentage van 0,062 tot 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Er is zelfs een speciale geheugensteun ingevoerd, die helpt om de meest voorkomende letters van het Russische alfabet te leren. Om dit te doen, volstaat het om slechts één woord te onthouden - "hooizolder".

In algemene gevallen wordt de frequentie van het gebruik van letters in procenten eenvoudig ingesteld: de specialist telt hoe vaak de letter in de tekst voorkomt en deelt vervolgens de resulterende waarde door het totale aantal tekens in de tekst. En om deze waarde als een percentage uit te drukken, volstaat het om het met 100 te vermenigvuldigen.

Het is belangrijk om te bedenken dat de frequentie niet alleen afhangt van het volume van de tekst, maar ook van de aard ervan. In technische bronnen komt de letter "F" bijvoorbeeld veel vaker voor dan in fictie. Daarom moet een specialist voor objectieve resultaten teksten van verschillende aard en stijl typen voor onderzoek.

programma's voor het analyseren van tekstfrequenties
programma's voor het analyseren van tekstfrequenties

Bi-, tri-, vier gram

In betekenisvolle teksten vind je ook de meest voorkomende (respectievelijk de meest)herhaalde) combinaties van twee of meer letters. Specialisten hebben ook verschillende tabellen samengesteld, die de frequenties van vergelijkbare digrammen van verschillende alfabetten aangeven.

Wat het Russisch betreft, maakte de frequentieanalyse van systemen van omvangrijke betekenisvolle teksten het mogelijk om de meest voorkomende bigrams en trigrammen vast te stellen:

  • EN.
  • ST.
  • MAAR.
  • NIET.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NIEUW
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Voorkeursrelaties van brieven met elkaar

En dit zijn niet alle mogelijkheden die frequentieanalyse tekstonderzoekers kan bieden. Door informatie uit vergelijkbare tabellen van bigrams en trigrammen te systematiseren, is het mogelijk om gegevens over de meest voorkomende lettercombinaties te extraheren. Of, met andere woorden, hun voorkeursrelaties met elkaar.

Zo'n uitgebreide studie is al uitgevoerd door experts. Het resultaat was een tabel waarin, samen met elke letter van het alfabet, de buren werden aangegeven. Bovendien die karakters die er vaak zowel direct ervoor als erna te vinden zijn. De letters in de tabel zijn niet toevallig gespeld. Dichter bij het symbool worden de meest voorkomende buren aangegeven, verder - meer zeldzame.

Overweeg voorbeelden:

  • Letter "A". Hierbij worden de volgende voorkeursverbindingen onderscheiden: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Vanaf hier zien we dat er meestal vóór "A" in de teksten "H" ("NA") staat. En na "A" kunnen we in teksten in het Russisch meestal "L" ontmoeten("AL").
  • Letter "M". Deskundigen hebben dergelijke voorkeursverbindingen geïdentificeerd: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Letter "b". Voorkeursverbindingen zijn als volgt: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Letter "Sh". Voorkeursverbindingen: "e-b-a-i-u-Sch-e-i-a".
  • Letter "P". Voorkeursverbindingen met dit symbool van het Russische alfabet: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
tijd-frequentie analyse
tijd-frequentie analyse

Wat definieert analyse?

Moderne tekstanalyseprogramma's voor frequenties helpen bij het bestuderen van grote volumes van een grote verscheidenheid aan artikelen, essays, passages, enzovoort. De volgende informatie wordt standaard aan de onderzoeker verstrekt:

  • Totaal aantal tekens in de tekst.
  • Aantal spaties gebruikt door de auteur.
  • Aantal cijfers.
  • Informatie over gebruikte leestekens - punten, komma's, enz.
  • Het aantal letters in elk van de beschikbare alfabetten - Cyrillisch, Latijn, enz.
  • Informatie over de frequentie van het gebruik van elke letter en elk symbool in de tekst - het aantal vermeldingen en percentage vergeleken met de hele tekst.

Strijd tegen overoptimalisatie en oververzadiging

Waarom wordt tekstfrequentie-analyse uitgevoerd? Is het puur uit nieuwsgierigheid - om vast te stellen welke karakters in de geschreven tekst vaak voorkomen? Nee, de belangrijkste toepassing van analyse is praktisch en ligt ergens anders.

N-grammen omvatten niet alleen stabiele bigrams en trigrammen. Naar dezelfdecategorieën omvatten trefwoorden (tags), collocaties. Dat wil zeggen, stabiele combinaties die uit twee of meer woorden bestaan. Ze onderscheiden zich doordat dergelijke composities samen in de tekst voorkomen en tegelijkertijd een zekere semantische lading dragen.

Dit speelt gewetenloze SEO-specialisten in de kaart. In hun werk maken ze soms misbruik van de herhaling van tags en trefwoorden in de tekst om de relevantie van een bepaalde webpagina kunstmatig te vergroten. Ze proberen het systeem te misleiden met zo'n "truc": een natuurlijke combinatie met de gebruikelijke combinatie van woorden, traditioneel voor de Russische taal ("koop een nertsmantel") veranderen in een inconsistente. Dat wil zeggen, verkregen door woorden te herschikken in zo'n natuurlijk N-gram ("koop een nertsmantel").

Maar vandaag hebben zoekalgoritmen geleerd om overoptimalisatie net zo effectief te detecteren als overspam - oververzadiging van tekst met trefwoorden, tags die de rangschikking van resultaten op de zoekpagina beïnvloeden. Over-geoptimaliseerde pagina's worden nu daarentegen lager gerangschikt op basis van de zoekopdracht van de gebruiker. En mensen zelf hebben niet de neiging om betekenisloze, oververzadigde tekst met tags te lezen, en geven de voorkeur aan nuttige informatie over een andere bron.

frequentie analyse methode
frequentie analyse methode

Helpen bij privéanalyse voor SEO-specialisten

Zo geven moderne tekstfilters van zoekmachines tegenwoordig de voorkeur aan die internetpagina's, waarvan de informatie niet alleen gemakkelijk te lezen is, maar ook nuttig voor bezoekers. Om hun werk te optimaliseren voor nieuwe standaarden, SEO-specialistenen ga naar de frequentieanalyse van de tekst. Veel populaire diensten bieden het vandaag de dag aan.

Frequentieanalyse helpt om de tekst die wordt voorbereid voor publicatie te beoordelen op informatiefheid. Elimineer onnodige redundantie van tags en sleutelzinnen. Het stelt je ook in staat om de aandacht van de auteur te vestigen op onnatuurlijke combinaties van woorden die argwaan wekken in de tekstfilters van zoekmachines.

frequentieresponsanalyse
frequentieresponsanalyse

Frequentieanalyse van de tekst helpt dus om te bepalen hoe vaak een bepaald personage in de bron wordt vermeld. De methode wordt tegenwoordig gebruikt om tekstoverbelasting met tags, onnatuurlijke permutaties van woorden te beoordelen.

Aanbevolen: