Wat is corpuslinguïstiek?

Inhoudsopgave:

Wat is corpuslinguïstiek?
Wat is corpuslinguïstiek?
Anonim

Enkele decennia geleden konden wetenschappers alleen maar dromen van het automatiseren van taalkundig onderzoek. Het werk werd met de hand gedaan, er waren een groot aantal studenten bij betrokken, er was een grote kans op een "onoplettendheid" -fout en het belangrijkste was dat het allemaal veel, veel tijd kostte.

Met de ontwikkeling van computertechnologie werd het mogelijk om veel sneller onderzoek te doen, en tegenwoordig is een van de veelbelovende gebieden in de studie van taal de corpuslinguïstiek. Het belangrijkste kenmerk is het gebruik van grote hoeveelheden tekstuele informatie, geconsolideerd in een enkele database, op een speciale manier gemarkeerd en een corpus genoemd.

Tegenwoordig zijn er veel corpora gemaakt voor verschillende doeleinden, gebaseerd op ander taalmateriaal, van miljoenen tot tientallen miljarden lexicale eenheden. Deze richting wordt als veelbelovend erkend en laat aanzienlijke vooruitgang zien bij het bereiken van toegepaste en onderzoeksdoelen. Professionals die op de een of andere manier omgaan metnatuurlijke taal, is het raadzaam om op zijn minst op een basisniveau vertrouwd te raken met tekstcorpora.

Geschiedenis van de corpuslinguïstiek

De vorming van deze richting hangt samen met de oprichting van het Brown Corps in de VS in het begin van de jaren 60 van de vorige eeuw. De verzameling teksten bestond uit slechts 1 miljoen woordvormen, en vandaag de dag zou een corpus van zo'n volume totaal niet concurrerend zijn. Dit is grotendeels te wijten aan het tempo van de ontwikkeling van computertechnologie, evenals de groeiende vraag naar nieuwe onderzoeksbronnen.

In de jaren 90 werd de corpuslinguïstiek gevormd tot een volwaardige en onafhankelijke discipline, er werden verzamelingen teksten samengesteld en gemarkeerd voor enkele tientallen talen. Tijdens deze periode werd bijvoorbeeld het British National Corpus gemaakt voor 100 miljoen woordgebruiken.

corpuslinguïstiek
corpuslinguïstiek

Naarmate deze richting van de taalkunde zich ontwikkelt, wordt het tekstvolume groter (en bereikt het miljarden woordenschateenheden), en wordt de opmaak steeds diverser. Tegenwoordig kun je op internet corpora vinden van geschreven en mondelinge spraak, meertalig en educatief, gericht op fictie of academische literatuur, evenals vele andere varianten.

Welke gevallen zijn er

Corpustypen in de corpuslinguïstiek kunnen op verschillende manieren worden weergegeven. Het is intuïtief duidelijk dat de basis voor classificatie de taal van de teksten kan zijn (Russisch, Duits), toegangsmodus (open source, closed source, commercieel), genre van het bronmateriaal (fictieliteratuur, documentair, academisch, journalistiek).

methoden van corpuslinguïstiek
methoden van corpuslinguïstiek

Op een interessante manier wordt het genereren van materialen uitgevoerd die mondelinge spraak vertegenwoordigen. Aangezien het opzettelijk opnemen van dergelijke spraak kunstmatige omstandigheden voor de respondenten zou creëren en het resulterende materiaal niet "spontaan" kon worden genoemd, ging de moderne corpuslinguïstiek de andere kant op. De vrijwilliger is uitgerust met een microfoon en gedurende de dag worden alle gesprekken waaraan hij deelneemt opgenomen. De omringende mensen kunnen natuurlijk niet weten dat ze in de loop van een alledaags gesprek bijdragen aan de ontwikkeling van de wetenschap.

Later worden de ontvangen audio-opnamen opgeslagen in de databank en vergezeld van gedrukte tekst zoals een transcript. Op deze manier wordt de opmaak die nodig is om een corpus van gesproken alledaagse spraak te creëren mogelijk.

Toepassing

Waar het mogelijk is om taal te gebruiken, is het ook mogelijk om tekstcorpora te gebruiken. Het doel van het gebruik van corpusmethoden in de taalkunde kan zijn:

  • Het creëren van sentimentprogramma's die veel worden gebruikt in de politiek en het bedrijfsleven om positieve en negatieve feedback van respectievelijk kiezers en klanten te volgen.
  • Het informatiesysteem verbinden met woordenboeken en vertalers om hun prestaties te verbeteren.
  • Diverse onderzoekstaken die bijdragen aan het begrip van de structuur van de taal, de geschiedenis van zijn ontwikkeling en voorspellingen van zijn verandering in de nabije toekomst.
  • Ontwikkeling van informatie-extractiesystemen op basis van morfologische,syntactische, semantische en andere kenmerken.
  • Optimalisatie van het werk van verschillende taalsystemen, enz.

Shells gebruiken

De broninterface is vergelijkbaar met een typische zoekmachine en vraagt de gebruiker om een woord of een combinatie van woorden in te voeren om de infobase te doorzoeken. Naast het exacte aanvraagformulier kunt u de uitgebreide versie gebruiken, waarmee u tekstuele informatie kunt vinden op basis van bijna alle taalkundige criteria.

computer- en corpuslinguïstiek
computer- en corpuslinguïstiek

De basis voor het zoeken kan zijn:

  • behorend tot een bepaalde groep woordsoorten;
  • grammaticale kenmerken;
  • semantiek;
  • stilistische en emotionele kleuring.

Je kunt ook zoekcriteria combineren voor een reeks woorden: zoek bijvoorbeeld alle voorkomens van een werkwoord in de tegenwoordige tijd, eerste persoon, enkelvoud gevolgd door het voorzetsel "in" en een zelfstandig naamwoord in de accusatief. Het oplossen van zo'n eenvoudige taak kost de gebruiker een paar seconden en vereist slechts een paar muisklikken in de gegeven velden.

Creatieproces

De zoekopdracht zelf kan zowel in alle subcorpussen worden uitgevoerd als in één, specifiek geselecteerde, afhankelijk van de behoeften bij het bereiken van een specifiek doel:

  1. Allereerst wordt bepaald welke teksten de basis van het corpus gaan vormen. Voor praktische doeleinden worden vaak journalistiek, krantenmateriaal en internetcommentaren gebruikt. In onderzoeksprojecten worden de meesteverschillende soorten corpora, maar de teksten moeten op een gemeenschappelijke basis worden geselecteerd.
  2. De resulterende reeks teksten wordt voorbewerkt, eventuele fouten worden gecorrigeerd, er wordt een bibliografische en extralinguïstische beschrijving van de tekst opgesteld.
  3. Alle niet-tekstuele informatie wordt eruit gefilterd: afbeeldingen, afbeeldingen, tabellen worden verwijderd.
  4. Tokens, meestal woorden, worden toegewezen voor verdere verwerking.
  5. Ten slotte wordt de morfologische, syntactische en andere opmaak van de resulterende set elementen uitgevoerd.

Het resultaat van alle uitgevoerde bewerkingen is een syntactische structuur met een reeks elementen erover verdeeld, voor elk waarvan een woordsoort, grammaticale en, in sommige gevallen, semantische kenmerken zijn gedefinieerd.

Moeilijkheden bij het maken van cases

Het is belangrijk om te begrijpen dat om een corpus te krijgen, het niet voldoende is om veel woorden of zinnen samen te stellen. Enerzijds moet een verzameling teksten in evenwicht zijn, dat wil zeggen verschillende soorten teksten in bepaalde verhoudingen presenteren. Aan de andere kant moet de inhoud van de koffer op een speciale manier worden gemarkeerd.

Zakharov corpus taalkunde
Zakharov corpus taalkunde

Het eerste probleem wordt in overleg opgelost: de collectie omvat bijvoorbeeld 60% fictieteksten, 20% documentaires, een bepaald aandeel wordt besteed aan de schriftelijke presentatie van mondelinge spraak, wetgevingshandelingen, wetenschappelijke artikelen, enz. Het ideale recept voor een uitgebalanceerd corpus bestaat vandaag niet.

De tweede vraag over inhoudsmarkering is moeilijker op te lossen. Er zijn speciale programma's en algoritmen die worden gebruikt voor het automatisch markeren van teksten, maar deze geven geen 100% resultaat, kunnen fouten veroorzaken en vereisen handmatige verfijning. Mogelijkheden en problemen bij het oplossen van dit probleem worden in detail beschreven in het werk van V. P. Zakharov over corpuslinguïstiek.

Tekstopmaak wordt op verschillende niveaus uitgevoerd, die we hieronder zullen opsommen.

Morfologische opmaak

Vanaf de schoolbank herinneren we ons dat er in de Russische taal verschillende woordsoorten zijn, en elk van hen heeft zijn eigen kenmerken. Een werkwoord heeft bijvoorbeeld categorieën van stemming en tijd die een zelfstandig naamwoord niet heeft. Een moedertaalspreker wijst zelfstandige naamwoorden af en vervoegt werkwoorden zonder aarzeling, maar handenarbeid is niet geschikt om een corpus van 100 miljoen woordgebruiken te markeren. Alle noodzakelijke handelingen kunnen door een computer worden uitgevoerd, maar hiervoor moet deze worden aangeleerd.

Morfologische opmaak is nodig voor de computer om elk woord te "begrijpen" als een deel van de spraak met bepaalde grammaticale kenmerken. Aangezien een aantal reguliere regels in het Russisch (zoals in elke andere) taal functioneren, is het mogelijk om een automatische procedure voor morfologische analyse te bouwen door een aantal algoritmen in de machine te plaatsen. Er zijn echter uitzonderingen op de regel, evenals verschillende complicerende factoren. Als gevolg hiervan is pure computeranalyse tegenwoordig verre van ideaal, en zelfs 4% fouten geven een waarde van 4 miljoen woorden in een corpus van 100 miljoen eenheden, wat handmatige verfijning vereist.

Dit probleem wordt in detail beschreven door V. P. Zakharov's boek "Corpus Linguistics".

Syntactische opmaak

Syntactische analyse of parsing is een procedure die de relatie tussen woorden in een zin bepa alt. Met behulp van een reeks algoritmen wordt het mogelijk om het onderwerp, het predikaat, de toevoegingen en verschillende spraakgebruiken in de tekst te bepalen. Door uit te zoeken welke woorden in de reeks hoofd- en welke afhankelijk zijn, kunnen we efficiënt informatie uit de tekst halen en de machine trainen om alleen de informatie terug te geven waarin we geïnteresseerd zijn in antwoord op een zoekopdracht.

laboratoria voor corpuslinguïstiek aan Russische universiteiten
laboratoria voor corpuslinguïstiek aan Russische universiteiten

Trouwens, moderne zoekmachines gebruiken dit om specifieke cijfers te geven in plaats van lange teksten als antwoord op relevante vragen zoals: "hoeveel calorieën zitten er in een appel" of "afstand van Moskou tot St. Petersburg". Om echter zelfs de basis van het beschreven proces te begrijpen, moet u vertrouwd raken met de "Inleiding tot de corpuslinguïstiek" of een ander basisboek.

Semantische opmaak

De semantiek van een woord is, in eenvoudige bewoordingen, de betekenis ervan. Een breed toepasbare benadering in semantische analyse is het toekennen van tags aan een woord, wat aangeeft dat het behoort tot een reeks semantische categorieën en subcategorieën. Dergelijke informatie is waardevol voor het optimaliseren van algoritmen voor tekstsentimentanalyse, automatische verwijzingen en het uitvoeren van andere taken met behulp van corpuslinguïstische methoden.

Er zijn een aantal "wortels" van de boom, dit zijn abstracte woorden die hebbenzeer brede semantiek. Naarmate deze boom vertakt, worden knooppunten gevormd die steeds meer specifieke lexicale elementen bevatten. Het woord 'schepsel' kan bijvoorbeeld worden geassocieerd met begrippen als 'mens' en 'dier'. Het eerste woord zal zich blijven vertakken in verschillende beroepen, verwantschapsvoorwaarden, nationaliteit en het tweede - in klassen en soorten dieren.

Gebruik van systemen voor het ophalen van informatie

Toepassingsgebieden van corpuslinguïstiek bestrijken een breed scala aan activiteiten. Corpora worden gebruikt voor het samenstellen en corrigeren van woordenboeken, het maken van automatische vertaalsystemen, het samenvatten, extraheren van feiten, het bepalen van sentiment en andere tekstverwerking.

corpus taalkunde corpus typen
corpus taalkunde corpus typen

Bovendien worden dergelijke bronnen actief gebruikt bij de studie van de talen van de wereld en de mechanismen van het functioneren van de taal als geheel. Toegang tot grote hoeveelheden vooraf voorbereide informatie draagt bij aan de snelle en uitgebreide studie van trends in de ontwikkeling van talen, de vorming van neologismen en stabiele spraakwisselingen, veranderingen in de betekenissen van lexicale eenheden, enz.

Omdat het werken met zulke grote hoeveelheden gegevens automatisering vereist, is er tegenwoordig een nauwe interactie tussen computer- en corpuslinguïstiek.

Nationaal corpus van de Russische taal

Dit corpus (afgekort als NKRC) bevat een aantal subcorpussen waarmee de resource kan worden gebruikt om een breed scala aan taken op te lossen.

Materialen in de NCRA-database zijn onderverdeeld in:

  • over publicaties in de media van de jaren 90 en 2000jaar, zowel binnen- als buitenland;
  • opnames van mondelinge spraak;
  • accentologisch gemarkeerde teksten (d.w.z. met accenttekens);
  • dialect spraak;
  • poëtische werken;
  • materialen met syntactische opmaak, enz.

Het informatiesysteem omvat ook subcorpussen met parallelle vertalingen van werken uit het Russisch in het Engels, Duits, Frans en vele andere talen (en vice versa).

De database bevat ook een sectie met historische teksten die geschreven spraak in het Russisch vertegenwoordigen in verschillende perioden van zijn ontwikkeling. Er is ook een opleidingscorpus dat nuttig kan zijn voor buitenlandse burgers bij het beheersen van de Russische taal.

Het nationale corpus van de Russische taal omvat 400 miljoen lexicale eenheden en loopt in veel opzichten voor op een aanzienlijk deel van het corpora van Europese talen.

Vooruitzichten

Een feit om dit gebied als veelbelovend te erkennen, is de aanwezigheid van laboratoria voor corpuslinguïstiek aan zowel Russische als buitenlandse universiteiten. Met het gebruik en onderzoek in het kader van de beschouwde bronnen voor het ophalen van informatie, wordt de ontwikkeling van sommige gebieden op het gebied van geavanceerde technologieën, vraag-antwoordsystemen geassocieerd, maar dit werd hierboven besproken.

geschiedenis van de corpuslinguïstiek
geschiedenis van de corpuslinguïstiek

Verdere ontwikkeling van corpuslinguïstiek wordt op alle niveaus voorspeld, van technisch tot de introductie van nieuwe algoritmen die de processen voor het zoeken en verwerken van informatie optimaliseren, het uitbreiden van de mogelijkheden van computers, het vergroten van de operationelegeheugen, en eindigend met huishoudelijke, aangezien gebruikers steeds meer manieren vinden om dit soort hulpmiddelen in het dagelijks leven en op het werk te gebruiken.

Tot slot

In het midden van de vorige eeuw leek 2017 een verre toekomst, waarin ruimtevaartuigen over de uitgestrektheid van het heelal surfen en robots al het werk voor mensen doen. In werkelijkheid zit de wetenschap echter vol met "lege vlekken" en doet ze wanhopige pogingen om vragen te beantwoorden die de mensheid al eeuwenlang bezighouden. Vragen over het functioneren van de taal staan hier op de eerste plaats, en corpus- en computerlinguïstiek kunnen ons helpen deze te beantwoorden.

Door grote hoeveelheden gegevens te verwerken, kunt u patronen detecteren die voorheen ontoegankelijk waren, de ontwikkeling van bepaalde taalfuncties voorspellen en de vorming van woorden bijna in re altime volgen.

Op praktisch mondiaal niveau kan corpora bijvoorbeeld worden beschouwd als een potentieel hulpmiddel om het publieke sentiment te beoordelen - internet is een continu bijgewerkte database van verschillende teksten gemaakt door echte gebruikers: dit zijn opmerkingen, recensies, artikelen, en vele andere vormen van spraak.

Bovendien draagt het werken met corpora bij aan de ontwikkeling van dezelfde technische middelen die betrokken zijn bij het ophalen van informatie, die we kennen van Google- of Yandex-services, machinevertaling, elektronische woordenboeken.

Het is veilig om te zeggen dat de corpuslinguïstiek pas haar eerste stappen zet en zich in de nabije toekomst snel zal ontwikkelen.

Aanbevolen: