FormacijaFakulteti i univerziteti

Što je Corpus Linguistics?

Samo prije nekoliko decenija za automatizaciju lingvistička istraživanja, naučnici su mogli samo sanjati. Rad je učinjeno ručno, privlači veliki broj studenata, postoji velika vjerovatnoća "nemarni" greške, i što je najvažnije - sve to je dugo, dugo vremena.

Sa razvojem kompjuterske tehnologije postalo je moguće da sprovede istraživanje na red veličine brže, a danas jedan od najperspektivnijih pravaca u istraživanju jezika je korpus lingvistike. Njegova glavna značajka je upotreba velikih količina tekstualnih informacija, informacija u jedinstvenu bazu podataka, na poseban način i pod nazivom označenu tijelo.

Do danas, postoje mnoge građevine nastale različite namjene na temelju različitih lingvističkih materijala u rasponu od milione desetine milijardi leksičke jedinice. Ovaj pravac je prepoznata kao obećavajući i pokazuje značajan napredak ka aplikacija i istraživačke svrhe. Stručnjaci, ovaj ili onaj način bavljenja prirodnog jezika, preporučuje se da se upoznaju sa telom tekstova barem na osnovnom nivou.

History of corpus lingvistike

Formiranje ovog trenda je zbog stvaranja Sjedinjenih Američkih Država u Brown tijelo u ranim 60-ih godina prošlog stoljeća. Zbirka sadrži tekstove svih 1 milion oblika riječi, i danas tijelo ove veličine bi biti potpuno nekonkurentna. To je uglavnom zbog tempo razvoja kompjuterske tehnologije, kao i sve veće zahtjeve za nova istraživanja resursa.

U 90-korpusu lingvistike pojavila u potpuno i samostalna disciplina, izvučeni su zbirka tekstova i označeni za desetine jezika. U tom periodu je nastala, na primjer, britanski nacionalni korpus 100 milijuna tokena.

Sa razvojem ovog područja lingvistike, volumena tekst postaju sve više i više (i do milijarde rječnika jedinica), a raspored postaje raznovrsniji. Do danas, internet prostor može se naći trupla pisani i govorni jezik, višejezično, i učenje orijentisane umjetničke ili akademskoj literaturi, kao i mnoge druge vrste.

Koji su stambeni

tipovi tijela u lingvistici tijelo može dobiti iz nekoliko razloga. Intuitivno, osnova za klasifikaciju može biti tekst jezika (ruski, njemački), pristup režim (open source, zatvorena, komercijalne), žanr izvornog materijala (fikcija, dokumentarni, akademski, novinarstvo).

Zanimljiv način stvara materijala govorni jezik. Od namjerno snimanje takvih govora da se stvori umjetni okruženje za ispitanika, a rezultirajući materijal nije mogao biti pod nazivom "spontani", moderni korpus lingvistika je otišao na drugu stranu. Volonter je opremljen sa mikrofonom, a tokom dana proizvela rekordnih svih razgovora, u kojima učestvuje. Ljudi oko, naravno, ne može znati da je u toku svakodnevnog razgovora doprinosi razvoju nauke.

Kasnije dobio rekordnih pohranjene u bazi podataka i praćeni su štampani tip prijepis teksta. Na taj način, postaje moguće markup potrebne za stvaranje usmene svakodnevno stanovanje govor.

aplikacija

Kad god je to moguće, upotreba jezika, a možda i korištenje objekata tekstova. Metode za primjenu trupa u lingvistici mogu biti:

  • Kreiranje programa utvrđivanje ključnih, je naširoko koristi u politici i biznisu pratiti pozitivne i negativne reakcije birača i kupcima, odnosno.
  • Povezivanje informacionog sistema rječnika i prevodilaca da poboljšaju svoje performanse.
  • Mnoštvo istraživačkih zadataka koji doprinose razumijevanju jezika jedinice, istorija njegovog razvoja i predviđanje promjena u bliskoj budućnosti.
  • Razvoj pronalaženje informacija sistema zasnovanih na morfološke, sintaktičke, semantičke i druge funkcije.
  • Optimizacija različitih lingvističkih sistema i drugi.

Korištenje objekata

sličan resurs sučelje sa tipičnim tražilicu, i traži od korisnika da unese riječ ili kombinacija riječi za traženje informacija baze. Osim čine točne upit mogu koristiti poboljšanu verziju, koja omogućava da tekstualne informacije na bilo kojoj lingvističke kriterije.

pretraživanje baze mogu biti:

  • pripadnosti određenoj grupi dijelova govora;
  • gramatičke karakteristike;
  • semantike;
  • stilski i emocionalne boje.

Također se možete kombinirati kriterije pretrage za niz riječi, na primjer, da sve pojave glagola u sadašnjem vremenu, prvom licu jednine, koji dolazi nakon što je prijedlog "u" i imenica u akuzativu. Rješenje za takav jednostavan zadatak vodi korisnika nekoliko sekundi i zahtijeva samo nekoliko klikova mišem u navedenoj oblasti.

Proces stvaranja

Sama pretraživanje se može izvršiti na svim subcorpus i jedan posebno birane, u zavisnosti od potreba za postizanje određenog cilja:

  1. Prvi korak je definisanje koji tekstovi čine osnovu za slučaj. Iz praktičnih razloga, on se često koristi novinarske, vesti, online komentare. Projekat istraživanja je korištenje širokog spektra vrsta paketa, ali tekst treba odabrati prema nekim zajednički jezik.
  2. Rezultirajući kolekcija tekstova podvrgnuti predtretman, tu je korekcija grešaka, ako ih ima, koji je pripremio bibliografskih i ekstra-lingvistički opis teksta.
  3. Je ispao sve ne-tekstualne informacije: Briše grafike, slike, tabele.
  4. Je dodjela tokena, koji su obično govor, za dalju obradu.
  5. Na kraju, to obavlja morfološke, sintaktički i druge oznake dobiti pluralitet elemenata.

Rezultat svih transakcija izvršenih od strane sintaktičke strukture sa distribuiranim njemu mnoštvo elemenata, od kojih je svaka identifikovana dijelu govora, gramatičke i, u nekim slučajevima, semantički atribute.

Poteškoće u kreiranju zgradama

Važno je shvatiti da nije dovoljno da sastavim skup riječi ili rečenica za tijelo. S jedne strane, zbirka tekstova treba biti uravnotežen, to jest, predstavljaju različite vrste tekstova u određenim proporcijama. S druge - sadržaja kućište treba razmaknuti na poseban način.

Prvi problem je riješen sporazumom: na primjer, u kolekciji uključuje 60% od književnih tekstova, 20% dokumentaraca, određeni postotak se daje pisani prikaz govornog jezika, zakonodavstvo, naučnih radova, itd danas savršen recept uravnotežena tijelo ne postoji ...

Drugo pitanje, koje se odnose na raspored sadržaja, riješiti izazov. Postoje posebne programe i algoritme koji se koriste za automatsko obilježavanje tekstova, ali oni ne daju savršen rezultat, može uzrokovati poremećaje i zahtijevaju upotrebu dorade. Mogućnostima i izazovima u rješavanju ovog problema su detaljno opisani u članku V. P. Zaharova od korpusa lingvistike.

Tekst markup se provodi na nekoliko nivoa, koji navodimo u nastavku.

morfološke označavanje

Iz škole, pamtimo da je u ruskom jeziku, postoje različite dijelove govora, i svaki od njih ima svoje karakteristike. Na primjer, glagol ima kategorijama nagib i vremena u kojem ne imenica. izvorni govornik bez oklijevanja opada imenice i konjugovano glagoli, ali povodom tijelo od 100 miliona. žetona ručnog rada neće raditi. Sve potrebne operacije mogu izvršiti na računalu, međutim, za to je potrebno da se uči.

Morfološki označavanje, računar mora "shvatiti" svaka riječ kao određeni dio govora koji imaju određene gramatičke karakteristike. S obzirom da je ruski (i bilo koji drugi jezik) i čitav niz redovnih pravila, moguće je da se izgradi automatski postupak za morfološku analizu, ulaganje u auto za veliki broj algoritama. Međutim, postoje izuzeci od pravila, kao i razne komplikacije faktora. Kao rezultat toga, neto kompjuterske analize danas je daleko od idealnog, pa čak i 4% greška daje vrijednosti od 4 milijuna kuna. Riječi na tijelu od 100 miliona. Jedinice, zahtijeva upotrebu dorade.

Detaljan knjizi opisuje problem Zaharova V. P. "Corpus Linguistics".

sintaktičke označavanje

Raščlanjivanje ili raščlanjivanje - postupak koji određuje odnos riječi u rečenici. Koristeći skup algoritama je moguće utvrditi tekst subjekta, predikat, dodaci, više skretanja govora. Saznali koje riječi su glavnog niza, i koji - zavisna, možemo efikasno izvući informacije iz teksta i da predaju mašinu za izdavanje u odgovor na zahtjev pretraživanje samo informacije nas zanimljivo.

Usput, moderni tražilice koriste ovaj dati konkretne brojeve umjesto dugih tekstova kao odgovor na relevantne upite kao što su "koliko kalorija u jabuku" ili "udaljenost od Moskve do Sankt Peterburga." Međutim, da shvate čak osnove procesa opisao potrebu da se konsultuje "Uvod u Corpus Linguistics" ili drugih osnovnih tutorial.

semantičko označavanje

Semantiku riječi - je, jednostavno rečeno, značenje. Široko primjenjuju pristup semantička analiza reči atribucije tagove, što odražava njegov pripadaju skup semantičkih kategorija i podkategorija. Takve informacije su vrijedne za optimizaciju algoritama analizirati tekst ton, automatsko rezimiranje i druge poslove metode korpusa lingvistike.

Postoji veliki broj "root" stabla, što predstavlja apstraktna riječ sa vrlo širokom semantike. Kako se formira ogranak stabla čvorova, koji sadrži sve više i više specifičnih leksički elemenata. Na primjer, riječ "stvorenje" može biti povezan sa takvim pojmovima kao "živi" i "životinja". Prva riječ će nastaviti da se grana u različitim profesijama, termini srodstvo, nacionalnost, a drugi - na klase i vrste životinja.

Korištenje pronalaženje informacija sistema

Područja korištenja korpusa lingvistike pokrivaju različitim poljima djelovanja. Kućišta se koriste za pripremu i korekciju rječnika, stvoriti automatizovan prevođenje sistema, označavanje, preuzimanjem činjenice, određivanje ton i drugi za obradu teksta.

Osim toga, takva sredstva se aktivno koriste u istraživanju svjetskih jezika i mehanizme funkcioniranja jezika u cjelini. Pristup velike količine pripremljene informacije olakšava brzu i sveobuhvatnu studiju o trendovima razvoja jezika i promjene stabilna formiranje neologizmi brzine govora vrijednosti leksičke jedinice i drugi.

Budući da je rad sa takvim velike količine podataka zahtijeva automatizaciju, danas je u neposrednoj blizini interakcija između računara i korpus lingvistike.

Ruski nacionalni korpus

Ovaj slučaj (skraćeno NKRYA) uključuje niz subcorpus, omogućuje korištenje resursa za raznovrsne zadatke.

Materijala u bazi podataka su podijeljene NKRYA:

  • publikacijama u 90-ih i 2000-ih medija ', kako domaćih tako i stranih;
  • snimanje govora;
  • aktsentologicheski označena tekstova (i.e., oznake stresa);
  • dijalekt govor;
  • poezija;
  • Materijala sa sintaktičke i druge oznake.

Informacioni sistem također uključuje Subcorpus sa paralelnim prevode djela iz ruskog na engleski, njemački, francuski i mnoge druge jezike (i obrnuto).

Također u bazi podataka postoji odjeljak istorijskih tekstova, koji predstavlja pisani govor na ruskom u različitim periodima svog razvoja. Tu je i tijelo za obuku, što može biti korisno za strane državljane u savladavanju ruskom jeziku.

Ruski nacionalni korpus sastoji od 400 miliona leksičke jedinice, i na mnogo načina uoči značajan dio jezika tijela Evrope.

perspektive

Zapravo u korist priznavanja ovog trenda je dostupnost obećavajući laboratorija korpusa lingvistike na ruskom univerzitetima, kao i strani. Uz upotrebu i istraživanja u okviru ove informacije i pretraživanje resursa podrazumijeva razvoj pojedinih područja u području visokih tehnologija, sistema pitanje-odgovaranja, ali to je gore navedeno.

Daljnji razvoj korpusa lingvistike predviđa se na svim nivoima, od tehničkih i u pogledu primjene novih algoritama koji optimiziraju procese traženja i obrade informacija, osnaživanje računala, više RAM-a, a do potrošača, jer korisnici su sve više i više načina za korištenje ovog tip resursa u svakodnevnom života i rada.

u zaključku

Sredinom prošlog stoljeća u 2017. činilo dalekoj budućnosti, u kojoj svemirskih brodova putuju kroz svemir i roboti sve radim za ljude. U stvari, nauka je prepun "bijele točke", a što očajnički pokušaji da se odgovori na pitanja čovječanstva stoljećima uznemiravam. Pitanja funkcionisanja jezika ovdje zauzimaju počasno mjesto, i kabinet i računarske lingvistike nam može pomoći da na njih odgovoriti.

Obradu velikih skupova podataka može otkriti obrasce, prethodno nepristupačan, predvidjeti razvoj specifičnih karakteristika jezika za praćenje formiranje riječi u gotovo realnom vremenu.

Na praktičnom nivou, globalna kućišta se može vidjeti, na primjer, kao potencijalni alat za procjenu raspoloženje javnosti - Internet je stalno ažuriraju svakodnevno različite tekstove stvorio stvarnih korisnika: ovo primjedbe i komentare i članke, i mnoge druge oblike govora.

Osim toga, rad sa tijelima doprinosi razvoju isti hardver, koji su uključeni u pronalaženje informacija, mi smo upoznati sa servisa "Google" ili "Yandex", mašinsko prevođenje, elektronske rječnike.

Ne možemo sa sigurnošću tvrditi da je korpus lingvistika čini samo prvi koraci, au bliskoj budućnosti će cvjetati.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 bs.birmiss.com. Theme powered by WordPress.