Besedilni korpusi so obsežne zbirke realnih besedil v elektronski obliki. Besedila so zajeta iz različnih virov na način, da predstavljajo vzorec jezikovne rabe določene vrste. Korpusna besedila tipično vsebujejo programsko ali ročno pripisane oznake, npr. osnovno obliko besede, besedno vrsto in druge lastnosti besede. Za raziskovanje besedilnih korpusov so besedila umeščena v specializirane programe, ki omogočajo napredno iskanje po besedilih, razvrščanje, filtriranje, izvažanje podatkov in podobno.

Besedilni korpusi se uporabljajo kot gradivo za izvedbo jezikoslovnih raziskav, služijo pa tudi kot podstat za pripravo jezikovnih priročnikov, virov in gradiv. V tem smislu so predvsem pomembni referenčni korpusi, ki predstavljajo vzorec splošnega jezika v vsakdanji rabi. V preteklosti so bili referenčni korpusi za pisno slovenščino Fida (1999) oz. FidaPLUS (2006) ter Nova beseda (1999), danes sta to Gigafida (2012) in njen uravnoteženi podkorpus Kres (2012). Za govorjeno slovenščino je na voljo referenčni korpus Gos (2011). Aktualni referenčni korpusi so prosto na voljo na spletu in poleg jezikoslovcev jih za svoje delo uporabljajo tudi mnogi lektorji, učitelji, novinarji in drugi, ki se ukvarjajo z jezikom oz. jih jezik zanima.

Poleg referenčnih korpusov so za slovenščino na voljo tudi številni specializirani korpusi. Ti običajno nastajajo v sklopu projektov, ki se posvečajo točno določenem segmentu ali funkciji jezika. Na voljo so denimo:

  • Šolar (2012): korpus pisnih izdelkov, ki so jih učenci slovenskih OŠ in SŠ napisali pri pouku.
  • Lektor (2013): korpus besedil odraslih piscev, ki vsebuje lektorske popravke.
  • Korp (2007): korpus besedil s področja odnosov z javnostmi.
  • DSI (2006): korpus besedil s področja informatike in računalništva.
  • IMP (2011): korpus starejše slovenščine.
  • Signor (2014): korpus slovenskega znakovnega jezika.
  • Janes (2014): korpus računalniško posredovane komunikacije.
  • Kas (2016): korpus znanstvenih besedil.

Posebna vrsta korpusov so učni korpusi. Ti se uporabljajo kot podatkovne množice, s pomočjo katerih statistično učimo programe za obdelavo naravnih jezikov ali razvoj jezikovnih tehnologij. Učni korpusi in ostale primerljive podatkovne zbirke so dostopni v spletnem repozitoriju Clarin.si.

Sort By: Direction:
  • Clarin.si

    Raziskovalna infrastruktura, katere cilj je raziskovalnim skupnostim zagotavljati jezikovne vire, tehnologije in strokovno znanje.
  • Gigafida

    Korpus Gigafida je najobsežnejši in najsodobnejši referenčni korpus slovenskih pisnih besedil, vsebuje skoraj 1,2 milijarde besed.
  • GOS

    Referenčni korpus govorjene slovenščine, ki obsega okrog 120 ur posnetkov govora v najrazličnejših situacijah.
  • IMP

    Korpus starejših slovenskih besedil (od konca 16. stoletja do 1918). Korpus je dostopen v konkordančniku NoSketch Engine.
  • KoRP

    Specializirani korpus besedil s področja odnosov z javnostmi. Povezava je na korpus v konkordančniku NoSketch Engine.
  • Korpus informatike DSI

    Specializirani korpus besedil s področja informatike. Korpus je dostopen v konkordančniku NoSketch Engine.
  • Kres

    Korpus KRES je uravnoteženi podkorpus Gigafide, ki vsebuje skoraj 100 milijonov besed.
  • Lektor

    Obširna zbirka lektoriranih avtorskih besedil in prevodov, ki je namenjena raziskovanju procesa lektoriranja.
  • NoSketch Engine

    Vstopna točka do spletnega konkordančnika, v katerem lahko raziskujemo korpuse slovenskega in še osmih drugih jezikov.
  • Nova beseda

    318 milijonov besed obsegajoča besedilna zbirka Inštutita za slovenski jezik Frana Ramovša ZRC SAZU.
  • Signor

    Korpus Signor je uravnoteženi in reprezentativni korpus označenih video posnetkov slovenskega znakovnega jezika.
  • Šolar

    Korpus besedil, ki so jih učenci slovenskih šol samostojno tvorili pri pouku, vsebuje skoraj milijon besed.
NA VRH