Kommentaarid

Korpuse liidese eesmärgiks on võimaldada teha lihtsaid, eesti keele sõnamuutust arvestavaid päringuid TÜ korpuste tekstidest.

TÜ koondkorpuse alla kuuluva Kommentaaride alamkorpuse kirjeldus ning käesoleva päringu aluseks olevad allalaaditavad tekstid asuvad siin.

Lähtetekstid on morfoloogiliselt analüüsitud ja ühestatud Filosoft poolt. Analüüsi ja märgendusega seotud probleeme ning lahendusi on kirjeldatud siin.

Lisaks tavapärastele lühenditele, mida kasutatakse morf. analüüsi tulemuste esitamisel, on käesolevas korpuses kasutusel ka _B_ partikli ja _E_ emotikoni tähistamiseks.

Et Kommentaaride-spetsiifilist sõnavara saaks morfoloogiliselt analüüsida, kasutati järgmisi kasutaja-sõnastikke: emotikonid (et.usr.emotikonid), kirjavahemärgid (et.usr.kirjavahemargid), partiklid jm sagedased sõnad (et.usr.sagedased), automaatselt genereeritud kasutajasõnastik regulaarselt moonutatud sõnavormide jaoks (et.usr.genetud)