etTenTen
etTenTen korpus on internetist alla laetud eestikeelsete veebilehtede korpus.
Korpuses on 270 miljonit sõna 686 000 veebilehelt.
Algmaterjal
Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel.
Veebirobotiga
laeti alla 1 173 702 veebilehte, kusjuures juba olemas olevate lehtede
koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti
kirjakeele koondkorpuses. (http://www.cl.ut.ee/korpused/segakorpus/).
Kasutati Jan Pomikaleki doktoritöö käigus loodud programme
jusText ja onion (code.google.com/p/justext,
code.google.com/p/onion)
Saadud korpus asus 2013 märtsis siin: http://downloads.sketchengine.co.uk/ettenten13.processed.prevert.xz
Märgendus
Lähtetekstid on lausestatud, morfoloogiliselt analüüsitud ja automaatselt ühestatud OÜ Filosoft poolt. Töötlemisega seotud probleeme on kirjeldatud artiklites:
- Kaalep, Heiki-Jaan; Kirt, Riin; Muischnek, Kadri (2012). A trivial method for choosing the right lemma.
Tavast, Arvi; Muischnek, Kadri; Koit, Mare (Toim.). Human Language
Technologies – The Baltic Perspective (82 - 89).IOS Press. DOI
10.3233/978-1-61499-133-5-82
- Kaalep, Heiki-Jaan; Muischnek, Kadri (2012). Osalausete tuvastamine eestikeelses tekstis kui iseseisev ülesanne.
Helle Metslang, Margit Langemets, Maria-Maren Sepper (Toim.). Eesti
Rakenduslingvistika Ühingu aastaraamat (55 - 68). Tallinn: Eesti
Rakenduslingvistika Ühing
- Kaalep, Heiki-Jaan; Muischnek, Kadri (2012). Robust clause boundary identification for corpus annotation.
Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Mehmet Uğur
Doğan, Bente Maegaard, Joseph Mar (Toim.). Proceedings of the Eight
International Conference on Language Resources and Evaluation (LREC'12)
(1632 - 1636). Istanbul, Türgi: ELRA
- Heiki-Jaan
Kaalep, Tarmo Vaino (2000). Teksti täielik morfoloogiline analüüs
lingvisti töövahendite komplektis. Kogumikus "Arvutuslingvistikalt
inimesele" Tartu, lk 87 - 99
- Veskis,
K.; Liba, E. (2008) Automatic Tagger Evaluation. Syntax assignment,
NGSLT (Nordic graduate school on language technology) NLP (natural
language processing) course 2008
Iga
rea ees on allikaviide, mis on muutumatuna pärit vastava veebilehe
allalaadimise ajast ja millele on lingvistilise märgendamise käigus
lisatud ainult info tekstitüübi kohta (texttype=...), nt
<doc
id="0" length=" 100k-1M" crawl_date="2013-01-10"
url="http://www.lap.ttu.ee/erki/failid/konspekt/oigusopetus_tto3160/tto3160_konspekt_ii.html"
web_domain="www.lap.ttu.ee" langdiff="0.18" texttype="unknown">
Tekstitüübid
Võimalikud tekstitüübid on:
Tekstitüüp | Sõnu | Veebilehti | Seletus |
government | 6682672 | 7113 | Valitsus, riigikogu, välisministeerium, ... |
forum | 54570141 | 103513 | Foorumid, kommentaarid |
religion | 8750787 | 21107 | Usulise sisuga asjad |
unknown | 86949511 | 243716 | Klassifitseerimata |
blog | 27082508 | 51882 | Blogid ja rahva-ajakirjandus (s.h. isemõtlejate väljaanded) |
periodicals | 66427900 | 200586 | Ametlikud uudised, soliidsem ajakirjandus |
informative | 19404658 | 58416 | Õpetused, nõuanded, teatmekirjandus (s.h. wikipedia 1 miljon, entsüklopeedia 0,5 miljonit) |
Iga dokument kuulub täpselt ühte tekstiklassi.
Tekstitüüpide määramisel kasutati järgmisi allikaid:
- Eesti Keele Instituudis tehtud domeenide klassifikatsioon
- url-is olev info. Näiteks kui urlis oli sõna "kommentaarid", siis lehekülg loeti kuuluvaks forum-tüüpi.
- Tekstis
endas olev tekstiesitus: kui tekstis esines korduvalt kuupäev ja
kellaaeg, või sõna "Vasta", siis oletati, et tegemist on foorumi-tüüpi
tekstiga.
- Domeenid, milles oli vähemalt 400 000 sõna (ja mis polnud EKIs klassifitseeritud), klassifitseeriti käsitsi
Muutused algses tekstis
- Eemaldati emotikonid, mis õnnestus automaatselt ära tunda.
- Eemaldati
laused, milles ei olnud muid sõnu peale nende, mis kuuluvad sõnaliiki Z
(kirjavahemärk), Y (lühend), N (kardinaalarv), M (järgarv) või H
(pärisnimi).
- Kui oli alust oletada,
et tekst on interneti-ortograafias (nt. kirjavahemärke ei eralda sõnast
tühik, lause alguses ei kasutata suurtähte), siis lausestati seda
eripära arvestades.