|
|
|
|
|
|
TeknoFys
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sana, sanasta, sanalta... ratkaisuja tekstihaun ongelmiin
|
Suomea on yleisesti pidetty vaikeana kielenä tekstitiedonhaussa kielen morfologisen rikkauden vuoksi. Suomen erilaisten sananmuotojen määrän runsaus tekee sananmuotojen täsmäyttämisen ja siten dokumenttien löytymisen normaalia hankalammaksi. Tutkimuksessa vertailtiin eri menetelmiä tämän ongelman ratkaisemiseksi. Tutkimuskielenä oli pääasiassa suomi, mutta myös ruotsi, saksa ja venäjä.
Kokeelliset tulokset tuovat lisää vaihtoehtoja tekstitiedonhaussa käytettäville hakutermin vaihtelun käsittelyn menetelmille suomen kielessä ja muissa morfologisesti mutkikkaammissa kielissä.
Tutkimuksessa osoitetaan, että perusmuotoistamisen (lemmaus) lisäksi myös karsinta (stemming), taivutusvartaloiden tuottaminen ja siihen perustuvat kehitelmät sekä FCG-menetelmä antavat hyviä tuloksia suomenkielisessä tekstitiedonhaussa, kun verrokkina käytetään lemmauksella saavutettavia tuloksia. Tutkimuksen keskeinen tulos on, että myös sananmuotoja tuottavat ohjelmat soveltuvat morfologisesti mutkikkaiden kielten hakutermien vaihtelun käsittelyyn osittaistäsmäyttävässä tiedonhakuympäristössä.
Suomenkielisessä tekstihaussa evaluoitiin ensin hakuvartaloiden ja niiden kehitelmien käyttöä. Tämän jälkeen työssä kehitettiin uusi menetelmä, FCG, morfologisesti vähintään jonkin verran mutkikkaille kielille. Menetelmän keskeinen ajatus on käyttää hakutermeinä annetuista substantiiveista ja adjektiiveista vain niiden tilastollisesti keskeisiä taipuneita muotoja haussa. FCG-menetelmä perustuu taipuneiden sananmuotojen tilastollisesti vinoihin jakaumiin kielissä, ja näin ollen menetelmä soveltunee myös muihin morfologisesti mutkikkaisiin kieliin. |
|
TeknoFys 15.10.2007 9:31 Lähde Reductive and Generative Approaches to Morphological Variation of Keywords in Monolingual Information Retrieval (Sanoja analysoivat ja tuottavat ohjelmat hakutermien vaihtelun hallinnassa tekstitiedonhaussa). Kettunen Kimmo. Tampereen yliopisto. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|