EUSKARA / INTERNET -

Asteazkenean aurkeztu zuten ofizialki Eleka Ingeniaritza Zerbitzuak garatutako euskarazko bilatzailea: Elebila.eu. Bi bereizgarritasun nagusi ditu. Batetik, euskaraz dauden webguneetako edukia beste hizkuntzatan daudenengandik bereizten du. Bestetik, euskararen izaera gramatikala aintzat hartzen du

Haritz Rodriguez

2007ko Urriaren 19a

Koldo Mitxelena Kulturunean (KMK) asteazkenean aurkeztu zuten ofizialki Elebila.eu Interneteko euskarazko bilatzailea, nahiz eta astebete lehenago martxan zegoen jada. Ikusmina zegoen euskal blogarien artean, besteak beste GAUR8ko ale batean duela hilabete aurreratu genuelako bilatzailearen berri.

Eleka Ingeniaritza Linguistikoak garatu du tresna berri hau. Iñaki Irazabalbeitia arduradunak azaldu zituen xehetasun guztiak KMKn egindako aurkezpenean. Haren hitzetan, tresna honen garapena Elhuyarren esku egon da, eta Elekak «produktu komertzial bilakatu du, zerbitzu bat eskaintzeko». Lakuako Gobernuak diruz lagundutako ekimena da eta eskerrak ere eman nahi izan zituen lehenik eta behin Irazabalbeitiak.

Bere esanetan, «normalean erabiltzen ditugun Internet bilatzaileak, Google edo Yahoo! esaterako, ez daude pentsatuta euskarazko testuetan bilaketak egiteko. Lehenik eta behin ez dakite euskaraz; hots, ez dira euskaraz dagoen testu bat beste hizkuntza batean dagoenarengandik bereizteko gai. Har dezagun Google akuri moduan, bera baita bilatzaile nagusia. Interfacea (ingurune grafikoa) euskaraz ipin dezakezu zure ordenadorean. Katalana edo italiarra bazina, aukera izango zenuke emaitzak, hurrenez hurren, katalanezkoetara edo italierazkoetara soilik zedarritzeko. Euskal hiztunak urriak gara eta ez gara bezero erakargarriak munduan dabiltzan multinazionalentzat», kritikatu zuen.

Irazabalbeitiaren aburuz, «euskara hizkuntza aglutinatzailea da; alegia, atzizki bidez seinalatzen du hitz batek izan ditzakeen kasuak edo perpausean duen funtzioa. Bada, euskal internautak amaraunean informazio bila dabilenean dituen bi problema nagusi horiei konponbide ematera dator Elekak garatu duen Elebila». Izan ere, Elebilak euskarazko informazioa baino ez dio ematen bilaketa egin duenari, horrela hautatuz gero. Berez, beste hizkuntzatan bilatzeko aukera ere badu eta. Hain zuzen ere, hizkuntza diskriminatzailea izatearen hori da ezaugarri nagusi eta garrantzitsuenetakoa: «Elebilak diskriminatu egiten du informazioa euskaraz idatzita dagoenentz eta berdin zaio webgunearen informazio gehiena beste hizkuntza batean egotea edo gunearen IPa antipodetakoa izatea. Webguneren batean euskarazko informaziorik baldin badago, aurkitu egingo du».

Beste ezaugarri bat ere badu Elebilak. «Sorkuntza morfologikoari esker hitz baten araberako bilaketa egiten denean, hitz horren deklinazio-kasuak automatikoki sortzen dira eta horren arabera egiten du bilaketa. Hortaz, berdin dio `energia', `energiaren' edo `energiak' idaztea: sistemak hitza analizatu, horren lema erauzi eta horren arabera egingo du bilaketa. Zenbait kasutan, gainera, oker idatzita ere emaitzak egokiak izango dira», zehaztu zuen Elekako arduradunak.

Gaineratu zuenez, «Elebilak aldaera dialektalak eta forma ez-estandarrak ere kontuan hartzen ditu. Kasu guztietan ez da hori posible, arrazoi teknologikoak medio, baina ahal den guztietan eman egiten da erabiltzaileari bilaketa-aukerak zabalduz. Tresna horrek bi gauza egiten ditu: euskarazko testuak diskriminatu eta euskararen berezko nortasun gramatikala kontuan hartu. Elebilaren atzean Live Search Microsoft-en motorra dago. Beste edozein izan zitekeen, baina baldintza tekniko-ekonomiko egokienak Seattle-ko multinazionalak eman dizkigu».

Irazabalbeitiaren hausnarketa, oso-osorik, bere blogean aurkituko duzue: http://www.unibertsitatea.net/blogak/ irazabalbeitia. «Utikan bilatzaile erdaldunak!», du izenburua sarrerak.

Sakontzeko, teknikarien iritzia

Donostian eskainitako prentsaurrekoan, Irazabalbeitiak nahiago izan zuen galdera teknikoak egiteko tresna hau garatzen aritu den pertsonarengana jotzea. Igor Leturia da pertsona hori eta honakoa da bere bloga: http://eibar.org/blogak/e-gorblog.

Oinarrian Windows Live Search du Elebilak eta azaldu dute zergatik. Baina GAUR8k tresna horrek eguneraketarako zer aukera eskaintzen dituen jakin nahi izan du. Leturiaren esanetan, «egia da Elebilak beste bilatzaileen gainean egiten duela lan, beren APIak erabilita. Alde horretatik, egia da pixka bat beren eskuetan gelditzen garela. Eguneraketa edo hobekuntzak egin diezazkiokegu gure tresnari euskararen berezitasunen tratamenduari dagokionez, baina ez dugu kontrolik bilatzailearen beraren beste ezaugarriei buruz, hala nola indizearen tamaina, indizearen eguneraketen maiztasuna, rankinga, funtzionalitate berriak eta abar».

Abantailak eta desabantailak

Hala ere, «Interneteko ohiko bilatzaileek euskararentzat emaitza onak ematen ez dituztela ikusita, bi aukera daude: bilatzaile erabat propioa garatzea edo beste bilatzaileek eskaintzen dituzten APIak erabiltzea. Lehenengoa oso konplexua da. Alde batetik, zailtasun teknikoak daude, bilatzaile nagusiak ere oraindik ikertzen ari direnak eta, ziur aski, etengabe jarraitu beharko dutenak: rankinga, pertsonalizazioa, web spama... Bestetik, eskatzen duen hardware eta azpiegitura guztia dago: ordenagailu asko crawlinga egiten, indize erraldoiak ostatatzeko makinak, bilaketa zerbitzua emango dutenak... APIak erabiltzea askoz merkeagoa eta sinpleagoa da, eta uste dugu metodo hori erabiliz emaitza onak lortzen ditugula. Desabantaila batzuk ere izan ditzake, zuk esan duzuna adibidez, baina abantailak gehiago direla pentsatzen dugu».

Web semantikoa ere izan dugu aipagai. Izango du aukerarik Elebilak teknologia berri horietara moldatzeko? Bada, Igor Leturiaren ustez, «hori ez dago zehatz jakiterik, esan bezala pixka bat bilatzaileen APIen menpe gaudelako. Baina web-aren joera hori bada, edo agian beste bat, bilatzaileak ziur egokituko dira zerbitzu berriak eskainiz eta, lehenago edo beranduago, zerbitzu horiek APIen bidez eskainiko dituzte. Horrela bada, unea iritsitakoan, guk ere euskarara moldatutako tresna egin ahal izango genuke API berriak erabiliz».

Google eta Yahooren APIak

Geure galderetan, akaso, Microsoftek eragiten digun mesfidantza sumatu du Leturiak. «Ez dakit zure galdera zehazki Microsoften APIa erabiltzen dugulako den, berau gutxiago hobetuko delakoan edo itxiagoa izango delakoan», esan digu. Eta baita bere iritzia argitu ere: «Ez dugu uste Windows Live Search bilatzailea besteak baino aukera okerragoa denik arlo horretan. Batetik, APIa erabiltzeko bera da baldintzarik onenak eskaintzen dituena: Google-en APIak egunean 1.000 dei bakarrik onartzen ditu, eta gainera jada ez ditu izen-emate berriak onartzen, API hori alde batera uzten ari delako Google AJAX Search API berria bultzatzeko, baina horrek 8 emaitza besterik ez ditu bueltatzen; Yahoo-ren APIak egunean 10.000 dei onartzen ditu IP ezberdin bakoitzetik; eta Microsoften APIak egunean 25.000 dei doan, hori gainditzeko lizentzia komertzial baten aukerarekin. Bestetik, Microsoft denez hiruetan merkatu kuota txikiena duena, tresna hobetzen gehien saiatzen dena da».

Leturiaren arabera, gainera, «Elebila ez dago inondik inora Windows Live Search-ekin derrigorrez eta betirako ezkonduta. Gure tresnak beste APIak ere erabiltzen ditu (Google, Google AJAX, Yahoo eta Alexa), baina zerbitzu publikoa Windows Live Search-ekin ematea erabaki genuen baldintzengatik. Baldintzak edozein unetan aldatzen badira, ia berehala jar dezakegu martxan beste API bat erabiltzeko».

Edukien diskriminazioa

Baina nola egiten du zehazki Elebilak mundu osoko webguneen artean euskarazko edukiak diskriminatzeko? «Diskriminazioa bilaketaren aurretik egin behar da. Guk hori hainbat iragazki-hitzen bidez egiten dugu. Erabiltzaileak bilatu nahi duenaz gain, orriak euskaraz gehien erabiltzen diren hitzak ere izan ditzala eskatzen diogu APIari. Horrela lortzen dugu emaitza euskarazkoak itzultzea. Tartean beste hizkuntzaren baten dagoen bat edo bestek irrist egiten du, baina horiek ondoren aplikatzen den hizkuntza identifikatzaile baten bidez detektatu eta ezabatzen dira». Bestela, «edozein bilatzaileri «Anorexia» hitza besterik gabe eskatzen badiozu, itzulitako lehen 1.000 emaitzetan ez dago apenas euskarazkorik. Hitz hori horrela esaten baita gaztelaniaz, ingelesez eta beste hizkuntza askotan ere. Beraz, ondoren filtroa aplikatuta ere ezingo lirateke euskarazko emaitza nahikorik eman».

Izaera gramatikala

Hori baino gehiago ere bada Elebila, euskarazko edukiak antzemateaz gain, euskararen izaera gramatikala kontuan hartzen baitu. «Euskarak morfologia aberatsa du -esan du-: hitz baten lema batek (`ekuazio' adibidez) forma asko ditu (`ekuazio' bera, `ekuazioa', `ekuazioak', `ekuazioaren', `ekuazioei'...). Interneten hitz bat bilatzean, hitz horren edozein forma aurkitzea komeni da. Beraz, euskararentzat propio garatutako bilaketa-motore batek ez lituzke hitzen forma zehatzak indexatu beharko, beraien lemak baizik, baina Interneteko bilatzaileek ez dute hori egiten eta sartutako hitz-forma zehatza soilik bilatu ahal dute, hitz beraren beste edozein forma dituzten orriak galduz».

Elebilak sorkuntza morfologiko bidezko galderaren hedapena erabiltzen du hori konpontzeko. IXA Taldeak egindako sorkuntza morfologikoko tresnak erabiltzen dira lema baten forma ezberdinak lortzeko. Igor Leturiak azaldu duenez, «forma horietako edozein duten orriak eskatzen zaizkio APIari `OR' operadore baten bitartez. Horrela lortzen dugu benetako bilaketa lematizatua egitea».