¿Qué Inteligencia Artificial sabe más euskera?

por

– 20 min lectura

Hemos hecho varias pruebas a las IAs más utilizadas para descubrir cuál de ellas sabe más euskera.

Qué IA sabe más euskera

¿Saben las inteligencias artificiales como ChatGPT hablar en euskera? ¿Podrían aprobar los exámenes de acreditación de conocimiento de la lengua vasca? ¿Qué saben sobre cultura vasca?

En Partekatu nos hemos planteado varias cuestiones como esas, y la mejor forma de darles respuesta es… ¡Poniendo a prueba a las IAs en materia de euskera!

Así que hemos reunido las herramientas de inteligencia artificial comerciales más populares de la actualidad:

  • ChatGPT: asistente virtual de IA de OpenAI
  • Deepseek: asistente virtual de IA de código abierto de High-Flyer
  • Gemini: asistente virtual de IA de Google
  • Copilot: asistente virtual de IA de Microsoft
  • Grok: asistente virtual de IA de X (Twitter)

Y hemos decidido examinar sus modelos base (no hemos usado los modelos de lenguaje de pago) con un mismo conjunto de preguntas. De esa forma vamos a responder a la pregunta de cuál de las IAs es más euskaldun 😉:

Lo primero: preguntando a las IAs si saben euskera

El sentido común nos ha dicho que lo primero que tenemos que hacer es… Preguntar a cada IA si sabe euskera, porque no sabemos hasta qué punto han sido entrenadas con bases de datos (corpus) en euskera.

Sus respuestas han sido las siguientes:

CHATGPT DEEPSEEK GEMINI COPILOT GROK
Kaixo! Bai, badakit euskaraz, nahiz eta ez perfektuki. Lagundu ahal dizut zerbaitetan? 😊 Kaixo! Bai, euskaraz lagundu ahal dizut. Zer nahi duzu jakin edo zer behar duzu? 😊 Bai, euskara pixka bat badakit. Euskarazko testuak ulertzeko eta erantzuteko gai naiz. Zerbaitetan lagundu ahal dizut? Bai, noski! Euskaraz hitz egin dezaket. Nola lagun zaitzaket gaur? 😊 Kaixo! Bai, badakit euskaraz. Nola lagundu dezaket zuri gaur?

Absolutamente todas las IAs han afirmado saber euskera. Así que nos hemos propuesto ver hasta qué punto han dicho la verdad.

Preguntando qué saben sobre el euskera

Hemos seguido la conversación preguntándoles qué saben sobre la lengua vasca

NOTA: a partir de ahora, como las respuestas de cada IA son largas, tendrás que hacer click si quieres leer la respuesta de cada IA.

Respuesta de CHATGPT
Desplegar

Euskara hizkuntza berezia da, isolatua eta jatorri ezezagunekoa, Europako zaharrenetakoa dela uste baita. Ez du loturarik inguruko hizkuntza erromantzeekin (gaztelania, frantsesa, etab.), eta bere gramatika eta sintaxia oso bereziak dira.
Hona hemen euskarari buruz dakidan zenbait gauza:
1. Egitura: Euskarak erabateko deklinabidea du, kasu-sistema zabala eta postposizioak erabiltzen ditu.
2. Erregistroak: Euskara batua estandarizatutako aldaera da, baina badira hainbat euskalki (bizkaiera, gipuzkera, lapurtera, etab.).
3. Historia: Frankismo garaian zapalduta egon zen, baina XX. mendetik hona berpizkunde handia izan du.
4. Gaur egun: Ofiziala da Euskal Autonomia Erkidegoan eta Nafarroako zati batean, eta Ipar Euskal Herrian ere bizirik mantentzen da, nahiz eta egoera zailagoa izan.
Euskararekiko interesa baduzu, pozik hitz egingo dut gehiago! Zuk erabiltzen duzu egunerokoan? 😊

Respuesta de DEEPSEEK
Desplegar

Euskara munduko hizkuntzarik zaharrenetakotzat jotzen da, eta bere jatorria oraindik misterio bat da hizkuntzalarientzat. Hona hemen euskarari buruzko datu interesgarri batzuk:
1. Hizkuntza isolatua: Euskara ez da indoeuropar hizkuntzen familiakoa, eta ez du beste hizkuntza batekin lotura argirik. Horregatik, «hizkuntza isolatua» dela esaten da.
2. Euskal Herria: Euskara Euskal Herrian hitz egiten da, Espainiako eta Frantziako lurraldeetan. Nafarroa Garaia, Araba, Bizkaia, Gipuzkoa, Lapurdi, Nafarroa Beherea eta Zuberoa dira euskal lurraldeak.
3. Euskalkiak: Euskara batua (euskara estandarra) bada ere, hainbat euskalki daude, hala nola gipuzkera, bizkaiera, nafarrera, zuberera, eta abar. Euskalki horiek hizkeraren araberako aldaketak dituzte.
4. Euskara batuaren sorrera: 1960ko hamarkadan, euskara batua sortu zen, euskalkiak batzeko eta hizkuntza idatzi estandar bat izateko. Koldo Mitxelena eta beste hizkuntzalari batzuek lan handia egin zuten horretan.
5. Hiztegi aberatsa: Euskara hizkuntza sintetikoa da, eta hitz berriak sortzeko gaitasun handia du. Adibidez, «ordenagailu» (ordenagailu) hitza «ordenatu» (ordenatu) eta «gailu» (gailu) hitzetatik dator.
6. Euskaltzaindia: Euskaltzaindia da euskara arautzen duen erakundea, eta hizkuntzaren normak eta erabilera zaintzen ditu.
7. Euskararen eguna: Urtero, abenduaren 3an, Euskararen Eguna ospatzen da euskararen garrantzia aldarrikatzeko.
8. Euskararen egoera: Euskarak altxorra bezala tratatzen da, baina hiztun kopurua mantentzeko eta handitzeko erronka handiak daude, batez ere gazteengan eta hiri handietan.
Zerbait gehiago jakin nahi duzu euskarari buruz? 😊

Respuesta de GEMINI
Desplegar

Euskaraz dakidanari buruz galdetu didazu. Hona hemen dakidana:
Hizkuntza bakartua: Euskara Europako hizkuntza zaharrenetako bat da, eta ez dago ezagutzen den beste hizkuntzarekin erlazionatuta. Horrek hizkuntza bakartua bihurtzen du, eta bere jatorria misterio bat da oraindik ere.
Euskal Herriko hizkuntza: Euskara Euskal Herriko hizkuntza da, Pirinio mendien bi aldeetan banatutako lurraldea, Espainia eta Frantziaren artean. Euskal Autonomia Erkidegoan eta Nafarroako zenbait eremutan hizkuntza ofiziala da.
Hiztunak: 2024. urtean 800.000 hiztun inguru ditu, gehienak Euskal Herrian bizi direnak.
Egitura gramatikala: Euskarak bere egitura gramatikala du, hizkuntza eranskaria eta ergatiboa baita. Aditzak, izenak eta adjektiboak atzizkien bidez aldatzen dira, eta ergatiboak esan nahi du aditz iragankorren subjektua kasu gramatikal berezi batean markatzen dela.
Euskaltzaindia: Euskaltzaindia Euskararen Errege Akademia da, hizkuntzaren arauak ezartzen dituena eta haren garapena sustatzen duena.
Euskara batua: Euskaltzaindiak euskara batua sortu zuen 1968an, hizkuntzaren aldaera estandarra, idazkera eta irakaskuntza bateratzeko.
Euskararen egoera: Euskara egoera ahulean dago, baina azken hamarkadetan aurrerapausoak eman ditu, batez ere irakaskuntzan eta hedabideetan.
Espero dut informazio hau lagungarria izatea.

Respuesta de COPILOT
Desplegar

Euskara hizkuntza liluragarria eta berezia da, Europako hizkuntza zaharrenetako bat izanik, eta ez dauka ez loturarik ez antzekotasunik inguruko hizkuntza erromanikoekin edo indoeuroparrekin. Isolatuta garatu izanaren ondorioz, berezko hizkuntzar-erakusleak eta egitura gramatikal propioa ditu.
Historian zehar hainbat desafio izan ditu, baina azken hamarkadetan, berpizkunde kultural eta linguistiko izugarria bizi izan du, batez ere hezkuntzan, komunikabideetan eta kulturan. Gaur egun, euskaldunek, hau da, euskaraz hitz egiten dutenek, hizkuntza bizirik mantentzeko ahalegin handiak egiten dituzte, bai Euskal Herrian, bai mundu osoan.
Adibidez, badakit Euskaraldia bezalako ekimenak daudela, euskararen erabilera sustatzeko eta herritarren artean hizkuntza ohiturak aldatzeko sortuak. Euskara ere oso aberatsa da bertsoetan, folklorean eta ahozko literaturan.
Zuk nola bizi duzu euskararen presentzia eta garrantzia egunerokoan? 😊

Respuesta de GROK
Desplegar

Euskara hizkuntza ederra eta berezia da, Euskal Herrian hitz egiten dena. Europako hizkuntza isolatuetako bat da, hau da, ez dago beste hizkuntza-familia ezagunekin erlazionatuta, ez indoeuroparrekin ezta beste inorekin ere. Bere gramatika konplexua da, adibidez, ergatiboa duen sistema du, eta hitz-ordena nahiko malgua da, baina normalean Subjektua-Objektua-Aditza (SOV) egitura izaten du.
Euskarak dialekto ugari ditu, hala nola bizkaiera, gipuzkera edo zuberera, baina euskara batua ere badago, komunikazio orokorrerako erabiltzen den forma estandarizatua. Gainera, euskara milaka urteko historia duen hizkuntza da, eta Euskal Herriko kultura eta identitatearen oinarri garrantzitsua da.
Zer gehiago jakin nahiko zenuke? Euskararen historiaz, literaturaz, edo agian zerbait praktikoagoa, esaterako hitz edo esaldi batzuk ikastea?

Todas las respuestas nos han parecido acertadas, aunque hay varios errores destacables:

  • En el texto de Deepseek hay un error: la frase “Euskarak altxorra bezala tratatzen da” es extraña y gramaticalmente incorrecta.
  • La respuesta de Gemini tiene un error de concordancia gramatical (“eta ez dago ezagutzen den beste hizkuntzarekin erlazionatuta”), repite varias veces la estructura erlatiboa (-(e)n) para expresar el “que” del castellano y traduce literalmente del castellano “Real Academia de la Lengua Vasca” como “Euskararen errege akademia”.
  • Copilot ha hecho frases muy largas y ha escrito una frase extraña: “berezko hizkuntzar-erakusleak eta egitura gramatikal propioa ditu”.

Sin embargo, cada texto es diferente, y no podemos sacar conclusiones de una única prueba. Por tanto, hemos decidido hacer más pruebas de redacción de textos:

Redacción de un fragmento de texto

Hemos extraído un texto de un examen de B1 de castellano, y les hemos pedido a las IAs que lo traduzcan al euskera:

Texto a traducir a euskera
Desplegar

Creo firmemente que hay que ser respetuoso con el medio ambiente. Por eso decidí organizar un cumpleaños un poco diferente a lo que estaba acostumbrada, aunque eso representara un mayor esfuerzo y gasto. Empecé con el tema de las invitaciones. Usé Internet en lugar de invitaciones de papel, así ahorré papel y dinero. Luego también compré vasos y platos reutilizables en vez de comprarlos de papel. Para la decoración, rechacé la idea de usar globos, que a menudo explotan antes de que finalice la fiesta. En su lugar, utilicé papel reciclado para hacer flores y carteles e hice sombreros de fiesta que los niños colorearon con pinturas y les sirvieron de disfraz.

Traducción de CHATGPT
Desplegar

Ingurumena errespetatu behar dela sendo sinesten dut. Horregatik, ohituta nengoenetik desberdina zen urtebetetze bat antolatzea erabaki nuen, nahiz eta horrek ahalegin eta gastu handiagoa ekarri. Gonbidapenetatik hasi nintzen. Paperezko gonbidapenen ordez, Internet erabili nuen, horrela papera eta dirua aurreztu nituen. Ondoren, beira eta plater berrerabilgarriak erosi nituen, paperezkoen ordez. Apaingarriak prestatzerakoan, globoak erabiltzea baztertu nuen, askotan festa amaitu aurretik lehertzen direlako. Horren ordez, birziklatutako papera erabili nuen loreak eta kartelak egiteko, eta festa-txanoak sortu nituen. Haurrak horiek margotzen aritu ziren, eta, gainera, mozorro moduan ere erabili zituzten.

Traducción de DEEPSEEK
Desplegar

Firmeki sinesten dut ingurumena errespetatzea beharrezkoa dela. Horregatik, ohitua nintzena baino ezberdinagoa zen urtebetetze bat antolatzea erabaki nuen, nahiz eta ahalegin eta gastu handiagoa suposatu. Gonbidapenen gaian hasi nintzen. Paperezko gonbidapenak erabili ordez, Interneta erabili nuen, horrela papera eta dirua aurreztuz. Ondoren, paperezkoak erosi ordez, berriro erabil zitezkeen edalontziak eta plater erosi nituen. Dekoraziorako, festa amaitu baino lehen lehertu ohi diren globoak erabiltzeko ideia baztertu nuen. Horren ordez, paper birziklatua erabili nuen loreak eta kartelak egiteko, eta jai-txanoak egin nituen, haurrek margoekin koloreztatu zituztenak eta mozorro gisa balio izan zietenak.

Traducción de GEMINI
Desplegar

Uste osoa dut ingurumenarekin errespetuz jokatzea beharrezkoa dela. Horregatik, ohituta nengoena baino urtebetetze apur bat ezberdina antolatzea erabaki nuen, nahiz eta horrek ahalegin eta gastu handiagoa suposatu. Gonbidapenen gaiarekin hasi nintzen. Paperezko gonbidapenen ordez, Internet erabili nuen, horrela papera eta dirua aurreztu nituen. Gero, paperezkoak erosi beharrean, berrerabil daitezkeen edalontziak eta platerak ere erosi nituen. Dekoraziorako, globoak erabiltzeko ideia baztertu nuen, askotan festa amaitu baino lehen lehertzen baitira. Horren ordez, birziklatutako papera erabili nuen loreak eta kartelak egiteko, eta festako kapelak egin nituen haurrek margoekin margotu eta mozorrotzeko balio izan zietenak.

Traducción de COPILOT
Desplegar

Ingurumena errespetatu behar dela sinesten dut irmoki. Horregatik, urtebetetze bat antolatzea erabaki nuen, ohituta nengoenetik apur bat desberdina, nahiz eta horrek lan eta gastu handiagoak ekarri. Gonbidapenen gaiari ekin nion lehenengo. Paperezko gonbidapenak erabili beharrean, Internet erabili nuen, papera eta dirua aurrezteko. Gero, paper-ontziak erostearen ordez, berrerabil daitezkeen edalontziak eta platerak erosi nituen. Dekorazioari dagokionez, globoak erabiltzeko ideia baztertu nuen, askotan festa amaitu aurretik lehertzen direlako. Horren ordez, paper birziklatua erabili nuen loreak eta kartelak egiteko, eta festa-txanoak egin nituen haurrek pinturekin margotu zituztenak, eta, aldi berean, mozorro gisa erabili zituztenak.

Traducción de GROK
Desplegar

Sendo sinesten dut ingurumenarekiko errespetutsua izan behar dela. Horregatik, nire urtebetetzea antolatzea erabaki nuen, ohituta nengoenetik pixka bat desberdina izango zena, nahiz eta horrek esfortzu eta gastu handiagoa suposatu. Gonbidapenen gaiarekin hasi nintzen. Paperezko gonbidapenen ordez Internet erabili nuen, horrela papera eta dirua aurreztu nituen. Gero, paperezko edalontziak eta platerak erosi beharrean, berrerabilgarriak direnak erosi nituen. Dekoraziorako, globoak erabiltzearen ideia baztertu nuen, askotan festa amaitu baino lehen lehertu egiten baitira. Horren ordez, papera birziklatua erabili nuen loreak eta kartelak egiteko, eta festarako txapelak egin nituen, haurrek margotu zituztenak pintura eta guzti, eta mozorro gisa balio izan zieten.

Y aquí ya les vemos las costuras a las IAs.

No vamos a entrar en excesivo detalle, pero hay 2 errores principales que se repiten en mayor o menor de día en los textos de todos los modelos de inteligencia artificial:

  • Los textos tienen demasiada influencia del castellano. Muchas de las frases siguen estructuras del castellano que parecen traídas al euskera. Las IAs muestran dichas complicaciones, sobre todo, en frases largas y subordinadas que en el castellano son normales, pero no en euskera…
  • Gramaticalmente los textos son bastante correctos, pero tienen varios errores básicos ligados principalmente a la concordancia.

Detectar y corregir errores en euskera

Tras ello, tratando de buscar una mayor objetividad, hemos creado una batería de frases con errores gramaticales que una persona con nivel C1 de euskera debería poder corregir.

Estas han sido las respuestas de cada modelo de IA (hemos resaltado en rojo las respuestas erróneas):

Preguntas
Desplegar

1. Bihar Mikelen urtebetetzea izango da: erosten diogu opariren bat?
2. Ez ditut lagunik, horregatik nago bakarrik.
3. Londreseko dorrea oso hurrun dagoela esan digute.
4. Bi animali ikusi ditut.
5. Lagunak esan didate gaur etorriko direla.
6. Oso nekatutak daude Ane eta Leire.
7. Badituzte propietate batzuk onuragarriak direla.
8. Hiru eta mila lauehun eta hogeitabost.
9. Maddik eta Mikel elkar ikusi da.
10. Hainbat herrietako argazkiak atera ditut.

Respuestas de CHATGPT
Desplegar

1. Bihar Mikelen urtebetetzea da: erosten diogu opariren bat?
2. Ez daukat lagunik, horregatik nago bakarrik.
3. Londreseko dorrea oso urrun dagoela esan digute.
4. Bi animalia ikusi ditut.
5. Lagunek esan didate gaur etorriko direla.
6. Oso nekatuta daude Ane eta Leire.
7. Badituzte propietate batzuk, onuragarriak direnak.
8. Hiru mila laurehun eta hogeitabost.
9. Maddik eta Mikelek elkar ikusi dute.
10. Hainbat herritako argazkiak atera ditut.

Respuestas de DEEPSEEK
Desplegar

1. Bihar Mikelen urtebetetzea izango da: erosteko diogu opariren bat?
2. Ez dut lagunik, horregatik nago bakarrik.
3. Londreseko dorrea oso urrun dagoela esan digute.
4. Bi animalia ikusi ditut.
5. Lagunek esan didate gaur etorriko direla.
6. Oso nekatuta daude Ane eta Leire.
7. Badituzte propietate batzuk onuragarriak.
8. Hiru mila laurehun eta hogeita bost.
9. Maddik eta Mikelek elkar ikusi dute.
10. Hainbat herritako argazkiak atera ditut.

Respuestas de GEMINI
Desplegar

1. Bihar Mikelen urtebetetzea izango da: opariren bat erosiko diogu?
2. Ez dut lagunik, horregatik nago bakarrik.
3. Londresko dorrea oso urrun dagoela esan digute.
4. Bi animalia ikusi ditut.
5. Lagunek esan didate gaur etorriko direla.
6. Ane eta Leire oso nekatuta daude.
7. Badituzte onuragarriak diren propietate batzuk.
8. Hiru mila laurehun eta hogeita bost.
9. Maddi eta Mikel elkar ikusi dute.
10. Hainbat herritako argazkiak atera ditut.

Respuestas de COPILOT
Desplegar

1. Bihar Mikelen urtebetetzea izango da: erosten al diogu opariren bat?
2. Ez daukat lagunik, horregatik nago bakarrik.
3. Londreseko dorrea oso urrun dagoela esan digute.
4. Bi animalia ikusi ditut.
5. Lagunek esan didate gaur etorriko direla.
6. Oso nekatuta daude Ane eta Leire.
7. Badira propietate batzuk onuragarriak.
8. Hiru mila laurehun eta hogeitabost.
9. Maddik eta Mikelek elkar ikusi dute.
10. Hainbat herritako argazkiak atera ditut.

Respuestas de GROK
Desplegar

1. Bihar Mikelen urtebetetzea izango da; erosten diogu opariren bat?
2. Ez dut lagunik, horregatik nago bakarrik.
3. Londresko dorrea oso urrun dagoela esan digute.
4. Bi animalia ikusi ditut.
5. Lagunek esan didate gaur etorriko direla.
6. Oso nekatuta daude Ane eta Leire.
7. Badituzte propietate batzuk, onuragarriak direlako.
8. Hiru mila laurehun eta hogeita bost.
9. Maddik eta Mikelek elkar ikusi dute.
10. Hainbat herritako argazkiak atera ditut.

Y este es el número de respuestas correctas de cada IA:

CHATGPT DEEPSEEK GEMINI COPILOT GROK
Número de respuestas correctas: 7/10 8/10 8/10 7/10 7/10

Las notas varían entre el 7 y el 8, y, a decir verdad, esperábamos más. Los errores a corregir tampoco eran muy difíciles, y ninguna IA ha podido corregir correctamente todas las frases.

De hecho, lo más reseñable es que algunas de las correcciones de las IAs contienen errores bastante básicos

Así que concluimos que los modelos de IA no tienen un avanzado nivel gramatical en euskera.

Comprensión escrita: enfrentando a las IAs al C1 de euskera

También hemos pedido a todas las IAs que resuelvan las pruebas objetivas de un examen de C1 de euskera.

Así que hemos seleccionado la prueba abierta de comprensión escrita de nivel C1 de HABE de 2022. Dicha prueba tiene varias partes:

  • Primero, hay dos textos y una batería de preguntas y respuestas entre las que hay que seleccionar las correctas.
  • Después hay un tercer texto con espacios, y hay que elegir la opción correcta para cada espacio.
  • Finalmente hay un cuarto texto con palabras resaltadas, y hay que seleccionar una palabra equivalente para cada una.

Y estos han sido los resultados de la prueba:

CHATGPT DEEPSEEK GEMINI COPILOT GROK
1. Prueba 5/5 5/5 5/5 5/5 5/5
2. Prueba 5/5 5/5 5/5 5/5 5/5
3. Prueba (cada acierto vale la mitad) 6/10 7/10 7/10 5/10 7/10
4. Prueba (cada acierto vale la mitad) 9/10 4/10 9/10 5/10 9/10
Resultados 17,5/20 15,5/20 18/20 15/20 18/20

Como ves, las IAs que han tenido un peor desempeño han sido Deepseek y Copilot, pero todas han aprobado esta parte del examen con solvencia y sin grandes diferencias entre ellas.

Sorprende que todas las IAs han respondido perfectamente a las primeras dos pruebas. Tanto que hemos pensado que, tal vez, las IAs hubieran sido preentrenadas con ese mismo examen que les hemos pasado. Pero esa hipótesis carece de sentido porque han mostrado carencias en la segunda parte, y no creemos que las IAs se entrenaran únicamente con medio examen…

Por eso, nuestra conclusión es que los modelos de inteligencia artificial sí tienen una avanzada comprensión de textos en euskera.

Preguntas sobre cultura vasca

También hemos hecho a la IA 10 preguntas variadas sobre cultura vasca que una persona de Euskal Herria que hable en euskera en su día a día debería poder saber contestar.

Aquí tienes las respuestas de cada IA:

Preguntas
Desplegar

1. Zenbat urtean behin ospatzen da Korrika?
2. Zenbat zuhaitz ditu Gipuzkoako armarriak?
3. Abenduak 24ko gauean zein pertsona mitologiko dator gure Euskal Herriko etxeetara?
4. Zein da KEN7 taldearen abestirik esanguratsuena?
5. Nork idatzi zuen “Xalbadorren heriotza”?
6. Zein da Euskal Herriko mendirik garaiena?
7. Zein eskultura dago Arantzazuko santutegiaren fatxada nagusian?
8. Aipatu euskaraz grabatutako film bat.
9. Nor da anbotoko Mari?
10. Non ospatzen da “Antzar eguna”?

Respuestas de CHATGPT
Desplegar

1. Bi urtean behin.
2. Zuhaitz bakarra, haritza.
3. Olentzero.
4. «Zapalduen olerkia» da ezagunenetako bat.
5. Xabier Lete.
6. Hiru Erregeen Mahaia (2.428 m).
7. Jorge Oteizaren apostoluen eskulturak.
8. Handia (2017).
9. Euskal mitologiako jainkosa nagusia, Anboto mendian bizi den sorgina.
10. Lekeition.

Respuestas de DEEPSEEK
Desplegar

1. Korrika bi urtean behin ospatzen da.
2. Gipuzkoako armarriak hiru zuhaitz ditu.
3. Olentzero dator Abenduak 24ko gauean.
4. KEN7 taldearen abestirik esanguratsuenetako bat «Euskal Herria da» da.
5. «Xalbadorren heriotza» Xabier Letek idatzi zuen.
6. Euskal Herriko mendirik garaiena Hiru Erregeen Mahaia da (2.428 metro).
7. Arantzazuko santutegiaren fatxada nagusian Ama Birjinaren eskultura dago.
8. Euskaraz grabatutako film ospetsu bat «Loreak» da.
9. Anbotoko Mari Euskal mitologiako pertsonaia da, Anboto mendian bizi den sorgin edo jainkosa bat.
10. «Antzar eguna» Lekeition ospatzen da, urtero irailaren 5ean.

Respuestas de GEMINI
Desplegar

1. Bi urtean behin.
2. Hiru zuhaitz.
3. Olentzero.
4. «Ilargia».
5. Xabier Lete.
6. Hiru Erregeen Mahaia (2.444 metro).
7. Apostoluen eskulturak.
8. Handik gutxira.
9. Euskal mitologiako jainkosa nagusia.
10. Lekeition.

Respuestas de COPILOT
Desplegar

1. Korrika bi urtez behin ospatzen da, oro har. Euskararen aldeko lasterketa erraldoi eta erreleboan oinarritutako ekitaldi hau oso berezia da Euskal Herrian.
2. Gipuzkoako armarriko zuhaitzen kopurua bi da. Zuhaitz horiek Euskal Herriko natura eta historia sinbolizatzen dituzte.
3. Olentzero, Euskal Herriko Gabonetako pertsonaia mitologikoa, etxeetara dator haurrak pozteko eta opariak ekartzeko.
4. Esan daiteke KEN Zazpi taldearen abesti esanguratsuenetako bat «Ilargia» dela. Abesti honek arrakasta handia izan zuen eta euskal musikaren klasiko bihurtu da.
5. “Xalbadorren heriotza” kanta Oskorri taldeak ezagun egin zuen, baina bertsoa Xabier Leteren idazkia da.
6. Euskal Herriko mendirik garaiena Hiru Erregeen Mahaia da, 2.428 metroko altuerarekin.
7. Arantzazuko santutegiaren fatxada nagusian Jorge Oteizak egindako Apostoluen eskulturak daude. Arte-lan oso garrantzitsua da.
8. Film bat aipatzearren, “Handia” dugu, euskaraz grabatutako pelikula arrakastatsua eta Goya sari ugari irabazi dituena.
9. Anbotoko Mari Euskal Herriko mitologiako jainkosa edo izaki nagusietako bat da. Anboto mendian bizi dela uste da, eta naturarekin eta jakinduriarekin lotuta dago.
10. Antzar Eguna Lekeition ospatzen da, iraileko jaien parte bezala. Tradizioaren arabera, lehiakideek itsasoan zintzilik dagoen antzara bat heltzeko eta lepoa mozteko saioa egiten dute.

Respuestas de GROK
Desplegar

1. Korrika bi urtean behin ospatzen da, normalean udaberrian.
2. Gipuzkoako armarriak hiru zuhaitz ditu, zehazki, hiru haritz.
3. Abenduaren 24ko gauean Olentzero dator Euskal Herriko etxeetara, opariak eta poza ekartzera.
4. KEN7 taldearen abestirik esanguratsuenetako bat «Zuretzako» da, nahiz eta iritzi subjektiboa izan; askorentzat taldearen ibilbidearen ikur nagusietakoa da.
5. “Xalbadorren heriotza” Xabier Lete poetak idatzi zuen, Xalbador bertsolariaren omenez.
6. Euskal Herriko mendirik garaiena Aizkorri da, 1.551 metrorekin.
7. Arantzazuko santutegiaren fatxada nagusian Jorge Oteizaren «Pietatea» eskultura dago, Ama Birjinaren eta Jesusen irudi hunkigarria.
8. Euskaraz grabatutako film bat «Handia» da, 2017an estreinatua eta Aitor Arregi eta Jon Garañok zuzendua.
9. Anbotoko Mari Euskal Herriko mitologiako jainkosa nagusia da, naturaren eta lurpeko munduaren erregina, Anboto mendian bizi dela esaten dena.
10. “Antzar eguna” Lekeition ospatzen da, Bizkaian, San Antolin jaien barruan, antzara baten lepotik zintzilikatuta uretatik pasatzen den tradizio bereziarekin.

Y aquí las notas:

CHATGPT DEEPSEEK GEMINI COPILOT GROK
Número de respuestas correctas: 9/10 8/10 9/10 9/10 7/10

Todas las IAs han tenido un buen desempeño, pero ninguna de ellas ha podido acertar todas nuestras preguntas.

Conclusiones

Tras efectuar todas las pruebas… Podemos sacar varias conclusiones:

  • Primero, que todas las IAs tienen un muy buen nivel de comprensión escrita.
  • Segundo, que también tienen un notable conocimiento sobre cultura vasca.
  • Tercero, que todavía tienen claras dificultades a la hora de redactar textos en euskera.
  • Y, cuarto: ChatGPT es la IA que más nos ha convencido en estas pruebas, pero no hay grandes diferencias entre los diferentes modelos de inteligencia artificial.

Dicho eso, seamos sinceros: las diferencias entre IAs en materia de euskera deberían ser muy grandes para que las viéramos con las pruebas que hemos hecho.

Y es que el desempeño de las IAs se suele analizar mediante complejas y amplias pruebas de evaluación en las que se comparan diferentes modelos de lenguaje de inteligencia artificial.

Por ejemplo, un conjunto de pruebas es el siguiente:

  • Eusproficiency: 5169 ejercicios de exámenes de EGA (el antiguo C1).
  • Eusreading: 352 ejercicios de comprensión escrita de EGA (el antiguo C1).
  • Eustrivia: 1715 preguntas de trivial provenientes de diferentes recursos online.
  • Eusexams: una colección de 16000 preguntas diseñadas para preparar personas para el servicio público.

Como ves, ¡Son unas pocas más que las que hemos llevado a cabo en este artículo! 🤔

Dichas pruebas se realizan en diferentes modelos de diferentes IAs y, después, se comparan las puntuaciones obtenidas.

Y atent@, porque hemos dado con una investigación que ha enfrentado a varias IAs a ese conjunto de pruebas.

Eso sí, la investigación no enfrenta exactamente a todas las IAs que hemos probado en este artículo, ya que estos tests técnicos se suelen centrar en modelos de IA sin interacción mediante chat.

Dicho eso, la investigación afirma lo siguiente:

GPT-4 Turbo (uno de los modelos de pago de GPT) es el modelo de IA actual que, en general, más euskera sabe y mejores conocimientos tiene sobre cultura vasca.

Entendiendo como aprenden euskera las IAs

El que una IA sepa más euskera que otra obedece a un montón de factores… Pero una de las variables más importantes son los corpus.

Y es que los modelos de lenguaje requieren grandísimas bases de datos para su entrenamiento, y es vital que lenguas como el euskera tengan corpus con el mayor tamaño y calidad posibles, ya que esos son buena parte de los datos con los que las IAs “aprenden”.

Si ordenamos las lenguas del mundo con base en el tamaño de sus corpus en la web de referencia CommonCrawl, el ranking quedaría así:

  • 1. Inglés: 46% de los corpus de la web.
  • 2. Castellano: 4,6% de los corpus de la web.
  • 52. Euskera: 0,035% de los corpus de la web.

El inglés es la lengua que tiene más recursos que pueden servir para entrenar a modelos de lenguaje, y el euskera queda en el puesto 52 (también en torno a ese puesto en cuanto a tamaño de lenguas por hablantes en el mundo).

Y es tal el número de datos necesarios para crear un modelo de lenguaje, que el euskera se considera una lengua de pocos recursos siendo la 52 de la lista.

Y nuestra reflexión es la siguiente: que si el futuro pasa por la inteligencia artificial el euskera necesita corpus públicos de calidad lo más grandes posibles.

Por suerte, existen ya varios proyectos de creación de corpus en euskera (ver apartado «Referencias»), así que esperamos que en el futuro los modelos de IA adquieran una mayor competencia en la lengua vasca.

De esa forma, en un futuro servicios de IA hablarán en euskera, y podremos hablar en la lengua vasca a Alexa, Siri o lo que el futuro depare.

📚 ¿Te ha servido este articulo como fuente para algún trabajo? ¡Cítanos de la siguiente forma!