¿Saben las inteligencias artificiales como ChatGPT hablar en euskera? ¿Podrían aprobar los exámenes de acreditación de conocimiento de la lengua vasca? ¿Qué saben sobre cultura vasca?
En Partekatu nos hemos planteado varias cuestiones como esas, y la mejor forma de darles respuesta es… ¡Poniendo a prueba a las IAs en materia de euskera!
Así que hemos reunido las herramientas de inteligencia artificial comerciales más populares de la actualidad:
- ChatGPT: asistente virtual de IA de OpenAI
- Deepseek: asistente virtual de IA de código abierto de High-Flyer
- Gemini: asistente virtual de IA de Google
- Copilot: asistente virtual de IA de Microsoft
- Grok: asistente virtual de IA de X (Twitter)
Y hemos decidido examinar sus modelos base (no hemos usado los modelos de lenguaje de pago) con un mismo conjunto de preguntas. De esa forma vamos a responder a la pregunta de cuál de las IAs es más euskaldun 😉:
Lo primero: preguntando a las IAs si saben euskera
El sentido común nos ha dicho que lo primero que tenemos que hacer es… Preguntar a cada IA si sabe euskera, porque no sabemos hasta qué punto han sido entrenadas con bases de datos (corpus) en euskera.
Sus respuestas han sido las siguientes:
CHATGPT | DEEPSEEK | GEMINI | COPILOT | GROK |
---|---|---|---|---|
Kaixo! Bai, badakit euskaraz, nahiz eta ez perfektuki. Lagundu ahal dizut zerbaitetan? 😊 | Kaixo! Bai, euskaraz lagundu ahal dizut. Zer nahi duzu jakin edo zer behar duzu? 😊 | Bai, euskara pixka bat badakit. Euskarazko testuak ulertzeko eta erantzuteko gai naiz. Zerbaitetan lagundu ahal dizut? | Bai, noski! Euskaraz hitz egin dezaket. Nola lagun zaitzaket gaur? 😊 | Kaixo! Bai, badakit euskaraz. Nola lagundu dezaket zuri gaur? |
Absolutamente todas las IAs han afirmado saber euskera. Así que nos hemos propuesto ver hasta qué punto han dicho la verdad.
Preguntando qué saben sobre el euskera
Hemos seguido la conversación preguntándoles qué saben sobre la lengua vasca
NOTA: a partir de ahora, como las respuestas de cada IA son largas, tendrás que hacer click si quieres leer la respuesta de cada IA.
Respuesta de CHATGPT | DesplegarEuskara hizkuntza berezia da, isolatua eta jatorri ezezagunekoa, Europako zaharrenetakoa dela uste baita. Ez du loturarik inguruko hizkuntza erromantzeekin (gaztelania, frantsesa, etab.), eta bere gramatika eta sintaxia oso bereziak dira. |
Respuesta de DEEPSEEK | DesplegarEuskara munduko hizkuntzarik zaharrenetakotzat jotzen da, eta bere jatorria oraindik misterio bat da hizkuntzalarientzat. Hona hemen euskarari buruzko datu interesgarri batzuk: |
Respuesta de GEMINI | DesplegarEuskaraz dakidanari buruz galdetu didazu. Hona hemen dakidana: |
Respuesta de COPILOT | DesplegarEuskara hizkuntza liluragarria eta berezia da, Europako hizkuntza zaharrenetako bat izanik, eta ez dauka ez loturarik ez antzekotasunik inguruko hizkuntza erromanikoekin edo indoeuroparrekin. Isolatuta garatu izanaren ondorioz, berezko hizkuntzar-erakusleak eta egitura gramatikal propioa ditu. |
Respuesta de GROK | DesplegarEuskara hizkuntza ederra eta berezia da, Euskal Herrian hitz egiten dena. Europako hizkuntza isolatuetako bat da, hau da, ez dago beste hizkuntza-familia ezagunekin erlazionatuta, ez indoeuroparrekin ezta beste inorekin ere. Bere gramatika konplexua da, adibidez, ergatiboa duen sistema du, eta hitz-ordena nahiko malgua da, baina normalean Subjektua-Objektua-Aditza (SOV) egitura izaten du. |
Todas las respuestas nos han parecido acertadas, aunque hay varios errores destacables:
- En el texto de Deepseek hay un error: la frase “Euskarak altxorra bezala tratatzen da” es extraña y gramaticalmente incorrecta.
- La respuesta de Gemini tiene un error de concordancia gramatical (“eta ez dago ezagutzen den beste hizkuntzarekin erlazionatuta”), repite varias veces la estructura erlatiboa (-(e)n) para expresar el “que” del castellano y traduce literalmente del castellano “Real Academia de la Lengua Vasca” como “Euskararen errege akademia”.
- Copilot ha hecho frases muy largas y ha escrito una frase extraña: “berezko hizkuntzar-erakusleak eta egitura gramatikal propioa ditu”.
Sin embargo, cada texto es diferente, y no podemos sacar conclusiones de una única prueba. Por tanto, hemos decidido hacer más pruebas de redacción de textos:
Redacción de un fragmento de texto
Hemos extraído un texto de un examen de B1 de castellano, y les hemos pedido a las IAs que lo traduzcan al euskera:
Texto a traducir a euskera | DesplegarCreo firmemente que hay que ser respetuoso con el medio ambiente. Por eso decidí organizar un cumpleaños un poco diferente a lo que estaba acostumbrada, aunque eso representara un mayor esfuerzo y gasto. Empecé con el tema de las invitaciones. Usé Internet en lugar de invitaciones de papel, así ahorré papel y dinero. Luego también compré vasos y platos reutilizables en vez de comprarlos de papel. Para la decoración, rechacé la idea de usar globos, que a menudo explotan antes de que finalice la fiesta. En su lugar, utilicé papel reciclado para hacer flores y carteles e hice sombreros de fiesta que los niños colorearon con pinturas y les sirvieron de disfraz. |
Traducción de CHATGPT | DesplegarIngurumena errespetatu behar dela sendo sinesten dut. Horregatik, ohituta nengoenetik desberdina zen urtebetetze bat antolatzea erabaki nuen, nahiz eta horrek ahalegin eta gastu handiagoa ekarri. Gonbidapenetatik hasi nintzen. Paperezko gonbidapenen ordez, Internet erabili nuen, horrela papera eta dirua aurreztu nituen. Ondoren, beira eta plater berrerabilgarriak erosi nituen, paperezkoen ordez. Apaingarriak prestatzerakoan, globoak erabiltzea baztertu nuen, askotan festa amaitu aurretik lehertzen direlako. Horren ordez, birziklatutako papera erabili nuen loreak eta kartelak egiteko, eta festa-txanoak sortu nituen. Haurrak horiek margotzen aritu ziren, eta, gainera, mozorro moduan ere erabili zituzten. |
Traducción de DEEPSEEK | DesplegarFirmeki sinesten dut ingurumena errespetatzea beharrezkoa dela. Horregatik, ohitua nintzena baino ezberdinagoa zen urtebetetze bat antolatzea erabaki nuen, nahiz eta ahalegin eta gastu handiagoa suposatu. Gonbidapenen gaian hasi nintzen. Paperezko gonbidapenak erabili ordez, Interneta erabili nuen, horrela papera eta dirua aurreztuz. Ondoren, paperezkoak erosi ordez, berriro erabil zitezkeen edalontziak eta plater erosi nituen. Dekoraziorako, festa amaitu baino lehen lehertu ohi diren globoak erabiltzeko ideia baztertu nuen. Horren ordez, paper birziklatua erabili nuen loreak eta kartelak egiteko, eta jai-txanoak egin nituen, haurrek margoekin koloreztatu zituztenak eta mozorro gisa balio izan zietenak. |
Traducción de GEMINI | DesplegarUste osoa dut ingurumenarekin errespetuz jokatzea beharrezkoa dela. Horregatik, ohituta nengoena baino urtebetetze apur bat ezberdina antolatzea erabaki nuen, nahiz eta horrek ahalegin eta gastu handiagoa suposatu. Gonbidapenen gaiarekin hasi nintzen. Paperezko gonbidapenen ordez, Internet erabili nuen, horrela papera eta dirua aurreztu nituen. Gero, paperezkoak erosi beharrean, berrerabil daitezkeen edalontziak eta platerak ere erosi nituen. Dekoraziorako, globoak erabiltzeko ideia baztertu nuen, askotan festa amaitu baino lehen lehertzen baitira. Horren ordez, birziklatutako papera erabili nuen loreak eta kartelak egiteko, eta festako kapelak egin nituen haurrek margoekin margotu eta mozorrotzeko balio izan zietenak. |
Traducción de COPILOT | DesplegarIngurumena errespetatu behar dela sinesten dut irmoki. Horregatik, urtebetetze bat antolatzea erabaki nuen, ohituta nengoenetik apur bat desberdina, nahiz eta horrek lan eta gastu handiagoak ekarri. Gonbidapenen gaiari ekin nion lehenengo. Paperezko gonbidapenak erabili beharrean, Internet erabili nuen, papera eta dirua aurrezteko. Gero, paper-ontziak erostearen ordez, berrerabil daitezkeen edalontziak eta platerak erosi nituen. Dekorazioari dagokionez, globoak erabiltzeko ideia baztertu nuen, askotan festa amaitu aurretik lehertzen direlako. Horren ordez, paper birziklatua erabili nuen loreak eta kartelak egiteko, eta festa-txanoak egin nituen haurrek pinturekin margotu zituztenak, eta, aldi berean, mozorro gisa erabili zituztenak. |
Traducción de GROK | DesplegarSendo sinesten dut ingurumenarekiko errespetutsua izan behar dela. Horregatik, nire urtebetetzea antolatzea erabaki nuen, ohituta nengoenetik pixka bat desberdina izango zena, nahiz eta horrek esfortzu eta gastu handiagoa suposatu. Gonbidapenen gaiarekin hasi nintzen. Paperezko gonbidapenen ordez Internet erabili nuen, horrela papera eta dirua aurreztu nituen. Gero, paperezko edalontziak eta platerak erosi beharrean, berrerabilgarriak direnak erosi nituen. Dekoraziorako, globoak erabiltzearen ideia baztertu nuen, askotan festa amaitu baino lehen lehertu egiten baitira. Horren ordez, papera birziklatua erabili nuen loreak eta kartelak egiteko, eta festarako txapelak egin nituen, haurrek margotu zituztenak pintura eta guzti, eta mozorro gisa balio izan zieten. |
Y aquí ya les vemos las costuras a las IAs.
No vamos a entrar en excesivo detalle, pero hay 2 errores principales que se repiten en mayor o menor de día en los textos de todos los modelos de inteligencia artificial:
- Los textos tienen demasiada influencia del castellano. Muchas de las frases siguen estructuras del castellano que parecen traídas al euskera. Las IAs muestran dichas complicaciones, sobre todo, en frases largas y subordinadas que en el castellano son normales, pero no en euskera…
- Gramaticalmente los textos son bastante correctos, pero tienen varios errores básicos ligados principalmente a la concordancia.
Detectar y corregir errores en euskera
Tras ello, tratando de buscar una mayor objetividad, hemos creado una batería de frases con errores gramaticales que una persona con nivel C1 de euskera debería poder corregir.
Estas han sido las respuestas de cada modelo de IA (hemos resaltado en rojo las respuestas erróneas):
Preguntas | Desplegar1. Bihar Mikelen urtebetetzea izango da: erosten diogu opariren bat? |
Respuestas de CHATGPT | Desplegar1. Bihar Mikelen urtebetetzea da: erosten diogu opariren bat? |
Respuestas de DEEPSEEK | Desplegar1. Bihar Mikelen urtebetetzea izango da: erosteko diogu opariren bat? |
Respuestas de GEMINI | Desplegar1. Bihar Mikelen urtebetetzea izango da: opariren bat erosiko diogu? |
Respuestas de COPILOT | Desplegar1. Bihar Mikelen urtebetetzea izango da: erosten al diogu opariren bat? |
Respuestas de GROK | Desplegar1. Bihar Mikelen urtebetetzea izango da; erosten diogu opariren bat? |
Y este es el número de respuestas correctas de cada IA:
CHATGPT | DEEPSEEK | GEMINI | COPILOT | GROK | |
---|---|---|---|---|---|
Número de respuestas correctas: | 7/10 | 8/10 | 8/10 | 7/10 | 7/10 |
Las notas varían entre el 7 y el 8, y, a decir verdad, esperábamos más. Los errores a corregir tampoco eran muy difíciles, y ninguna IA ha podido corregir correctamente todas las frases.
De hecho, lo más reseñable es que algunas de las correcciones de las IAs contienen errores bastante básicos…
Así que concluimos que los modelos de IA no tienen un avanzado nivel gramatical en euskera.
Comprensión escrita: enfrentando a las IAs al C1 de euskera
También hemos pedido a todas las IAs que resuelvan las pruebas objetivas de un examen de C1 de euskera.
Así que hemos seleccionado la prueba abierta de comprensión escrita de nivel C1 de HABE de 2022. Dicha prueba tiene varias partes:
- Primero, hay dos textos y una batería de preguntas y respuestas entre las que hay que seleccionar las correctas.
- Después hay un tercer texto con espacios, y hay que elegir la opción correcta para cada espacio.
- Finalmente hay un cuarto texto con palabras resaltadas, y hay que seleccionar una palabra equivalente para cada una.
Y estos han sido los resultados de la prueba:
CHATGPT | DEEPSEEK | GEMINI | COPILOT | GROK | |
---|---|---|---|---|---|
1. Prueba | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 |
2. Prueba | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 |
3. Prueba (cada acierto vale la mitad) | 6/10 | 7/10 | 7/10 | 5/10 | 7/10 |
4. Prueba (cada acierto vale la mitad) | 9/10 | 4/10 | 9/10 | 5/10 | 9/10 |
Resultados | 17,5/20 | 15,5/20 | 18/20 | 15/20 | 18/20 |
Como ves, las IAs que han tenido un peor desempeño han sido Deepseek y Copilot, pero todas han aprobado esta parte del examen con solvencia y sin grandes diferencias entre ellas.
Sorprende que todas las IAs han respondido perfectamente a las primeras dos pruebas. Tanto que hemos pensado que, tal vez, las IAs hubieran sido preentrenadas con ese mismo examen que les hemos pasado. Pero esa hipótesis carece de sentido porque han mostrado carencias en la segunda parte, y no creemos que las IAs se entrenaran únicamente con medio examen…
Por eso, nuestra conclusión es que los modelos de inteligencia artificial sí tienen una avanzada comprensión de textos en euskera.
Preguntas sobre cultura vasca
También hemos hecho a la IA 10 preguntas variadas sobre cultura vasca que una persona de Euskal Herria que hable en euskera en su día a día debería poder saber contestar.
Aquí tienes las respuestas de cada IA:
Preguntas | Desplegar1. Zenbat urtean behin ospatzen da Korrika? |
Respuestas de CHATGPT | Desplegar1. Bi urtean behin. |
Respuestas de DEEPSEEK | Desplegar1. Korrika bi urtean behin ospatzen da. |
Respuestas de GEMINI | Desplegar1. Bi urtean behin. |
Respuestas de COPILOT | Desplegar1. Korrika bi urtez behin ospatzen da, oro har. Euskararen aldeko lasterketa erraldoi eta erreleboan oinarritutako ekitaldi hau oso berezia da Euskal Herrian. |
Respuestas de GROK | Desplegar1. Korrika bi urtean behin ospatzen da, normalean udaberrian. |
Y aquí las notas:
CHATGPT | DEEPSEEK | GEMINI | COPILOT | GROK | |
---|---|---|---|---|---|
Número de respuestas correctas: | 9/10 | 8/10 | 9/10 | 9/10 | 7/10 |
Todas las IAs han tenido un buen desempeño, pero ninguna de ellas ha podido acertar todas nuestras preguntas.
Conclusiones
Tras efectuar todas las pruebas… Podemos sacar varias conclusiones:
- Primero, que todas las IAs tienen un muy buen nivel de comprensión escrita.
- Segundo, que también tienen un notable conocimiento sobre cultura vasca.
- Tercero, que todavía tienen claras dificultades a la hora de redactar textos en euskera.
- Y, cuarto: ChatGPT es la IA que más nos ha convencido en estas pruebas, pero no hay grandes diferencias entre los diferentes modelos de inteligencia artificial.
Dicho eso, seamos sinceros: las diferencias entre IAs en materia de euskera deberían ser muy grandes para que las viéramos con las pruebas que hemos hecho.
Y es que el desempeño de las IAs se suele analizar mediante complejas y amplias pruebas de evaluación en las que se comparan diferentes modelos de lenguaje de inteligencia artificial.
Por ejemplo, un conjunto de pruebas es el siguiente:
- Eusproficiency: 5169 ejercicios de exámenes de EGA (el antiguo C1).
- Eusreading: 352 ejercicios de comprensión escrita de EGA (el antiguo C1).
- Eustrivia: 1715 preguntas de trivial provenientes de diferentes recursos online.
- Eusexams: una colección de 16000 preguntas diseñadas para preparar personas para el servicio público.
Como ves, ¡Son unas pocas más que las que hemos llevado a cabo en este artículo! 🤔
Dichas pruebas se realizan en diferentes modelos de diferentes IAs y, después, se comparan las puntuaciones obtenidas.
Y atent@, porque hemos dado con una investigación que ha enfrentado a varias IAs a ese conjunto de pruebas.
Eso sí, la investigación no enfrenta exactamente a todas las IAs que hemos probado en este artículo, ya que estos tests técnicos se suelen centrar en modelos de IA sin interacción mediante chat.
Dicho eso, la investigación afirma lo siguiente:
Entendiendo como aprenden euskera las IAs
El que una IA sepa más euskera que otra obedece a un montón de factores… Pero una de las variables más importantes son los corpus.
Y es que los modelos de lenguaje requieren grandísimas bases de datos para su entrenamiento, y es vital que lenguas como el euskera tengan corpus con el mayor tamaño y calidad posibles, ya que esos son buena parte de los datos con los que las IAs “aprenden”.
Si ordenamos las lenguas del mundo con base en el tamaño de sus corpus en la web de referencia CommonCrawl, el ranking quedaría así:
- 1. Inglés: 46% de los corpus de la web.
- 2. Castellano: 4,6% de los corpus de la web.
- …
- 52. Euskera: 0,035% de los corpus de la web.
El inglés es la lengua que tiene más recursos que pueden servir para entrenar a modelos de lenguaje, y el euskera queda en el puesto 52 (también en torno a ese puesto en cuanto a tamaño de lenguas por hablantes en el mundo).
Y es tal el número de datos necesarios para crear un modelo de lenguaje, que el euskera se considera una lengua de pocos recursos siendo la 52 de la lista.
Por suerte, existen ya varios proyectos de creación de corpus en euskera (ver apartado «Referencias»), así que esperamos que en el futuro los modelos de IA adquieran una mayor competencia en la lengua vasca.
De esa forma, en un futuro servicios de IA hablarán en euskera, y podremos hablar en la lengua vasca a Alexa, Siri o lo que el futuro depare.