{"id":3323,"date":"2026-03-21T17:40:07","date_gmt":"2026-03-21T16:40:07","guid":{"rendered":"http:\/\/laf5.publisher.highstack.com.ar\/?p=3323"},"modified":"2026-03-21T17:40:07","modified_gmt":"2026-03-21T16:40:07","slug":"la-inteligencia-artificial-es-capaz-de-responder-casi-cualquier-cosa-con-precision-pero-once-matematicos-han-creado-una-prueba-disenada-para-algo-distinto-comprobar-si-realmente-entiende-lo-que-hace","status":"publish","type":"post","link":"https:\/\/laf5.publisher.highstack.com.ar\/?p=3323","title":{"rendered":"La inteligencia artificial es capaz de responder casi cualquier cosa con precisi\u00f3n. Pero once matem\u00e1ticos han creado una prueba dise\u00f1ada para algo distinto: comprobar si realmente entiende lo que hace o solo imita patrones sin razonar"},"content":{"rendered":"<div>\n<p>\u00bfLas inteligencias artificiales razonan o simplemente repiten patrones que han visto millones de veces? Es una pregunta que se ha vuelto inc\u00f3moda en un momento en el que los modelos de lenguaje parecen cada vez m\u00e1s capaces de responder casi cualquier cosa. En conversaciones cotidianas, la IA puede sonar convincente, incluso brillante. Pero cuando la llevamos al terreno m\u00e1s exigente del pensamiento abstracto (las matem\u00e1ticas de investigaci\u00f3n real) la ilusi\u00f3n empieza a resquebrajarse.<\/p>\n<p>Ah\u00ed es donde entra en juego un experimento dise\u00f1ado para incomodar a la IA: First Proof, un proyecto que busca comprobar si los modelos actuales pueden enfrentarse a problemas matem\u00e1ticos in\u00e9ditos, sin apoyarse en soluciones ya publicadas en internet.<\/p>\n<h2>Un experimento pensado para separar memoria de razonamiento<\/h2>\n<p>First Proof no es un test al uso. Nace de una cr\u00edtica muy concreta: la mayor\u00eda de las evaluaciones actuales de IA en matem\u00e1ticas se basan en problemas de competiciones, ex\u00e1menes o ejercicios que, de una forma u otra, ya circulan por la red. Eso introduce un sesgo evidente: los modelos han sido entrenados con enormes cantidades de libros, art\u00edculos, soluciones y foros de discusi\u00f3n. Cuando \u201cresuelven\u201d un problema, es dif\u00edcil saber si est\u00e1n razonando o simplemente recombinando informaci\u00f3n conocida.<\/p>\n<p>Para evitar esa trampa, once matem\u00e1ticos de primer nivel dise\u00f1aron problemas completamente in\u00e9ditos, extra\u00eddos de sus propias investigaciones no publicadas. El equipo incluye figuras de referencia mundial, entre ellas ganadores de la Medalla Fields y especialistas en \u00e1reas como topolog\u00eda algebraica, teor\u00eda espectral de grafos, geometr\u00eda simpl\u00e9ctica o an\u00e1lisis estoc\u00e1stico. Adem\u00e1s, el proyecto se plante\u00f3 sin financiaci\u00f3n de empresas de IA, precisamente para evitar conflictos de inter\u00e9s.<\/p>\n<h2>Diez problemas que no estaban en ning\u00fan dataset<\/h2>\n<p>El coraz\u00f3n del experimento son diez problemas matem\u00e1ticos reales, del tipo que un investigador humano se enfrenta en su trabajo cotidiano. No son acertijos ni rompecabezas de competici\u00f3n: son cuestiones abiertas, que requieren creatividad, intuici\u00f3n y construcci\u00f3n de pruebas formales.<\/p>\n<p>Las soluciones humanas fueron resueltas previamente y cifradas en la web oficial del proyecto. Luego, varios modelos de IA de \u00faltima generaci\u00f3n fueron puestos a prueba en modo \u201cone-shot\u201d: un \u00fanico intento por problema, sin pistas, sin contexto adicional. El objetivo era simple y brutal: ver qu\u00e9 pasaba cuando la IA no pod\u00eda tirar de memoria.<\/p>\n<p>Los resultados fueron reveladores. De los diez problemas, los sistemas evaluados solo lograron resolver correctamente dos, y aun as\u00ed con un nivel de solidez discutible para est\u00e1ndares acad\u00e9micos reales. En los dem\u00e1s casos, las respuestas eran plausibles en apariencia, pero fallaban en pasos clave, comet\u00edan errores conceptuales o directamente constru\u00edan argumentos que \u201csonaban bien\u201d pero no demostraban nada.<\/p>\n<h2>Texto sofisticado no es lo mismo que pensamiento matem\u00e1tico<\/h2>\n<figure id=\"attachment_2000223037\" aria-describedby=\"caption-attachment-2000223037\" class=\"wp-caption alignnone\"><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-2000223037\" src=\"https:\/\/es.gizmodo.com\/app\/uploads\/2026\/02\/Diseno-sin-titulo-71-11.jpg\" alt=\"Once matem\u00e1ticos de \u00e9lite han creado una prueba que expone el mayor punto d\u00e9bil de la inteligencia artificial. La diferencia entre \u201cresponder bien\u201d y razonar de verdad\" width=\"1500\" height=\"1000\" srcset=\"https:\/\/es.gizmodo.com\/app\/uploads\/2026\/02\/Diseno-sin-titulo-71-11.jpg 1500w, https:\/\/es.gizmodo.com\/app\/uploads\/2026\/02\/Diseno-sin-titulo-71-11-300x200.jpg 300w, https:\/\/es.gizmodo.com\/app\/uploads\/2026\/02\/Diseno-sin-titulo-71-11-1024x683.jpg 1024w, https:\/\/es.gizmodo.com\/app\/uploads\/2026\/02\/Diseno-sin-titulo-71-11-768x512.jpg 768w, https:\/\/es.gizmodo.com\/app\/uploads\/2026\/02\/Diseno-sin-titulo-71-11-672x448.jpg 672w, https:\/\/es.gizmodo.com\/app\/uploads\/2026\/02\/Diseno-sin-titulo-71-11-960x640.jpg 960w\" sizes=\"auto, (max-width: 639px) 100vw, (max-width: 1023px) calc(100vw - 2rem), (max-width: 1258px) calc((100vw - 3.68rem) * 2 \/ 3), 800px\"\/><figcaption id=\"caption-attachment-2000223037\" class=\"wp-caption-text\">\u00a9 ChatGPT \/ Gizmodo.<\/figcaption><\/figure>\n<p>Uno de los puntos m\u00e1s interesantes del experimento es c\u00f3mo pone de relieve una confusi\u00f3n muy extendida: que una IA genere texto matem\u00e1tico coherente no significa que est\u00e9 razonando. Puede escribir demostraciones con el tono adecuado, usar notaci\u00f3n correcta e incluso encadenar argumentos de forma veros\u00edmil. Pero la matem\u00e1tica de investigaci\u00f3n no se trata de sonar bien, sino de no cometer errores en cadenas de razonamiento extremadamente delicadas.<\/p>\n<p>En algunos casos, los modelos produc\u00edan lo que los propios investigadores describen como \u201calucinaciones matem\u00e1ticas\u201d: pasos inventados, teoremas mal aplicados o inferencias que, en apariencia, segu\u00edan la l\u00f3gica formal, pero que no se sosten\u00edan al ser revisadas por un humano experto.<\/p>\n<h2>El cuello de botella humano sigue ah\u00ed<\/h2>\n<p>Un dato llamativo del proyecto es que, incluso cuando las empresas desarrolladoras de IA intentaron generar soluciones candidatas para los problemas, la validaci\u00f3n final dependi\u00f3 de matem\u00e1ticos humanos que dedicaron horas a revisar cada respuesta. Esto revela un cuello de botella poco visible en el discurso sobre la automatizaci\u00f3n: la IA puede generar mucho, muy r\u00e1pido, pero verificar si eso es correcto sigue siendo caro, lento y humano.<\/p>\n<p>En matem\u00e1ticas, una soluci\u00f3n incorrecta no es \u201cm\u00e1s o menos v\u00e1lida\u201d: simplemente est\u00e1 mal. Y detectar por qu\u00e9 est\u00e1 mal exige exactamente el tipo de comprensi\u00f3n profunda que, por ahora, las m\u00e1quinas no parecen tener.<\/p>\n<h2>Lo que este experimento dice sobre el futuro de la IA<\/h2>\n<p>First Proof no demuestra que la IA sea in\u00fatil en matem\u00e1ticas. Al contrario: deja claro que es una herramienta potent\u00edsima para explorar ideas, sugerir caminos, automatizar c\u00e1lculos o incluso proponer conjeturas. Pero tambi\u00e9n expone un l\u00edmite inc\u00f3modo: razonar de verdad en terrenos no vistos sigue siendo, por ahora, una frontera esencialmente humana.<\/p>\n<p>Los propios responsables del proyecto planean repetir el experimento peri\u00f3dicamente para medir si los avances en modelos de IA reducen esa brecha. Quiz\u00e1 dentro de unos a\u00f1os los resultados sean distintos. O quiz\u00e1 descubramos que hay una diferencia estructural entre \u201cgenerar respuestas plausibles\u201d y \u201cconstruir conocimiento nuevo\u201d que no se salva solo con m\u00e1s datos y m\u00e1s par\u00e1metros.<\/p>\n<p>De momento, el experimento First Proof funciona como un espejo poco complaciente: nos recuerda que, por muy impresionante que parezca la inteligencia artificial, todav\u00eda no hemos resuelto el problema m\u00e1s dif\u00edcil de todos. No es que las m\u00e1quinas hablen como nosotros. Es si, en el fondo, piensan de verdad.<\/p>\n<\/p><\/div>\n","protected":false},"excerpt":{"rendered":"<p>\u00bfLas inteligencias artificiales razonan o simplemente repiten patrones que han visto millones de veces? Es una pregunta que se ha vuelto inc\u00f3moda en un momento en el que los modelos de lenguaje parecen cada vez m\u00e1s capaces de responder casi cualquier cosa. En conversaciones cotidianas, la IA puede sonar convincente, incluso brillante. Pero cuando la [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":3324,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-3323","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry"],"_links":{"self":[{"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=\/wp\/v2\/posts\/3323","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=3323"}],"version-history":[{"count":0,"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=\/wp\/v2\/posts\/3323\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=\/wp\/v2\/media\/3324"}],"wp:attachment":[{"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=3323"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=3323"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/laf5.publisher.highstack.com.ar\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=3323"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}