Cómo los motores de IA encuentran directorios: lo que ProFix aprendió exponiendo 21,000 contratistas a ChatGPT, Claude, Perplexity y Gemini

Una guía práctica sobre los manifiestos, sitemaps, servidores MCP, feeds JSON-LD, OpenAPI, llms.txt e IndexNow que ProFix publica para que los motores de IA puedan encontrar, citar y llamar a un directorio.

Investigación original5 motores de IA6 superficies machine-readablePublicado 2026-05-23CC BY 4.0

Resumen rápido: ¿cómo encuentra un motor de IA a un directorio?

Lo encuentra por dos caminos a la vez. El primero es el camino clásico: crawlers, sitemaps, canonical tags, HTML limpio y JSON-LD. El segundo es el camino nativo para agentes: llms.txt, MCP, OpenAPI, feeds JSON-LD separados y datasets abiertos. En 2026, el directorio que sólo piensa en Google se queda corto. Si quieres que ChatGPT, Claude, Perplexity o Gemini citen tu sitio, tienes que darles URLs que puedan leer, entender y volver a citar.

  • La IA no reemplaza el SEO clásico; lo vuelve más exigente.
  • Los manifiestos para IA cuestan poco y se pueden generar desde el repo.
  • Un feed abierto vale más que un badge bonito cuando el modelo necesita evidencia.
  • La atribución todavía es borrosa; hay que publicar infraestructura antes de ver tráfico.

El embudo de búsqueda con IA

Durante años, la estrategia de un directorio era simple: que Google lo rastreara, lo posicionara y mandara usuarios. Bing, Yelp y algunos verticales importaban, pero la conversación real era SEO para Google. En 2026 esa suposición ya no alcanza. Muchas preguntas de dueños de casa se resuelven dentro de una respuesta generada por IA antes de que alguien vea diez enlaces azules.

Cada motor trabaja distinto. Algunos mantienen índices propios. Otros hacen fetch en vivo cuando el usuario pregunta. Otros se apoyan en el índice clásico de Google o Bing. Por eso ProFix no publicó una sola "señal de IA"; publicó una pila completa que cualquier motor puede escoger según su forma de operar.

MotorCómo indexaQué señales lee
ChatGPT searchOAI-SearchBot más un índice de respaldo parecido a Bing para recuperación web.Sitemaps, HTML semántico, canónicas, llms.txt cuando está disponible, OpenAPI para Actions y enlaces citables en las respuestas.
Claude searchBúsqueda web y fetch de URLs en vivo, invocados por Claude cuando la pregunta lo requiere.HTML actual, JSON-LD para aterrizar entidades, OpenAPI, Connectors y servidores Model Context Protocol cuando el sitio los expone.
PerplexityPerplexityBot, índices de socios y fetch agresivo de URLs que después aparecen como citas.Sitemaps para cobertura, bloques TL;DR citables, JSON-LD limpio, títulos claros y URLs frescas con canonical correcto.
Gemini / AI OverviewsGooglebot, el mismo crawler que alimenta Search y AI Overviews.Schema.org, datos estructurados, autoridad de entidad, Core Web Vitals, sitemaps y señales clásicas de Google.
Brave Search AI y You.comÍndices independientes o mezclados, no siempre dependientes de Google.Crawl web estándar, manifiestos específicos para IA y feeds que se puedan leer sin sesión, cookies ni claves.

La conclusión práctica: no existe un solo "AI SEO". Un directorio tiene que ser rastreable, citable y llamable por agentes. Esa mezcla es lo que convierte una página web en una superficie de evidencia.

Lo que ProFix publicó

La pila vive encima de un sitio Next.js normal. No requiere CMS ni una herramienta SEO pagada. Lo importante es que cada pieza sea pública, estable y regenerable desde los datos reales.

  • llms.txt y llms-full.txt. Un mapa editorial en Markdown con las URLs más importantes: herramientas primero, luego oficios, investigación, guías y datos. Está en /llms.txt y /llms-full.txt y se regenera en cada deploy.
  • Servidor Model Context Protocol. Un endpoint en /api/mcp con herramientas de solo lectura para buscar pros, revisar cobertura, consultar metodología, triage de síntomas y feeds de verificación.
  • OpenAPI 3.1. La descripción canónica de la API pública en /api/openapi.json. Es el formato que esperan ChatGPT Actions, SDKs de agentes y cargadores de herramientas.
  • Feeds JSON-LD. Grafos Schema.org separados para organización, pros, cost guides, FAQ, índice local y breadcrumbs. Cada uno se sirve como application/ld+json con CORS abierto.
  • Sub-sitemaps e IndexNow. Sitemaps por tipo de entidad y pings IndexNow a Bing/Yandex cada vez que cambia contenido relevante, para no esperar al próximo crawl.
  • Dataset abierto en Hugging Face. El corpus de 21,000+ contratistas de Ohio se publica bajo CC BY 4.0 para que investigadores, agentes y motores puedan citar la procedencia de los datos.

Estas superficies también ayudan a humanos. Un periodista puede abrir /api/openapi.json. Un investigador puede bajar el dataset en Hugging Face. Un agente puede consultar /api/mcp en lugar de raspar HTML.

Qué señales ya vemos

La medición todavía es débil. No hay una versión madura de Search Console para cada motor de IA. Lo que sí vemos en logs y analítica son señales indirectas: fetches de /llms.txt por bots identificables, descargas crecientes del dataset, sesiones con referrers de plataformas de IA y llamadas a endpoints JSON-LD desde validadores o herramientas de fetch.

No vamos a convertir eso en una cifra de tráfico porque sería vender humo. La señal honesta es que los motores y agentes sí tocan estas URLs. El trabajo de infraestructura empieza a acumular antes de que el dashboard de marketing pueda explicar exactamente qué respuesta generó qué clic.

Lo que sigue incierto

Publicamos este análisis con margen para corrección. El ecosistema cambia rápido y varias preguntas no tienen respuesta pública todavía:

  • Los grandes motores todavía no han dicho con total claridad cuánto peso dan a llms.txt.
  • No sabemos si listar un servidor MCP en registros públicos cambia el tráfico o las citas.
  • OpenAPI es el idioma común, pero cada plataforma aún tiene su propio manifiesto o proceso de conexión.
  • La publicación en Hugging Face probablemente ayuda a largo plazo; el ciclo de feedback puede tardar meses o años.
  • Los feeds JSON-LD separados podrían duplicar señales inline, pero hacen que el grafo sea más fácil de auditar.

El kit mínimo para que un directorio sea encontrable por IA

Si tienes un fin de semana, no empieces rediseñando la home. Empieza por las superficies que un crawler, un agente y un investigador pueden consumir sin hablar contigo. Lo importante no es que todas las plataformas usen todas las piezas el mismo día; lo importante es que ninguna plataforma encuentre una pared cuando intenta verificar quién eres, qué datos publicas y cómo se puede consultar tu catálogo.

  1. Publica /llms.txt y /llms-full.txt generados desde tus URLs vivas.
  2. Expón una especificación OpenAPI 3.1 en una URL canónica.
  3. Agrega un servidor MCP de solo lectura con herramientas simples: buscar, obtener, listar.
  4. Sirve un grafo Organization JSON-LD independiente.
  5. Publica al menos un CSV abierto bajo CC BY 4.0.
  6. Divide tus sitemaps por tipo de entidad para que los crawlers prioricen mejor.
  7. Haz ping con IndexNow cuando cambie contenido importante.

Qué haríamos diferente

La primera lección es no esconder APIs de lectura detrás de autenticación. Hay razones legítimas para proteger datos privados, pero un catálogo público que quieres que sea citado debe poder leerse con un GET normal. Si el agente necesita una key, una cookie, un header especial o una sesión humana, probablemente no te va a citar. Va a escoger otra fuente que sí pueda abrir.

La segunda lección es emitir JSON-LD en cada página importante, no sólo en la home. Un motor puede entrar por un perfil, una guía de costos o un artículo de investigación. Esa URL debe poder explicar la entidad completa: organización, breadcrumbs, artículo o negocio local, fecha, licencia, datos relacionados y enlaces de fuente. El grafo global ayuda, pero la página individual tiene que sostenerse sola.

La tercera lección es tratar el dataset como la fuente canónica. La web es la superficie humana; el dataset es la superficie para agentes. Cuando ambas salen del mismo origen, el contenido no se contradice: el perfil, el feed JSON, el sitemap, llms.txt y el dataset abierto cuentan la misma historia. Esa consistencia es aburrida de construir y valiosa cuando un modelo compara fuentes.

La apuesta

La apuesta de ProFix es que el descubrimiento por IA ya es infraestructura básica para cualquier directorio que quiera crecer sin comprar todo su tráfico. Google no desaparece, pero cada vez más intención de búsqueda se resuelve en superficies de respuesta. Cuando un modelo recomienda un contratista, necesita evidencia que pueda citar: licencia, permiso, metodología, feed y fuente.

El foso difícil de copiar no es una página bonita. Es la combinación de transparencia de fuente, datos abiertos y manifiestos que los motores pueden leer. Los análisis hermanos sobre permisos vs estrellas, comparación de directorios y qué significa verificado explican la mitad de confianza de la misma tesis.

Limitaciones y correcciones

Revisado el 2026-05-23. La taxonomía de motores de IA describe comportamientos observables por documentación pública, user-agents en logs y patrones de citas al momento de publicación. Si trabajas en OpenAI, Anthropic, Perplexity, Google, Brave o You.com y algo está materialmente mal, manda la corrección por /contact.

Cita este reporte

ProFix Directory (2026). Cómo los motores de IA encuentran directorios: lo que ProFix aprendió exponiendo 21,000 contratistas a ChatGPT, Claude, Perplexity y Gemini. Publicado 2026-05-23. Licencia CC BY 4.0. Disponible en: https://profixdirectory.com/es/investigacion/como-los-motores-de-ia-encuentran-directorios-2026

Emergencia