BlockRank: Cómo los LLM redefinen el ranking al procesar cientos de documentos al mismo tiempo
El reciente estudio Scalable In‑context Ranking with Generative Models de Google DeepMind muestra cómo un nuevo método llamado BlockRank rompe el cuello de botella tradicional de ranking de documentos
¡Gracias por leer la newsletter de Linking and Growing! Damos la bienvenida a los nuevos suscriptores de la última semana, en total ya somos 2268 suscriptores en la newsletter de Linking & Growing!
Si deseas recibir cada semana información sobre SEO relacionada con linkbuilding, suscríbete a continuación.
1. Contexto
La recuperación de información (IR) tradicional está evolucionando hacia nuevos paradigmas gracias a los modelos de lenguaje de gran escala (LLMs). El contexto desde el que parte esta base es el siguiente:
Se considera el paradigma de In-context Ranking (ICR): es decir, en lugar de usar un “simple” ranking de documentos basado en embebidos o modelos duales, se incluye en un prompt del LLM la tarea, la consulta (query) y una lista de documentos candidatos, y el modelo debe decidir cuáles documentos son relevantes.
El problema central: aunque ICR aprovecha el poder contextual de los LLMs, cuando el número de candidatos crece (por ejemplo decenas o centenares de documentos), la atención dentro del transformador escala de forma cuadrática o super-lineal respecto al número de tokens/contexto, generando costes de cómputo y memoria elevados.
Por tanto, la motivación es clara: ¿Cómo hacer que los LLMs puedan hacer ranking de documentos en contexto de forma escalable y eficiente sin perder calidad de recuperación?
2. Observaciones clave sobre el comportamiento de la atención en LLMs para ICR
Antes de proponer su método, en el estudio realizan un análisis de cómo los LLMs (en su caso, un modelo base como Mistral 7B finetuneado para ICR) “prestan atención” cuando realizan ranking in-context. De ese análisis surgen dos patrones fundamentales:
Inter-document block sparsity: en los middle layers del transformador, la atención es densa dentro de cada bloque de documento (tokens que pertenecen al mismo documento candidato), pero es muy escasa entre tokens de documentos diferentes. Dicho de otra forma: los documentos no “atacan” mucho entre sí, sino que cada uno “se procesa” principalmente de forma local. Esto sugiere que el modelo no necesita emparejar cada token con cada otro token de todos los documentos, lo cual abre una vía para optimizar.
Query-document block relevance: determinados tokens de la consulta (query), por ejemplo los delimitadores o símbolos como “:” según el estudio, muestran en las capas medias del transformador una atención más concentrada hacia el bloque de documento relevante. Es decir, hay señales en la atención que correlacionan con la relevancia real del documento respecto a la consulta.
Estas dos observaciones guían el diseño del método que proponen.
3. Propuesta técnica: BlockRank (Blockwise In-context Ranking)
Basándose en las dos observaciones anteriores, en el estudio proponen BlockRank que incorpora tres componentes principales:
3.1 Atención esparcida estructurada (Structured Sparse Attention)
Se segmenta el prompt en: un bloque de instrucciones, un bloque de consulta (query), y N bloques de documentos candidatos.
Se impone una máscara de atención tal que:
Los tokens dentro de un mismo documento candidato sólo atienden a sí mismos y al bloque de instrucciones.
Los tokens del bloque de consulta pueden atender a todos los bloques (instrucción + documentos).
Esto evita que cada documento atienda a todos los documentos vecinos, reduciendo drásticamente la complejidad de atención.
Gracias a esto, la complejidad de la atención pasa de cuadrática sobre el número de tokens a algo más cercano a lineal respecto al número de documentos candidatos.
3.2 Pérdida auxiliar de contraste sobre atención (Auxiliary Contrastive Attention Loss)
Durante el entrenamiento se añade un objetivo (InfoNCE u otro tipo de contraste) que fuerza que los tokens de consulta “apunten” con mayor atención hacia el documento relevante.
Esto refuerza la señal de relevancia dentro del mecanismo de atención, permitiendo que la atención interna del modelo refleje mejor cuál es el documento correcto.
3.3 Inferencia basada en atención (Attention-based Inference)
Como resultado, al aplicar fine-tuning al modelo con estas modificaciones se permite una forma de inferencia más rápida: en lugar de hacer auto‐regressive decoding completo para cada candidato, se puede extraer directamente las matrices de atención de una capa media (donde emergen las señales de relevancia) y computar puntajes de relevancia para cada documento candidato. Esto reduce latencia.
En sus experimentos reportan que con ~100 documentos candidatos el modelo es ~4.7 × más rápido que un modelo estándar.
4. Experimentos y resultados
En el estudio se valida el método en tres grandes benchmarks estándar de recuperación de información:
BEIR: colección de múltiples tareas de IR en diferentes dominios.
MS MARCO (pasajes): conjunto ampliamente usado en IR.
Natural Questions (NQ): basado en preguntas reales de Google.
Resumen de hallazgos:
En términos de efectividad (precisión, MRR, nDCG), BlockRank iguala o supera a los sistemas de estado del arte (listwise re-rankers) en esos benchmarks.
En términos de eficiencia, se comporta mucho mejor: por ejemplo ~4.7 × más rápido para 100 documentos en MS MARCO.
En escenarios de contexto largo (~500 documentos, ~100K tokens) mantiene escalabilidad viable dentro de ~1 segundo de inferencia.
5. Implicaciones para SEO, recuperación de información y búsqueda basada en IA
Como consultor SEO con experiencia en cómo la visibilidad orgánica se conecta con el universo de los LLMs, estas conclusiones tienen implicaciones directas:
La existencia de ICR (In-context Ranking) sugiere que los LLMs pueden ejecutar ranking de documentos directamente desde su contexto de entrada, lo cual refuerza la importancia de que tus contenidos estén bien estructurados, correctamente definidos como candidato relevante para consultas, porque un LLM podría “verlos” junto con otros y decidir relevancia.
El énfasis en eficiencia (reducción de complejidad, rapidez) quiere decir que en entornos productivos de IA (por ejemplo sistemas de respuesta automática, búsqueda asistida por IA, “AI Mode” de buscadores) estas arquitecturas escalarán pronto. Eso abre un escenario en que “ser indexado” no es suficiente: ser candidato viable para que un LLM lo evalúe in-context podría implicar que tu contenido esté ya muy bien posicionado, estructurado y optimizado para intenciones claras.
Desde la perspectiva del SEO técnico y de contenido, esto implica trabajar en:
Clear intent: que la consulta de usuario tenga una correspondencia limpia con tu contenido.
Buen formato de documento: que el bloque de contenido esté bien delimitado (documento único, con metaestructura clara) de modo que un LLM lo “procese” como bloque candidato.
Autoridad y contexto: dado que el modelo puede comparar múltiples candidatos, tu contenido debe “competir” en calidad, contexto, semántica y relevancia frente a otros bloques para destacar.
A nivel de herramienta: si los motores de búsqueda o sistemas de IA implementan enfoques como BlockRank, estar en el top-10 o en posiciones destacadas ya no sólo importa para clics, sino para ser considerado en el proceso interno de las IAs como candidato para respuestas automáticas o resumen (lo que tiene implicaciones de visibilidad “sin clic”).
Como SEO, conviene anticipar que el ranking orgánico tradicional y el ranking para sistemas de IA convergen más: optimizar para usuario y para modelo.
6. Limitaciones
Aunque el trabajo es muy prometedor, también es importante tener en cuenta ciertas cuestiones:
El estudio se hace con un modelo específico (Mistral 7B) en los experimentos principales, lo cual limita la generalización: otros tamaños de modelo o diferentes arquitecturas podrían comportarse distinto.
No se afirma que esta técnica (BlockRank) esté ya desplegada en sistemas reales de producción de buscadores (como el propio Google AI Mode o similares). Así que de momento es una aproximación investigativa.
El “contexto” de documentos sigue limitado por la ventana de contexto del LLM; aunque hay escalabilidad mejorada, aún hay un tope físico/arquitectónico (tokens, memoria).
A pesar de la eficiencia ganada, entra en juego la primera etapa de selección de candidatos (“first-stage retriever”) que se asume como ya buena. Si la lista de candidatos no incluye tu contenido, ICR no puede “citarte”.
La optimización de atención interna no dice mucho (todavía) sobre factores SEO tradicionales (backlinks, experiencia de usuario, etc.). Es una capa más arquitectónica que de “ranking de página web”.
7. Conclusión para tu estrategia de SEO y crecimiento
En definitiva, este estudio representa un hito técnico dentro de la confluencia entre modelos de lenguaje y recuperación de información, con implicaciones directas para SEO en el nuevo paradigma:
No pierdes solo posicionamiento en buscadores “normales”, estás también en la carrera por aparecer en respuestas generadas por IA.
Optimizar para contenido de calidad, bien estructurado, con intención clara y autoridad sigue siendo clave, pero también la arquitectura y formato del contenido (cómo lo “lee” un LLM) empieza a importar más.
Es momento de integrar en tus auditorías y estrategias de SEO un “check” adicional: ¿Qué tan bien preparado está este contenido para ser candidato en un proceso de ranking de LLMs? ¿Está claro, autónomo, delimitado como bloque, bien etiquetado en metadatos, etc.?
Como SEO, tienes ventaja si ya estás pensando en cómo la visibilidad orgánica tradicional + inteligencia artificial de búsqueda se combinan. Este tipo de investigación te da argumentos técnicos para vender la idea de “optimización para ranking orgánico y ranking de IA”.
Espera, todavía no te vayas, te voy a dejar por aquí 3 formas en las que te puedo ayudar
🔍 ¿Sientes que estás generando contenido pero Google no lo recompensa? Quizá es hora de revisar tu sitio Web a fondo
➡️ Descubre cómo una Auditoría SEO puede cambiar esto
🚀 ¿Tu web crece... pero demasiado lento para los objetivos que tienes definido en tu negocio? Acelera tu posicionamiento con una estrategia personalizada
➡️ Te cuento cómo es el trabajo de SEO Growth Partner.
🎯 ¿Te gustaría aprender a realizar auditorías SEO profesionales y automatizaciones de flujos de trabajo cada semana?
➡️ Reserva una reunión 1:1 conmigo: Mentoría SEO



Genial cada día aprender conocimientos de IA GenAI con publicaciones como la vuestra que nos ayudan a expertos de IA a estar actualizados dentro del mar de océano de noticias de IA y no podemos estar en todas partes de noticias. Además esta red social de Substack es fantástica y espero vaya creciendo. Dar gracias a los fundadores de este tipo de red social nueva que me encanta. Buen fin de semana ! 👍🏻🚀