Pipeline RAG con búsqueda híbrida¶
Resumen de entrega
Rol: AI Engineer Sector: Servicios intensivos en conocimiento Objetivo: Mejorar la precisión de retrieval sobre colecciones documentales muy orientadas a dominio
Impacto medible
- 40% de mejora en precisión de retrieval por dominio
- Mejor gestión de términos exactos de negocio e intención semántica en el mismo sistema
- Pipeline de nivel producción sirviendo aplicaciones reales intensivas en conocimiento
- Arquitectura modular que mantuvo desacoplada la capa LLM
Stack principal
LangChain OpenSearch Qdrant FastAPI Python
Reto de negocio¶
Las aplicaciones intensivas en conocimiento requieren retrieval muy preciso sobre grandes colecciones documentales de dominio específico. La keyword search tradicional perdía relaciones semánticas, mientras que la búsqueda vectorial pura sufría con términos exactos y consultas estructuradas. El cliente necesitaba un sistema de retrieval que sacara con fiabilidad la información más relevante para distintos tipos de documentos y patrones de consulta.
Resumen de la solución¶
Arquitectura de alto nivel cubriendo query routing, retrieval híbrido, fusión e integración downstream con LLM.
Diseñé una arquitectura de retrieval que combina vector y keyword search sin bloquear el sistema en una sola estrategia:
- OpenSearch gestiona términos exactos, ranking BM25 y patrones de consulta estructurados.
- Qdrant captura similitud semántica e intención más allá del texto literal.
- Fusión y re-ranking combinan ambos conjuntos de resultados para mejorar la relevancia en preguntas reales.
- Orquestación con LangChain gestiona retrieval, prompting e interacciones downstream con el LLM.
Decisiones clave de diseño¶
- La lógica de retrieval vive detrás de interfaces claras para que las estrategias de búsqueda evolucionen de forma independiente a la capa API.
- El matching exacto y el retrieval semántico se tratan como señales complementarias, no como implementaciones en competencia.
- La evaluación se centró en clases de consulta y failure modes, lo que facilitó explicar de dónde venía cada mejora.
Resultados en producción¶
- 40% de mejora en precisión de retrieval por dominio
- Mejor soporte para preguntas tanto semánticas como guiadas por keywords
- Iteración más rápida sobre estrategia de ranking sin cambiar el contrato API
- Desacoplamiento más limpio del LLM y mayor facilidad para futuras mejoras de modelo
Playbook de retrieval¶
Por qué importó¶
Este sistema dio al cliente un camino mucho más limpio desde el caos documental hasta respuestas mejor fundamentadas. También redujo riesgo a largo plazo al evitar un acoplamiento excesivo entre retrieval, prompt templates y el resto de la aplicación.
¿Necesitas mejorar la calidad de retrieval antes de escalar la capa LLM?¶
Si tus respuestas siguen siendo inconsistentes porque la calidad de búsqueda es inestable, el retrieval híbrido suele ser la parte de mayor impacto para arreglar primero.