Inspiration
GandalFS nace de un problema muy real: las empresas tienen la información que necesitan, pero está enterrada en PDFs, hojas de cálculo y documentos difíciles de explorar. Nos inspiramos en la necesidad de ofrecer una solución que no solo encuentre archivos, sino que comprenda su contenido, facilitando el la búsqueda de información.
What it does
GandalFS es un sistema capaz de indexar documentos corporativos y permitir búsquedas híbridas que combinan palabras clave, frases exactas y comprensión semántica. Más allá de devolver documentos, responde preguntas basándose en el contenido real de los archivos. Todo el procesamiento ocurre localmente, garantizando que los datos nunca salgan del entorno.
How we built it
Construimos el motor sobre OpenSearch, aprovechando su soporte para búsqueda vectorial y aplicando distintos enfoques de recuperación. La capa de IA funciona con Ollama, mientras que la API está desarrollada con FastAPI. Para los embeddings utilizamos Sentence-Transformers, y diseñamos un pipeline robusto de limpieza, OCR y segmentación para maximizar la calidad del contexto recuperado.
Challenges we ran into
Uno de los mayores retos fue tratar con PDFs escaneados y texto generado por OCR poco consistente. También fue complejo equilibrar la precisión semántica con tiempos de respuesta rápidos y normalizar las puntuaciones de distintos métodos de búsqueda para que trabajaran de forma coherente.
Accomplishments that we're proud of
Logramos implementar una búsqueda híbrida real que mejora significativamente la relevancia frente a enfoques puramente vectoriales. Conseguimos combinar búsqueda léxica, coincidencia exacta y recuperación semántica mediante fusión de rankings, obteniendo resultados más precisos, estables y explicables.
What we learned
Aprendimos que la calidad del preprocesamiento y del chunking impacta tanto como el modelo de lenguaje, que la búsqueda híbrida es clave para entornos corporativos y que la privacidad no es solo un requisito técnico, sino una ventaja estratégica.
What's next for GandalFS
El siguiente paso es contruir una arquitectura más modular, que sea completamente desplegable con tecnologías como Docker, y lista para extenderse a nuevos formatos. GandalFS no pretende ser solo un buscador, sino una plataforma de conocimiento empresarial preparada para crecer.
Built With
- fastapi
- nextjs
- ollama
- openpyxl
- opensearch
- pymupdf
- python
Log in or sign up for Devpost to join the conversation.