server.nexe — Servidor IA Local Self-Hosted con Memoria RAG

v1.0.6 — Apache 2.0

Servidor de IA que corre 100% en local.
Memoria persistente entre conversaciones.
Cero datos en la nube.

Producto mínimo viable para el mundo real. Abierto a feedback de la comunidad. 🚀

macOS

Descarga el DMG

v1.0.6 · Apple Silicon

Linux

Descarga el AppImage

v1.0.6 · ARM64 · Ubuntu 24.04+ · ~1.1 GB

chmod +x nexe-app_*.AppImage && ./nexe-app_*.AppImage

GitHub Releases

MLX

llama.cpp

Ollama

RAG

Qdrant

Privacidad total

FastAPI

Plugins

768-dim embeddings

OpenAI compatible

Apple Silicon

Dual-key auth

MLX

llama.cpp

Ollama

RAG

Qdrant

Privacidad total

Por qué NEXE

Seis pilares

Local y Privado

Corre completamente en tu ordenador. Ninguna conversación, ningún dato, ningún documento sale jamás de tu dispositivo. Privacidad absoluta garantizada por arquitectura.

Memoria RAG

Recuerda información entre sesiones con embeddings de 768 dimensiones en Qdrant. Indexa documentos MD, PDF y TXT. Activa o desactiva colecciones individualmente desde el sidebar.

Multi-backend

MLX nativo para Apple Silicon, llama.cpp universal, o bridge a Ollama. Cambia de modelo y backend sin reescribir nada. API unificada.

Modular

Cada backend es un plugin independiente. Añade nuevas funcionalidades sin tocar el core. Arquitectura diseñada para crecer y experimentar.

Memoria Automática

El servidor auto-guarda información relevante de las conversaciones con detección de intenciones trilingüe, deduplicación inteligente y poda automática. Puedes borrar hechos con MEM_DELETE y ver cada guardado en un bloque azul colapsable.

Multilingüe

Sistema i18n completo en CA/ES/EN para la interfaz, system prompts, etiquetas RAG y mensajes de error. Cambia de idioma sin reiniciar.

Empecemos

Cuatro comandos

01 — Clona el repositorio

$ git clone https://github.com/jgoy-labs/server-nexe
$ cd server-nexe

02 — Instalación guiada

# Detecta hardware, elige backend y modelo
$ ./setup.sh

03 — Arranca el servidor

$ ./nexe go
# → http://localhost:9119
# → http://localhost:9119/ui

04 — Chat con memoria

$ ./nexe chat --rag
# Guarda información:
$ ./nexe memory store "..."

Backends disponibles

Elige tu motor

RECOMENDADO · MAC

MLX

Nativo para Apple Silicon. Máximo rendimiento en tu M1/M2/M3. Usa el GPU Neural Engine al 100%.

Apple Silicon GPU acelerado mlx-community

UNIVERSAL

llama.cpp

Compatible con todos los formatos GGUF. Funciona en Mac (Metal GPU), Linux y Windows.

GGUF Metal GPU Multi-plataforma

BRIDGE

Ollama

Si ya tienes Ollama instalado, NEXE puede usarlo directamente como backend. Reutiliza los modelos que ya tienes.

Ollama API Reutiliza modelos Fácil integración

Documentación

Explora el proyecto

Qué es NEXE Filosofía, casos de uso y roadmap del proyecto. → Instalación Guía completa paso a paso para poner en marcha. → Arquitectura Arquitectura modular en tres capas: Core → Plugins → Servicios. → API REST Referencia completa. Compatible OpenAI /v1/chat/completions. → Sistema RAG Cómo funciona la memoria persistente con Qdrant y embeddings. → Modular Sistema de plugins modular y cómo crear nuevos. → MEM_SAVE Memoria automática: detección de intenciones, deduplicación y poda inteligente. →

Empieza ahora

Descárgalo. Rómpelo. Experimenta.

NEXE es tu asistente local. Pregúntale cómo funciona, cómo crear plugins o cómo ampliarlo. Recuerda el contexto. Siempre en local.

Descarga el DMG Guía de instalación