LMCache
diff --git a/‎.buildkite/k3_harness/ci-base.Dockerfile‎
Lines changed: 3 additions & 2 deletions b/‎.buildkite/k3_harness/ci-base.Dockerfile‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎.buildkite/k3_harness/setup-blend-env.sh‎
Lines changed: 19 additions & 26 deletions b/‎.buildkite/k3_harness/setup-blend-env.sh‎
Lines changed: 19 additions & 26 deletions
diff --git a/‎.buildkite/k3_tests/blend/scripts/run-blend-test.sh‎
Lines changed: 12 additions & 6 deletions b/‎.buildkite/k3_tests/blend/scripts/run-blend-test.sh‎
Lines changed: 12 additions & 6 deletions
diff --git a/‎.buildkite/k3_tests/multiprocess/pipeline.yml‎
Lines changed: 7 additions & 0 deletions b/‎.buildkite/k3_tests/multiprocess/pipeline.yml‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎.buildkite/k3_tests/multiprocess/run.sh‎
Lines changed: 1 addition & 1 deletion b/‎.buildkite/k3_tests/multiprocess/run.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.buildkite/k3_tests/multiprocess/scripts/run-deadlock.sh‎
Lines changed: 137 additions & 0 deletions b/‎.buildkite/k3_tests/multiprocess/scripts/run-deadlock.sh‎
Lines changed: 137 additions & 0 deletions
diff --git a/‎.buildkite/k3_tests/multiprocess/scripts/run-single-test.sh‎
Lines changed: 26 additions & 18 deletions b/‎.buildkite/k3_tests/multiprocess/scripts/run-single-test.sh‎
Lines changed: 26 additions & 18 deletions
diff --git a/‎.buildkite/pipeline.yml‎
Lines changed: 1 addition & 0 deletions b/‎.buildkite/pipeline.yml‎
Lines changed: 1 addition & 0 deletions
@@ -4,7 +4,7 @@
 # Built automatically by setup-cluster.sh and imported into K3s containerd.
 # Rebuild when requirements/*.txt changes.
 
-FROM nvcr.io/nvidia/cuda-dl-base:25.03-cuda12.8-devel-ubuntu24.04
+FROM nvidia/cuda:13.0.2-devel-ubuntu24.04
 
 ENV DEBIAN_FRONTEND=noninteractive
 ENV PATH="/opt/venv/bin:${PATH}"
@@ -15,7 +15,8 @@ RUN echo 'tzdata tzdata/Areas select America' | debconf-set-selections \
     && apt-get install -y --no-install-recommends \
         ccache software-properties-common git curl sudo jq lsof \
         python3 python3-dev python3-venv python3-pip tzdata libxcb1-dev \
-    && ldconfig /usr/local/cuda-12.8/compat/ \
+        libcudart12 \
+    && ldconfig \
     && curl -LsSf https://astral.sh/uv/install.sh | sh \
     && mv ~/.local/bin/uv /usr/local/bin/ \
     && mv ~/.local/bin/uvx /usr/local/bin/ \
 
@@ -1,5 +1,5 @@
 #!/usr/bin/env bash
-# Per-job environment setup: installs vLLM nightly + LMCache from source.
+# Per-job environment setup: installs vLLM (nightly cu128 wheels) + LMCache from source.
 # Called at the start of every CI job.
 set -euo pipefail
 
@@ -17,7 +17,7 @@ fi
 source "${REPO_ROOT}/.buildkite/k3_tests/common_scripts/helpers.sh"
 check_gpu_health 80
 
-echo "--- :python: Installing vLLM nightly"
+echo "--- :python: Installing vLLM (nightly cu128 wheels)"
 
 
 DEFAULT_VENV_BIN="/opt/venv/bin"
@@ -51,35 +51,25 @@ else
 fi
 TEST_VENV_BIN="/workspace/.venv/bin"
 
-# Resolve the latest nightly wheel URL directly from the nightly index.
-# PEP 440 ranks stable releases (0.17.0) above pre-release nightlies
-# (0.17.0rc1.devN), so pip/uv always picks the stable version when both
-# indexes are available. We work around this by parsing the nightly index
-# page and installing the wheel by URL.
-ARCH=$(uname -m)  # x86_64 or aarch64
-VLLM_NIGHTLY_INDEX="https://wheels.vllm.ai/nightly/vllm/"
-INDEX_HTML=$(curl -sfL "$VLLM_NIGHTLY_INDEX" 2>&1) || true
-VLLM_NIGHTLY_URL=$(echo "$INDEX_HTML" \
-    | grep -oP 'href="\K[^"]+'"${ARCH}"'\.whl' \
-    | head -1) || true
-if [[ -z "$VLLM_NIGHTLY_URL" ]]; then
-    echo "WARNING: Could not find vLLM nightly wheel for ${ARCH} — falling back to latest stable" >&2
-    "${UV_BIN}" pip install -p "${TEST_VENV_BIN}/python" "vllm[runai,tensorizer,flashinfer]"
-else
-    # href is relative (../../<commit>/vllm-....whl), resolve to absolute URL
-    VLLM_WHEEL_URL="https://wheels.vllm.ai/nightly/vllm/${VLLM_NIGHTLY_URL}"
-    echo "Resolved nightly wheel: $VLLM_WHEEL_URL"
-    "${UV_BIN}" pip install -p "${TEST_VENV_BIN}/python" --prerelease=allow \
-        "${VLLM_WHEEL_URL}[runai,tensorizer,flashinfer]" \
-        --extra-index-url https://pypi.org/simple \
-        --index-strategy unsafe-best-match
-fi
+# When flashinfer and flashinfer-cubin resolve to different patch versions, skip strict check.
+export FLASHINFER_DISABLE_VERSION_CHECK=1
+
+"${UV_BIN}" pip install -p "${TEST_VENV_BIN}/python" -U vllm "torch==2.10.0+cu128" --pre \
+    --extra-index-url https://wheels.vllm.ai/nightly/cu128 \
+    --extra-index-url https://download.pytorch.org/whl/cu128 \
+    --index-strategy unsafe-best-match
+
 
 # install LMCache from source twice as two torch version might be different
+ 
+"${DEFAULT_VENV_BIN}/python" -c 'import vllm; print(f"default venv vllm={vllm.__version__}")' 
+"${TEST_VENV_BIN}/python" -c 'import vllm; print(f"test venv vllm={vllm.__version__}")'
+"${DEFAULT_VENV_BIN}/python" -c 'import torch; print(f"default venv torch={torch.__version__}, torch.version.cuda={torch.version.cuda}")' 
+"${TEST_VENV_BIN}/python" -c 'import torch; print(f"test venv torch={torch.__version__}, torch.version.cuda={torch.version.cuda}")'
+
 echo "--- :python: Installing LMCache from source"
 "${UV_BIN}" pip install -p "${DEFAULT_VENV_BIN}/python" -e . --no-build-isolation
 "${UV_BIN}" pip install -p "${TEST_VENV_BIN}/python" -e . --no-build-isolation
-
 # Work around openai_harmony vocab download/load issues for GPT-OSS (vLLM recipes troubleshooting).
 # related github issue: https://github.com/openai/harmony/pull/41
 TIKTOKEN_ENCODINGS_DIR="${REPO_ROOT}/tiktoken_encodings"
@@ -94,9 +84,12 @@ fi
 if [[ ! -s "${TIKTOKEN_ENCODINGS_DIR}/cl100k_base.tiktoken" ]]; then
   curl -fsSL "https://openaipublic.blob.core.windows.net/encodings/cl100k_base.tiktoken" -o "${TIKTOKEN_ENCODINGS_DIR}/cl100k_base.tiktoken"
 fi
+
+
 export TIKTOKEN_ENCODINGS_BASE="${TIKTOKEN_ENCODINGS_DIR}"
 echo "Using TIKTOKEN_ENCODINGS_BASE=${TIKTOKEN_ENCODINGS_BASE}"
 
+
 echo "--- :white_check_mark: Environment ready"
 "${DEFAULT_VENV_BIN}/python" -c "import vllm; import lmcache; print(f'vLLM={vllm.__version__}, LMCache installed from source with no build isolation in default venv')"
 "${TEST_VENV_BIN}/python" -c "import vllm; import lmcache; print(f'vLLM={vllm.__version__}, LMCache installed from source with no build isolation in test venv')"
@@ -30,14 +30,16 @@ SERVER_WAIT_TIMEOUT="${SERVER_WAIT_TIMEOUT:-400}"
 
 BUILD_ID="${BUILDKITE_BUILD_ID:-local_$$}"
 WORK_LOG="/tmp/build_${BUILD_ID}_blend.log" 
-# Blend server, vLLM prefiller/decoder, and proxy stdout/stderr (main script uses WORK_LOG via tee).
-VLLM_LOG="/tmp/build_${BUILD_ID}_vllm.log"
+# Proxy stdout/stderr. Blend server/prefiller/decoder each get their own _blend_server/_prefiller_PORT/_decoder_PORT logs.
+VLLM_LOG="/tmp/build_${BUILD_ID}_proxy.log"
+BLEND_SERVER_LOG="/tmp/build_${BUILD_ID}_blend_server.log"
 ARTIFACT="build_${BUILD_ID}.log"
 # Benchmark wall-clock limit (seconds). Exit 124 from `timeout` => failure. Default stays under blend pipeline 90m.
 BENCHMARK_TIMEOUT_SEC="${BENCHMARK_TIMEOUT_SEC:-4800}"
 
 : > "${WORK_LOG}"
 : > "${VLLM_LOG}"
+: > "${BLEND_SERVER_LOG}"
 
 declare -A RESERVED_PORTS=()
 
@@ -89,7 +91,7 @@ resolve_port_csv() {
 
 collect_artifact() {
   echo "[INFO] Collecting logs into ${ARTIFACT}"
-  cat "${WORK_LOG}" "${VLLM_LOG}" > "${ARTIFACT}" 2>/dev/null || true
+  cat /tmp/build_"${BUILD_ID}"_*.log > "${ARTIFACT}" 2>/dev/null || true
 }
 
 finalize() {
@@ -198,7 +200,7 @@ export LD_LIBRARY_PATH=/opt/nvidia/nsight-compute/2025.1.0/host/linux-desktop-gl
   --eviction-policy LRU \
   --chunk-size 1024 \
   --l1-align-bytes 16777216 \
-  >>"${VLLM_LOG}" 2>&1 &
+  >>"${BLEND_SERVER_LOG}" 2>&1 &
 TRACKED_PIDS+=($!)
 
 sleep 10
@@ -209,6 +211,8 @@ GPU_IDX=0
 for port in "${PREFILLER_PORTS[@]}"; do
   GPU_END=$((GPU_IDX + TENSOR_PARALLEL - 1))
   CUDA_DEVS=$(seq -s, "$GPU_IDX" "$GPU_END")
+  PREFILLER_LOG="/tmp/build_${BUILD_ID}_prefiller_${port}.log"
+  : > "${PREFILLER_LOG}"
   echo "Starting prefiller on GPUs ${CUDA_DEVS}, port ${port}"
   CUDA_VISIBLE_DEVICES=$CUDA_DEVS \
     LMCACHE_REQUEST_TELEMETRY_TYPE=fastapi \
@@ -226,7 +230,7 @@ for port in "${PREFILLER_PORTS[@]}"; do
     --gpu-memory-utilization "$GPU_MEM_UTIL" \
     --kv-transfer-config \
       "{\"kv_connector\":\"LMCacheMPCBConnector\",\"kv_role\":\"kv_both\",\"kv_connector_extra_config\":{\"lmcache.mp.port\":${LMCACHE_MP_PORT}}}" \
-    >>"${VLLM_LOG}" 2>&1 &
+    >>"${PREFILLER_LOG}" 2>&1 &
   TRACKED_PIDS+=($!)
   GPU_IDX=$((GPU_IDX + TENSOR_PARALLEL))
 done
@@ -238,6 +242,8 @@ done
 for port in "${DECODER_PORTS[@]}"; do
   GPU_END=$((GPU_IDX + TENSOR_PARALLEL - 1))
   CUDA_DEVS=$(seq -s, "$GPU_IDX" "$GPU_END")
+  DECODER_LOG="/tmp/build_${BUILD_ID}_decoder_${port}.log"
+  : > "${DECODER_LOG}"
   echo "Starting decoder on GPUs ${CUDA_DEVS}, port ${port}"
   CUDA_VISIBLE_DEVICES=$CUDA_DEVS \
     VLLM_USE_FLASHINFER_MOE_FP8=0 \
@@ -252,7 +258,7 @@ for port in "${DECODER_PORTS[@]}"; do
     --gpu-memory-utilization "$GPU_MEM_UTIL" \
     --kv-transfer-config \
       "{\"kv_connector\":\"LMCacheMPConnector\",\"kv_role\":\"kv_both\",\"kv_connector_extra_config\":{\"lmcache.mp.port\":${LMCACHE_MP_PORT}}}" \
-    >>"${VLLM_LOG}" 2>&1 &
+    >>"${DECODER_LOG}" 2>&1 &
   TRACKED_PIDS+=($!)
   GPU_IDX=$((GPU_IDX + TENSOR_PARALLEL))
 done
 
@@ -50,3 +50,10 @@ steps:
         agents: { queue: "k8s" }
         plugins: [{ kubernetes: { podSpec: *pod-2gpu } }]
         artifact_paths: ["*.log"]
+
+      - label: ":compression: deadlock"
+        command: .buildkite/k3_tests/multiprocess/run.sh deadlock
+        timeout_in_minutes: 30
+        agents: { queue: "k8s" }
+        plugins: [{ kubernetes: { podSpec: *pod-2gpu } }]
+        artifact_paths: ["*.log"]
@@ -6,7 +6,7 @@
 # No Docker -- all processes run natively in the pod.
 set -euo pipefail
 
-TEST_NAME="${1:?Usage: $0 <test_name>  (lm_eval|vllm_bench|long_doc_qa|long_doc_qa_l2|fault_tolerance)}"
+TEST_NAME="${1:?Usage: $0 <test_name>  (lm_eval|vllm_bench|long_doc_qa|long_doc_qa_l2|fault_tolerance|deadlock)}"
 SCRIPT_DIR="$(cd "$(dirname "$0")" && pwd)"
 REPO_ROOT="$(cd "${SCRIPT_DIR}/../../.." && pwd)"
 
 
@@ -0,0 +1,137 @@
+#!/usr/bin/env bash
+# Self-contained deadlock regression test.
+#
+# Launches DeepSeek-V2-Lite-Chat with TP=2 (both GPUs) + LMCache server,
+# sends 50 requests with ~30K token prefixes, and verifies they all
+# complete within 3 minutes.  A CUDA-driver/GIL deadlock would cause
+# requests to hang indefinitely, failing the timeout.
+#
+# This test is self-contained: it handles its own server lifecycle
+# instead of using the standard launch-processes.sh / wait-for-servers.sh.
+set -o pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+REPO_ROOT="$(cd "${SCRIPT_DIR}/../../../.." && pwd)"
+
+source "${REPO_ROOT}/.buildkite/k3_tests/common_scripts/helpers.sh"
+
+# ── Configuration ───────────────────────────────────────────
+MODEL="deepseek-ai/DeepSeek-V2-Lite-Chat"
+LMCACHE_PORT="${LMCACHE_PORT:-15554}"
+VLLM_PORT="${VLLM_PORT:-8000}"
+BUILD_ID="${BUILD_ID:-local_$$}"
+PID_FILE="/tmp/lmcache_mp_pids_${BUILD_ID}"
+TIMEOUT_SECONDS=180   # 3 minutes
+
+# ── Install py-spy for deadlock diagnosis ──────────────────
+echo "=== Installing py-spy ==="
+uv pip install py-spy
+PY_SPY="$(which py-spy)"
+echo "py-spy installed at: $PY_SPY"
+
+PYSPY_LOG="/tmp/build_${BUILD_ID}_pyspy.log"
+
+# ── Helper: dump stacks of server processes via py-spy ─────
+dump_stacks() {
+    echo "" | tee -a "$PYSPY_LOG"
+    echo "=== py-spy stack dump (native + Python) ===" | tee -a "$PYSPY_LOG"
+
+    if kill -0 "$LMCACHE_PID" 2>/dev/null; then
+        echo "" | tee -a "$PYSPY_LOG"
+        echo "--- LMCache server (PID=$LMCACHE_PID) ---" | tee -a "$PYSPY_LOG"
+        sudo "$PY_SPY" dump --pid "$LMCACHE_PID" --native 2>&1 | tee -a "$PYSPY_LOG" || true
+    fi
+
+    # Copy to repo root so cleanup.sh collects it as a Buildkite artifact
+    cp "$PYSPY_LOG" "${REPO_ROOT}/build_${BUILD_ID}_pyspy.log" 2>/dev/null || true
+}
+
+# ── 1. Launch LMCache server ───────────────────────────────
+echo "=== Launching LMCache server ==="
+echo "Port: $LMCACHE_PORT"
+
+lmcache server \
+    --host localhost \
+    --port "$LMCACHE_PORT" \
+    --chunk-size 256 \
+    --l1-size-gb 50 \
+    --eviction-policy LRU \
+    --max-workers 2 \
+    > "/tmp/build_${BUILD_ID}_lmcache.log" 2>&1 &
+
+LMCACHE_PID=$!
+echo "$LMCACHE_PID" >> "$PID_FILE"
+echo "LMCache server started (PID=$LMCACHE_PID)"
+sleep 10
+
+# ── 2. Launch vLLM with DeepSeek TP=2 ─────────────────────
+echo "=== Launching vLLM (DeepSeek TP=2) ==="
+echo "Model: $MODEL"
+echo "Port: $VLLM_PORT"
+
+# Save VLLM_PORT before unsetting — vLLM's internal get_open_port()
+# would otherwise collide with the serving port for torch.distributed.
+SAVED_VLLM_PORT="$VLLM_PORT"
+unset VLLM_PORT
+
+FLASHINFER_DISABLE_VERSION_CHECK=1 \
+VLLM_SERVER_DEV_MODE=1 \
+vllm serve "$MODEL" \
+    --tensor-parallel-size 2 \
+    --distributed-executor-backend mp \
+    --block-size 64 \
+    --trust-remote-code \
+    --load-format dummy \
+    --enable-prefix-caching \
+    --enable-chunked-prefill \
+    --gpu-memory-utilization 0.8 \
+    --max-model-len 65536 \
+    --hf-overrides '{"max_position_embeddings":65536}' \
+    --max-num-seqs 32 \
+    --max-num-batched-tokens 16000 \
+    --scheduling-policy fcfs \
+    --port "$SAVED_VLLM_PORT" \
+    --enforce-eager \
+    --kv-transfer-config "{\"kv_connector\":\"LMCacheMPConnector\", \"kv_role\":\"kv_both\", \"kv_load_failure_policy\": \"recompute\", \"kv_connector_extra_config\": {\"lmcache.mp.port\": $LMCACHE_PORT, \"lmcache.mp.mq_timeout\": 60}}" \
+    > "/tmp/build_${BUILD_ID}_vllm.log" 2>&1 &
+
+VLLM_PID=$!
+echo "$VLLM_PID" >> "$PID_FILE"
+echo "vLLM started (PID=$VLLM_PID)"
+
+VLLM_PORT="$SAVED_VLLM_PORT"
+
+# ── 3. Wait for vLLM to be ready ──────────────────────────
+echo "=== Waiting for vLLM to be ready ==="
+if ! wait_for_server "$VLLM_PORT" 600; then
+    echo "vLLM failed to start. Last 100 lines of log:"
+    tail -100 "/tmp/build_${BUILD_ID}_vllm.log" 2>/dev/null || true
+    exit 1
+fi
+
+# ── 4. Run benchmark with timeout ─────────────────────────
+echo "=== Running lmcache bench engine (random-prefill, 50 reqs, ~30K tokens) ==="
+echo "Timeout: ${TIMEOUT_SECONDS}s"
+
+if ! timeout "$TIMEOUT_SECONDS" lmcache bench engine \
+        --engine-url "http://localhost:${VLLM_PORT}" \
+        --workload random-prefill \
+        --tokens-per-gb-kvcache 6000 \
+        --rp-request-length 30000 \
+        --rp-num-requests 50 \
+        --no-interactive \
+        --no-csv \
+        -q; then
+    echo "FAIL: Benchmark failed or timed out (possible deadlock)"
+    echo ""
+    echo "=== LMCache log (last 50 lines) ==="
+    tail -50 "/tmp/build_${BUILD_ID}_lmcache.log" 2>/dev/null || true
+    echo ""
+    echo "=== vLLM log (last 50 lines) ==="
+    tail -50 "/tmp/build_${BUILD_ID}_vllm.log" 2>/dev/null || true
+    exit 1
+fi
+
+echo ""
+echo "=== Benchmark completed within ${TIMEOUT_SECONDS}s ==="
+echo "PASS: No deadlock detected"
@@ -42,25 +42,30 @@ echo "vLLM baseline port: $VLLM_BASELINE_PORT"
 echo "Results dir: $RESULTS_DIR"
 echo ""
 
-# ── Step 1: Launch native processes ──────────────────────────
-echo "============================================"
-echo "=== Launching native processes ==="
-echo "============================================"
-if ! "${SCRIPT_DIR}/launch-processes.sh"; then
-    echo "Failed to launch processes"
-    exit 1
-fi
-echo ""
+# Tests that handle their own server lifecycle (different GPU/model config)
+SELF_CONTAINED_TESTS=" deadlock "
 
-# ── Step 2: Wait for vLLM to be ready ───────────────────────
-echo "============================================"
-echo "=== Waiting for vLLM to be ready ==="
-echo "============================================"
-if ! "${SCRIPT_DIR}/wait-for-servers.sh"; then
-    echo "vLLM failed to become ready"
-    exit 1
+if [[ "$SELF_CONTAINED_TESTS" != *" $TEST_NAME "* ]]; then
+    # ── Step 1: Launch native processes ──────────────────────────
+    echo "============================================"
+    echo "=== Launching native processes ==="
+    echo "============================================"
+    if ! "${SCRIPT_DIR}/launch-processes.sh"; then
+        echo "Failed to launch processes"
+        exit 1
+    fi
+    echo ""
+
+    # ── Step 2: Wait for vLLM to be ready ───────────────────────
+    echo "============================================"
+    echo "=== Waiting for vLLM to be ready ==="
+    echo "============================================"
+    if ! "${SCRIPT_DIR}/wait-for-servers.sh"; then
+        echo "vLLM failed to become ready"
+        exit 1
+    fi
+    echo ""
 fi
-echo ""
 
 # ── Step 3: Run the requested test ──────────────────────────
 echo "============================================"
@@ -83,9 +88,12 @@ case "$TEST_NAME" in
     fault_tolerance)
         exec_script="${SCRIPT_DIR}/run-fault-tolerance.sh"
         ;;
+    deadlock)
+        exec_script="${SCRIPT_DIR}/run-deadlock.sh"
+        ;;
     *)
         echo "Unknown test: $TEST_NAME"
-        echo "Valid tests: lm_eval, vllm_bench, long_doc_qa, long_doc_qa_l2, fault_tolerance"
+        echo "Valid tests: lm_eval, vllm_bench, long_doc_qa, long_doc_qa_l2, fault_tolerance, deadlock"
         exit 1
         ;;
 esac
 
@@ -50,6 +50,7 @@ steps:
           --ignore=tests/v1/test_nixl_storage.py \
           --ignore=tests/skipped \
           --ignore=tests/v1/multiprocess \
+          --ignore=tests/v1/mp_observability/test_event_recorder.py \
           --ignore=tests/v1/storage_backend/test_eic.py
       fi