Documentation

Inference

`init(model_name: str, device: str = "cuda:0", logging: bool = False, **kwargs)`

Initialize the inference session, tokenizer, and runtime environment.

Parameters

model_name (str): Identifier of the model (llama3-1B/3B/8B-chat, gpt-oss-20B, qwen3-next-80B).
device (str): Target device, usually "cuda:0".
logging (bool): If True, enables stats logging (layer load time, kvcache save time, etc).

`ini_model(models_dir: str, force_download: bool = False)`

Load or download the model weights.

Parameters

models_dir (str): Directory path where models are stored.
force_download (bool): If True, forces re-download even if model exists locally.

`offload_layers_to_cpu(layers_num: int)`

Offload a specified number of transformer layers from disk to CPU memory. This allows layer weights to be loaded from CPU RAM instead of the SSD, significantly improving inference speed. For example, Llama3-8B has 32 layers, each approximately 0.46 GB (~15 GB / 32). We strongly recommend keeping at least 6 GB of RAM free for the operating system and background processes.

Parameters

layers_num (int): Number of layers to keep on CPU.

`DiskCache(cache_dir: str)`

Create and manage disk-based (SSD strongly recommended) key/value cache for long context inference.

Parameters

cache_dir (str): Directory to store serialized KV tensors.

`model.generate(input_ids, past_key_values=None, max_new_tokens=500, streamer=None, **kwargs)`

Run model inference and generate new tokens. Supports KV cache and streaming output.

Parameters

input_ids (Tensor): Encoded input sequence.
past_key_values (DiskCache or None): If None, will use default KVCache with not disk offloading.
max_new_tokens (int): Maximum number of new tokens to generate. Default = 500.
streamer (TextStreamer, optional): Streamer for real-time token output.
**kwargs: Additional HuggingFace generate() arguments.

`TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=False)`

Stream generated tokens as they are produced.

Parameters

tokenizer: HuggingFace tokenizer instance.
skip_prompt (bool): If True, the original prompt is excluded from the stream.
skip_special_tokens (bool): If True, removes special tokens from streamed output.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Documentation

Inference

`init(model_name: str, device: str = "cuda:0", logging: bool = False, **kwargs)`

`ini_model(models_dir: str, force_download: bool = False)`

`offload_layers_to_cpu(layers_num: int)`

`DiskCache(cache_dir: str)`

`model.generate(input_ids, past_key_values=None, max_new_tokens=500, streamer=None, **kwargs)`

`TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=False)`

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally

Documentation

Inference

__init__(model_name: str, device: str = "cuda:0", logging: bool = False, **kwargs)

ini_model(models_dir: str, force_download: bool = False)

offload_layers_to_cpu(layers_num: int)

DiskCache(cache_dir: str)

model.generate(input_ids, past_key_values=None, max_new_tokens=500, streamer=None, **kwargs)

TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=False)

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally

`init(model_name: str, device: str = "cuda:0", logging: bool = False, **kwargs)`

`ini_model(models_dir: str, force_download: bool = False)`

`offload_layers_to_cpu(layers_num: int)`

`DiskCache(cache_dir: str)`

`model.generate(input_ids, past_key_values=None, max_new_tokens=500, streamer=None, **kwargs)`

`TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=False)`