腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

综合排序丨最热优先丨最新优先

Qwen3.5本地部署终极指南，Qwen3.5-27B

Qwen3.5 轻量版来了，更智能，更小巧，量化版本地部署，消费级显卡轻松跑一文中测试了，十分建议：首选 Qwen3.5-27B，无论是官方benchmark测评还是其他网友评价，都支持这一结论 Qwen3.5 全阵容：阿里这次玩了个大的阿里最新发布的 Qwen3.5，不再只是单个模型，而是一整个军团：型号类型总参数激活参数定位 Qwen3.5-27B Dense 27B 27B 稳扎稳打型 Qwen3.5 -35B-A3B MoE 35B 3B 极速小钢炮 Qwen3.5-122B-A10B MoE 122B 10B 中杯选手 Qwen3.5-397B-A17B MoE 397B 17B 旗舰巨兽两个关键词硬件需求速查这是最实际的部分，别收藏了不看：型号 4-bit 量化 8-bit 量化原始 FP16 Qwen3.5-27B 17 GB 30 GB 54 GB Qwen3.5-35B-A3B 22 GB 38 GB 70 GB Qwen3.5-122B-A10B 70 GB 132 GB 245 GB Qwen3.5-397B-A17B 214 GB 512 GB 810 GB 翻译成人话

Ai学习的老章

2026-03-02

20.4K0

标签:

Qwen3.5 本地部署

Unsloth Dynamic 2.0 量化 Unsloth 其实是第一时间就发布了 Qwen3.5-397B-A17B 的 GGUF 格式文件（Qwen 给了 Unsloth day zero 访问权限 /llama.cpp/llama-server \ --model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4 /Qwen3.5-397B-A17B --port 8000 --continuous-batching # 或者直接命令行对话 transformers chat Qwen/Qwen3.5-397B-A17B --reasoning-parser qwen3 vLLM： vllm serve Qwen/Qwen3.5-397B-A17B \ --port 8000 \ --tensor-parallel-size -397B-A17B # 视觉 + 文本推理（原生多模态） pip install mlx-vlm mlx_vlm.chat --model Qwen/Qwen3.5-397B-A17B 工具调用（

Ai学习的老章

2026-03-02

6.3K0

标签:

Qwen Code + 微信=王炸！

在~/.qwen/settings.json中添加：展开代码语言：JSONAI代码解释{"experimental":{"cron":true}}3️⃣Qwen3.6Plus正式上线免费使用！查看PR#2897立即升级展开代码语言：BashAI代码解释npminstall-g@qwen-code/qwen-code@latest有问题或建议？欢迎在GitHubIssues反馈！总结一下本周更新堪称重量级：✅Channels系统让QwenCode突破终端限制，微信钉钉都能用✅Cron定时任务让AI自动打工，解放双手✅Qwen3.6Plus免费上线，性能强悍✅/plan规划模式让复杂任务更有条理

GoLang学习记

2026-04-16

4290

标签:

AI 互动体验展

实测Qwen2.5-Math效果

Qwen2.5全家桶发布，特别是在中间还整了一个Qwen2.5-Math模型，特定针对数学能力进行推理。这不免让人想起前段时间OpenAI才发布的o1大模型。到底Qwen2.5-Math效果怎么样，可以直接拿数学题目给他进行测试。 Qwen2.5-Math一直到这里还是得出的正确的步骤。但是后面的步骤有点看不懂了。但是由于o1大模型得出的步骤和答案离正确答案更加接近，因此从评分上看效果要比Qwen2.5-Math要好一点。本人还是很看好Qwen模型系列的，而且它还没有加入COT这种推理逻辑大杀器，推理能力上就能够和o1大模型差不多了，期望Qwen3的出现能够超越国外的大模型。

算法一只狗

2024-09-22

8310

标签:

腾讯技术创作特训营S9

Qwen-7B-Chat WebDemo

Qwen-7B-Chat WebDemo 环境准备在autodl平台中租一个3090等24G显存的显卡机器，如下图所示镜像选择PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8 /Qwen-7B-Chat', cache_dir='/root/autodl-tmp', revision='v1.1.4') 代码准备首先clone代码，打开autodl平台自带的学术镜像加速。 unset http_proxy && unset https_proxy 修改代码路径，将 /root/autodl-tmp/Qwen/web_demo.py中 13 行的模型更换为本地的/root/ autodl-tmp/qwen/Qwen-7B-Chat。运行以下命令即可启动推理服务 cd /root/autodl-tmp/Qwen python web_demo.py --server-port 6006 将 autodl 的端口映射到本地的 http

git clone firc-dataset

2025-07-17

4400

标签:

Qwen-7B-Chat Lora 微调

Qwen-7B-Chat Lora 微调概述本节我们简要介绍如何基于 transformers、peft 等框架，对 Qwen-7B-Chat 模型进行 Lora 微调。本节所讲述的代码脚本在同级目录 04-Qwen-7B-Chat Lora 微调下，运行该脚本来执行微调过程，但注意，本文代码未使用分布式框架，微调 Qwen-7B-Chat 模型至少需要 24G 及以上的显存 tokenizer = AutoTokenizer.from_pretrained('/root/autodl-tmp/qwen/Qwen-7B-Chat', use_fast=False, trust_remote_code /qwen/Qwen-7B-Chat/', use_fast=False, trust_remote_code=True) tokenizer.pad_token_id = tokenizer.eod_id /qwen/Qwen-7B-Chat/', trust_remote_code=True, torch_dtype=torch.half, device_map="auto") model.enable_input_require_grads

git clone firc-dataset

2025-07-17

9890

标签:

Qwen Code 新特性：支持Git worktree

我想尝试一种新的架构方案，但又担心把主分支搞乱。传统的做法是开个新分支，但分支切换需要提交或暂存当前改动，这对于还在探索阶段的代码来说太麻烦了。

GoLang学习记

2026-05-29

1140

标签:

AI 互动体验展

阿里Qwen3.6-27B实测

阿里在Qwen3.6-Plus和Qwen3.6-35B-A3B之后，于4月22日正式开源了千问3.6系列的稠密模型——Qwen3.6-27B。）、qwen3.6-plus（70.7%，第13位）、Qwen3.5-27B（70.6%，第15位）、qwen3.6-27b（68.8%，第23位）、Qwen3.6-35B-A3B（68.1%，第26位开源排名上，Qwen3.5-122B-A10B（70.9%）、Kimi-K2.5-Thinking（70.8%）、GLM-5.1（70.7%）、Qwen3.5-27B（70.6%）等均高于qwen3.6 id=qwen3.6-27b）及发布信息，Qwen3.6-27B的核心定位是“智能体编程”，并在多项专项基准上取得了“以小博大”的成绩。 -31B、Qwen3.5-27B乃至体量15倍于自身的Qwen3.5-397B-A17B等开源模型，部分基准上可媲美Claude Opus 4.5等闭源模型。

2026-05-06

1.5K0

标签:

Qwen-7B-chat 全量微调

Qwen-7B-chat 全量微调修改代码首先我们要准训练模型的代码，这里我们使用的 modelscope 上的 Qwen-7B-chat 模型，大家自行下载即可。只不过在全量微调的时候没有加载 LoraConfig，那我就直接给出代码，如果对代有什么问题，大家可以先自行探索Qwen lora的代码解释，有什么不懂的地方可以提Issue。 /model/qwen/Qwen-7B-Chat/") # 用于处理数据集的函数 def process_func(example): MAX_LENGTH = 128 # Llama分词器会将一个中文字切分为多个 labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.pad_token_id] # Qwen /output/Qwen" \ --per_device_train_batch_size=1 \ --gradient_accumulation_steps=1 \ --logging_steps

git clone firc-dataset

2025-07-17

6120

标签:

Qwen-7B-Chat Ptuning 微调

Qwen-7B-Chat Ptuning 微调 Ptuning原理参考transformers-code 数据加载与模型配置与LoRa一致,在此具体讲一下Ptuning的细节: 基本原理为冻结主模型全部参数 labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.pad_token_id] # Qwen /output/Qwen", per_device_train_batch_size=2, gradient_accumulation_steps=2, logging_steps /Qwen-7B-Chat', use_fast=False, trust_remote_code=True) tokenizer.pad_token_id = tokenizer.eod_id ds.column_names) # 创建模型并以半精度形式加载 model = AutoModelForCausalLM.from_pretrained('/root/autodl-tmp/qwen

git clone firc-dataset

2025-07-17

4790

标签: