首页
学习
活动
专区
圈层
工具
发布
综合排序最热优先最新优先
时间不限
ascend pytorch 踩坑.
npu()y = torch.randn(2, 2).npu()z = x.mm(y)print(z)但是执行python example_npu.py报错:/data/miniconda3/envs/ascend /ascend-toolkit/latest owner does not match the current user. /data/miniconda3/envs/ascend/lib/python3.10/site-packages/torch_npu/utils/path_manager.py:82: UserWarning : Warning: The /usr/local/Ascend/ascend-toolkit/8.0.RC2/x86_64-linux/ascend_toolkit_install.info owner _lazy_init() File "/data/miniconda3/envs/ascend/lib/python3.10/site-packages/torch_npu/npu/__init__.
望天
2025-04-23
1.5K0
标签:
【AI系统】Ascend C 编程范式
Ascend C 算子的编写思路。 本文将针对 Ascend C 的编程范式进行详细讲解,重点讲授向量计算编程范式。 算子分析在开发算子代码之前需要分析算子的数学表达式、输入、输出以及计算逻辑的实现,明确需要调用的 Ascend C 接口。 本文将详细讲解数据在这三个任务之间的传递过程,并为后续使用 Ascend C 对其进行实现作铺垫。向量算子三阶段任务流水的数据通路如下图所示。 上述为向量算子核心处理部分的数据通路,同时也作为一个程序设计思路,下面将介绍如何用 Ascend C 对其进行实现。
用户11307734
2024-12-02
3870
标签:
Ascend C的编程模型
1 并发执行Ascend C和cudnn相似,都是一种多核心编程的范式。想要了解Ascend C,必须得先掌握这种“多核”是怎么实现得。 多核执行,说白了就是使用CPU/GPU/Ascend的物理多核并发去执行一段流程,一般情况下,可以通过以下几种方式实现:多线程并行处理:使用多线程可以将循环中的任务分配给多个线程同时执行,提高代码的执行效率 2 Ascend C编程模型Ascend C算子编程是SPMD(Single-Program Multiple-Data)编程。 SPMD模型具体到Ascend C编程模型中的应用,是将需要处理的数据被拆分并同时在多个计算核心(类比于上文介绍中的多个进程)上运行,从而获取更高的性能。 AiCore并行计算示意图下面的代码片段取自于Ascend CAdd算子的实现代码,算子被调用时,所有的计算核心都执行相同的实现代码,入口函数的入参也是相同的。
zjun
2024-12-04
6550
标签:
Ascend c算子开发流程揭秘。
[4,5,6], dtype=np.float32)) result = AddOperator().compute(a,b) # [5. 7. 9.] 2.2 神经网络专用算子 // 卷积核函数(Ascend CopyToGM(result, output); // 搬出到GM 四、经典算子实现案例 4.1 矩阵乘法优化 数学原理 C_{mn} = \sum_{k=1}^{K} A_{mk} \cdot B_{kn} Ascend 吞吐量 内存占用 标量计算 12.3 TFLOPS 512MB 向量化 38.4 TFLOPS 128MB 五、自定义算子开发实战 5.1 自定义ReLU6算子 数学表达式 \end{cases} Ascend 定位瓶颈 ascend-perf -o add_op -t compute -d 0 # 输出示例: # Compute Time: 1.2ms # Memory Bandwidth: 256GB/s /build_out/custom_opp_linux-aarch64.run --install-path=/opt/ascend/opp 8.2 ST测试用例生成 msopst create -i
晚霞的不甘
2025-12-23
3050
标签:
SelfAttention在Ascend上的实现
Ascend上的Self-Attention实现SelfAttention在ascend上实现是通过atb算子实现的,如下:https://www.hiascend.com/document/detail
zjun
2024-12-04
8970
标签:
Ascend+FastAPI+ Uvicorn 实现推理
2、Ascend上跑推理方案设计具体的模型通过transformers 库的from_pretrained接口从xxx-config配置文章引入。
zjun
2025-01-20
9020
标签:
转载:【AI系统】Ascend C 编程范式
Ascend C 算子的编写思路。 本文将针对 Ascend C 的编程范式进行详细讲解,重点讲授向量计算编程范式。 算子分析在开发算子代码之前需要分析算子的数学表达式、输入、输出以及计算逻辑的实现,明确需要调用的 Ascend C 接口。 本文将详细讲解数据在这三个任务之间的传递过程,并为后续使用 Ascend C 对其进行实现作铺垫。向量算子三阶段任务流水的数据通路如下图所示。 上述为向量算子核心处理部分的数据通路,同时也作为一个程序设计思路,下面将介绍如何用 Ascend C 对其进行实现。
聊月夜以予星辰
2024-12-12
4050
标签:
【AI系统】Ascend C 语法扩展
Ascend C 的本质构成其实是标准 C++加上一组扩展的语法和 API。 本文首先对 Ascend C 的基础语法扩展进行简要介绍,随后讨论 Ascend C 的两种 API——基础 API 和高阶 API。 接下来针对 Ascend C 的几种关键编程对象——数据存储、任务间通信与同步,资源管理以及临时变量进行详细解读,为后续讲解 Ascend C 的编程范式打下理论基础。 Ascend C API 概述Ascend C 算子采用标准 C++ 语法和一组编程类库 API 进行编程,可以根据自己的需求选择合适的 API。 Ascend C 编程类库 API 示意图如下图所示,Ascend C API 的操作数都是 Tensor 类型:GlobalTensor(外部数据存储空间)和 LocalTensor(核上内存空间);
用户11307734
2024-12-02
6370
标签:
Ascend C 算子开发入门指南(进阶版)
Ascend C 算子开发入门指南(进阶版) Ascend C 算子开发入门指南 关键词:Ascend C、昇腾AI处理器、自定义算子、CANN、AI Core、向量化计算 适用人群:AI系统工程师 、高性能计算开发者、模型部署工程师 预计阅读时间:20分钟 文章质量目标:CSDN质量分 ≥ 94(结构清晰、内容原创、技术深入、示例完整) 一、Ascend C 算子开发核心概念 1.1 算子的定义与作用 而 Ascend C 算子 则是华为面向昇腾(Ascend)AI处理器推出的底层高性能编程接口,通过直接调用 AI Core、向量计算单元等硬件资源,实现比通用框架(如PyTorch/TensorFlow 专用编译器 支持Ascend C语法扩展 ascend-perf 性能分析 捕获计算/内存瓶颈 gdb-for-ascend 调试工具 查看核函数执行状态 三、Ascend C 算子开发全流程 3.1 Tuning Kit进行自动参数搜索 九、总结 Ascend C 算子开发是释放昇腾AI算力的关键技能。
晚霞的不甘
2025-12-23
8140
标签:
转载:【AI系统】Ascend C 语法扩展
Ascend C 的本质构成其实是标准 C++加上一组扩展的语法和 API。 本文首先对 Ascend C 的基础语法扩展进行简要介绍,随后讨论 Ascend C 的两种 API——基础 API 和高阶 API。 接下来针对 Ascend C 的几种关键编程对象——数据存储、任务间通信与同步,资源管理以及临时变量进行详细解读,为后续讲解 Ascend C 的编程范式打下理论基础。 Ascend C API 概述Ascend C 算子采用标准 C++ 语法和一组编程类库 API 进行编程,可以根据自己的需求选择合适的 API。 Ascend C 编程类库 API 示意图如下图所示,Ascend C API 的操作数都是 Tensor 类型:GlobalTensor(外部数据存储空间)和 LocalTensor(核上内存空间);
聊月夜以予星辰
2024-12-12
4760
标签:
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档