微信:Always031856
- AI部署框架架构师:开源AI部署框架nndeploy发起者,一款基于可视化工作流和多端推理的AI部署框架,可高效和高性能在生产环境下完成AI的落地,GitHub Star 1.6k+,被数十家公司直接采用或者作为参考
- 推理框架架构师:具备生产级推理框架完整开发经验,设计并实现中间表示、模型解释、计算图、运行时、图优化、基于图的内存规划、量化等核心模块
- 高性能计算:熟悉算子优化,编写NN、CV、BLAS等数十个高性能算子。其中针对某国产GPU开发的BLAS算子,极致的性能优化,达到该GPU芯片内存带宽和计算性能的峰值
- 内存管理:由高性能内存池、基于图的内存规划完整的开发经验,从硬件层到应用层对内存管理有系统性理解
- 湖南师范大学 | 硕士 | 电子通信工程 | 2016.09 ~ 2019.06
- 湖南师范大学 | 学士 | 电子信息工程 | 2012.09 ~ 2016.06
- 是什么:基于可视化工作流和多端推理,开发者可快速且高性能从算法仓库开发出指定平台和硬件所需的SDK,大幅节省开发时间(简单理解:端侧的comfyui、coze、dify)
- 为什么:解决AI算法在实际生产环境下落地效率和性能的问题。
- 成果:github star 1.6k,项目被数十家公司参考或使用
- 职责:开源项目发起人
- 有向无环图模块 设计与实现
- 图并行模块 设计与实现
- 节点库 设计与实现
- 多端推理模块 设计与实现
- 数据容器模块 设计与实现
- 设备管理模块 设计与实现
- 算子模块 设计与实现
- 基础组件 设计与实现
- 前后端 设计与实现
- Github链接:https://github.com/nndeploy/nndeploy
- 是什么:nndeploy内部推理子模块,按工业界端侧推理框架(MNN、NCNN、RKNN、TensorRT)标准开发,优先适配华为昇腾,并制作配套教学视频
- 为什么:从实际模型部署角度出发,推理框架需支持更多功能以满足实际应用需求
- 成果:实现完整推理框架功能模块,制作的配套课程曾在华为昇腾主页推荐
- 职责:项目负责人
- 中间表示模块 设计与实现
- 模型解释模块 设计与实现
- 计算图模块 设计与实现
- 运行时模块 设计与实现
- 图优化模块 设计与实现
- 内存优化模块 设计与实现
- 计算图并行模块 设计与实现
- 昇腾算子模块 设计与实现
- 华为昇腾官网课程链接, Github链接
- 是什么:简化onnx模型工具
- 为什么:减少算子缺失概率,降低模型大小,提高模型运行效率
- 成果:github star 4.2k,被MXNet、MMDetection、YOLOv5等知名开源项目使用
- 职责:贡献者,增加两个功能
- 移除不必要的输出
- 打印模型优化前后信息
- Github链接:https://github.com/daquexian/onnx-simplifier
- 北京大学长沙计算与数字经济研究院(长沙) | 智能计算组组长 | 2023.03 ~ 2025.01
- 万兴科技(深圳->长沙) | 算法工程化工程师 | 2021.06 ~ 2023.03
- 汇顶科技(深圳) | 算法应用工程师 | 2019.07 ~ 2021.05
- 是什么:来自甲方科技公司的AI+HPC非标品类项目
- 为什么:北大长沙院由北京大学和长沙市政府共同办理,服务企业需求
- 成果:所有项目均已交付并回款
- 项目一:服务某芯片公司,为其已有GPU芯片调研MNN库,并规划下一步开发方向
- 项目二:服务某芯片公司,为其下一代GPU芯片建立ONNXRuntime推理评价机制
- 项目三:服务某硬件产品公司,面向某垂直领域,基于检测、追踪一体化边缘端产品
- 职责:AI+HPC项目负责人(前期独立负责、后期统筹全流程)
- 前期技术需求洽谈,参与合同撰写,解决方案的架构设计,开发任务分配,难点问题解决,向甲方交付
- 是什么:针对某国产GPU芯片,加速Blas高性能计算库
- 为什么:直接使用目前已有的开源算子clBlast,无法充分发挥该GPU的性能
- 成果:极致的性能优化,达到该GPU芯片内存带宽和计算性能的峰值 职责:核心开发
- 一级算子-xnrm2:平均:1.66倍,最大:2.09倍
- 二级算子-xtrsv:平均:6.66倍,最大:11.11倍
- 三级算子-xtrmm:平均:11.7倍,最大:50.28倍
- 是什么:算法中台的算法工程化框架,承担算法中台所有CV/Audio/传统算法的落地
- 为什么:算法需要上线各类产品线(Win/Mac/Android/iOS/Linux),需要一个算法工程化框架来解决算法落地时间长、性能差、稳定性低等问题
- 成果:
- 让AI算法首次上线到Android/iOS端
- 从落地产品线10+算法,到落地100+算法,并且都有不同程度的性能提升,2025年中旬询问前同事,框架仍是重点项目,目前各类产品线落地300+算法
- 单个AI算法在多个平台的落地,从数月缩短为一周,人力从多人降低为一人
- 职责:架构师
- 基于推理框架开发经验,从零到一设计了算法工程化框架
- 完成数十个算法的落地与性能优化 - 人像分割、人脸检测、人脸关键点、人脸聚类、老照片修复、调色等算法的落地与性能优化,其中老照片修复为六个模型的组合算法
- 统一的对外接口设计 - 算法接口、参数配置、推理数据Blob、图像数据Mat
- 多端推理模块 - 适配TNN/TensorRT/MNN/ONNXRuntime/TVM/(OpenVino/TF-lite/Core-ML)
- 异构设备模块 - 支持CPU/ARM/X86/CUDA/OpenCL/OpenGL
- CV算子 - 移除对OpenCV的依赖,移动端CV算子库包体积降低为400Kb
- 公共模块 - 文件操作、字符串操作、浮点精度转换等帮助函数、基础类型
- CI/CD - benchmark、单元测试等
- 工具集 - ONNX修改工具、ONNX统计信息、时间测量工具
- 是什么:服务指纹算法SDK和大健康算法SDK的AI算法落地,从零搭建一款纯C的推理框架
- 为什么:指纹算法SDK运行在Android TEE环境下,大健康算法SDK运行在嵌入式环境下,上述SDK都是纯C环境,并没有满足需求的开源推理框架
- 成果:替换过往算法上线的算子模式
- 相比过往的算子模块,算法落地时间从一个月缩短到半周,且SDK稳定性大大提高
- 相比过往的算子模式,通过基于图的内存优化,运行时内存占用降低
- 相比过往的算子模式,通过图优化、计算图等手段,性能提升
- 相比过往的算子模式,量化模型精度提升
- 职责:核心开发
- 推理框架的架构设计 - 参考当时推出的推理框架TNN、MNN、NNLib,设计架构
- 模型转化器 - 设计模型文件格式、ONNX模型文件转换
- 模型解释器 - 设计模型中间表示,Parse过程
- 计算图执行器 - 负责图优化、基于有向无环图的内存池、算子绑定
- 高性能算子 - 编写了数十个NEON算子,独立负责OpenCL的算子开发
- 是什么:一款高性能、高内存利用率、易于调试、使用简单的内存池
- 为什么:服务指纹算法SDK和大健康算法SDK。解决指纹算法SDK多线程下使用麻烦、分配效率低,大健康算法SDK内存利用率低、内存Bug难以调试等问题
- 成果:替换旧的内存池
- 上线指纹算法SDK,对SDK整体加速6.7%,多线程下使用简单
- 上线大健康算法SDK,节省内存空间10%~25%,解决数十个动态内存相关bug
- 职责:独立开发
- 分析当前内存池的问题,总结出:内存分配效率低、内存利用率低、多线程使用麻烦、无内存调试等问题
- 设计分箱内存管理、跳表等算法,优化分配效率
- 优化内存块管理头部大小,内存块管理头部内存从64字节降低到8字节
- 通过线程局部存储,优化多线程下内存池的使用方式
- 增加内存踩踏检测、内存泄漏检测、内存使用统计等功能

