Skip to content
View Alwaysssssss's full-sized avatar

Block or report Alwaysssssss

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don't include any personal information such as legal names or email addresses. Markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Alwaysssssss/README.md

Always

微信:Always031856

亮点

  • AI部署框架架构师开源AI部署框架nndeploy发起者,一款基于可视化工作流和多端推理的AI部署框架,可高效和高性能在生产环境下完成AI的落地,GitHub Star 1.6k+,被数十家公司直接采用或者作为参考
  • 推理框架架构师:具备生产级推理框架完整开发经验,设计并实现中间表示模型解释计算图运行时图优化基于图的内存规划量化等核心模块
  • 高性能计算:熟悉算子优化,编写NN、CV、BLAS等数十个高性能算子。其中针对某国产GPU开发的BLAS算子,极致的性能优化,达到该GPU芯片内存带宽和计算性能的峰值
  • 内存管理:由高性能内存池、基于图的内存规划完整的开发经验,从硬件层到应用层对内存管理有系统性理解

教育背景

  • 湖南师范大学 | 硕士 | 电子通信工程 | 2016.09 ~ 2019.06
  • 湖南师范大学 | 学士 | 电子信息工程 | 2012.09 ~ 2016.06

开源

nndeploy:开源AI部署框架 | 开源 | 2022.11 ~ 至今

  • 是什么:基于可视化工作流和多端推理,开发者可快速且高性能从算法仓库开发出指定平台和硬件所需的SDK,大幅节省开发时间(简单理解:端侧的comfyui、coze、dify
  • 为什么:解决AI算法在实际生产环境下落地效率和性能的问题。
  • 成果:github star 1.6k,项目被数十家公司参考或使用
  • 职责:开源项目发起人
    • 有向无环图模块 设计与实现
    • 图并行模块 设计与实现
    • 节点库 设计与实现
    • 多端推理模块 设计与实现
    • 数据容器模块 设计与实现
    • 设备管理模块 设计与实现
    • 算子模块 设计与实现
    • 基础组件 设计与实现
    • 前后端 设计与实现
  • Github链接:https://github.com/nndeploy/nndeploy

nndeploy:内部推理子模块 | 开源 | 2025.02 ~ 2025.08

  • 是什么:nndeploy内部推理子模块,按工业界端侧推理框架(MNN、NCNN、RKNN、TensorRT)标准开发,优先适配华为昇腾,并制作配套教学视频
  • 为什么:从实际模型部署角度出发,推理框架需支持更多功能以满足实际应用需求
  • 成果:实现完整推理框架功能模块,制作的配套课程曾在华为昇腾主页推荐
  • 职责:项目负责人
    • 中间表示模块 设计与实现
    • 模型解释模块 设计与实现
    • 计算图模块 设计与实现
    • 运行时模块 设计与实现
    • 图优化模块 设计与实现
    • 内存优化模块 设计与实现
    • 计算图并行模块 设计与实现
    • 昇腾算子模块 设计与实现
  • 华为昇腾官网课程链接, Github链接

onnx-simplifer | 开源 | 2022.04 ~ 2022.05

  • 是什么:简化onnx模型工具
  • 为什么:减少算子缺失概率,降低模型大小,提高模型运行效率
  • 成果:github star 4.2k,被MXNet、MMDetection、YOLOv5等知名开源项目使用
  • 职责:贡献者,增加两个功能
    • 移除不必要的输出
    • 打印模型优化前后信息
  • Github链接:https://github.com/daquexian/onnx-simplifier

工作经历

  • 北京大学长沙计算与数字经济研究院(长沙) | 智能计算组组长 | 2023.03 ~ 2025.01
  • 万兴科技(深圳->长沙) | 算法工程化工程师 | 2021.06 ~ 2023.03
  • 汇顶科技(深圳) | 算法应用工程师 | 2019.07 ~ 2021.05

AI+HPC类项目 | 北京大学长沙院 | 2023.3 ~ 2025.1

  • 是什么:来自甲方科技公司的AI+HPC非标品类项目
  • 为什么:北大长沙院由北京大学和长沙市政府共同办理,服务企业需求
  • 成果:所有项目均已交付并回款
    • 项目一:服务某芯片公司,为其已有GPU芯片调研MNN库,并规划下一步开发方向
    • 项目二:服务某芯片公司,为其下一代GPU芯片建立ONNXRuntime推理评价机制
    • 项目三:服务某硬件产品公司,面向某垂直领域,基于检测、追踪一体化边缘端产品
  • 职责:AI+HPC项目负责人(前期独立负责、后期统筹全流程)
    • 前期技术需求洽谈,参与合同撰写,解决方案的架构设计,开发任务分配,难点问题解决,向甲方交付

blas高性能算子库 | 北京大学长沙院 | 2023.3 ~ 2025.8

  • 是什么:针对某国产GPU芯片,加速Blas高性能计算库
  • 为什么:直接使用目前已有的开源算子clBlast,无法充分发挥该GPU的性能
  • 成果:极致的性能优化,达到该GPU芯片内存带宽和计算性能的峰值 职责:核心开发
  • 一级算子-xnrm2:平均:1.66倍,最大:2.09倍
  • 二级算子-xtrsv:平均:6.66倍,最大:11.11倍
  • 三级算子-xtrmm:平均:11.7倍,最大:50.28倍

算法工程化框架 | 万兴科技 | 2021.07 ~ 2023.03

  • 是什么:算法中台的算法工程化框架,承担算法中台所有CV/Audio/传统算法的落地
  • 为什么:算法需要上线各类产品线(Win/Mac/Android/iOS/Linux),需要一个算法工程化框架来解决算法落地时间长、性能差、稳定性低等问题
  • 成果:
    • 让AI算法首次上线到Android/iOS端
    • 从落地产品线10+算法,到落地100+算法,并且都有不同程度的性能提升,2025年中旬询问前同事,框架仍是重点项目,目前各类产品线落地300+算法
    • 单个AI算法在多个平台的落地,从数月缩短为一周,人力从多人降低为一人
  • 职责:架构师
    • 基于推理框架开发经验,从零到一设计了算法工程化框架
    • 完成数十个算法的落地与性能优化 - 人像分割、人脸检测、人脸关键点、人脸聚类、老照片修复、调色等算法的落地与性能优化,其中老照片修复为六个模型的组合算法
    • 统一的对外接口设计 - 算法接口、参数配置、推理数据Blob、图像数据Mat
    • 多端推理模块 - 适配TNN/TensorRT/MNN/ONNXRuntime/TVM/(OpenVino/TF-lite/Core-ML)
    • 异构设备模块 - 支持CPU/ARM/X86/CUDA/OpenCL/OpenGL
    • CV算子 - 移除对OpenCV的依赖,移动端CV算子库包体积降低为400Kb
    • 公共模块 - 文件操作、字符串操作、浮点精度转换等帮助函数、基础类型
    • CI/CD - benchmark、单元测试等
    • 工具集 - ONNX修改工具、ONNX统计信息、时间测量工具

自研推理框架 | 汇顶科技 | 2020.01 ~ 2021.05

  • 是什么:服务指纹算法SDK和大健康算法SDK的AI算法落地,从零搭建一款纯C的推理框架
  • 为什么:指纹算法SDK运行在Android TEE环境下,大健康算法SDK运行在嵌入式环境下,上述SDK都是纯C环境,并没有满足需求的开源推理框架
  • 成果:替换过往算法上线的算子模式
    • 相比过往的算子模块,算法落地时间从一个月缩短到半周,且SDK稳定性大大提高
    • 相比过往的算子模式,通过基于图的内存优化,运行时内存占用降低
    • 相比过往的算子模式,通过图优化、计算图等手段,性能提升
    • 相比过往的算子模式,量化模型精度提升
  • 职责:核心开发
    • 推理框架的架构设计 - 参考当时推出的推理框架TNN、MNN、NNLib,设计架构
    • 模型转化器 - 设计模型文件格式、ONNX模型文件转换
    • 模型解释器 - 设计模型中间表示,Parse过程
    • 计算图执行器 - 负责图优化、基于有向无环图的内存池、算子绑定
    • 高性能算子 - 编写了数十个NEON算子,独立负责OpenCL的算子开发

内存池 | 汇顶科技 | 2019.08 ~ 2019.12

  • 是什么:一款高性能、高内存利用率、易于调试、使用简单的内存池
  • 为什么:服务指纹算法SDK和大健康算法SDK。解决指纹算法SDK多线程下使用麻烦、分配效率低,大健康算法SDK内存利用率低、内存Bug难以调试等问题
  • 成果:替换旧的内存池
    • 上线指纹算法SDK,对SDK整体加速6.7%,多线程下使用简单
    • 上线大健康算法SDK,节省内存空间10%~25%,解决数十个动态内存相关bug
  • 职责:独立开发
    • 分析当前内存池的问题,总结出:内存分配效率低、内存利用率低、多线程使用麻烦、无内存调试等问题
    • 设计分箱内存管理、跳表等算法,优化分配效率
    • 优化内存块管理头部大小,内存块管理头部内存从64字节降低到8字节
    • 通过线程局部存储,优化多线程下内存池的使用方式
    • 增加内存踩踏检测、内存泄漏检测、内存使用统计等功能

Pinned Loading

  1. nndeploy/nndeploy nndeploy/nndeploy Public

    一款简单易用和高性能的AI部署框架 | An Easy-to-Use and High-Performance AI Deployment Framework

    C++ 1.7k 210