- 该文档希望能面向《智能设计方法》这门课,整理一些常用的,能快速运行起来的智能技术,记录一些教程。
- 希望对所有对AI感兴趣的非计算机跨学科专业的同学也有所帮助。
- 希望得到同学们的建议,从而可以持续不断地优化。
Notice:
- 这里主要是收集整理部分已有工作(以及其他详细的教程),以便能更容易地运行起智能技术,以将更多的注意力放在设计工作上。如果对具体的技术细节感兴趣,最好去原GitHub和原论文里学习。
- 这里涉及到的AI技术都尽量使用统一的稳定环境(比如Pytorch, python 3.8)运行,踩过的坑也会记录下来,希望尽量减少应用AI的成本。如果实在是有不太能兼容的模型,那最好按照原项目的要求单独再创一个虚拟环境。
- 这里选择的AI技术并不一定是当前最强的,而是会综合考虑效果和容易运行的程度等因素。
- 欢迎大家提出宝贵建议。文档上次更新时间:2025年3月。
详情见这里
由于大部分人都是使用Windows系统,所以本文档涉及到的所有AI技术均在Windows上测试并成功运行。理论上来说Linux应该是更容易的,如果您使用的是MacOS或者Linux系统,可以自行查阅相关资料。 MacOS安装pytorch ,Linux安装pytorch
需要的python库(库是写好的可以直接引用的代码包):本文档尽量在同一个环境中运行所有的模型,以便技术之间的组合应用,具体用到的包在requirements.txt中。
如果您只是单独玩其中某些项目的话,推荐直接按照步骤运行,然后缺什么库就pip install 库的名字==版本装什么库,版本参考requirements.txt(一般来说安装最新的库也不会有什么问题,但是如果涉及到诸如transformers这样的库,不同版本可能会报错),也可以通过pip install -r requirements.txt一次性全部装好。如果国内安装比较慢,记得更换pip源。
举例:如果需要安装transformer这个库,运行的时候这个语句就是 pip install transformers==4.19.2,"4.19.2"这个版本号可以在requirements.txt里面查到。
本文档整理了大部分先进、通用、运行友好的AI感知应用,目前主要包含计算机视觉相关技术:图像的分类、分割、深度估计、边缘检测,人脸检测与分类,人体姿态估计,以及文本,语音的识别与情感分类等任务。
目前已整理: CLIP, BLIP, Depth-Anything深度估计, Edge_detection边缘检测, Face人脸检测与识别, Pose estimation人体姿态估计等。
您还可以自行尝试其他AI项目: (视觉、语音、文本等任务:)
由于生成类技术极快的发展速度,本文档主要整理了stable diffusion和controlnet等相关技术。
目前已整理: ControlNet, stable-diffusion-webui等
您还可以自行尝试以下其他AI项目:
详情见LLM.md
目前已整理: Deepseek以及大模型用于NLP相关应用的实践,部分收集的觉得不错的资料
若该文档对您有所帮助,请在页面右上角点个Star⭐支持一下,谢谢!
如果转载该文档的内容,请注明出处:https://github.com/yunfan1202/intellegent_design。
- 本文档主要是收集并在已有的工作上整理,首先感谢所有优秀的开源技术项目的贡献!
- 本文档内容由本人与本实验室的老师同学们完成,感谢大家的建议与贡献!
- 本文档受learning_research启发不少,这是个非常优秀的科研经验总结分享 (针对计算机视觉、图形学领域),希望本文档能配合这份科研经验,在为减少技术门槛方面提供助力。