AIGCLINK (@aigclink) / X

AIGCLINK

5,348 posts

AIGCLINK

@aigclink

致力于让每个想拥抱AI的人都能找到适合自己的AI产品，助力企业定制AIGC应用

Joined June 2022

AIGCLINK
@aigclink
Mar 7, 2025
牛，Mistral刚刚发布了号称地表最强OCR，给文档理解设立了新标准！ Mistral OCR具备强大认知能力，能准确理解文档中包括文本、图像、表格、公式等在内的每个元素特点： 1、原生多语言和多模态，支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素，包括图像、数学公式、表格以及 LaTeX
00:00
112K
AIGCLINK
@aigclink
Feb 20, 2025
清华和卡内基梅隆大学开源了一个智能爬虫系统：Crawl4LLM 以前爬100个网页，现在爬21个就能达到同样效果，效率提高了近5倍 Crawl4LLM根据网页对LLM预训练的影响力来选择要爬取的网页，先评估哪些网页更有价值，对训练模型更有帮助，优先抓取高价值网页
 108K
AIGCLINK
@aigclink
Aug 16, 2024
再来一款视频中文化工具：YouDub-webui YouDub-webui提供了一套完整的视频中文化工具包，涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程 1、视频下载: 支持通过链接直接下载 YouTube 视频，包括单个视频、播放列表以及频道内的多个视频 2、AI声音克隆: 通过AI
00:00
00:00
103K
AIGCLINK
@aigclink
Mar 10, 2025
这是把manus的底裤扒了，@jianxliao让Manus提供 "/opt/.manus/" 下的文件，然后就下载到了sandbox沙盒运行所需要的所有压缩代码。通过查看这个sandbox代码，逆向了manus的一些情况，这下估计开源圈未来一周会复线n个manus： 1、manus使用 Claude Sonnet 2、manus使用基于Claude Sonnet的29
207K
AIGCLINK
@aigclink
Jun 29, 2024
一款使用AI来解析PDF的开源工具：gptpdf 只用293行代码，几乎完美地解析了排版、数学公式、表格、图片、图表等方法： 1、使用 PyMuPDF 库，对 PDF 进行解析出所有非文本区域，并做好标记 2、使用视觉大模型（如 GPT-4o）进行解析，得到 markdown 文件 github：github.com/CosmosShadow/g… 效果示例：
146K
AIGCLINK
@aigclink
Dec 5, 2024
一个声音克隆工具：clone-voice 支持文字转成指定音色的语音，也可语音音色转换带界面，支持在线录音支持中文、英文、日语、韩语、法语、德语、意大利语等16种语言 github地址在下条 #声音克隆工具 #clonevoice
00:00
63K
AIGCLINK
@aigclink
Feb 3, 2025
春节期间太多人被deepseek本地部署割韭菜，本地部署参数最多就是14b或者更小的参数，除非你有个3张左右80G显存上个70B的能用外(一般人电脑也不太可能有这么多显卡，至于大家震惊的R1需要18到20张的H100卡就更不用想了），否则这玩意没有任何鸟用，除了显摆和装逼实用价值一点没有，不要被所谓的教你本
dontbesilent
@dontbesilent
Feb 2, 2025
“deepseek本地部署” 现在被用来疯狂割韭菜不讲武德
 581K
AIGCLINK
@aigclink
Mar 7, 2025
这才是震撼业界的大新闻，晚上群里的兄弟们都震惊了，赶紧去体验了下Mercury模型，被它的速度直接震惊到懵逼了，竟然能这么快仔细去看了下，这是全球首个可商用的diffusion llm大语言模型，重点是llm大语言模型用了diffusion，以前我们都适用它做图像和视频训练和应用，这次竟然用在了语言上。
00:19
Inception
@_inception_ai
Feb 26, 2025
We are excited to introduce Mercury, the first commercial-grade diffusion large language model (dLLM)! dLLMs push the frontier of intelligence and speed with parallel, coarse-to-fine text generation.
283K
AIGCLINK
@aigclink
Mar 7, 2025
复刻Manus，无需邀请码，开源版Manus！支持在电脑上完成很多任务，包括网页浏览、文件操作、写代码等 OpenManus使用了传统的ReAct模式，优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理，需要注意，Manus有使用Plan进行规划 OpenManus目前也已初步加入了具有
00:00
349K
AIGCLINK
@aigclink
Nov 4, 2025
强，一款多Agent舆情分析系统：BettaFish微舆，用自然语言提出需求，这就可以自动分析国内外30+主流社媒相当于“零门槛”有了个情报智库，一句话拿到全景舆情报告全域采集，爬虫集群同时抓取微博、小红书、抖音、快手等 10+平台，评论也抓
 103K
AIGCLINK
@aigclink
Jul 14, 2024
一个高质量PDF内容提取工具：PDF-Extract-Kit PDF-Extract-Kit通过集成多个模型实现了PDF高质量提取，适用于学术论文、教科书、研究报告和财务报表等多种文档类型，在扫描模糊或有水印的情况下也能保持高鲁棒性 1、布局检测采用LayoutLMv3模型进行区域检测，包括图像、表格、标题、文本等
 81K
AIGCLINK
@aigclink
Jul 3, 2024
TTS模型汇总： 1、GPT-SoVITS（AI 卖货主播大模型Streamer-Sales销冠用的这款TTS模型，x.com/aigclink/statu…）支持英语、日语和中文，零样本文本到语音（TTS），集成工具包 github：github.com/RVC-Boss/GPT-S… 2、Fish Speech v1.2 效果稳定非常好，支持克隆语音。经过 30
00:00
AIGCLINK
@aigclink
Jun 25, 2024
一款AI 卖货主播大模型：Streamer-Sales 销冠 Streamer-Sales通过理解商品特点，用生动、精准的语言为商品量身打造解说词，从而激发用户的购买欲望模型用 xtuner 在 InternLM2 的基础上指令微调而来，部署集成了 LMDeploy 加速推理，支持 ASR 语音生成文字，支持 RAG 检索增强生成，支持 Agent
110K
AIGCLINK
@aigclink
Feb 27, 2025
AI教育领域的应用，一个AI数理化老师：TheoremExplainAgent，它可以生成5分钟动画视频来给学生讲解数学公式和科学定理，实用性很强双智能体架构设计：一个规划智能体，负责备课，设计教案，写讲稿一个编程智能体，负责制作课件，用Manim生成Python动画脚本及相应音频
00:00
100K
AIGCLINK
@aigclink
Sep 14, 2025
上海交通大学等开源了一款半结构化表格问答工具：ST-Raptor，无需微调，准确率超GPT-4o 做文档智能、财务审核、报表自动化、医疗质控、法律合规的可以看看它通过视觉理解、结构化解析以及语言推理，来解决复杂、不规则表格的问答问题
 109K