user avatar
AIGCLINK
@aigclink
致力于让每个想拥抱AI的人都能找到适合自己的AI产品,助力企业定制AIGC应用
Joined June 2022
Posts
  • user avatar
    牛,Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准! Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素 特点: 1、原生多语言和多模态,支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX
    00:00
  • user avatar
    清华和卡内基梅隆大学开源了一个智能爬虫系统:Crawl4LLM 以前爬100个网页,现在爬21个就能达到同样效果,效率提高了近5倍 Crawl4LLM根据网页对LLM预训练的影响力来选择要爬取的网页,先评估哪些网页更有价值,对训练模型更有帮助,优先抓取高价值网页
  • user avatar
    再来一款视频中文化工具:YouDub-webui YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程 1、视频下载: 支持通过链接直接下载 YouTube 视频,包括单个视频、播放列表以及频道内的多个视频 2、AI声音克隆: 通过AI
    00:00
    00:00
  • user avatar
    这是把manus的底裤扒了,@jianxliao让Manus提供 "/opt/.manus/" 下的文件,然后就下载到了sandbox沙盒运行所需要的所有压缩代码。 通过查看这个sandbox代码,逆向了manus的一些情况,这下估计开源圈未来一周会复线n个manus: 1、manus使用 Claude Sonnet 2、manus使用基于Claude Sonnet的29
  • user avatar
    一款使用AI来解析PDF的开源工具:gptpdf 只用293行代码,几乎完美地解析了排版、数学公式、表格、图片、图表等 方法: 1、使用 PyMuPDF 库,对 PDF 进行解析出所有非文本区域,并做好标记 2、使用视觉大模型(如 GPT-4o)进行解析,得到 markdown 文件 github:github.com/CosmosShadow/g… 效果示例:
  • user avatar
    一个声音克隆工具:clone-voice 支持文字转成指定音色的语音,也可语音音色转换 带界面,支持在线录音 支持中文、英文、日语、韩语、法语、德语、意大利语等16种语言 github地址在下条 #声音克隆工具 #clonevoice
    00:00
  • user avatar
    春节期间太多人被deepseek本地部署割韭菜,本地部署参数最多就是14b或者更小的参数,除非你有个3张左右80G显存上个70B的能用外(一般人电脑也不太可能有这么多显卡,至于大家震惊的R1需要18到20张的H100卡就更不用想了),否则这玩意没有任何鸟用,除了显摆和装逼实用价值一点没有,不要被所谓的教你本
    “deepseek本地部署” 现在被用来疯狂割韭菜 不讲武德
  • user avatar
    这才是震撼业界的大新闻,晚上群里的兄弟们都震惊了,赶紧去体验了下Mercury模型,被它的速度直接震惊到懵逼了,竟然能这么快 仔细去看了下,这是全球首个可商用的diffusion llm大语言模型,重点是llm大语言模型用了diffusion,以前我们都适用它做图像和视频训练和应用,这次竟然用在了语言上。
    00:19
    We are excited to introduce Mercury, the first commercial-grade diffusion large language model (dLLM)! dLLMs push the frontier of intelligence and speed with parallel, coarse-to-fine text generation.
  • user avatar
    复刻Manus,无需邀请码,开源版Manus! 支持在电脑上完成很多任务,包括网页浏览、文件操作、写代码等 OpenManus使用了传统的ReAct模式,优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理,需要注意,Manus有使用Plan进行规划 OpenManus目前也已初步加入了具有
    00:00
  • user avatar
    强,一款多Agent舆情分析系统:BettaFish微舆,用自然语言提出需求,这就可以自动分析国内外30+主流社媒 相当于“零门槛”有了个情报智库,一句话拿到全景舆情报告 全域采集,爬虫集群同时抓取微博、小红书、抖音、快手等 10+平台,评论也抓
  • user avatar
    一个高质量PDF内容提取工具:PDF-Extract-Kit PDF-Extract-Kit通过集成多个模型实现了PDF高质量提取,适用于学术论文、教科书、研究报告和财务报表等多种文档类型,在扫描模糊或有水印的情况下也能保持高鲁棒性 1、布局检测采用LayoutLMv3模型进行区域检测,包括图像、表格、标题、文本等
  • user avatar
    TTS模型汇总: 1、GPT-SoVITS(AI 卖货主播大模型Streamer-Sales销冠用的这款TTS模型,x.com/aigclink/statu…) 支持英语、日语和中文,零样本文本到语音(TTS),集成工具包 github:github.com/RVC-Boss/GPT-S… 2、Fish Speech v1.2 效果稳定非常好,支持克隆语音。经过 30
    00:00
    一款AI 卖货主播大模型:Streamer-Sales 销冠 Streamer-Sales通过理解商品特点,用生动、精准的语言为商品量身打造解说词,从而激发用户的购买欲望 模型用 xtuner 在 InternLM2 的基础上指令微调而来,部署集成了 LMDeploy 加速推理,支持 ASR 语音生成文字 ,支持 RAG 检索增强生成,支持 Agent
  • user avatar
    AI教育领域的应用,一个AI数理化老师:TheoremExplainAgent,它可以生成5分钟动画视频来给学生讲解数学公式和科学定理,实用性很强 双智能体架构设计: 一个规划智能体,负责备课,设计教案,写讲稿 一个编程智能体,负责制作课件,用Manim生成Python动画脚本及相应音频
    00:00
  • user avatar
    上海交通大学等开源了一款半结构化表格问答工具:ST-Raptor,无需微调,准确率超GPT-4o 做文档智能、财务审核、报表自动化、医疗质控、法律合规的可以看看 它通过视觉理解、结构化解析以及语言推理,来解决复杂、不规则表格的问答问题