首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >12 种引擎赛跑抓网页:Firecrawl 如何两年干到 96K Stars

12 种引擎赛跑抓网页:Firecrawl 如何两年干到 96K Stars

作者头像
用户7411420
发布2026-06-10 20:48:55
发布2026-06-10 20:48:55
250
举报

GitHub: https://github.com/firecrawl/firecrawl

一句话总结

AI 时代的网页数据基础设施——12 种引擎并发竞速抓取 + Rust 高性能模块 + 自研 NuQ 队列,不到两年达 96K stars,$16.2M 融资,80K 企业客户

值得关注的理由

  1. 多引擎并发竞速(Engine Waterfall Racing)是核心架构创新:12 种抓取引擎按 feature 支持矩阵和 quality 评分排序,通过 Promise.race + SnipeAbort 竞速取消,不是串行回退而是并发竞赛——这种策略在可靠性和速度上同时做到极致
  2. Rust 原生模块深度嵌入 TypeScript 项目:PDF 解析、链接提取、Markdown 后处理全部用 Rust NAPI 实现(@mendable/firecrawl-rs),三层 Markdown 转换管线(Go 微服务→Go FFI→JS TurndownService)全部经 Rust 后处理
  3. 增长和商业化的教科书案例:YC S22 → $16.2M 融资 → 80K 企业客户(Shopify/Apple/Canva)→ Claude 官方插件 → AGPL-3.0 保护商业利益

项目画像

维度

数据

GitHub

https://github.com/firecrawl/firecrawl

Star / Fork

96,354 / 6,553

代码行数

216,040 (TypeScript 53%, Python 15%, YAML 13%, Rust 5.4%)

项目年龄

23 个月(2024-04-15 创建)

开发阶段

密集开发(日均 4.4 commits,从快速迭代转向稳定化)

贡献模式

小团队核心驱动(nickscamara 24% + mogery 24% + rafaelsideguide 10%,AI bot 参与开发)

热度定位

超级热门(96K stars,AI 网页抓取赛道全球第一,不到 2 年日均 130-200 新 star)

质量评级

代码[良好] 文档[优秀] 测试[基本]

作者视角:为什么存在这个项目

创始人/作者背景

Firecrawl(原 Mendable AI)是 YC S22 校友,由 Nicolas Silberstein Camara、Caleb Peffer、Eric Ciarla 联合创立。2025 年 8 月完成 14.5M Series A(Nexus VP 领投,YC 跟投,Shopify CEO Tobias Lutke 个人参投),累计融资 16.2M。团队极客风格鲜明——使用 Devin AI bot 作为「员工」(排第 6 贡献者),曾计划花

问题判断

LLM/Agent 应用需要消费网页数据,但网页是为人类浏览器设计的:JavaScript 渲染、反爬机制、复杂布局、PDF/动态内容。传统爬虫工具要么不执行 JS(BeautifulSoup/Scrapy),要么需要复杂配置(Puppeteer/Playwright),没有一个「一个 API 调用就搞定一切」的方案。Firecrawl 看到的机会是:把「网页→LLM 数据」这个脏活累活做成标准化 API 服务

解法哲学

「API-first + 极致可靠性」

  • 12 种引擎并发竞速,确保 96% 的网页都能成功抓取
  • 不追求单一最优引擎,而是用 feature 矩阵 + AI 驱动选择 + 并发竞赛确保结果
  • 同时提供 scrape/search/crawl/extract/agent/browser 全套 API,一站式满足 AI 数据需求

战略意图

「AI 时代的 Twilio(通信 API)等价物——网页数据 API」

  • AGPL-3.0 许可阻止云厂商直接封装,保护商业利益
  • Fire Engine 反爬虫引擎闭源,自托管版本缺失此核心组件
  • 全球 Index 缓存飞轮:每次 scrape 丰富缓存,降低后续边际成本
  • 生态布局:MCP Server(Claude/Cursor 集成)、Agent Builder、Search Engine(fireplexity)、数据增强(fire-enrich)

核心价值提炼

创新之处

  1. 多引擎并发竞速(Engine Waterfall Racing)(新颖度 5/5 × 实用性 5/5)
    • 12 种抓取引擎(fire-engine chrome-cdp / playwright / fetch / pdf / tlsclient / 等),每种有 feature 支持矩阵(actions/PDF/截图等)和 quality 评分
    • 不是串行回退而是并发竞赛:在前一个引擎超时前就启动下一个,通过 Promise.race + SnipeAbort 竞速取消慢引擎
    • AI 驱动的引擎选择(engpicker 用 GPT-4o-mini 评估抓取质量)
  2. NuQ 自研队列系统(新颖度 4/5 × 实用性 4/5)
    • 从 BullMQ (Redis) 迁移到 PostgreSQL SKIP LOCKED + RabbitMQ 通知的混合架构
    • PostgreSQL 作为持久状态存储(任务不丢失),RabbitMQ 作为通知层(低延迟触发)
    • 解决了 BullMQ 在高并发下的可靠性问题
  3. 三层 Markdown 转换管线(新颖度 4/5 × 实用性 5/5)
    • Go HTTP 微服务(独立进程)→ Go FFI 绑定(koffi,进程内调用)→ TurndownService(JS 回退)
    • 全部经过 Rust NAPI postProcessMarkdown 后处理
    • SIMD HTML-to-MD converter 正在 A/B 测试中(#3125)
  4. PDF 智能管线(新颖度 4/5 × 实用性 5/5)
    • Rust 快速路径(confidence >= 0.95 直接输出)→ Shadow Comparison(异步对比多引擎结果)→ MinerU/RunPod OCR → Self-hosted OCR
    • v2 版本用 Rust 重写,3x 性能提升
  5. Browser Sandbox + Agent API(新颖度 3/5 × 实用性 4/5)
    • /v2/agent 接受自然语言描述,自动执行浏览器操作收集数据
    • /v2/browser 提供安全沙箱环境供 AI Agent 交互
    • Actions API 支持点击、滚动、输入、等待等浏览器交互后再抓取

可复用的模式与技巧

模式

简述

适用场景

引擎竞速(Waterfall Racing)

多策略并发执行 + Promise.race + 取消信号,不是回退而是竞赛

任何需要多策略容错的 I/O 密集系统

PostgreSQL SKIP LOCKED 队列

PG 作为持久任务存储 + MQ 作为通知层,取代 Redis 队列

需要高可靠性的异步任务系统

Rust NAPI 嵌入 TypeScript

用 @napi-rs 将 Rust 性能模块编译为 Node addon

Node.js 项目中的 CPU 密集热路径优化

三层降级转换管线

高性能路径(Go)→中间路径(FFI)→回退路径(JS),统一后处理

需要兼顾性能和兼容性的数据转换

Feature 矩阵驱动路由

每个引擎声明支持的 feature 集合,按需求自动选择匹配引擎

多后端/多策略的智能路由系统

Shadow Comparison

异步对比多引擎结果质量,用于持续优化引擎选择策略

需要 A/B 测试和质量监控的系统

关键设计决策

  1. AGPL-3.0 许可 + Fire Engine 闭源:开源核心但反爬引擎闭源,AGPL 阻止云厂商免费封装。自托管用户缺少 Fire Engine 导致反爬能力大幅下降(Issue #2350)
  2. 从 BullMQ 迁移到 NuQ:用 PostgreSQL SKIP LOCKED 替代 Redis 队列,获得了任务持久性和事务一致性,牺牲了 Redis 的极致低延迟(通过 RabbitMQ 补偿)
  3. 多语言混合架构:TypeScript(API/Worker 主体)+ Rust(PDF/Markdown/链接提取)+ Go(HTML-to-MD 微服务)+ Python(SDK/LLM 集成),每种语言用在其最擅长的领域

竞品格局与定位

竞品对比矩阵

维度

Firecrawl

Crawl4AI

Jina Reader

Apify/Crawlee

Stars

96K

62K

10K

22K

语言

TypeScript

Python

TypeScript

TypeScript/Python

部署

Cloud API + 自托管

完全自托管

Cloud API

平台 + 自托管

许可证

AGPL-3.0

Apache-2.0

Apache-2.0

Apache-2.0

定价

$16-$83/月

免费

按 token 计费

平台计费

反爬能力

强(Fire Engine 闭源)

强(代理网络)

LLM 集成

Claude 官方插件/MCP

Python 原生

URL 前缀

Actor 生态

SDK 下载量

474 万/月

抓取成功率

96%(官方)/ 33.69%(Proxyway)

差异化护城河

  • API 极简体验 + 全栈能力:一个 API 调用完成 scrape/search/crawl/extract/agent,SDK 月下载 474 万
  • LLM 生态深度集成:Claude 官方插件、MCP Server、多个 AI 编程工具预置集成
  • Index 缓存飞轮:80K 企业客户的抓取数据持续丰富缓存,降低边际成本
  • AGPL + 闭源引擎:法律和技术双重壁垒防止直接复制

竞争风险

  • Crawl4AI 增长迅猛(62K stars),完全免费 + 自托管,在成本敏感用户中蚕食市场
  • 反爬基准测试成绩偏弱:Proxyway 测试中仅 33.69% 成功率 vs Zyte 93.14%,企业级反爬场景有劣势
  • AGPL-3.0 摩擦:部分企业法务部门对 AGPL 有顾虑,可能推动用户转向 Apache-2.0 的竞品

生态定位

Firecrawl 是「AI 时代的网页数据 API」赛道的领跑者,定位为 Twilio 式的基础设施服务——开发者不需要理解网页抓取的复杂性,一个 API 调用即可获得 LLM 友好的数据。在 AI Agent 生态中扮演「数据获取层」角色。

套利机会分析

  • 信息差:已非信息差标的(96K stars)。但多引擎竞速架构和 NuQ 队列设计在技术层面仍被低估——多数人只看到「又一个爬虫工具」
  • 技术借鉴:引擎竞速模式(多策略容错)、PostgreSQL SKIP LOCKED 队列(高可靠任务系统)、Rust NAPI 嵌入(性能热路径)、Feature 矩阵驱动路由——这些模式高度可迁移
  • 生态位:AI 数据获取基础设施层的标准化 API,填补了「一站式网页→LLM 数据」的空白
  • 趋势判断:爆发式增长中(不到 2 年 96K stars),AI Agent 趋势持续利好。但赛道竞争白热化,Crawl4AI 在免费/自托管赛道紧追

风险与不足

  1. 反爬能力基准测试偏弱:Proxyway 测试 33.69% 成功率,远低于 Zyte (93.14%),企业级反爬场景有差距
  2. 自托管体验差:Fire Engine 闭源导致自托管版本反爬能力大幅下降(#2350),邮件和认证配置问题频发
  3. AGPL-3.0 法律摩擦:部分企业法务部门对 AGPL 许可有顾虑
  4. 注释率偏低(9.7%):文档类提交几乎为零,代码可维护性依赖核心团队的隐性知识
  5. 核心 API 模块过度集中:apps/api 承载 66% 变更量,存在单点复杂度风险
  6. 测试覆盖基本:有 test-suite 但覆盖不够全面,对于 80K 企业客户的基础设施来说偏弱

行动建议

  • 如果你要用它:API 易用性和 LLM 集成深度是最大优势,适合快速构建 RAG/Agent 应用。如果需要完全自托管选 Crawl4AI,如果需要零配置选 Jina Reader,如果需要企业级反爬选 Zyte/Apify
  • 如果你要学它:重点阅读 apps/api/src/scraper/scrapeURL/index.ts(多引擎竞速)、apps/api/src/services/worker/nuq.ts(NuQ 队列)、apps/api/src/lib/go-html-to-md/(三层 Markdown 转换)、Rust 模块(@mendable/firecrawl-rs 的 PDF/链接/Markdown 处理)
  • 如果你要 fork 它:最大改进方向是实现开源版的反爬引擎替代 Fire Engine,其次是提升测试覆盖和代码注释率

知识入口

资源

链接

DeepWiki

https://deepwiki.com/firecrawl/firecrawl

Zread.ai

https://zread.ai/firecrawl/firecrawl

关联论文

无独立论文;被多篇 RAG/Web Agent 论文引用

在线 Demo

https://firecrawl.dev(需注册,免费 500 credits)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能时代蛮子 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一句话总结
  • 值得关注的理由
  • 项目画像
  • 作者视角:为什么存在这个项目
    • 创始人/作者背景
    • 问题判断
    • 解法哲学
    • 战略意图
  • 核心价值提炼
    • 创新之处
    • 可复用的模式与技巧
    • 关键设计决策
  • 竞品格局与定位
    • 竞品对比矩阵
    • 差异化护城河
    • 竞争风险
    • 生态定位
  • 套利机会分析
  • 风险与不足
  • 行动建议
    • 知识入口
相关产品与服务
API 网关
腾讯云 API 网关(API Gateway)是腾讯云推出的一种 API 托管服务,能提供 API 的完整生命周期管理,包括创建、维护、发布、运行、下线等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档