GitHub: https://github.com/firecrawl/firecrawl
AI 时代的网页数据基础设施——12 种引擎并发竞速抓取 + Rust 高性能模块 + 自研 NuQ 队列,不到两年达 96K stars,$16.2M 融资,80K 企业客户。
维度 | 数据 |
|---|---|
GitHub | https://github.com/firecrawl/firecrawl |
Star / Fork | 96,354 / 6,553 |
代码行数 | 216,040 (TypeScript 53%, Python 15%, YAML 13%, Rust 5.4%) |
项目年龄 | 23 个月(2024-04-15 创建) |
开发阶段 | 密集开发(日均 4.4 commits,从快速迭代转向稳定化) |
贡献模式 | 小团队核心驱动(nickscamara 24% + mogery 24% + rafaelsideguide 10%,AI bot 参与开发) |
热度定位 | 超级热门(96K stars,AI 网页抓取赛道全球第一,不到 2 年日均 130-200 新 star) |
质量评级 | 代码[良好] 文档[优秀] 测试[基本] |
Firecrawl(原 Mendable AI)是 YC S22 校友,由 Nicolas Silberstein Camara、Caleb Peffer、Eric Ciarla 联合创立。2025 年 8 月完成 14.5M Series A(Nexus VP 领投,YC 跟投,Shopify CEO Tobias Lutke 个人参投),累计融资 16.2M。团队极客风格鲜明——使用 Devin AI bot 作为「员工」(排第 6 贡献者),曾计划花
LLM/Agent 应用需要消费网页数据,但网页是为人类浏览器设计的:JavaScript 渲染、反爬机制、复杂布局、PDF/动态内容。传统爬虫工具要么不执行 JS(BeautifulSoup/Scrapy),要么需要复杂配置(Puppeteer/Playwright),没有一个「一个 API 调用就搞定一切」的方案。Firecrawl 看到的机会是:把「网页→LLM 数据」这个脏活累活做成标准化 API 服务。
「API-first + 极致可靠性」:
「AI 时代的 Twilio(通信 API)等价物——网页数据 API」:
模式 | 简述 | 适用场景 |
|---|---|---|
引擎竞速(Waterfall Racing) | 多策略并发执行 + Promise.race + 取消信号,不是回退而是竞赛 | 任何需要多策略容错的 I/O 密集系统 |
PostgreSQL SKIP LOCKED 队列 | PG 作为持久任务存储 + MQ 作为通知层,取代 Redis 队列 | 需要高可靠性的异步任务系统 |
Rust NAPI 嵌入 TypeScript | 用 @napi-rs 将 Rust 性能模块编译为 Node addon | Node.js 项目中的 CPU 密集热路径优化 |
三层降级转换管线 | 高性能路径(Go)→中间路径(FFI)→回退路径(JS),统一后处理 | 需要兼顾性能和兼容性的数据转换 |
Feature 矩阵驱动路由 | 每个引擎声明支持的 feature 集合,按需求自动选择匹配引擎 | 多后端/多策略的智能路由系统 |
Shadow Comparison | 异步对比多引擎结果质量,用于持续优化引擎选择策略 | 需要 A/B 测试和质量监控的系统 |
维度 | Firecrawl | Crawl4AI | Jina Reader | Apify/Crawlee |
|---|---|---|---|---|
Stars | 96K | 62K | 10K | 22K |
语言 | TypeScript | Python | TypeScript | TypeScript/Python |
部署 | Cloud API + 自托管 | 完全自托管 | Cloud API | 平台 + 自托管 |
许可证 | AGPL-3.0 | Apache-2.0 | Apache-2.0 | Apache-2.0 |
定价 | $16-$83/月 | 免费 | 按 token 计费 | 平台计费 |
反爬能力 | 强(Fire Engine 闭源) | 中 | 弱 | 强(代理网络) |
LLM 集成 | Claude 官方插件/MCP | Python 原生 | URL 前缀 | Actor 生态 |
SDK 下载量 | 474 万/月 | — | — | — |
抓取成功率 | 96%(官方)/ 33.69%(Proxyway) | — | — | — |
Firecrawl 是「AI 时代的网页数据 API」赛道的领跑者,定位为 Twilio 式的基础设施服务——开发者不需要理解网页抓取的复杂性,一个 API 调用即可获得 LLM 友好的数据。在 AI Agent 生态中扮演「数据获取层」角色。
资源 | 链接 |
|---|---|
DeepWiki | https://deepwiki.com/firecrawl/firecrawl |
Zread.ai | https://zread.ai/firecrawl/firecrawl |
关联论文 | 无独立论文;被多篇 RAG/Web Agent 论文引用 |
在线 Demo | https://firecrawl.dev(需注册,免费 500 credits) |