Firecrawl AI搜索API分析报告
核心功能概述
-
Web数据抓取能力
- 支持Markdown/HTML格式输出
- 提供原始HTML(rawHtml)和结构化数据提取
- 包含链接抓取(links)和页面截图功能(screenshot/fullPage)
-
搜索参数体系
- 时间范围筛选(qdr参数):
- h1: 过去1小时
- d24: 过去24小时
- w: 过去1周
- m: 过去1个月
- y: 过去1年
- 时间范围筛选(qdr参数):
技术架构分析
数据处理流程
- 查询分解(Query Decomposition)
- 多源搜索(Multi-Search via Firecrawl)
- 内容提取(Content Extraction with Markdown scrapeOptions)
- 答案验证(Answer Validation,置信度阈值0.7)
- 重试机制(Retry Mechanism,最大尝试次数2次)
- 答案合成(Answer Synthesis via GPT-4o)
典型应用案例
Deep Job Researcher项目
- 技术栈:Next.js + Firecrawl + OpenAI
- 功能模块:
- PDF文档处理(集成OpenAI)
- Firecrawl API数据管道
- 职位信息智能分析
数据接口规范
{
"success": true,
"data": {
"title": "Firecrawl - The Ultimate Web Scraping API",
"description": "...",
"url": "",
"markdown": "...",
"links": [...],
"metadata": {
"statusCode": 200
}
}
}
市场定位
- 面向AI代理开发者的网页抓取解决方案
- 与OpenAI GPT-4o深度集成
- GitHub开源生态支持
技术亮点
- 支持全页面/局部内容抓取选择
- 结构化数据与非结构化数据并行输出
- 智能验证与自动重试机制