feat: support infoquest (#708)

* support infoquest

* support html checker

* support html checker

* change line break format

* change line break format

* change line break format

* change line break format

* change line break format

* change line break format

* change line break format

* change line break format

* Fix several critical issues in the codebase
- Resolve crawler panic by improving error handling
- Fix plan validation to prevent invalid configurations
- Correct InfoQuest crawler JSON conversion logic

* add test for infoquest

* add test for infoquest

* Add InfoQuest introduction to the README

* add test for infoquest

* fix readme for infoquest

* fix readme for infoquest

* resolve the conflict

* resolve the conflict

* resolve the conflict

* Fix formatting of INFOQUEST in SearchEngine enum

* Apply suggestions from code review

Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>

---------

Co-authored-by: Willem Jiang <143703838+willem-bd@users.noreply.github.com>
Co-authored-by: Willem Jiang <willem.jiang@gmail.com>
Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>
This commit is contained in:
infoquest-byteplus
2025-12-02 08:16:35 +08:00
committed by GitHub
parent e179fb1632
commit 7ec9e45702
22 changed files with 2103 additions and 94 deletions

View File

@@ -11,6 +11,8 @@
目前DeerFlow 已正式入驻[火山引擎的 FaaS 应用中心](https://console.volcengine.com/vefaas/region:vefaas+cn-beijing/market),用户可通过[体验链接](https://console.volcengine.com/vefaas/region:vefaas+cn-beijing/market/deerflow/?channel=github&source=deerflow)进行在线体验直观感受其强大功能与便捷操作同时为满足不同用户的部署需求DeerFlow 支持基于火山引擎一键部署,点击[部署链接](https://console.volcengine.com/vefaas/region:vefaas+cn-beijing/application/create?templateId=683adf9e372daa0008aaed5c&channel=github&source=deerflow)即可快速完成部署流程,开启高效研究之旅。
DeerFlow 新接入BytePlus自主推出的智能搜索与爬取工具集--[InfoQuest支持在线免费体验](https://console.byteplus.com/infoquest/infoquests)
请访问[DeerFlow 的官方网站](https://deerflow.tech/)了解更多详情。
## 演示
@@ -151,6 +153,13 @@ DeerFlow 支持多种搜索引擎,可以在`.env`文件中通过`SEARCH_API`
- **Tavily**(默认):专为 AI 应用设计的专业搜索 API
- 需要在`.env`文件中设置`TAVILY_API_KEY`
- 注册地址:<https://app.tavily.com/home>
- **InfoQuest**推荐BytePlus自主研发的专为AI应用优化的智能搜索与爬取工具集
- 需要在`.env`文件中设置`INFOQUEST_API_KEY`
- 支持时间范围过滤和站点过滤
- 提供高质量的搜索结果和内容提取
- 注册地址:<https://console.byteplus.com/infoquest/infoquests>
- 访问 <https://docs.byteplus.com/en/docs/InfoQuest/What_is_Info_Quest> 了解更多信息
- **DuckDuckGo**:注重隐私的搜索引擎
- 无需 API 密钥
@@ -170,10 +179,32 @@ DeerFlow 支持多种搜索引擎,可以在`.env`文件中通过`SEARCH_API`
要配置您首选的搜索引擎,请在`.env`文件中设置`SEARCH_API`变量:
```bash
# 选择一个tavily, duckduckgo, brave_search, arxiv
# 选择一个tavily, infoquest,duckduckgo, brave_search, arxiv
SEARCH_API=tavily
```
### 爬取工具
- **Jina**(默认):免费可访问的网页内容爬取工具
- 无需 API 密钥即可使用基础功能
- 使用 API 密钥可获得更高的访问速率限制
- 访问 <https://jina.ai/reader> 了解更多信息
- **InfoQuest**推荐BytePlus自主研发的专为AI应用优化的智能搜索与爬取工具集
- 需要在`.env`文件中设置`INFOQUEST_API_KEY`
- 提供可配置的爬取参数
- 支持自定义超时设置
- 提供更强大的内容提取能力
- 访问 <https://docs.byteplus.com/en/docs/InfoQuest/What_is_Info_Quest> 了解更多信息
要配置您首选的爬取工具,请在`conf.yaml`文件中设置:
```yaml
CRAWLER_ENGINE:
# 引擎类型:"jina"(默认)或 "infoquest"
engine: infoquest
```
### 私域知识库引擎
DeerFlow 支持基于私有域知识的检索,您可以将文档上传到多种私有知识库中,以便在研究过程中使用,当前支持的私域知识库有:
@@ -221,8 +252,8 @@ DeerFlow 支持基于私有域知识的检索,您可以将文档上传到多
### 工具和 MCP 集成
- 🔍 **搜索和检索**
- 通过 Tavily、Brave Search 等进行网络搜索
- 使用 Jina 进行爬取
- 通过 Tavily、InfoQuest、Brave Search 等进行网络搜索
- 使用 Jina、InfoQuest 进行爬取
- 高级内容提取
- 支持检索指定私有知识库