腾讯开源王炸!WeKnora 斩获 11k 星:复杂文档秒变 “问答大脑”,翻找时代终结!

还在为翻遍百页 PDF 找一个参数抓狂?还在为对比多份技术手册差异浪费几天时间?腾讯最新开源的文档理解检索框架WeKnora,直接给复杂文档装上 “智能大脑”,让你从 “手动大海捞针” 升级为 “开口直接提问”,目前在 GitHub 已狂揽超 11k Star,成为开发者圈爆款工具!

项目简介:文档检索的 “全能解题官”

WeKnora 是一款基于大语言模型(LLM)的文档理解与语义搜索框架,专为结构复杂、格式多样的文档场景量身打造。

它以 RAG(检索增强生成)为核心流程,融合多模态分割、语义认知索引、智能感知与大模型生成推理技术,能将分散在不同文档中的信息整合为统一语义视图,再结合上下文相关片段生成高质量回答,彻底解决传统文档检索 “找不准、答不全” 的痛点。

核心特征:10 大亮点,覆盖全场景需求

  1. Agent 智能联动:支持 ReACT Agent 模式,可调用知识库、MCP 工具及网络搜索,通过多轮迭代反思输出全面总结报告。

  2. 多格式精准解析:轻松处理 PDF、Word、图片等各类文档,结构化提取内容,不遗漏关键信息。

  3. 深度语义推理:依托大语言模型理解上下文与用户意图,支持精准问答和多轮对话,复杂需求也能精准响应。

  4. 灵活知识库管理:支持 FAQ 和文档两类知识库,可通过文件夹导入、URL 导入、在线录入等方式添加内容,还能进行标签管理。

  5. 全流程可扩展:解析、嵌入、召回、生成各环节解耦,便于灵活集成定制,适配不同业务场景。

  6. 混合检索策略:融合关键词、向量、知识图谱检索,跨知识库查询也能高效精准召回。

  7. 网络搜索集成:内置 DuckDuckGo 搜索引擎,可扩展接入其他搜索工具,补充知识库外的实时信息。

  8. MCP 工具扩展:通过 MCP 扩展 Agent 能力,内置 uvx、npx 启动工具,支持多种传输方式。

  9. 对话策略可控:可配置 Agent 模型、普通模式模型、检索阈值及 Prompt,精准控制多轮对话行为。

  10. 安全易用兼顾:提供直观 Web 界面和标准 API,零技术门槛上手;支持本地化与私有云部署,数据完全自主可控。

技术架构:模块化设计,灵活又可控

WeKnora 采用现代化模块化架构,将文档理解与检索流程清晰解耦,分为五大核心层级:

  • 文档处理层:负责 PDF、Word、图片等多格式文档的解析与预处理。

  • 知识建模层:通过向量化、分块、知识图谱等技术,构建深度知识表示。

  • 检索引擎层:创新融合多种检索策略,平衡召回效率与精准度。

  • 推理生成层:借助大语言模型实现深度理解与答案生成,集成 Agent 推理能力。

  • 交互展示层:提供直观 Web 界面和标准 API,方便用户操作与系统集成。

这套架构支持自由组合检索策略、大模型(兼容 Ollama,可灵活切换 Qwen、DeepSeek 等主流模型)和向量数据库。从 v0.1.3 版本起,新增登录认证功能,官方建议部署在内网环境并配置防火墙,进一步保障安全。

快速上手:3 步启动,小白也能搞定

1. 环境要求

需提前安装:Docker、Docker Compose、Git

2. 安装步骤

① 克隆代码仓库

plaintext

# 克隆主仓库
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora

② 配置环境变量

plaintext

# 复制示例配置文件
cp .env.example .env
# 编辑 .env,填入对应配置信息
# 所有变量说明详见 .env.example 注释

③ 启动服务(含 Ollama)

plaintext

./scripts/start_all.sh
# 或
make start-all

④ 停止服务

plaintext

./scripts/start_all.sh --stop
# 或
make stop-all

3. 服务访问地址

  • Web UI:http://localhost

  • 后端 API:http://localhost:8080

  • 链路追踪(Jaeger):http://localhost:16686

开源地址

https://github.com/Tencent/WeKnora

腾讯又开源好东西了

这个工具有点意思

这工具看着挺实用啊

这个工具看起来能省不少时间

这个工具看起来挺实用的

腾讯这波开源有点东西

这个工具看起来确实能省不少时间

这工具有点意思啊

这个工具看起来挺实用的