Project Caffeine 项目

Status: Planning & DesignProtocol: MCPType: AI AgentTarget ReleaseLicense: CC BY-SA 4.0

⚠️ 项目状态说明:本项目目前正处于设计和开发规划阶段

Project Caffeine 是一个基于 Model Context Protocol (MCP) 协议的研报智能体系统,旨在自动化信息检索、深度推理和结构化报告生成。通过精细的语义分块和多步推理,系统高效处理海量文献数据,并提供具有深度的研究洞察,帮助知识工作者快速获得有价值的研究结果并构建个人知识库。

1. 项目背景与目标

在现代研究和知识工作中,海量的文献数据和复杂的推理任务常常让研究人员面临巨大的挑战。Project Caffeine 旨在通过 MCP协议 和先进的 AI 技术,自动化这一过程。项目的核心目标是:

  • 自动化文献检索:从多个学术资源和数据库中自动获取相关文献。
  • 深度推理与分析:基于大语言模型进行多步推理,生成研究报告和洞察。
  • 报告生成与结构化:通过标准化的模板生成结构化、易于阅读的研究报告。
  • 个人知识库构建:帮助用户构建自己的文献和研究知识库,支持长期存储和高效检索。

2.系统架构设计蓝图

图1-1研报智能体系统架构拓扑示意图

系统拓扑图

在项目的MVP阶段版本 Arabica)中,我们首先设计了 3 个核心 MCP 服务端模块作为系统的基础架构地基:

  1. S1: 文献查询 Server (执行者 )
    • 职能:作为系统的底层抓取与 I/O 节点。
    • 机制通过暴露标准化的工具Tools原语执行外部学术 API 获取,并将结构化结果落盘为带有 YAML 元数据的 Markdown 文件。
  2. S2: 提示词策略 Server (顾问 )
    • 职能:为模型提供思考框架。
    • 机制:通过 prompts/list 暴露系统级提示词模板(如 SWOT、5 Whys指导大语言模型进行意图拆解与知识盲区探究。
  3. S3: CoT 推理 Server (分析师 )
    • 职能:逻辑判决与质量控制中枢。
    • 机制:强制大模型执行多步链式推理,并实施诸如引文密度验证的学术质量控制逻辑。

3. 开发框架与技术栈说明

1-2Project Caffeine开发框架与技术栈架构图

技术堆栈图

为确保系统的高并发处理能力与协议严谨性Project Caffeine 采用以下核心开发框架与技术标准:

  • 核心语言与运行环境:采用 TypeScript 与 Node.js (LTS v20+)。MCP服务端必须引入全面的异步处理模型如 Node.js 非阻塞事件流)以应对高吞吐量的数据解析。
  • MCP 协议与 SDK:统一使用官方针对 TypeScript 提供的标准 SDK深度封装底层 JSON-RPC 2.0 报文解析与状态机管理。
  • 工程化与 Monorepo:采用原生 npm Workspaces 进行包管理,在根目录统一管控共享的 JSON-RPC Schema 与多个微服务子包,实现依赖隔离与跨服务快速编译。
  • 通信传输层 MVP阶段采用 STDIO 协议,利用同一台机器上本地进程间的 stdin 和 stdout 管道进行直接通信,无需复杂加密握手,实现零网络传输开销。
  • 集成开发环境 :采用 Visual Studio Code (VS Code) 作为核心开发工具。需配合安装相关的 MCP 扩展插件,支持在编写代码时直接进行对话联调与协议协议测试。
  • 安全与环境管控协议遵循零信任架构原则默认将AI生成的指令视为不可信负载。敏感凭证严禁硬编码必须通过 .env.example 模板化并在运行环境中安全注入。

4. 项目开发路线图

本系统的开发将遵循“敏捷迭代、核心优先、由浅入深”的研发原则。为了确保开发过程的稳健性整个生命周期被划分为五个渐进式阶段从最基础的物理检索链路起步逐步叠加思维框架、递归推理算法最终实现与本地个人知识库的完美融合。每个阶段均能独立跑通并产出具备核心价值的最小可行性产品MVP

图1-3Project Caffeine MVP阶段开发路线图

项目路线图

当前开发进度:

版本 开发目标 设计文档 开发文档
v0.0.1 部署基于 Node.js 的开发环境,验证 MCP 协议组件间通讯、大语言模型推理等基本运行环境。
Arabicat Sprint1系统设计文档 Arabicat Sprint1系统开发文档
v0.0.2 基于 Sprint 1 原型,扩展为支持 MCP Prompts 原语的多框架引擎,实现意图拆解工具与本地知识库集成,构建模块化、可扩展的提示词策略服务器。 Arabica Sprint2系统设计文档 Arabica Sprint2系统开发文档
v0.0.3 构建文献查询 Server集成学术 API 实现基础外围检索能力,并开发双轨制数据落盘模块,将离散的 JSON 数据转换为带有标准 YAML 元数据的本地化 Markdown 文件。 Arabica Sprint3系统设计文档 Arabica Sprint3系统开发文档

5. 参与设计讨论

当前系统正处于设计阶段,我们欢迎任何针对 项目的架构设计、功能建议、开发框架发起讨论。您可以浏览仓库内的 docs/design/ 蓝图文件,并通过提交 Issue 参与我们的讨论!


6. AI生成内容声明

Project Caffeine 项目的核心驱动力依赖于大语言模型LLM进行自动化推理和文本生成。系统通过先进的推理算法和深度学习模型自动处理信息检索、分析和报告生成。然而尽管系统能够提供高效、结构化的研究成果所有AI生成的内容仍需经过人工核实

在使用 AI 生成的报告和分析时,用户应进行独立的学术严谨性核实和数据交叉验证,确保所生成内容的准确性和可信度。所有通过 Project Caffeine 生成的结果仅作为参考,最终的研究结论应由专业人员根据实际情况作出判断。


7. 许可证说明

本项目源代码采用 MIT License 进行许可,允许在满足许可证条款的前提下,自由地使用、复制、修改、合并、发布、分发、再许可和/或销售软件的副本。

所有研究成果(包括但不限于论文、数据、图表、模型、方法论描述等)默认使用 知识共享署名-相同方式共享 4.0 国际许可协议 (CC BY-SA 4.0) 进行许可。

Description
No description provided
Readme 16 MiB
Languages
TypeScript 99.6%
JavaScript 0.4%