Project-Caffeine/README.md

<!--
---
title: "Project Caffeine README"
description: "基于 Model Context Protocol (MCP) 协议的研报智能体系统项目介绍、架构蓝图、技术栈说明及开发路线图"
type: "README"
version: "v1.0.1 (Arabica)"
file: "README.md"
author: "Gitconomy Research-郭晧"
date: 2026-02-28
last-update: 2026-03-01
update-description: "增加Project Caffeine MVP Srpint1 系统设计说明"
tags:
  - Project Caffeine
  - MCP
  - AI Agent
license: "CC BY-SA 4.0"
status: "Active"
---
-->
# ☕ Project Caffeine 项目

![Status: Planning & Design](https://img.shields.io/badge/Status-Planning_%26_Design-amber)![Protocol: MCP](https://img.shields.io/badge/Protocol-Model_Context_Protocol-blue)![Type: AI Agent](https://img.shields.io/badge/Type-AI_Agent-purple)![Target Release](https://img.shields.io/badge/Target_Release-v1.0.0_(Arabica)-brightgreen)![License: CC BY-SA 4.0](https://img.shields.io/badge/License-CC_BY--SA_4.0-lightgrey)

> **⚠️ 项目状态说明**：本项目目前正处于**设计和开发规划阶段**。

**Project Caffeine** 是一个基于 **Model Context Protocol (MCP)** 协议的研报智能体系统，旨在自动化信息检索、深度推理和结构化报告生成。通过精细的语义分块和多步推理，系统高效处理海量文献数据，并提供具有深度的研究洞察，帮助知识工作者快速获得有价值的研究结果并构建个人知识库。
## 1. 项目背景与目标

在现代研究和知识工作中，海量的文献数据和复杂的推理任务常常让研究人员面临巨大的挑战。**Project Caffeine** 旨在通过 **MCP协议** 和先进的 AI 技术，自动化这一过程。项目的核心目标是：

- **自动化文献检索**：从多个学术资源和数据库中自动获取相关文献。
- **深度推理与分析**：基于大语言模型进行多步推理，生成研究报告和洞察。
- **报告生成与结构化**：通过标准化的模板生成结构化、易于阅读的研究报告。
- **个人知识库构建**：帮助用户构建自己的文献和研究知识库，支持长期存储和高效检索。

---

## 2.系统架构设计蓝图

*图1-1：研报智能体系统架构拓扑示意图*

![系统拓扑图](./docs/assets/images/project-caffeine-system-topology.svg)

在项目的MVP阶段（版本 `Arabica`）中，我们首先设计了 **3 个核心 MCP 服务端模块**作为系统的基础架构地基：

1.  **S1: 文献查询 Server (执行者 )**
    *   **职能**：作为系统的底层抓取与 I/O 节点。
    *   **机制**：通过暴露标准化的工具（Tools）原语，执行外部学术 API 获取，并将结构化结果落盘为带有 YAML 元数据的 Markdown 文件。
2.  **S2: 提示词策略 Server (顾问 )**
    *   **职能**：为模型提供思考框架。
    *   **机制**：通过 `prompts/list` 暴露系统级提示词模板（如 SWOT、5 Whys），指导大语言模型进行意图拆解与知识盲区探究。
3.  **S3: CoT 推理 Server (分析师 )**
    *   **职能**：逻辑判决与质量控制中枢。
    *   **机制**：强制大模型执行多步链式推理，并实施诸如引文密度验证的学术质量控制逻辑。

---

## 3. 开发框架与技术栈说明

*图：1-2：Project Caffeine开发框架与技术栈架构图*

![技术堆栈图](./docs/assets/images/project-caffeine-tech-stack-framework.svg)

为确保系统的高并发处理能力与协议严谨性，Project Caffeine 采用以下核心开发框架与技术标准：

*   **核心语言与运行环境**：采用 TypeScript 与 Node.js (LTS v20+)。MCP服务端必须引入全面的异步处理模型（如 Node.js 非阻塞事件流）以应对高吞吐量的数据解析。
*   **MCP 协议与 SDK**：统一使用官方针对 TypeScript 提供的标准 SDK，深度封装底层 JSON-RPC 2.0 报文解析与状态机管理。
*   **工程化与 Monorepo**：采用原生 npm Workspaces 进行包管理，在根目录统一管控共享的 JSON-RPC Schema 与多个微服务子包，实现依赖隔离与跨服务快速编译。
*   **通信传输层** ：MVP阶段采用 STDIO 协议，利用同一台机器上本地进程间的 stdin 和 stdout 管道进行直接通信，无需复杂加密握手，实现零网络传输开销。
*   **集成开发环境** ：采用 Visual Studio Code (VS Code) 作为核心开发工具。需配合安装相关的 MCP 扩展插件，支持在编写代码时直接进行对话联调与协议协议测试。
*   **安全与环境管控**：协议遵循零信任架构原则，默认将AI生成的指令视为不可信负载。敏感凭证严禁硬编码，必须通过 `.env.example` 模板化并在运行环境中安全注入。

---

## 4. 项目开发路线图

本系统的开发将遵循“敏捷迭代、核心优先、由浅入深”的研发原则。为了确保开发过程的稳健性，整个生命周期被划分为五个渐进式阶段，从最基础的物理检索链路起步，逐步叠加思维框架、递归推理算法，最终实现与本地个人知识库的完美融合。每个阶段均能独立跑通并产出具备核心价值的最小可行性产品（MVP）。

*图1-3：Project Caffeine MVP阶段开发路线图*

![项目路线图](./docs/assets/images/project-caffeine-roadmap-high-level-gantt.svg)

当前开发进度：

| **阶段**       | **主题**                    | **开发目标**                                                            | **核心功能实现**                                                                                      | **设计文档**                                                                                                 |
| ------------ | ------------------------- | ------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------- |
| MVP Sprint 1 | 提示词策略 MCP Server 原型验证<br> | 部署基于 Node.js 和 Express.js 的轻量级服务，验证 MCP 协议组件间通讯、大语言模型推理等基本运行环境。<br> | 实现最简化的提示词策略 MCP Server。当用户发起查询请求时，系统调用 **5 Whys** 模板对查询进行分解，生成增强提示词，并发送至大语言模型进行深度推理分析，最终返回研究洞察。 | [Project Caffeine提示词策略MCP Server原型设计](./docs/design/project-caffeine-mvp-sprint1-architecture-design.md) |


---

## 5. 参与设计讨论

当前系统正处于设计阶段，我们欢迎任何针对 项目的架构设计、功能建议、开发框架发起讨论。您可以浏览仓库内的 `docs/design/` 蓝图文件，并通过提交 Issue 参与我们的讨论！

---

## 6. AI生成内容声明

**Project Caffeine** 项目的核心驱动力依赖于大语言模型（LLM）进行自动化推理和文本生成。系统通过先进的推理算法和深度学习模型，自动处理信息检索、分析和报告生成。然而，尽管系统能够提供高效、结构化的研究成果，**所有AI生成的内容仍需经过人工核实**。

在使用 AI 生成的报告和分析时，用户应进行独立的学术严谨性核实和数据交叉验证，确保所生成内容的准确性和可信度。所有通过 **Project Caffeine** 生成的结果仅作为参考，最终的研究结论应由专业人员根据实际情况作出判断。

---

## 7. 许可证说明

本项目**源代码**采用 [MIT License](https://opensource.org/licenses/MIT) 进行许可，允许在满足许可证条款的前提下，自由地使用、复制、修改、合并、发布、分发、再许可和/或销售软件的副本。

**所有研究成果**（包括但不限于论文、数据、图表、模型、方法论描述等）默认使用 [知识共享署名-相同方式共享 4.0 国际许可协议 (CC BY-SA 4.0)](https://creativecommons.org/licenses/by-sa/4.0/deed.en) 进行许可。