diff --git a/README.md b/README.md index 210a42a..e977757 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,84 @@ -# Project-Caffeine +# ☕ Project Caffeine 项目 +![Status: Planning & Design](https://img.shields.io/badge/Status-Planning_%26_Design-amber)![Protocol: MCP](https://img.shields.io/badge/Protocol-Model_Context_Protocol-blue)![Type: AI Agent](https://img.shields.io/badge/Type-AI_Agent-purple)![Target Release](https://img.shields.io/badge/Target_Release-v1.0.0_(Arabica)-brightgreen)![License: CC BY-SA 4.0](https://img.shields.io/badge/License-CC_BY--SA_4.0-lightgrey) + +> **⚠️ 项目状态说明**:本项目目前正处于**设计和开发规划阶段**。 + +**Project Caffeine** 是一个基于 **Model Context Protocol (MCP)** 协议的研报智能体系统,旨在自动化信息检索、深度推理和结构化报告生成。通过精细的语义分块和多步推理,系统高效处理海量文献数据,并提供具有深度的研究洞察,帮助知识工作者快速获得有价值的研究结果并构建个人知识库。 +## 1. 项目背景与目标 + +在现代研究和知识工作中,海量的文献数据和复杂的推理任务常常让研究人员面临巨大的挑战。**Project Caffeine** 旨在通过 **MCP协议** 和先进的 AI 技术,自动化这一过程。项目的核心目标是: + +- **自动化文献检索**:从多个学术资源和数据库中自动获取相关文献。 +- **深度推理与分析**:基于大语言模型进行多步推理,生成研究报告和洞察。 +- **报告生成与结构化**:通过标准化的模板生成结构化、易于阅读的研究报告。 +- **个人知识库构建**:帮助用户构建自己的文献和研究知识库,支持长期存储和高效检索。 + +--- + +## 2.系统架构设计蓝图 + +*图1-1:研报智能体系统架构拓扑示意图* + +![系统拓扑图](./docs/assets/images/project-caffeine-system-topology.svg) + +在项目的MVP阶段(版本 `Arabica`)中,我们首先设计了 **3 个核心 MCP 服务端模块**作为系统的基础架构地基: + +1. **S1: 文献查询 Server (执行者 -)** + * **职能**:作为系统的底层抓取与 I/O 节点。 + * **机制**:通过暴露标准化的工具(Tools)原语,执行外部学术 API 获取,并将结构化结果落盘为带有 YAML 元数据的 Markdown 文件。 +2. **S2: 提示词策略 Server (顾问 )** + * **职能**:为模型提供思考框架。 + * **机制**:通过 `prompts/list` 暴露系统级提示词模板(如 SWOT、5 Whys),指导大语言模型进行意图拆解与知识盲区探究。 +3. **S3: CoT 推理 Server (分析师 )** + * **职能**:逻辑判决与质量控制中枢。 + * **机制**:强制大模型执行多步链式推理,并实施诸如引文密度验证的学术质量控制逻辑。 + +--- + +## 3. 开发框架与技术栈说明 + +*图:1-2:Project Caffeine开发框架与技术栈架构图* + +![技术堆栈图](./docs/assets/images/project-caffeine-tech-stack-framework.svg) + +为确保系统的高并发处理能力与协议严谨性,Project Caffeine 采用以下核心开发框架与技术标准: + +* **核心语言与运行环境**:采用 TypeScript 与 Node.js (LTS v20+)。MCP服务端必须引入全面的异步处理模型(如 Node.js 非阻塞事件流)以应对高吞吐量的数据解析。 +* **MCP 协议与 SDK**:统一使用官方针对 TypeScript 提供的标准 SDK,深度封装底层 JSON-RPC 2.0 报文解析与状态机管理。 +* **工程化与 Monorepo**:采用原生 npm Workspaces 进行包管理,在根目录统一管控共享的 JSON-RPC Schema 与多个微服务子包,实现依赖隔离与跨服务快速编译。 +* **通信传输层 (MVP 阶段)**:采用 STDIO 协议,利用同一台机器上本地进程间的 stdin 和 stdout 管道进行直接通信,无需复杂加密握手,实现零网络传输开销。 +* **集成开发环境 (IDE)**:采用 Visual Studio Code (VS Code) 作为核心开发工具。需配合安装相关的 MCP 扩展插件,支持在编写代码时直接进行对话联调与协议协议测试。 +* **安全与环境管控**:协议遵循零信任架构原则,默认将AI生成的指令视为不可信负载。敏感凭证严禁硬编码,必须通过 `.env.example` 模板化并在运行环境中安全注入。 + +--- + +## 4. 项目开发路线图 + +本系统的开发将遵循“敏捷迭代、核心优先、由浅入深”的研发原则。为了确保开发过程的稳健性,整个生命周期被划分为五个渐进式阶段,从最基础的物理检索链路起步,逐步叠加思维框架、递归推理算法,最终实现与本地个人知识库的完美融合。每个阶段均能独立跑通并产出具备核心价值的最小可行性产品(MVP)。 + +*图1-3:Project Caffeine MVP阶段开发路线图* + +![项目路线图](./docs/assets/images/project-caffeine-roadmap-high-level-gantt.svg) + +--- + +## 5. 参与设计讨论 + +当前系统正处于设计阶段,我们欢迎任何针对 项目的架构设计、功能建议、开发框架发起讨论。您可以浏览仓库内的 `docs/design/` 蓝图文件,并通过提交 Issue 参与我们的讨论! + +--- + +## 6. AI生成内容声明 + +**Project Caffeine** 项目的核心驱动力依赖于大语言模型(LLM)进行自动化推理和文本生成。系统通过先进的推理算法和深度学习模型,自动处理信息检索、分析和报告生成。然而,尽管系统能够提供高效、结构化的研究成果,**所有AI生成的内容仍需经过人工核实**。 + +在使用 AI 生成的报告和分析时,用户应进行独立的学术严谨性核实和数据交叉验证,确保所生成内容的准确性和可信度。所有通过 **Project Caffeine** 生成的结果仅作为参考,最终的研究结论应由专业人员根据实际情况作出判断。 + +--- + +## 7. 许可证说明 + +本项目**源代码**采用 [MIT License](https://opensource.org/licenses/MIT) 进行许可,允许在满足许可证条款的前提下,自由地使用、复制、修改、合并、发布、分发、再许可和/或销售软件的副本。 + +**所有研究成果**(包括但不限于论文、数据、图表、模型、方法论描述等)默认使用 [知识共享署名-相同方式共享 4.0 国际许可协议 (CC BY-SA 4.0)](https://creativecommons.org/licenses/by-sa/4.0/deed.en) 进行许可。