Update README.md

2025-06-16 16:19:47 +08:00
parent 67e0ed6401
commit 5e03451457
1 changed files with 58 additions and 1 deletions
--- a/README.md
+++ b/README.md
@@ -1,2 +1,59 @@
-# spzmazdsbxsgj
+# 赛题题目：视频字幕AI自动识别显示工具

+## 赛题说明：
+随着短视频、直播、在线教育等场景的爆发式增长，视频内容的可访问性和跨语言传播需求日益增强。传统字幕制作依赖人工转录，效率低且成本高。近年来，基于深度学习的语音识别（ASR）、自然语言处理（NLP）显著提升了字幕生成的自动化水平。AI字幕技术通过自动识别音频、生成精准字幕并支持多语言翻译，正在重塑视频创作与传播方式。
+本赛题旨在推动AI技术在视频处理领域的创新应用，优化音视频播放逻辑，同时探索跨语言适配、实时处理等关键技术难点。该方向与“智能技术应用与创新”赛道目标高度契合，可促进教育、娱乐、跨国协作等场景的智能化升级。
+
+## 赛题要求：
+- 软件基于开源操作系统研发及运行；
+- 核心功能：基于操作系统桌面接口或SDK开发工具实现视频的语音识别、字幕自动生成及时间轴同步，支持中英等多语言翻译切换；
+- 性能要求：字幕生成准确率≥90%，支持实时或准实时处理（延迟<3秒），对字幕获取处理流程输出系统资源使用情况；
+- 扩展功能：支持字幕样式自定义（字体、颜色、位置）、多说话人分离、背景噪音过滤。
+
+## 评分标准：
+
+### 功能完整性（40%）：
+- 基于操作系统桌面接口或SDK开发工具实现视频播放（20分）；
+- 可以显示视频字幕（30分）；
+- 可以显示多种语言字幕（30分）；
+- 支持多种扩展功能（字幕字体，颜色，位置调整，多说话人分离等）（20分）。
+
+### 性能优化（30%）：
+- 字幕识别准确率超过90%（55分）
+- 准确率低于60%（0分）；
+- 准确率高于60%，低于70%（35分）；
+- 准确率高于70%，低于80%（45分）；
+- 准确率高于80%，低于90%（55分）。
+- 字幕识别延迟小于1s（35分）
+- 字幕识别延迟大于1s，小于2s（35分）；
+- 字幕识别延迟大于s2，小于3s（25分）；
+- 字幕识别延迟大于3s（0分）。
+- 对字幕获取处理流程输出系统资源使用情况（10分）
+- 输出字幕获取过程的系统资源情况，内存、CPU、显存等信息（10分）。
+
+### 代码规范性（20%）：
+- 代码目录结构清晰，易读，可维护性强（50分）；
+- 符合开源社区规范（50分）。
+
+### 文档质量（10%）：
+- 概要设计说明书、测试设计说明书（50分）；
+- 申报书、用户手册和安装说明（50分）。
+
+## 赛题联系人：
+于恒 yuheng@kylinos.cn
+
+## 参考资料：
+- [1] FFmpeg多媒体处理框架
+官网：https://github.com/linyqh/NarratoAIhttps://github.com/mpv-player/org
+核心功能：音视频流提取、格式转换与时间轴同步；支持多轨道合成（字幕、配音、视频），为AI字幕工具提供底层处理能力 
+- [2] MPV播放器矿框架
+项目地址：https://github.com/mpv-player/
+核心功能：集成音视频播放能力，便于开发；
+- [3] NarratoAI（智能视频解说与字幕生成）
+项目地址：https://github.com/linyqh/NarratoAI
+相关技术：基于Whisper的语音识别与时间轴同步技术；
+多语言翻译（支持Qwen2-VL模型）与字幕-视频自动合成（FFmpeg集成）；
+实时处理优化方案，支持GPU加速降低延迟。
+
+## 参赛资源支持：
+[1] 麒麟软件有限公司可提供软件开发环境