Update README.md

This commit is contained in:
yystopf 2025-06-16 16:19:47 +08:00
parent 67e0ed6401
commit 5e03451457
1 changed files with 58 additions and 1 deletions

View File

@ -1,2 +1,59 @@
# spzmazdsbxsgj
# 赛题题目视频字幕AI自动识别显示工具
## 赛题说明:
随着短视频、直播、在线教育等场景的爆发式增长视频内容的可访问性和跨语言传播需求日益增强。传统字幕制作依赖人工转录效率低且成本高。近年来基于深度学习的语音识别ASR、自然语言处理NLP显著提升了字幕生成的自动化水平。AI字幕技术通过自动识别音频、生成精准字幕并支持多语言翻译正在重塑视频创作与传播方式。
本赛题旨在推动AI技术在视频处理领域的创新应用优化音视频播放逻辑同时探索跨语言适配、实时处理等关键技术难点。该方向与“智能技术应用与创新”赛道目标高度契合可促进教育、娱乐、跨国协作等场景的智能化升级。
## 赛题要求:
- 软件基于开源操作系统研发及运行;
- 核心功能基于操作系统桌面接口或SDK开发工具实现视频的语音识别、字幕自动生成及时间轴同步支持中英等多语言翻译切换
- 性能要求字幕生成准确率≥90%,支持实时或准实时处理(延迟<3秒对字幕获取处理流程输出系统资源使用情况
- 扩展功能:支持字幕样式自定义(字体、颜色、位置)、多说话人分离、背景噪音过滤。
## 评分标准:
### 功能完整性40%
- 基于操作系统桌面接口或SDK开发工具实现视频播放20分
- 可以显示视频字幕30分
- 可以显示多种语言字幕30分
- 支持多种扩展功能字幕字体颜色位置调整多说话人分离等20分
### 性能优化30%
- 字幕识别准确率超过90%55分
- 准确率低于60%0分
- 准确率高于60%低于70%35分
- 准确率高于70%低于80%45分
- 准确率高于80%低于90%55分
- 字幕识别延迟小于1s35分
- 字幕识别延迟大于1s小于2s35分
- 字幕识别延迟大于s2小于3s25分
- 字幕识别延迟大于3s0分
- 对字幕获取处理流程输出系统资源使用情况10分
- 输出字幕获取过程的系统资源情况内存、CPU、显存等信息10分
### 代码规范性20%
- 代码目录结构清晰易读可维护性强50分
- 符合开源社区规范50分
### 文档质量10%
- 概要设计说明书、测试设计说明书50分
- 申报书、用户手册和安装说明50分
## 赛题联系人:
于恒 yuheng@kylinos.cn
## 参考资料:
- [1] FFmpeg多媒体处理框架
官网https://github.com/linyqh/NarratoAIhttps://github.com/mpv-player/org
核心功能音视频流提取、格式转换与时间轴同步支持多轨道合成字幕、配音、视频为AI字幕工具提供底层处理能力 
- [2] MPV播放器矿框架
项目地址https://github.com/mpv-player/
核心功能:集成音视频播放能力,便于开发;
- [3] NarratoAI智能视频解说与字幕生成
项目地址https://github.com/linyqh/NarratoAI
相关技术基于Whisper的语音识别与时间轴同步技术
多语言翻译支持Qwen2-VL模型与字幕-视频自动合成FFmpeg集成
实时处理优化方案支持GPU加速降低延迟。
## 参赛资源支持:
[1] 麒麟软件有限公司可提供软件开发环境