面向职业本科的轻量化多模态大模型构建技术

课题申报方案

内容摘要

本课题旨在面向职业本科“理论讲授与实训操作”混合教学场景，构建一套专属的轻量化多模态大模型。课题坚持开源技术路线、本地化部署方案、校本数据驱动，形成可复制、可推广的职业本科人工智能赋能教学示范方案。

研究目标：专属轻量化多模态模型应用场景：职业本科混合教学技术路线：开源+本地部署+微调+RAG 数据基础：校本录播视频资源

一、目标与定位

总体目标：面向职业本科“理论讲授与实训操作”混合教学场景，构建一套专属的轻量化多模态大模型，实现对教学视频中视觉、听觉、文本三类模态信息的统一理解与智能处理。

具体任务：以学校录播系统积累的逾万分钟真实教学视频为数据基础，以Qwen2.5-VL、Gemma 3等2026年最新开源多模态模型为基座，通过LoRA微调与RAG检索增强融合技术路线，构建能够同时处理画面识别、语音理解、文本分析的轻量化多模态大模型。模型部署于学校自有服务器，确保数据安全，不依赖外部算力租赁。

            关于课题名称的说明：

            本校同时举办职业本科与高等职业教育。课题名称中的“职业本科”界定的是成果输出层级与申报定位，而非数据来源的单一限定。本科课程侧重理论深度，专科课程侧重实操密度，两类数据共同进入训练集，形成“本科+专科”双层次数据结构，有助于提升模型的知识覆盖度与泛化能力。因此，课题以“职业本科”命名体现精准定位，研究基础与成果结论对本科与专科两个层次均具有指导意义。

二、立项依据

（一）国家战略需求

国务院

《教育发展“十五五”规划》

2026年6月印发，明确部署“推进人工智能全学段教育”重点任务。本课题是对职业本科段落的直接响应。

教育部等五部门

《“人工智能+教育”行动计划》

2026年4月印发，要求“支撑多模态教学资源自动生成”与“推动传统专业智能化升级”。

2026年政府工作报告

“深化拓展‘人工智能+’”

标志人工智能国家战略从宏观部署向细分场景纵深推进，职业本科教育是重要落地领域。

（二）校本数据资源利用困境

学校智慧教室录播系统已积累大量教学视频资源，当前主要服务于教学督导、领导巡课、教师考核等管理场景，数据流向为从课堂到管理端的单向传输，尚未形成从课堂到课堂的闭环反馈机制。教学视频资源蕴含的丰富教学信息未充分反哺于学生学习与教师教学改进，存在数据价值释放不充分的现实问题。

核心问题：录播视频数据服务于管理决策而非教学本身。智慧教室建设投入与录播系统积累的课程资源，尚未有效转化为学生学习支持与教师教学改进的工具。数据流呈单向特征：课堂→录播系统→管理部门，未能实现“课堂→录播系统→课堂”的闭环。

本课题定位：转变数据服务方向，使录播视频资源直接服务于教学核心环节——支持学生进行知识点检索与复习，辅助教师开展教学反思与改进，实现实训操作过程的智能识别与评估。录播教学数据的第一价值应定位于教学服务，而非管理支撑。

具体应用场景：
· 学生课后进行知识点复习时，可通过人工智能直接定位视频中相关教学片段的具体时间位置与内容摘要。
· 实训教学过程中，人工智能可对画面中的操作动作进行实时识别与规范判断，提供即时反馈。
· 教师可通过人工智能自动分析课堂讲授逻辑与PPT呈现之间的对应关系，获取教学诊断报告。
· 教学管理部门可通过跨视频对比分析，识别优质课堂教学模式，为课程建设提供数据支撑。

（三）通用模型的适用性局限

局限一：实训场景理解能力不足

通用多模态模型训练数据以互联网公开内容为主，实训操作类视频占比极低。2025年相关研究表明，通用视觉语言模型在工业实训场景中的零样本识别准确率低于45%。

局限二：专业术语识别能力欠缺

职业本科课程涉及大量专业术语与行业规范用语，通用模型基于日常语料训练，在专业场景中存在语义理解偏差。

局限三：理论实训融合处理能力缺失

通用模型通常针对单一场景设计，难以应对职业本科“理论讲授与实训操作”交替出现的复合教学场景，无法建立两类教学模态之间的语义关联。

三、数据基础

教学视频作为多模态数据载体的完整信息结构：

视觉信息：教师肢体动作、板书内容、PPT演示页面、实训操作流程、设备运行状态
听觉信息：教师讲授语音、师生互动对话、实训环境音、设备提示音
文本信息：课件文字内容、字幕文件、板书文字、屏幕标注

核心认知：三类信息在时间轴上天然对齐——同一时间节点，教师讲授内容（语音）、画面呈现内容（视觉）、课件展示内容（文本）三者同步发生。理解教学视频需要同时解析三类信息之间的协同关系。这是多模态大模型应用于教育场景的核心价值所在，也是本课题选择教学视频作为数据基础的底层逻辑——研究任务并非单纯的视频处理，而是教学过程的信息结构建模。

数据资源清单

教学视频

理论课录播、实训课录播

逾10000分钟

多模态特征提取与模型训练

教学文档

PPT课件、教案、教材、实训指导书

每门课程20至50份

文本知识注入

学习数据

作业、试卷、问答记录

每学期数百份

教学效果验证

教务数据

课程体系、培养方案、成绩、评教

三至五年全校数据

课程体系理解

行业标准

技术标准、岗位规范、职业资格证书标准

若干份

RAG知识库构建

四、技术路线

总体技术路线：本地部署 + 开源模型 + 微调与RAG融合

（一）部署策略论证

经费约束分析： 本课题总经费为2万元。若采用云计算GPU方案，以主流云平台A100单卡约3至4美元/小时计算，完成10000分钟视频的批量推理需连续运行720至1440小时，单卡成本为2至4万元，已超出课题总经费。因此，云计算路线在本课题经费约束下不具备可行性。

本地部署可行性： 学校现有硬件条件包括RTX 4090（24GB显存）GPU服务器一至二台，多台CPU物理服务器（Xeon Gold系列，多核心，256GB以上内存）。基于llama.cpp的GGUF量化格式与KTransformers（清华大学与趋境科技联合成果，入选SOSP 2025）异构推理框架，可在现有硬件条件下实现高效部署。本地部署所需硬件已由学校前期建设投入完成，课题经费仅用于运行维护支出。

本地部署的战略意义：
第一，研究定位层面——轻量化是课题的核心研究内容，而非客观条件限制。若依赖云计算API调用，课题将丧失“构建技术”的研究价值。
第二，数据安全层面——教学视频包含教师肖像、课堂场景等敏感信息，本地部署确保数据在校内闭环，符合《数据安全法》与《个人信息保护法》相关要求。
第三，推广价值层面——全国124所职业本科院校普遍面临算力预算有限的现实约束，本课题的本地轻量化方案不依赖高端硬件，具备可推广、可复制的示范价值。

（二）基座模型选型

以下模型均为2025至2026年期间开源发布，采用Apache 2.0或MIT协议，可免费用于学术研究及商业应用：

Qwen2.5-VL
阿里巴巴

3B / 7B / 72B

Apache 2.0

支持逾一小时长视频理解，中文能力优化

主选基座

Gemma 3
Google

1B / 4B / 12B / 27B

开源

多模态能力，单GPU/TPU可运行

备选基座

Whisper large-v3-turbo

优化版

MIT

语音转文字，解码层从32层优化至4层，推理速度提升

语音处理

PaddleOCR-VL-1.5

0.9B

Apache 2.0

板书与课件文字识别，OmniDocBench v1.5准确率94.5%

文字识别

LLaVA-OneVision-1.5

开源

图像与视频多模态理解

备选方案

选型结论： 本课题推荐以 Qwen2.5-VL-72B 或 Gemma 3-27B 作为基座模型，配合Whisper完成语音转录、PaddleOCR完成图像文字识别，全部模块部署于本地GPU服务器。若72B模型在RTX 4090（24GB）上显存不足，可采用4-bit量化压缩至约40GB，或选用7B/27B版本。

（三）并发批量处理架构

任务队列架构： Celery 5.x 分布式任务队列 + Redis 7.0 消息代理与状态缓存 + Flower 任务监控面板。
队列分级策略：
· gpu_high：Qwen2.5-VL推理任务（最高优先级）
· gpu_normal：辅助模型推理任务（中等优先级）
· cpu_core：Whisper语音转录与PaddleOCR识别（中高优先级）
· cpu_preprocess：FFmpeg视频解码与关键帧提取（最低优先级）
处理效能评估： 按二台GPU服务器（各配置RTX 4090一张）与四台CPU服务器（各16核心）的硬件配置，10000条视频的批量处理周期约为7至15天。

（四）数据提取与结构化流程

录播视频
MP4格式 → FFmpeg
解码与抽帧 → 三线并行处理 →

Whisper
语音转写为SRT字幕 PaddleOCR
图像文字提取 Qwen2.5-VL
视觉语义理解

▼ 基于时间戳对齐融合

结构化多模态数据集
（含时间戳对齐标签）

操作流程：
第一阶段，通过录播系统API批量获取视频元数据列表（含 video_id、title、teacher、course、duration、url 等字段），存入PostgreSQL数据库。
第二阶段，采用 FFmpeg 进行视频解码与关键帧提取（关键帧间隔设为5秒），提取画面存入 MinIO 对象存储系统。
第三阶段，并行执行三条处理线：Whisper large-v3-turbo 进行语音转文字并生成带时间戳SRT字幕，PaddleOCR-VL-1.5 进行课件与板书文字识别，Qwen2.5-VL 进行画面语义理解。
第四阶段，所有处理结果按 video_id 与时间戳对齐，存入结构化数据库，形成时间轴对齐的多模态数据集。

（五）核心方法：微调与RAG融合架构

多模态
数据集 → LoRA微调
（2至3门课程精标） + RAG知识库
（校本数据+行业标准） → 专属模型

第一阶段（微调）：选取2至3门核心课程的精标数据（含视频转录文本、课件、教案、作业、教务数据）对基座模型进行LoRA微调。LoRA为参数高效微调技术，仅更新原模型0.1%至1%的参数，在消费级GPU上即可完成，使模型内化职业本科的知识体系与教学话语体系。
第二阶段（RAG）：构建职业本科专属知识库，涵盖全部校本数据及行业标准、企业岗位规范。微调后的模型通过RAG检索机制动态补充最新信息。
第三阶段（融合推理）：微调模型承担语义理解与推理任务，RAG系统承担信息检索与补充任务，二者协同输出最终结果。

“理论-实训”融合机制：
① 课程大纲映射——建立同一课程中理论知识点与实训操作步骤的对应关系表。
② 语义相似度计算——利用基座模型计算知识点描述与操作步骤描述的语义相似度，自动发现映射关系。
③ 映射关系注入——将理论-实训映射关系作为训练数据注入模型，使模型建立理论知识与操作技能之间的关联。
④ 动态知识更新——行业标准与企业规范变更时，通过RAG机制动态补充，确保模型知识时效性。

（六）课程级微调策略

课程选择依据：
职业本科课程体系包含数十门专业课程，在2万元经费与1年周期约束下，全部课程精细标注不具备现实可行性。选择汽车类核心课程2至3门（如《汽车构造》《汽车电控技术》《汽车维修实训》）作为精标对象，每门课程精标5至8个视频片段（涵盖理论讲授与实训操作），总标注量约200分钟。以课程为单位的微调策略，使模型习得的是“课程知识体系”而非“单一视频内容”。

泛化能力保障： 模型在2至3门课程上习得的职业本科教学话语体系与知识表达模式，可迁移至其他课程——未经微调的课程，模型仍能以相同的认知框架进行理解与响应。RAG知识库覆盖全部课程数据，确保知识完整性。

五、方案论证

校本知识内化程度

无

临时检索

深度内化

深度内化

知识动态更新能力

—

支持

不支持

支持

推理准确率

低（低于45%）

中等

中高

最高

标注数据需求

无

高（全部课程）

低（2至3门课程）

理论实训融合能力

不具备

具备

最优

论证结论： 微调与RAG融合方案具备显著的协同效应。微调解决模型能力问题——使模型真正理解职业本科的教学话语体系、知识结构与理论实训融合逻辑；RAG解决知识时效问题——使模型能够检索最新政策文件与行业标准。二者结合实现深度理解与动态更新的统一，是目前大模型在教育场景落地中公认的最优实践方案。

六、预期成果

成果一：软件著作权
《面向职业本科的轻量化多模态大模型构建系统》
功能模块：

视频统一接入模块——支持批量导入录播视频链接，自动获取元数据，兼容RTSP/HTTP流及本地文件
多模态并行处理模块——集成Whisper、PaddleOCR、Qwen2.5-VL，按时间戳对齐输出
LoRA微调模块——基于2至3门核心课程精标数据进行参数高效微调
RAG检索模块——构建职业本科专属知识库，支持动态检索增强
融合推理模块——微调模型与RAG协同输出，支持教学场景智能问答
轻量化部署模块——基于llama.cpp与GGUF量化，支持CPU+GPU异构推理

成果二：学术论文
《面向职业本科的轻量化多模态大模型构建技术研究》
拟投稿于教育技术类或计算机类核心期刊。

成果匹配说明： 一篇核心期刊论文与一项软件著作权，是省厅一般专项项目的标准成果组合。论文侧重方法创新（微调与RAG融合机制、理论实训融合策略），软著侧重技术实现。二者结合可满足结题要求。

验证指标体系

F1-Score

≥ 0.80

教学场景问答准确率（含理论问答与实训问答）

推理速度

≥ 8 token/s

RTX 4090环境实测，4-bit量化模型

显存占用

≤ 24GB

单张RTX 4090可运行

实训动作识别准确率

≥ 75%

实训场景关键操作步骤识别

七、示范价值

本课题作为职业本科人工智能应用示范项目的依据：

第一，可复制性。 全国124所职业本科院校普遍建有录播系统并积累了大量教学视频资源，同时面临算力预算有限的现实约束。本课题以2万元经费和学校现有服务器即可完成全套方案部署——不依赖云计算资源、不采购新硬件、不产生API调用费用。方案完成后，各职业本科院校可按此方案直接复制实施。

第二，可持续性。 课题并非一次性研究。模型建成后，每学期新增教学视频可持续进入训练集进行增量微调；政策文件与行业标准更新时，RAG知识库可同步更新。模型具备随教学实践持续演进的能力。

第三，可扩展性。 模型作为底层能力底座，上层可扩展多种应用场景——课程智能问答、教学质量诊断、个性化学习路径推荐、实训操作自动评价、学生复习助手、教师教学反思工具等。一次建设，持续产出，全校受益。

第四，理念引领。 当前智慧教室录播数据主要服务于管理端，本课题示范了数据服务从管理向教学转移的可能性——使录播视频资源直接服务于学生与教师。这不仅是技术方案的创新，更是教育数据治理理念的转变：教学数据的首要价值在于服务教学本身。

结论：本课题的最终产出不限于论文与软著，更是一套可复制、可迭代、可扩展的职业本科人工智能教学基础设施。

八、经费与周期

项目类别

陕西省教育厅一般专项项目（自然科学类）

经费总额

不超过2万元

研究周期

1年

政策依据

陕西省“人工智能+教育”行动计划（2025年9月）明确提出“立项30个左右科研计划项目”

经费分配方案

GPU服务器电费及维护

2000元

较云计算方案（2至4万元/月）节省90%以上

核心期刊论文版面费

12000元

教育技术类或计算机类核心期刊

软件著作权申请费

2000元

含代理服务费

其他支出

4000元

本地存储扩展、学术资料购置、调研差旅

合计

20000元

——

经费说明： 所有模型均采用开源方案（Apache 2.0或MIT协议），无授权费用。不涉及新硬件采购，全部使用学校现有GPU与CPU服务器。2万元经费全部用于论文出版、软著申请等必要支出，配置合理、充分。

研究进度安排

第1至2月

录播视频数据采集、清洗、元数据整理；启动FFmpeg抽帧及Whisper、PaddleOCR、Qwen2.5-VL并行处理

结构化多模态数据集

第3至4月

2至3门核心课程精标数据制作（含理论-实训映射标注）；RAG知识库搭建

精标训练集与知识库

第5至7月

基座模型LoRA微调与调参迭代；微调与RAG融合推理测试；软著开发与文档撰写

微调模型与软著初稿

第8至9月

四方案对比验证（零样本/纯RAG/纯微调/微调+RAG）；效果评估与优化

验证报告

第10至11月

核心论文撰写与投稿；软著正式提交

论文投稿与软著受理

第12月

结题报告撰写与成果整理

结题材料

九、技术架构总览

数据层：多源校本数据输入

录播视频（逾10000分钟，含理论课与实训课） + 课件与教案 + 教务数据 + 行业与企业标准

▼

模块一：多模态数据采集与特征提取

视频解码：FFmpeg 关键帧提取（间隔5秒）
语音转写：Whisper large-v3-turbo（生成带时间戳SRT字幕）
文字识别：PaddleOCR-VL-1.5（板书与PPT文字识别）
视觉理解：Qwen2.5-VL（实训操作画面语义理解）
数据融合：按 video_id 与时间戳对齐，生成结构化多模态数据集

▼

模块二：轻量化模型架构与部署

基座模型：Qwen2.5-VL-72B / Gemma 3-27B（Apache 2.0协议）
异构计算：GPU（RTX 4090）承担核心推理 · CPU（多核心）承担预处理与后处理
量化部署：llama.cpp + GGUF 4-bit量化（显存占用降低75%）
任务调度：Celery + Redis + Flower（队列分级管理，万级视频处理周期7至15天）
安全部署：全部模块本地运行，数据在校内闭环

▼

模块三：领域知识注入（微调与RAG融合）

LoRA微调：2至3门核心课程精标数据（含理论-实训映射）→ 模型内化职业本科知识体系
RAG知识库：全部校本数据（视频+文档+教务）+行业标准 → 动态检索补充
融合推理：微调模型承担理解与推理，RAG承担检索与补充，协同输出
理实融合：理论知识点与实训操作步骤的语义映射与对齐

▼

模块四：效果验证

对比方案：零样本 → 纯RAG → 纯微调 → 微调+RAG（本方案）
验证指标：F1-Score ≥ 0.80 · 推理速度 ≥ 8 token/s · 显存占用 ≤ 24GB · 实训动作识别 ≥ 75%
验证场景：2至3门汽车类核心课程（含理论课与实训课）

▼

产出层

软件著作权：《面向职业本科的轻量化多模态大模型构建系统》
学术论文：《面向职业本科的轻量化多模态大模型构建技术研究》
技术文档：全套部署方案与技术规范

十、结论

研究目标：为职业本科构建专属轻量化多模态大模型，实现人工智能对职业本科教学场景的深度理解。

数据基础：以本校录播系统逾万分钟真实教学视频为数据底座，充分发挥视频作为多模态数据载体的天然优势。

技术路径：采用开源模型、本地部署、LoRA微调与RAG检索增强融合架构，在2万元经费与1年周期内完成。

预期产出：软件著作权一项、核心期刊论文一篇、可复制技术方案一套。

示范价值：方案具备可复制性（全国124所职业本科院校可直接参照实施）、可持续性（模型随教学实践持续迭代）、可扩展性（底座之上可生长多种应用）。

理念贡献：实现录播数据服务方向从管理端向教学端的转变——教学数据的首要价值在于服务教学本身。

核心主张： 基于公开数据集训练的通用模型无法替代基于校本真实课堂数据训练的专属模型——唯有让人工智能真正“理解”本校的教学场景与知识体系，方能实现人工智能对职业本科教育的有效赋能。

十一、选题解析

本课题名称《面向职业本科的轻量化多模态大模型构建技术》由六个核心关键词构成，以下逐一拆解分析其内涵与选题逻辑：

关键词一
“面向”

定位词，界定了研究的出发点与归宿。 “面向”一词表明本课题不是从技术出发寻找场景，而是从职业本科教学的实际需求出发，反向定义技术方案。这一表述方式体现了需求导向的研究逻辑——先有教学场景中的真实问题，再有技术方案的针对性设计。与“基于”“应用于”等中性表述相比，“面向”更强调研究的问题意识和目标导向。

关键词二
“职业本科”

场景词，划定了研究的应用边界与问题域。职业本科作为高等教育的一种类型，具有“理论教学与实训操作并重”的典型特征。这一特征决定了教学视频中同时存在知识讲授与技能演示两类内容，形成了区别于普通本科（偏重理论讲授）和高职专科（偏重技能训练）的复合教学场景。本课题选择“职业本科”作为场景定位，既是基于学校办学实际的务实选择，也是对该类型教育人工智能应用空白的精准卡位。同时，职业本科正处于快速发展阶段，其智能化建设需求迫切但相关研究匮乏，选题具有时效性与前瞻性。

关键词三
“轻量化”

技术约束词，反映了研究在资源受限条件下的可行性与方法论自觉。 “轻量化”包含三重含义：其一，模型规模的轻量化——选用参数量适中的开源基座模型，而非千亿级超大模型；其二，部署方式的轻量化——通过GGUF量化、CPU-GPU异构计算等技术，在普通服务器上即可运行，不依赖昂贵的专用算力集群；其三，成本投入的轻量化——在2万元经费约束下，实现完整的模型构建与应用闭环。
值得强调的是，“轻量化”不是被迫的妥协，而是主动的方法论选择。职业本科院校普遍不具备大厂级别的算力资源，轻量化是使人工智能技术“走得进、用得起、留得住”的关键前提。本课题在轻量化方向上的探索，实质上是在回答一个重要问题：如何在有限资源条件下，让人工智能真正落地职业教育场景。

关键词四
“多模态”

数据特征词，指出了研究处理对象的本质属性。教学视频天然包含视觉、听觉、文本三类信息流，三者同步发生、相互印证，共同构成完整的教学过程记录。本课题名称中的“多模态”强调的正是对这三种信号同时处理、融合理解的技术定位。
与单一模态（仅文本、仅图像、仅语音）相比，多模态技术的核心优势在于能够捕捉模态之间的协同关系——同一时间节点，教师在讲什么（语音）、画面上在展示什么（视觉）、PPT上在呈现什么（文本），三者共同定义了“这一时刻的教学活动”。理解教学活动，必须同时理解这三者。本课题将“多模态”纳入名称，意在表明研究突破了传统单一模态分析的局限，进入对教学信息的全息理解层面。

关键词五
“大模型”

技术基础词，界定了研究依赖的底层能力。 “大模型”指向基于Transformer架构、经过大规模预训练的深度学习模型。这类模型具备强大的语义理解、跨模态对齐和上下文推理能力，是实现多模态信息融合理解的技术前提。
本课题的“大模型”具有三个特征：其一是开源可用——选择Apache 2.0/MIT协议的开源模型，确保零授权费用；其二是可本地部署——不依赖云端API调用，保障数据主权；其三是可微调适配——通过LoRA等高效微调技术，将通用大模型的能力定向注入职业本科教学场景。
需要说明的是，本课题的“大模型”是相对于传统机器学习模型而言，而非追求参数规模的“越大越好”。在职业本科的实际条件与经费约束下，适中的模型规模配合精细的领域适配，是更务实、更可持续的选择。

关键词六
“构建技术”

方法论词，界定了研究的学术属性与技术内涵。 “构建技术”表明本课题的研究定位是方法研究，但方法研究的最终产出必须落地于可运行、可交付的平台载体。研究核心在于“探索如何构建一个适配职业本科场景的多模态大模型”，而这一探索的最终成果，正是以软件著作权形式确权的平台系统——即《面向职业本科的轻量化多模态大模型构建系统》。

具体而言，“构建技术”包含三个层次的方法论问题：
第一，数据工程层面——如何从校本教学视频中提取结构化多模态数据，涉及语音转写、文字识别、语义理解等环节的工程化整合；
第二，模型适配层面——如何将通用大模型适配为职业本科专属模型，涉及LoRA微调策略、课程选择逻辑、训练数据组织等；
第三，系统集成层面——如何将上述方法固化为可运行、可交互的平台系统，涉及微调与RAG的融合机制、推理准确性的验证体系、以及面向教学场景的交互界面设计。

课题名称以“构建技术”而非“应用研究”或“平台开发”收尾，精准传达了其方法论研究+平台化落地的双重属性——产出的核心是方法、是方案、是可复制的构建路径，同时以软著平台系统作为方法的物化载体与交付成果。这一表述方式与国家自然科学基金重点项目“面向基础教育的多模态大模型构建技术”的命名范式保持一致，体现了学术脉络的延续与方法论的对接，而软著平台的交付则确保了课题成果的可感知、可验证、可推广。

选题逻辑总括

课题名称六个关键词构成一条完整的逻辑链：“面向”（需求导向）→ “职业本科”（场景定位）→ “轻量化”（条件约束与方法自觉）→ “多模态”（数据特征）→ “大模型”（技术基础）→ “构建技术”（研究属性+平台落地）。
这条逻辑链从“为什么做”（国家战略+校本需求）出发，经由“在什么条件下做”（轻量化+本地部署），进入“用什么技术做”（多模态大模型），最终指向“产出什么成果”（可复制的构建方法+可运行的平台系统）。六者环环相扣，共同构成了本课题完整、自洽、可落地的研究框架。

十二、团队组建建议

本课题涉及数据工程、模型工程、教学标注、资源协调等多个专业领域，建议组建4人核心团队，形成完整工作闭环。以下逐项梳理全部工作任务，明确分工依据。

（一）全部工作任务梳理

以下按工作性质将本课题全部任务分为六个类别，每项任务均标注专业能力要求及建议承担角色：

类别一：数据工程类

1-1

对接录播系统API，批量获取视频元数据

HTTP API调用

数据科学/计算机

1-2

FFmpeg视频解码与关键帧提取

FFmpeg命令行

数据科学/计算机

1-3

搭建MinIO对象存储，存储关键帧画面

对象存储、文件管理

数据科学/计算机

1-4

部署Whisper完成语音转文字（SRT字幕）

Python、模型部署

数据科学/计算机

1-5

部署PaddleOCR完成图像文字识别

Python、OCR调用

数据科学/计算机

1-6

搭建Celery+Redis分布式任务队列

分布式调度、消息队列

数据科学/计算机

1-7

三线结果按时间戳对齐，存入PostgreSQL

数据库ETL

数据科学/计算机

类别二：模型工程类

2-1

基座模型选型评估与本地部署（含GGUF量化）

llama.cpp、量化

人工智能学院

2-2

LoRA微调方案设计（超参数、训练策略）

PEFT/LoRA原理

人工智能学院

2-3

执行LoRA微调训练与调参迭代

PyTorch训练

人工智能学院

2-4

构建RAG知识库（向量化、索引、检索优化）

LangChain、向量库

人工智能学院

2-5

设计“微调+RAG”融合推理机制

推理架构设计

人工智能学院

2-6

模型推理性能优化（速度、显存）

vLLM/TGI优化

人工智能学院

2-7

模型效果评估（F1、实训动作识别准确率）

ML评估指标

人工智能学院

类别三：教学数据与标注类

3-1

选定2-3门核心课程作为精标对象

熟悉专业课程体系

汽车工程学院

3-2

从每门课中选取代表性视频片段（理论+实训）

课程内容判断力

汽车工程学院

3-3

理论视频知识点标注

专业知识提炼

汽车工程学院

3-4

实训视频操作步骤标注

实训教学经验

汽车工程学院

3-5

建立“理论知识点↔实训操作”映射关系表

理实融合教学设计

汽车工程学院

3-6

收集整理行业技术标准、企业岗位标准

行业标准检索

汽车工程学院

类别四：应用验证类

4-1

设计四方案对比验证方案

实验设计能力

AI学院+汽车学院

4-2

在真实课堂进行模型效果实测

有实际教学班级

汽车工程学院

4-3

收集教学反馈，整理改进意见

教学反馈组织

汽车工程学院

4-4

产出验证报告与四方案对比结论

学术写作能力

AI学院+汽车学院

类别五：教务协调类

5-1

对接教务系统获取课程库、培养方案

系统权限、数据接口

教务处

5-2

获取成绩数据、评教数据

教务系统数据权限

教务处

5-3

协调授课教师配合视频选取与标注

教学管理协调能力

教务处

5-4

界定教学场景需求与应用边界

熟悉教学管理痛点

教务处

类别六：成果产出类

6-1

软著系统后端开发（五大模块接口）

后端开发（Python/Java）

数据科学/计算机

6-2

软著系统前端界面开发（智能问答交互）

前端开发（Vue/React）

数据科学/计算机

6-3

软著技术文档与用户手册撰写

技术文档写作

数据科学/计算机

6-4

软著申请材料提交与跟进

熟悉软著流程

主持人

6-5

核心期刊论文撰写与投稿

学术写作能力

人工智能学院

6-6

结题报告撰写

课题管理、写作

主持人统筹

（二）推荐团队配置

基于上述全部工作任务的梳理，建议组建以下4人核心团队，形成完整工作闭环：

主持人

（您本人）

课题总体设计、进度统筹、成果质量把控、结题报告

6-4,6-6

模型技术负责人

人工智能学院

基座模型选型部署、LoRA微调、RAG构建、融合推理、论文撰写

2-1至2-7,
4-1,6-5

应用与数据负责人

汽车工程学院

核心课程精标、理论-实训映射、行业标准收集、效果验证

3-1至3-6,
4-2至4-4

数据工程与系统负责人

数据科学/计算机学院

视频数据ETL流水线、分布式并发调度、数据库搭建、软著系统开发

1-1至1-7,
6-1至6-3

协作闭环： 汽车工程学院教师提供精标数据与映射关系 → 数据科学/计算机教师处理为结构化数据集 → 人工智能学院教师训练与优化模型 → 汽车工程学院教师在真实课堂验证效果 → 主持人统筹成果产出与结题。

（三）各角色具体工作内容

主持人

· 课题整体方案设计与研究框架搭建
· 研究进度统筹与节点把控
· 团队内部协调与对外沟通
· 经费管理与使用审批
· 结题报告撰写与成果汇总
· 软著申请材料提交与跟进

人工智能学院教师（模型技术负责人）

模型工程：
· 基座模型选型评估（Qwen2.5-VL / Gemma 3）与本地部署
· GGUF 4-bit量化部署方案实施
· LoRA微调方案设计与训练执行（含调参迭代）
· RAG知识库构建（向量化、索引、检索优化）
· “微调+RAG”融合推理机制设计
· 模型推理性能优化（速度≥8 token/s，显存≤24GB）
· 模型效果评估（F1-Score、实训动作识别准确率）
成果产出：
· 核心期刊论文《面向职业本科的轻量化多模态大模型构建技术研究》第一作者
· 论文中技术路线图、架构图、实验数据图表制作

汽车工程学院教师（应用与数据负责人）

教学数据标注：
· 选定2-3门汽车类核心课程作为精标对象
· 从每门课中选取5-8个代表性视频片段（含理论+实训，总时长约200分钟）
· 对理论讲授视频进行知识点标注（时间点+知识点名称）
· 对实训操作视频进行操作步骤标注（时间点+操作名称+关键动作）
· 建立“理论知识点 ↔ 实训操作步骤”的映射关系表
行业标准收集：
· 收集整理汽车类行业技术标准、企业岗位标准、职业资格证书标准
效果验证：
· 在自己授课班级中进行模型效果实测
· 收集教师和学生的使用反馈
· 参与产出验证报告与四方案对比结论

数据科学/计算机学院教师（数据工程与系统负责人）

数据工程：
· 对接录播系统API，批量获取视频元数据
· FFmpeg视频解码与关键帧提取（间隔5秒）
· 搭建MinIO对象存储，存储关键帧画面
· 部署Whisper large-v3-turbo（语音→SRT字幕）
· 部署PaddleOCR-VL-1.5（板书/PPT文字识别）
· 三条处理线结果按时间戳对齐，存入PostgreSQL
· 搭建Celery+Redis分布式任务队列（四条队列分级调度）
· 搭建Flower任务监控面板
软著系统开发：
· 软著系统后端开发（视频接入、多模态处理、LoRA微调、RAG检索、融合推理五大模块接口）
· 软著系统前端开发（教学场景智能问答交互界面）
· 软著技术说明书与用户手册撰写

（四）人员遴选参考标准

以下为各角色人选的判断标准，供组建团队时参考：

人工智能学院教师

① 部署过开源大模型（如Qwen、LLaMA） ② 做过LoRA或PEFT微调 ③ 了解RAG检索增强架构 ④ 有深度学习训练经验（PyTorch）

汽车工程学院教师

① 讲授汽车类核心课程 ② 带领实训教学 ③ 熟悉本专业课程体系和行业标准 ④ 愿意投入时间进行视频标注

数据科学/计算机教师

① 熟练使用Python ② 熟悉数据库（PostgreSQL/MySQL） ③ 了解API调用与数据ETL ④ 有系统开发经验 ⑤ 了解分布式任务队列（Celery/Redis）

（五）备选方案说明

若部分学院教师资源有限，可按以下优先级进行人员替代：

人工智能学院教师

计算机学院教师

具备机器学习/深度学习课程教学经验或相关研究方向的计算机专业教师可替代

汽车工程学院教师

其他理工类学院教师

须满足“讲授核心课程+带领实训”两个条件，汽车类为最优选择，其他工科专业亦可

数据科学/计算机教师

信息中心技术骨干

熟悉学校信息化系统、有数据工程实操经验的信息中心工程师可胜任数据工程类工作

补充说明： 教务处协调人员作为团队外围支持成员，负责对接教务系统数据、协调授课教师配合，不占用核心团队4人名额，可根据实际情况灵活安排。

西安汽车职业大学 · 2026年7月