数据库课程设计实战：基于SenseVoice-Small的课堂语音分析系统

本文介绍了如何在星图GPU平台上自动化部署sensevoice-small-语音识别-onnx模型(带量化后)，并构建一个课堂语音分析系统。该系统能够将课堂录音高效转换为文本数据，并存入数据库进行分析，典型应用场景包括自动分析课堂互动频率与关键词分布，为教学评估提供数据支持。

不爱说话的我

73人浏览 · 2026-03-18 01:57:05

不爱说话的我 · 2026-03-18 01:57:05 发布

数据库课程设计实战：基于SenseVoice-Small的课堂语音分析系统

1. 引言：从课堂录音到数据洞察

你有没有想过，教室里老师讲的每一句话，学生每一次的提问和讨论，其实都是一座等待挖掘的数据金矿？传统的课堂分析，要么靠人工听课记录，费时费力还不全面；要么就是简单录个音，最后存进硬盘里吃灰。

现在情况不一样了。随着语音识别技术越来越成熟，像SenseVoice-Small这样的模型，已经能相当准确地把课堂录音转成文字。但转成文字之后呢？海量的文本数据堆在那里，怎么才能变成有用的信息？比如，这学期哪位同学发言最积极？老师最常强调的知识点是哪些？不同课程的课堂互动模式有什么差别？

这就是我们这次要聊的数据库课程设计项目——一个完整的课堂语音分析系统。它要做的，就是搭起一座桥，一头连着原始的课堂录音，另一头产出清晰的数据洞察。我们会用SenseVoice-Small来处理语音，用数据库来管理和分析转写后的文本，最后还能通过可视化的方式，把分析结果直观地展示出来。这个项目不仅能帮你把数据库原理、系统设计这些知识串起来，做出一个真正能用的东西，更重要的是，它瞄准了一个非常实际的教育场景。

2. 系统核心思路与价值

这个系统的核心逻辑很清晰，就是一个“采、存、算、看”的闭环。

采集：在教室里部署录音设备（可以是专门的录音笔，也可以是电脑或手机），完整录制整堂课的音频。 存储与处理：音频文件上传后，调用SenseVoice-Small语音识别服务，将其转换为结构化的文本数据。这一步是关键，把非结构化的声音变成了计算机能理解、能处理的文字。 计算与分析：转换后的文本，连同时间戳、说话人（如果能区分的话）等信息，被存入我们精心设计的数据库中。然后，我们就可以施展数据库的查询、统计、聚合等魔法了。 查看与洞察：最后，通过一个简单的可视化界面（比如一个Web页面），把分析结果用图表、报表的形式呈现出来，让老师或教学管理者一目了然。

那么，做这么一个系统，到底有什么价值？

对老师来说，它是个教学反思的利器。不再凭模糊的感觉，而是靠数据来回顾课堂：我是不是讲得太快了？留给学生讨论的时间够吗？重点内容学生反馈如何？通过分析关键词频率，能直观看到自己强调最多的概念是否与教学目标吻合。

对教学管理者而言，它提供了客观的课堂观察维度。可以横向比较不同班级、不同课程的“互动热度”，评估教学方法的有效性，甚至为教学评估提供数据支撑。

对学生来说（虽然他们可能不直接使用系统），一个互动更充分、反馈更及时的课堂环境，最终受益的还是他们。

而对于正在做课程设计的你，这个项目的价值在于：它足够完整，又足够聚焦。它涵盖了从数据采集、ETL（提取、转换、加载）、数据库设计到前端展示的完整流程，让你能体验一个真实数据应用系统的构建过程。同时，它又围绕“课堂语音”这个核心，需求明确，不会让你陷入无边无际的功能蔓延中。

3. 数据库设计：构建系统的基石

数据库是整个系统的“心脏”，设计得好不好，直接决定了后续分析是否高效、灵活。我们来一步步拆解。

3.1 核心实体与关系

首先，得想清楚我们要存哪些东西，以及它们之间的关系。主要实体有这么几个：

课程：记录课程的基本信息，比如课程编号、名称、授课教师、学期等。
课堂节次：一门课程会有很多次课。这个实体记录某门课程在具体某一天的上课信息，包括日期、开始结束时间、对应的录音文件路径等。它和“课程”是多对一的关系（一门课程有多次课）。
语音片段：这是最核心的数据。一次课长达数十分钟，直接存成大段文本不利于分析。更好的做法是按时间或按说话人切换，切分成一个个片段。每个片段包含：所属的课堂节次、开始时间戳、结束时间戳、说话人标识（如“教师”、“学生A”，或通过声纹识别区分）、转写后的文本内容。
关键词：我们想统计频率的那些词或短语，比如“函数”、“递归”、“时间复杂度”等。可以预先定义一个关键词表，方便管理和扩展。

它们之间的关系可以用下面这个简单的ER图来理解（这里用文字描述）：一门课程包含多次课堂节次。一次课堂节次产生多个语音片段。系统可以预先定义多个关键词，而一个语音片段的文本内容中可能包含多个关键词（多对多关系，需要一个关联表来记录这种“命中”关系）。

3.2 数据表结构设计示例

基于上面的分析，我们可以设计出类似下面的数据表（以MySQL语法为例）：

-- 课程表
CREATE TABLE course (
    course_id INT PRIMARY KEY AUTO_INCREMENT,
    course_code VARCHAR(20) NOT NULL UNIQUE, -- 课程编号
    course_name VARCHAR(100) NOT NULL,       -- 课程名称
    teacher_name VARCHAR(50),                 -- 授课教师
    semester VARCHAR(20)                      -- 学期，如“2024-春”
);

-- 课堂节次表
CREATE TABLE class_session (
    session_id INT PRIMARY KEY AUTO_INCREMENT,
    course_id INT NOT NULL,
    session_date DATE NOT NULL,               -- 上课日期
    start_time TIME,                          -- 开始时间
    end_time TIME,                            -- 结束时间
    audio_file_path VARCHAR(255),             -- 录音文件存储路径
    FOREIGN KEY (course_id) REFERENCES course(course_id)
);

-- 语音片段表（核心表）
CREATE TABLE speech_segment (
    segment_id INT PRIMARY KEY AUTO_INCREMENT,
    session_id INT NOT NULL,
    start_second INT NOT NULL,                -- 片段开始时间（秒）
    end_second INT NOT NULL,                  -- 片段结束时间（秒）
    speaker_tag VARCHAR(20),                  -- 说话人标签，如‘teacher', 'student', 'unknown'
    transcript_text TEXT NOT NULL,            -- 语音转写文本
    FOREIGN KEY (session_id) REFERENCES class_session(session_id),
    INDEX idx_session_time (session_id, start_second) -- 为按课程和时间查询优化
);

-- 关键词表
CREATE TABLE keyword (
    keyword_id INT PRIMARY KEY AUTO_INCREMENT,
    keyword_text VARCHAR(50) NOT NULL UNIQUE, -- 关键词内容
    category VARCHAR(50)                      -- 可选，分类如‘计算机术语’、‘数学概念’
);

-- 片段-关键词关联表（用于统计频率）
CREATE TABLE segment_keyword (
    segment_id INT NOT NULL,
    keyword_id INT NOT NULL,
    PRIMARY KEY (segment_id, keyword_id),
    FOREIGN KEY (segment_id) REFERENCES speech_segment(segment_id),
    FOREIGN KEY (keyword_id) REFERENCES keyword(keyword_id)
);

这个设计有几个考虑：

规范化：避免了数据冗余。比如课程信息只存一份，所有节次引用它。
可扩展性：speaker_tag字段为将来区分具体学生留下了空间。keyword表独立出来，方便动态维护关键词库。
查询效率：在speech_segment表上对(session_id, start_second)建立了索引，这对于按课程和时间范围查询片段非常关键。

4. 核心功能实现与数据分析

数据库建好了，接下来就是往里面填数据，然后让数据“说话”。这里涉及到两个主要环节：数据流水线和分析查询。

4.1 从音频到结构化数据

这个过程可以写一个简单的脚本来完成，比如用Python：

import requests
import json
import pymysql
from datetime import timedelta

# 假设SenseVoice-Small有一个本地或远程的API服务
SENSEVOICE_API_URL = "http://localhost:8000/transcribe"

def process_audio_to_database(audio_file_path, session_id, db_config):
    """
    处理单个音频文件，识别并存入数据库
    """
    # 1. 调用语音识别API
    with open(audio_file_path, 'rb') as f:
        files = {'file': f}
        response = requests.post(SENSEVOICE_API_URL, files=files)
    
    if response.status_code != 200:
        print(f"识别失败: {audio_file_path}")
        return
    
    result = response.json()
    # 假设API返回格式：{'segments': [{'start': 0.0, 'end': 5.2, 'text': '同学们好', 'speaker': 'teacher'}, ...]}
    
    # 2. 连接数据库
    connection = pymysql.connect(**db_config)
    
    try:
        with connection.cursor() as cursor:
            for seg in result['segments']:
                # 将时间戳转换为秒数（整数存储）
                start_sec = int(seg['start'])
                end_sec = int(seg['end'])
                speaker = seg.get('speaker', 'unknown')
                text = seg['text']
                
                # 3. 插入语音片段记录
                sql_segment = """
                INSERT INTO speech_segment (session_id, start_second, end_second, speaker_tag, transcript_text)
                VALUES (%s, %s, %s, %s, %s)
                """
                cursor.execute(sql_segment, (session_id, start_sec, end_sec, speaker, text))
                segment_id = cursor.lastrowid
                
                # 4. （可选）关键词匹配与关联
                # 这里简化处理：从关键词表取出所有关键词，检查是否出现在文本中
                cursor.execute("SELECT keyword_id, keyword_text FROM keyword")
                all_keywords = cursor.fetchall()
                
                for kw_id, kw_text in all_keywords:
                    if kw_text.lower() in text.lower(): # 简单的大小写不敏感匹配
                        sql_link = "INSERT INTO segment_keyword (segment_id, keyword_id) VALUES (%s, %s)"
                        cursor.execute(sql_link, (segment_id, kw_id))
        
        connection.commit()
        print(f"成功处理并入库: {audio_file_path}")
        
    except Exception as e:
        print(f"数据库操作出错: {e}")
        connection.rollback()
    finally:
        connection.close()

# 使用示例
db_config = {
    'host': 'localhost',
    'user': 'your_username',
    'password': 'your_password',
    'database': 'classroom_analysis',
    'charset': 'utf8mb4'
}
# 假设session_id为10的课堂录音文件路径是‘./recordings/class_20240415.mp3’
process_audio_to_database('./recordings/class_20240415.mp3', 10, db_config)

这个脚本勾勒了核心流程：调用识别API、解析结果、连接数据库、插入片段数据、并进行初步的关键词关联。在实际项目中，你可能还需要处理更复杂的错误情况、增加重试机制、以及优化关键词匹配算法（比如使用更精准的正则表达式或分词库）。

4.2 实现核心分析查询

数据入库后，我们就可以通过SQL查询来回答各种业务问题了。

1. 按学生/教师查询发言记录：

-- 查询某次课堂中，所有标记为‘teacher’的发言片段
SELECT start_second, end_second, transcript_text
FROM speech_segment
WHERE session_id = 10 AND speaker_tag = 'teacher'
ORDER BY start_second;

-- 如果未来能区分具体学生（speaker_tag='student_001'），查询某个学生的所有发言
SELECT cs.session_date, ss.start_second, ss.transcript_text
FROM speech_segment ss
JOIN class_session cs ON ss.session_id = cs.session_id
WHERE ss.speaker_tag = 'student_001'
ORDER BY cs.session_date, ss.start_second;

2. 统计关键词频率：

-- 统计某门课程（假设course_id=5）所有课堂中，各个关键词的出现次数
SELECT k.keyword_text, COUNT(*) as frequency
FROM segment_keyword sk
JOIN speech_segment ss ON sk.segment_id = ss.segment_id
JOIN class_session cs ON ss.session_id = cs.session_id
JOIN keyword k ON sk.keyword_id = k.keyword_id
WHERE cs.course_id = 5
GROUP BY k.keyword_id, k.keyword_text
ORDER BY frequency DESC;

-- 按时间趋势查看某个关键词（如‘函数’）的出现频率
SELECT cs.session_date, COUNT(*) as daily_count
FROM segment_keyword sk
JOIN speech_segment ss ON sk.segment_id = ss.segment_id
JOIN class_session cs ON ss.session_id = cs.session_id
JOIN keyword k ON sk.keyword_id = k.keyword_id
WHERE k.keyword_text = '函数'
GROUP BY cs.session_date
ORDER BY cs.session_date;

3. 分析课堂互动热度：

-- 计算每次课的“语音片段总数”和“学生发言占比”作为互动热度的粗略指标
SELECT 
    cs.session_date,
    COUNT(*) as total_segments,
    SUM(CASE WHEN ss.speaker_tag LIKE 'student%' THEN 1 ELSE 0 END) as student_segments,
    ROUND(
        SUM(CASE WHEN ss.speaker_tag LIKE 'student%' THEN 1 ELSE 0 END) * 100.0 / COUNT(*), 
        2
    ) as student_ratio_percent
FROM class_session cs
LEFT JOIN speech_segment ss ON cs.session_id = ss.session_id
WHERE cs.course_id = 5
GROUP BY cs.session_id, cs.session_date
ORDER BY cs.session_date;

这些SQL查询就是系统的“分析引擎”。你可以根据需求，组合出更复杂的查询，比如对比不同教师的教学风格（关键词差异），或者分析课堂节奏（发言的时间分布）。

5. 可视化展示与项目扩展

光有查询结果还不够，我们需要一个友好的界面来展示。这部分可以作为一个简单的Web应用来实现。

5.1 构建可视化报表

你可以使用轻量级的Web框架（如Flask）来搭建后端，提供JSON格式的API数据，然后在前端用图表库（如ECharts或Chart.js）来渲染。

后端（Flask示例）提供一个API端点：

from flask import Flask, jsonify
import pymysql

app = Flask(__name__)
# ... 数据库配置 ...

@app.route('/api/course/<int:course_id>/keyword_freq')
def get_keyword_frequency(course_id):
    connection = pymysql.connect(**db_config)
    try:
        with connection.cursor(pymysql.cursors.DictCursor) as cursor:
            sql = """
            SELECT k.keyword_text, COUNT(*) as frequency
            FROM segment_keyword sk
            JOIN speech_segment ss ON sk.segment_id = ss.segment_id
            JOIN class_session cs ON ss.session_id = cs.session_id
            JOIN keyword k ON sk.keyword_id = k.keyword_id
            WHERE cs.course_id = %s
            GROUP BY k.keyword_id
            ORDER BY frequency DESC
            LIMIT 10; -- 取频率最高的前10个关键词
            """
            cursor.execute(sql, (course_id,))
            results = cursor.fetchall()
        return jsonify(results)
    finally:
        connection.close()

if __name__ == '__main__':
    app.run(debug=True)

前端就可以调用这个/api/course/5/keyword_freq接口，拿到数据后，用柱状图展示出该课程的高频关键词排行榜。类似地，可以再做一个折线图来展示“学生发言比例”随时间（课堂节次）的变化趋势，一张图就能看出课堂互动模式的变化。

5.2 项目深化与扩展思路

这个基础版本已经具备了核心功能，但还有很多可以深化和扩展的方向，能让你的课程设计更加出彩：

情感分析集成：在语音转写后，对文本进行简单的情感分析（积极/中性/消极），在数据库中增加一个sentiment字段。这样就能分析课堂的情绪变化曲线，比如讨论环节是否更积极。
说话人分离与识别：使用更先进的语音处理技术，真正区分出教室里的不同学生个体，而不是简单的“教师/学生”标签。这能实现更精细的个体参与度分析。
话题建模：超越预设关键词，使用LDA等无监督学习方法，自动从课堂文本中提取出讨论的主题，看看一节课到底围绕哪几个核心话题展开。
性能优化：当数据量变大后，考虑对transcript_text字段建立全文索引，以支持更快速的语义搜索。或者将热点查询的结果物化成视图，提升报表加载速度。
系统集成：设计一个简单的文件上传界面，让老师可以方便地上传录音文件，并自动触发后续的处理和分析流水线。

6. 总结

回过头看，这个基于SenseVoice-Small的课堂语音分析系统，其实是一个非常好的数据库课程设计选题。它不只是一个孤立的数据库建表练习，而是让你亲身体验了如何用数据库技术去解决一个真实的、有场景的问题。从需求分析、概念设计、逻辑物理设计，到数据接入、分析查询，最后到结果展示，走完了一个完整的数据应用闭环。

在实现过程中，你会遇到各种实际问题：比如语音识别结果有误差怎么办？数据表如何设计才能兼顾查询效率和扩展性？海量文本如何高效匹配关键词？这些挑战恰恰是课程设计想要带给你的锻炼。最终做出来的，不再是一个纸上谈兵的模型，而是一个有数据流入、有分析处理、有结果输出的“活”的系统。无论你是想深化数据库知识，还是对教育数据分析感兴趣，这个项目都能给你带来实实在在的收获和一份不错的作品。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git