AIGC内容创作全流程：SenseVoice-Small语音输入+AI文本生成+视频合成

本文介绍了如何在星图GPU平台上自动化部署sensevoice-small-语音识别-onnx模型(带量化后)镜像，构建高效的AIGC内容创作流程。该模型能够准确地将语音转换为文本，作为工作流的第一步，可应用于快速将口述灵感转化为视频脚本草稿，大幅提升内容创作效率。

昊叔Crescdim

151人浏览 · 2026-03-29 05:30:16

昊叔Crescdim · 2026-03-29 05:30:16 发布

AIGC内容创作全流程：SenseVoice-Small语音输入+AI文本生成+视频合成

1. 引言：从灵感到成片，一条语音搞定

你有没有过这样的经历？脑子里突然冒出一个绝妙的视频创意，或者需要快速制作一条产品介绍短片，但一想到要写文案、录音、剪辑……瞬间就觉得头大，热情也被繁琐的流程浇灭了大半。

传统的视频内容创作，就像一条分工明确的流水线：你得先写好文字脚本，然后要么自己录音，要么找配音员，接着还得找素材、做剪辑、加特效。每一步都费时费力，对个人创作者或小团队来说，成本实在不低。

但现在，情况不一样了。借助星图GPU平台上的一系列AI模型，我们可以把这条复杂的流水线，压缩成一个极其简单的动作：开口说话。

想象一下：你对着手机说出你的想法，几分钟后，一条配有精美画面和专业旁白的短视频就自动生成了。这不再是科幻电影里的场景，而是我们今天要一起搭建的、实实在在的AIGC工作流。

这个工作流的核心思路非常清晰：

语音输入：用你的声音，代替键盘，快速输入原始创意。这里我们会用到SenseVoice-Small语音识别模型，它能准确地把你的话转成文字。
文本加工：转写出来的文字可能比较口语化、零散。没关系，交给大语言模型，让它帮你润色、扩写，整理成一段富有感染力、适合做视频旁白的文案。
视频合成：最后，将这段打磨好的文案，喂给文生视频模型。模型会根据文字描述，自动生成匹配的动态画面，直接输出成片。

整个过程，你只需要提供最初的灵感和想法，剩下的“体力活”全部交给AI串联完成。接下来，我就带你一步步实现这个高效的内容创作“魔法”。

2. 工作流全景与核心价值

在动手之前，我们先从高处俯瞰一下整个流程，看看它到底能为我们解决什么问题。

2.1 工作流全景图

整个流程可以清晰地分为三个阶段，就像三个配合默契的“数字员工”：

[你的灵感] --语音输入--> [SenseVoice-Small] --转写文本--> [大语言模型] --润色文案--> [文生视频模型] --生成--> [最终短视频]

第一阶段：语音转写（SenseVoice-Small）。这是流程的起点，负责“听懂”你。SenseVoice-Small是一个轻量但高效的语音识别模型，特别适合实时或近实时的转写任务。你不需要准备专业的录音设备，用手机或电脑麦克风即可。
第二阶段：文本润色（大语言模型）。这是流程的“大脑”，负责“优化”内容。转写出的文字是原材料，大语言模型（比如常见的Chat类模型）则扮演了文案编辑的角色。它可以帮你纠正口误、梳理逻辑、丰富词汇，甚至根据要求改变文体风格（比如改成激昂的宣传口吻或温暖的叙述风格）。
第三阶段：视频生成（文生视频模型）。这是流程的“艺术家”，负责“可视化”创意。它接收加工后的文案，理解其中的场景、人物、动作和情绪，然后生成相应的动态视频片段。目前许多模型已经能生成数秒到十余秒、画质相当不错的视频。

2.2 解决了哪些实际问题？

这套组合拳打下来，价值体现在好几个方面：

效率倍增，释放创意：最大的好处就是“快”。从想法到视频初稿，时间可以从小时级缩短到分钟级。你把最耗时的执行环节交给了AI，自己则可以更专注于构思创意和把控整体方向。
降低门槛，人人可创：你不需要是专业的编剧、配音员或视频剪辑师。只要你会说话，有想法，就能启动创作。这对于知识分享者、自媒体博主、小微企业主来说，是一个强大的赋能工具。
风格统一，批量生产：一旦工作流跑通，你可以快速制作一系列风格统一的视频内容。比如，为每个产品特点生成一条介绍短片，或者将一篇长文章拆解成多个短视频片段。
成本优化，灵活试错：传统视频制作涉及人力、设备、素材版权等多重成本。而AI工作流的主要成本是可量化的计算资源，非常适合进行低成本的内容测试和快速迭代。

简单说，这套方案就是把你的“想法”作为唯一输入，通过三层AI处理，直接输出“成品”。下面，我们就进入具体的实现环节。

3. 第一步：用声音“写”文案——SenseVoice-Small语音转写

万事开头难，但在这里，开头最简单——你只需要说话。

3.1 准备工作与环境搭建

首先，我们需要让SenseVoice-Small模型运行起来。在星图GPU平台上，这通常意味着获取一个预置了该模型的镜像。假设你已经找到了合适的SenseVoice-Small镜像并成功启动。

启动后，你会获得一个API服务地址，比如 http://your-server-ip:8000。我们的所有操作都将通过向这个地址发送请求来完成。

为了方便演示，我们使用Python和 requests 库。确保你的环境里已经安装好了。

pip install requests

3.2 录制或准备音频文件

SenseVoice-Small支持常见的音频格式，如WAV、MP3等。为了获得更好的识别效果，建议：

格式：优先使用单声道、16kHz采样率的WAV文件，这是很多语音模型的“标准餐”。
环境：尽量在安静的环境下录音，减少背景噪音。
内容：清晰、匀速地口述你的视频文案初稿。例如，你可以说：“大家好，今天给大家介绍一款新型的便携式咖啡机。它最大的特点是体积小巧，但萃取压力充足，能在家轻松做出油脂丰富的意式浓缩咖啡。”

你可以用手机录音软件录制，然后传到电脑上，或者直接用Python的库进行录制。这里我们假设你已经有了一个 my_idea.wav 文件。

3.3 调用API进行语音转写

调用过程非常简单，主要就是发送一个包含音频文件的POST请求。

import requests

# 你的SenseVoice-Small服务地址
API_URL = "http://your-server-ip:8000/v1/audio/transcriptions"  # 注意：实际端点路径请以镜像文档为准

# 音频文件路径
audio_file_path = "my_idea.wav"

# 打开音频文件
with open(audio_file_path, 'rb') as f:
    files = {'file': (audio_file_path, f, 'audio/wav')}
    # 通常还需要一些参数，例如指定模型和响应格式
    data = {
        'model': 'sensevoice-small',  # 指定模型
        'response_format': 'json'      # 请求返回JSON格式
    }
    
    # 发送请求
    response = requests.post(API_URL, files=files, data=data)

# 检查响应
if response.status_code == 200:
    result = response.json()
    original_text = result.get('text', '')  # 获取识别出的文本
    print("识别结果：", original_text)
else:
    print("请求失败，状态码：", response.status_code)
    print("错误信息：", response.text)

运行这段代码，如果一切顺利，你就会在控制台看到识别出的文字。它可能类似于： “大家好今天给大家介绍一款新型的便携式咖啡机它最大的特点是体积小巧但萃取压力充足能在家轻松做出油脂丰富的意式浓缩咖啡”

你会发现，转写文本是连贯的，没有标点。这很正常，也是我们下一环节需要大语言模型帮忙处理的地方之一。第一步至此完成，你的声音已经变成了可编辑的文字原料。

4. 第二步：让文案更出色——大语言模型润色与扩写

拿到原始转写文本后，它可能有点“糙”：没有标点、有些口语化重复、结构松散。现在，我们请出“AI编辑”——大语言模型来打磨它。

4.1 设计提示词（Prompt）

与大语言模型沟通的关键在于提示词。我们的目标是：将一段口语化的文字，改写成适合作为视频旁白的、有吸引力的文案。

我们需要在提示词中明确以下几点：

原始文本：提供SenseVoice-Small转写出来的文字。
任务指令：明确告诉模型要做什么（润色、扩写、加标点）。
风格要求：指定输出文案的风格（如：简洁有力、生动有趣、专业稳重）。
格式要求：例如，是否需要分段落，是否要加入视频画面提示等。

这里假设我们使用星图平台上常见的Chat模型API。

# 假设这是上一步得到的原始文本
raw_text = “大家好今天给大家介绍一款新型的便携式咖啡机它最大的特点是体积小巧但萃取压力充足能在家轻松做出油脂丰富的意式浓缩咖啡”

# 构建一个清晰的提示词
prompt_for_llm = f"""
你是一位专业的视频文案编辑。请将以下用户口述的原始文本，润色并扩写为一篇适合用作60秒短视频旁白的文案。

要求：
1. 补充完整的标点符号，使其易于阅读。
2. 语言精炼、有感染力，能吸引观众注意力。
3. 可以适当扩充细节，让描述更生动，但核心信息不变。
4. 文案整体节奏适合口语播报，并考虑与视频画面的配合。

原始文本：
{raw_text}

请直接输出润色后的完整文案：
"""

4.2 调用大语言模型API

接下来，我们将这个精心设计的提示词发送给大语言模型。

import requests
import json

# 你的大语言模型服务地址 (例如使用星图平台上的某个Chat模型镜像)
LLM_API_URL = "http://your-llm-server-ip:8080/v1/chat/completions"  # 请替换为实际地址
API_KEY = "your-api-key-here"  # 如果需要认证

# 构建请求数据
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}"  # 如果需要
}

data = {
    "model": "your-model-name",  # 指定模型名称
    "messages": [
        {"role": "user", "content": prompt_for_llm}
    ],
    "temperature": 0.7,  # 控制创造性，0.7左右比较平衡
    "max_tokens": 500    # 限制生成文本的最大长度
}

response = requests.post(LLM_API_URL, headers=headers, data=json.dumps(data))

if response.status_code == 200:
    result = response.json()
    # 提取模型返回的文案内容
    polished_script = result['choices'][0]['message']['content']
    print("润色后的视频文案：\n")
    print(polished_script)
else:
    print("LLM请求失败：", response.status_code, response.text)

4.3 处理与优化输出

模型可能会返回类似这样的文案：

“你是否也向往着，在清晨的阳光下，用一台小巧的机器，瞬间唤醒一杯专业级的意式浓缩？今天，就带你认识这款颠覆传统的便携式咖啡机。

它摒弃了笨重的外形，将咖啡馆级别的萃取系统，浓缩进仅如笔记本大小的机身里。别看它体积小巧，却能稳定输出足够的压力，充分萃取咖啡粉的精华，瞬间涌出那层金黄丰盈的油脂（Crema）。

从此，无论是忙碌的办公桌旁，还是惬意的旅途之中，你都能轻松享受一杯醇厚香浓、油脂饱满的意式咖啡。生活里的专业仪式感，就这么简单。”

你看，模型不仅加上了标点，调整了语序，还补充了“清晨的阳光”、“咖啡馆级别”、“金黄丰盈的油脂”等生动细节，并赋予了文案一个吸引人的开头和结尾。这远比原始口述文本更适合作为视频旁白。

你可以根据视频的调性，反复调整提示词中的“风格要求”，让模型生成不同感觉的文案，比如更活泼的、更科技的、更温馨的，直到你满意为止。至此，你的文案已经准备就绪。

5. 第三步：让文字“动”起来——文生视频模型合成

有了精彩的文案，最后一步就是将它转化为视觉画面。我们使用文生视频模型来完成这“临门一脚”。

5.1 准备视频生成提示词

文生视频模型同样需要提示词（Prompt）来驱动。但这里的提示词与给大语言模型的有所不同，它需要更侧重于视觉元素的描述。

我们需要从润色后的文案中，提取或总结出关键的视觉场景。通常，一个60秒的视频可能需要2-4个核心场景。我们可以手动提炼，也可以让大语言模型辅助我们。

例如，基于上面的咖啡机文案，我们可以提炼出这样几个视觉提示词：

场景一（引入）：“清晨的阳光透过窗户，照在整洁的厨房台面上，一个年轻人充满期待地看着一台小巧的咖啡机。”
场景二（特写）：“便携式咖啡机特写，金属机身质感高级，小巧精致，旁边放着一台厚重的传统意式咖啡机作为对比。”
场景三（过程）：“咖啡机正在工作，镜头特写显示压力表数值稳定，深褐色的咖啡液缓缓流出，表面泛起一层浓厚金黄的油脂（Crema）。”
场景四（享用）：“主人公在办公室窗边或户外露营椅上，惬意地品尝着刚做好的咖啡，杯子上方热气袅袅，表情满足。”

5.2 调用文生视频模型API

假设我们使用星图平台上一个支持文生视频的模型服务（例如 Stable Video Diffusion 或其他类似模型）。调用方式通常是异步的：提交生成任务，然后轮询获取结果。

import requests
import json
import time

# 文生视频模型服务地址
VIDEO_API_URL = "http://your-video-server-ip:7860"  # 请替换为实际地址和端口
TASK_ENDPOINT = f"{VIDEO_API_URL}/api/v1/video/generation"  # 假设的任务提交端点
QUERY_ENDPOINT = f"{VIDEO_API_URL}/api/v1/task/query"       # 假设的任务查询端点

# 准备生成参数
video_prompt = “清晨的阳光透过窗户，照在整洁的厨房台面上，一个年轻人充满期待地看着一台小巧精致的便携式咖啡机，旁边放着一台大型传统咖啡机作为对比。电影感，写实风格，细节丰富。”  # 以第一个场景为例

generation_data = {
    "prompt": video_prompt,
    "negative_prompt": "模糊，失真，丑陋，多只手，多只脚，畸形",  # 负面提示，告诉模型避免什么
    "steps": 25,  # 生成步数
    "width": 1024,  # 视频宽度
    "height": 576,  # 视频高度
    "fps": 24,      # 帧率
    "duration": 5,  # 视频时长（秒）
    "seed": -1,     # 随机种子，-1表示随机
}

# 1. 提交生成任务
submit_response = requests.post(TASK_ENDPOINT, json=generation_data)
if submit_response.status_code != 200:
    print("提交视频生成任务失败：", submit_response.text)
    exit()

task_id = submit_response.json().get('task_id')
print(f"视频生成任务已提交，任务ID: {task_id}")

# 2. 轮询查询任务状态
video_url = None
for i in range(60):  # 最多轮询60次，每次间隔5秒
    time.sleep(5)
    query_data = {"task_id": task_id}
    query_response = requests.post(QUERY_ENDPOINT, json=query_data)
    
    if query_response.status_code == 200:
        status_info = query_response.json()
        status = status_info.get('status')
        
        if status == 'SUCCESS':
            video_url = status_info.get('video_url')  # 假设返回视频文件URL
            print("视频生成成功！")
            print(f"视频下载地址：{video_url}")
            break
        elif status == 'FAILED':
            print("视频生成失败：", status_info.get('message', '未知错误'))
            break
        else:
            print(f"任务处理中... ({status})，已等待 {5*(i+1)} 秒")
    else:
        print("查询任务状态失败：", query_response.status_code)

if not video_url:
    print("视频生成超时或未完成。")

5.3 视频后期与串联

对于每个场景，重复上述步骤生成多个短视频片段。得到所有片段后，你可以使用简单的视频编辑工具（如FFmpeg命令行工具，或开源的Shotcut、DaVinci Resolve等）将它们按顺序拼接起来。

同时，将第二步中得到的最终旁白文案录制为音频（可以使用TTS语音合成服务，这又是另一个可以接入的AI环节，或者自己录制），与拼接好的视频画面进行对齐合成，加上背景音乐和简单的字幕，一条完整的短视频就诞生了。

至此，从一段语音到一条视频的完整AIGC创作流程就走通了。你可以看到，每个环节的代码调用都不复杂，核心在于理解流程并将合适的提示词传递给对应的模型。

6. 总结

走完这一整套流程，感觉如何？我们并没有编写复杂的算法，只是巧妙地充当了“调度员”和“创意总监”的角色，将三个各有所长的AI模型串联起来，让它们协同工作。

SenseVoice-Small负责“倾听”，将你即兴的、碎片化的语音灵感转化为文本；大语言模型负责“构思”，把粗糙的文本打磨成结构完整、语言优美的剧本；文生视频模型则负责“绘制”，将文字剧本转化为生动的动态画面。这个流程的魅力在于它的灵活性和可扩展性。你可以随时替换其中任何一个环节的模型，比如换一个识别方言更准的语音模型，或者换一个生成动画风格更强的视频模型。

在实际操作中，你可能会遇到一些小挑战，比如视频生成时间较长、某个场景的效果不理想等。这时，可以回到对应的环节进行微调：优化语音转写的音频质量、精心修改给大语言模型或文生视频模型的提示词。提示词的质量，直接决定了最终输出的质量。

对于想要尝试的朋友，我的建议是：先从一个小而具体的创意开始，比如介绍你手边的一本书、一个杯子。跑通整个流程，感受每个环节的输入输出。然后再逐步尝试更复杂的主题。这个工作流最大的价值，就是它能将内容创作的启动成本降到最低，让你能快速验证想法，把更多精力放在创意本身，而不是繁琐的制作上。希望这个案例能为你打开一扇门，看到AIGC在内容创作领域带来的实实在在的效率革命。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git