Pixelle-Video 深度解析:AI 全自动短视频引擎
项目地址:github.com/AIDC-AI/Pixelle-Video | 10.5K Stars | Apache 2.0 协议
一、Pixelle-Video 是什么?
Pixelle-Video 是一个由 AIDC-AI 打造的 AI 全自动短视频引擎。它的核心理念非常简单:输入一个主题,输出一条完整的视频。
不需要写脚本、不需要找素材、不需要剪辑——AI 帮你完成全部流程:
一句话主题
↓
AI 写脚本 → AI 生成配图/视频 → TTS 配音 → 配 BGM → 合成输出
项目目标:“零门槛,零剪辑经验,视频创作成为一句话的事。“
核心亮点速览
| 特性 | 说明 |
|---|---|
| 全自动流水线 | 输入主题→输出视频,零人工介入 |
| AI 脚本创作 | 基于主题智能生成文案 |
| AI 配图/配视频 | 每句脚本自动生成对应画面 |
| TTS 语音合成 | 支持 Edge-TTS、Index-TTS、声音克隆 |
| 背景音乐 | 内置曲库 + 自定义上传 MP3/WAV |
| 多模型支持 | GPT、通义千问、DeepSeek、Ollama 等 |
| ComfyUI 架构 | 原子化能力可灵活组合 |
| Windows 集成包 | 解压即用,无需安装任何运行时 |
| 数字人 + 图生视频 | 最新支持的数字人说话和动作迁移 |
二、架构与工作流
2.1 处理流水线
Pixelle-Video 的处理流程是模块化的,按照以下顺序执行:
脚本生成 → 画面规划 → 逐帧处理 → 视频合成
│ │ │ │
├ LLM 生成 ├ 图片/视频 ├ TTS 配音 ├ 合成输出
├ 文案拆分 ├ 对白对齐 ├ BGM 叠加 ├ 格式编码
└ 段落划分 └ 风格匹配 └ 音量调整 └ 发布准备
每个阶段都支持自定义——可以替换不同的 AI 模型、音频引擎、视觉风格。
2.2 ComfyUI 驱动
Pixelle-Video 的核心引擎基于 ComfyUI 工作流。工作流文件存储在 workflows/ 目录中,用户可以根据需要切换不同的图像模型(如 FLUX)或 TTS 引擎(如 ChatTTS)。
2.3 模板系统
视频模板使用 HTML 文件,存放在 templates/ 目录,按命名约定分类:
| 类别 | 说明 |
|---|---|
static_*.html | 纯文字风格,无 AI 媒体 |
image_*.html | AI 生成图片作为背景 |
video_*.html | AI 生成视频作为背景 |
用户也可以自定义 HTML 模板。
三、功能矩阵
3.1 内容生成
| 功能 | 说明 |
|---|---|
| AI 脚本 | GPT/通义千问/DeepSeek/Ollama 等模型自动生成文案 |
| 自定义脚本 | 用户自行编写或粘贴文案 |
| 素材导入 | 上传照片/视频,AI 分析后自动生成脚本 |
| 批量创建 | 支持批量视频任务创建 |
3.2 视觉生成
| 功能 | 说明 |
|---|---|
| AI 图片生成 | 基于 FLUX 等模型,每句脚本配一张插画 |
| AI 视频生成 | 支持 WAN 2.1 等视频模型,生成动态画面 |
| 数字人 | 数字人说话视频(支持多语言) |
| 图生视频 | 上传静态图→生成动态视频 |
| 动作迁移 | 上传参考视频 + 图片,迁移动作 |
3.3 音频处理
| 功能 | 说明 |
|---|---|
| TTS 语音 | Edge-TTS、Index-TTS 等主流引擎 |
| 声音克隆 | 上传参考音频,克隆特定音色 |
| 背景音乐 | 内置曲库 + 自定义 MP3/WAV 上传 |
| 多语言 TTS | 支持多种语言的语音合成 |
3.4 视频输出
| 功能 | 说明 |
|---|---|
| 画面比例 | 竖屏 / 横屏 / 正方形 |
| 视觉风格 | 多套预设模板 |
| 自定义模板 | 支持 HTML 自定义 |
| 预览播放 | 实时生成预览 |
四、快速安装
Windows(推荐)
从 GitHub Releases 下载 Windows 集成包——无需安装 Python、uv 或 ffmpeg。解压后双击 start.bat,浏览器自动打开 http://localhost:8501。
这是最省心的方式,所有依赖都已打包。
源码安装(macOS / Linux)
# 前置依赖
# 安装 uv(Python 包管理器)
curl -LsSf https://astral.sh/uv/install.sh | sh
# 安装 ffmpeg
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# 克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
# 启动
uv run streamlit run web/app.py
浏览器自动打开 http://localhost:8501,在设置中配置 LLM API 和图像服务后即可使用。
Docker
docker-compose up
五、配置
LLM 配置
在 Web UI 设置中选择预设模型:
- 通义千问(极低价格,推荐中国用户)
- GPT-4o
- DeepSeek
- Ollama(本地免费,零成本)
预设会自动填充 Base URL 和模型名,也可以手动自定义。
图像配置
| 方式 | 说明 | 成本 |
|---|---|---|
| 本地 ComfyUI(推荐) | http://127.0.0.1:8188,支持连接测试 | 零成本 |
| RunningHub 云端 | 使用 RunningHub API Key | 按量计费 |
免费运行方案
项目”完全支持免费运行”:
- 免费方案:Ollama(本地 LLM)+ ComfyUI 本地部署 = 零成本
- 推荐方案:通义千问 LLM(极低价)+ 本地 ComfyUI
- 云端方案:OpenAI LLM + RunningHub(成本较高,无需本地 GPU)
六、Web UI 界面
Pixelle-Video 的 Web 界面采用三栏布局:
左侧栏:内容输入
- AI 生成脚本或固定脚本
- BGM 选择(内置 / 自定义)
中间栏:视觉与语音设置
| 区域 | 设置项 |
|---|---|
| 语音设置 | TTS 工作流选择、参考音频上传(声音克隆)、语音预览 |
| 视觉设置 | 图像工作流、画面比例、提示词前缀、视频模板选择 |
右侧栏:生成与预览
- 生成按钮:一键启动完整流水线
- 实时进度:显示每一步的处理状态
- 视频预览:生成完成后直接播放
七、视频风格示例
Pixelle-Video 支持多种视频风格,以下是 README 中的示例分类:
| 风格 | 说明 |
|---|---|
| 人文纪实 | 默认模板,适合人物故事类 |
| 文化解构 | 适合文化分析类内容 |
| 科学思辨 | 如”为什么还没找到外星人?“ |
| 个人成长 | 可配合声音克隆 |
| 深度思考 | 如”理解反脆弱” |
| 历史文化 | 固定画面配合讲解 |
| 情感类 | 配合声音克隆 |
| 小说解说 | 自定义脚本 |
| 知识科普 | 结合通义千问图像生成 |
| 副业赚钱 | 电影风格模板(横屏) |
| 历史解说 | 自定义模板(横屏) |
| 数字人说话 | 支持多语言(韩语) |
| 图生视频 | 卡通风格 |
| 动作迁移 | 如”跳舞的猫” |
八、技术栈
| 层级 | 技术选型 |
|---|---|
| 主要语言 | Python(76.1%) |
| Web 界面 | HTML(22.9%) |
| UI 框架 | Streamlit(web/app.py) |
| 包管理 | uv(uv.lock + pyproject.toml) |
| 工作流引擎 | ComfyUI(workflows/ 目录) |
| LLM 支持 | GPT / 通义千问 / DeepSeek / Ollama 等 |
| TTS 引擎 | Edge-TTS / Index-TTS / 声音克隆 |
| 图像模型 | FLUX / WAN 2.1 / Nano Banana 等 |
| 容器化 | Docker + docker-compose |
| 文档 | mkdocs |
九、与其他视频生成工具对比
| 维度 | Pixelle-Video | MoneyPrinterTurbo | Sora | Runway Gen-3 |
|---|---|---|---|---|
| 自动流水线 | ✅ 完整全自动 | ✅ 类似 | ❌ 仅视频 | ❌ 仅视频 |
| AI 脚本 | ✅ 内置 | ✅ 内置 | ❌ | ❌ |
| TTS + BGM | ✅ 内置 | ✅ 内置 | ❌ | ❌ |
| 模板系统 | ✅ HTML 模板 | ❌ | ❌ | ❌ |
| 数字人 | ✅ 支持 | ❌ | ❌ | ❌ |
| 动作迁移 | ✅ 支持 | ❌ | ❌ | ❌ |
| 本地运行 | ✅ 完全本地 | ✅ 完全本地 | ❌ 云端 | ❌ 云端 |
| 免费方案 | ✅ Ollama + 本地 ComfyUI | ✅ | ❌ | ❌ |
| 协议 | Apache 2.0 | MIT | 闭源 | 闭源 |
| Stars | 10.5K | 35K | — | — |
十、适用场景
内容创作者
- 短视频批量生产:每天输入主题,自动生成多条视频
- 知识科普:配合 AI 脚本生成有深度的科普视频
- 书单/故事类:小说解说、书评类内容的自动化制作
企业营销
- 产品宣传:快速生成产品介绍视频
- 社交媒体运营:多平台分发的短视频内容
- 品牌故事:结合声音克隆打造统一的品牌语音
个人使用
- Vlog 辅助:照片/视频素材导入,AI 辅助成片
- 节日祝福:自定义文案生成个性化视频
- 学习笔记:将学习笔记转为视频形式
十一、总结
Pixelle-Video 是 AI 短视频生成领域一个极具实用价值的开源项目。它把”从创意到成片”的完整流程封装为一条自动化流水线——输入一个主题,输出一条完整的、带配音和背景音乐的视频。
对于没有剪辑经验但需要持续产出视频内容的人来说,它极大地降低了创作门槛。Windows 集成包更是让零基础用户也能直接用上。
快速开始:
# Windows:下载集成包,解压双击 start.bat
# macOS/Linux:
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py
技术栈:Python 76% + HTML 23% + ComfyUI + Streamlit | 协议:Apache 2.0