← 返回博客

Pixelle-Video 深度解析:AI 全自动短视频引擎

AI应用

项目地址:github.com/AIDC-AI/Pixelle-Video | 10.5K Stars | Apache 2.0 协议

一、Pixelle-Video 是什么?

Pixelle-Video 是一个由 AIDC-AI 打造的 AI 全自动短视频引擎。它的核心理念非常简单:输入一个主题,输出一条完整的视频

不需要写脚本、不需要找素材、不需要剪辑——AI 帮你完成全部流程:

一句话主题

AI 写脚本 → AI 生成配图/视频 → TTS 配音 → 配 BGM → 合成输出

项目目标:“零门槛,零剪辑经验,视频创作成为一句话的事。“

核心亮点速览

特性说明
全自动流水线输入主题→输出视频,零人工介入
AI 脚本创作基于主题智能生成文案
AI 配图/配视频每句脚本自动生成对应画面
TTS 语音合成支持 Edge-TTS、Index-TTS、声音克隆
背景音乐内置曲库 + 自定义上传 MP3/WAV
多模型支持GPT、通义千问、DeepSeek、Ollama 等
ComfyUI 架构原子化能力可灵活组合
Windows 集成包解压即用,无需安装任何运行时
数字人 + 图生视频最新支持的数字人说话和动作迁移

二、架构与工作流

2.1 处理流水线

Pixelle-Video 的处理流程是模块化的,按照以下顺序执行:

脚本生成 → 画面规划 → 逐帧处理 → 视频合成
  │           │           │           │
  ├ LLM 生成   ├ 图片/视频  ├ TTS 配音  ├ 合成输出
  ├ 文案拆分   ├ 对白对齐   ├ BGM 叠加  ├ 格式编码
  └ 段落划分   └ 风格匹配   └ 音量调整  └ 发布准备

每个阶段都支持自定义——可以替换不同的 AI 模型、音频引擎、视觉风格。

2.2 ComfyUI 驱动

Pixelle-Video 的核心引擎基于 ComfyUI 工作流。工作流文件存储在 workflows/ 目录中,用户可以根据需要切换不同的图像模型(如 FLUX)或 TTS 引擎(如 ChatTTS)。

2.3 模板系统

视频模板使用 HTML 文件,存放在 templates/ 目录,按命名约定分类:

类别说明
static_*.html纯文字风格,无 AI 媒体
image_*.htmlAI 生成图片作为背景
video_*.htmlAI 生成视频作为背景

用户也可以自定义 HTML 模板。


三、功能矩阵

3.1 内容生成

功能说明
AI 脚本GPT/通义千问/DeepSeek/Ollama 等模型自动生成文案
自定义脚本用户自行编写或粘贴文案
素材导入上传照片/视频,AI 分析后自动生成脚本
批量创建支持批量视频任务创建

3.2 视觉生成

功能说明
AI 图片生成基于 FLUX 等模型,每句脚本配一张插画
AI 视频生成支持 WAN 2.1 等视频模型,生成动态画面
数字人数字人说话视频(支持多语言)
图生视频上传静态图→生成动态视频
动作迁移上传参考视频 + 图片,迁移动作

3.3 音频处理

功能说明
TTS 语音Edge-TTS、Index-TTS 等主流引擎
声音克隆上传参考音频,克隆特定音色
背景音乐内置曲库 + 自定义 MP3/WAV 上传
多语言 TTS支持多种语言的语音合成

3.4 视频输出

功能说明
画面比例竖屏 / 横屏 / 正方形
视觉风格多套预设模板
自定义模板支持 HTML 自定义
预览播放实时生成预览

四、快速安装

Windows(推荐)

从 GitHub Releases 下载 Windows 集成包——无需安装 Python、uv 或 ffmpeg。解压后双击 start.bat,浏览器自动打开 http://localhost:8501

这是最省心的方式,所有依赖都已打包。

源码安装(macOS / Linux)

# 前置依赖
# 安装 uv(Python 包管理器)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安装 ffmpeg
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg

# 克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

# 启动
uv run streamlit run web/app.py

浏览器自动打开 http://localhost:8501,在设置中配置 LLM API 和图像服务后即可使用。

Docker

docker-compose up

五、配置

LLM 配置

在 Web UI 设置中选择预设模型:

预设会自动填充 Base URL 和模型名,也可以手动自定义。

图像配置

方式说明成本
本地 ComfyUI(推荐)http://127.0.0.1:8188,支持连接测试零成本
RunningHub 云端使用 RunningHub API Key按量计费

免费运行方案

项目”完全支持免费运行”:


六、Web UI 界面

Pixelle-Video 的 Web 界面采用三栏布局

左侧栏:内容输入

中间栏:视觉与语音设置

区域设置项
语音设置TTS 工作流选择、参考音频上传(声音克隆)、语音预览
视觉设置图像工作流、画面比例、提示词前缀、视频模板选择

右侧栏:生成与预览


七、视频风格示例

Pixelle-Video 支持多种视频风格,以下是 README 中的示例分类:

风格说明
人文纪实默认模板,适合人物故事类
文化解构适合文化分析类内容
科学思辨如”为什么还没找到外星人?“
个人成长可配合声音克隆
深度思考如”理解反脆弱”
历史文化固定画面配合讲解
情感类配合声音克隆
小说解说自定义脚本
知识科普结合通义千问图像生成
副业赚钱电影风格模板(横屏)
历史解说自定义模板(横屏)
数字人说话支持多语言(韩语)
图生视频卡通风格
动作迁移如”跳舞的猫”

八、技术栈

层级技术选型
主要语言Python(76.1%)
Web 界面HTML(22.9%)
UI 框架Streamlit(web/app.py
包管理uv(uv.lock + pyproject.toml
工作流引擎ComfyUI(workflows/ 目录)
LLM 支持GPT / 通义千问 / DeepSeek / Ollama 等
TTS 引擎Edge-TTS / Index-TTS / 声音克隆
图像模型FLUX / WAN 2.1 / Nano Banana 等
容器化Docker + docker-compose
文档mkdocs

九、与其他视频生成工具对比

维度Pixelle-VideoMoneyPrinterTurboSoraRunway Gen-3
自动流水线✅ 完整全自动✅ 类似❌ 仅视频❌ 仅视频
AI 脚本✅ 内置✅ 内置
TTS + BGM✅ 内置✅ 内置
模板系统✅ HTML 模板
数字人✅ 支持
动作迁移✅ 支持
本地运行✅ 完全本地✅ 完全本地❌ 云端❌ 云端
免费方案✅ Ollama + 本地 ComfyUI
协议Apache 2.0MIT闭源闭源
Stars10.5K35K

十、适用场景

内容创作者

企业营销

个人使用


十一、总结

Pixelle-Video 是 AI 短视频生成领域一个极具实用价值的开源项目。它把”从创意到成片”的完整流程封装为一条自动化流水线——输入一个主题,输出一条完整的、带配音和背景音乐的视频。

对于没有剪辑经验但需要持续产出视频内容的人来说,它极大地降低了创作门槛。Windows 集成包更是让零基础用户也能直接用上。

快速开始:

# Windows:下载集成包,解压双击 start.bat
# macOS/Linux:
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

技术栈:Python 76% + HTML 23% + ComfyUI + Streamlit | 协议:Apache 2.0

文档:aidc-ai.github.io/Pixelle-Video/zh