分享
2万字复盘:我们用 AI 编程做出商业级视频 Agent 平台
输入“/”快速插入内容
2万字复盘:我们用 AI 编程做出商业级视频 Agent 平台
用户2778
用户2778
3月3日修改
>
作者
:西羊石团队
>
日期
:2026 年 3 月
>
项目
:Video Agent Pro v4.0
>
关键词
:AI 视频生成、Vibe Coding、Antigravity Tools、Codex、OpenClaw、创业复盘
写在前面
这是我创业以来真正意义上的第一个商业级别 AI 视频平台。
从 2025 年底的 v0.1,到 2026 年 3 月的 v4.0.6——28 个 Agent 工具、41 个 API 端点、6 个 AI 模型集成、一套完整的积分系统和认证体系……
回头看这段旅程,我想把整个过程中踩过的坑、用过的工具、悟出的方法论,全部分享出来。
虽然这个平台目前主要是内部使用,帮助团队高效地调用 Google Gemini(纳米香蕉)、Sora、Vidu 等平台来生产 AI 视频内容,但一个创业者的第一个能跑的产品,以及真正帮助团队快速制作AI短剧,总是有特殊的意义。
这篇复盘不仅关于技术,更关于创业认知、团队协作、工程规范的全面反思。
希望能让后来的同行者少踩一些坑。
一、项目全貌:我们到底做了什么
1.1 产品定位
Video Agent Pro 是一个
AI 驱动的影视分镜生成与编辑工具
。核心理念是:让视频创作者从剧本到成片,每一步都有 AI 辅助。
技术栈:
-
前端
:Next.js 15.1 + React 19 + TypeScript 5.8 + Tailwind CSS
-
后端
:Vercel Serverless + Next.js App Router(41 个 API 端点)
-
数据层
:Supabase PostgreSQL + Cloudflare R2(媒体存储)
-
AI 模型
:Gemini 3.1 Pro/Flash Image、Sora 2、Vidu、火山引擎 SeeDream/SeeDance、即梦
1.2 核心功能矩阵
整个产品覆盖了影视创作的三个阶段,对应三个核心视图:
代码块
Plain Text
故事构思 (Planning) → 图片生成 (Canvas) → 视频输出 (Timeline)
剧本分镜拆解 无限画布+Grid生图 Sora/Vidu视频生成