2026 年在 RunPod 上训练 NSFW Flux LoRA | Lewdly Blog
/ ComfyUI / 2026 年在 RunPod 上训练 NSFW Flux LoRA
ComfyUI 5 分钟阅读

2026 年在 RunPod 上训练 NSFW Flux LoRA

完整的 RunPod 教程,教你训练角色 NSFW Flux LoRA。15 张图片、FluxGym、数据集准备、打标、训练参数、真实成本拆解。

2026 年在 RunPod 上训练 NSFW Flux LoRA

在 RunPod 上搭建你自己的 NSFW Flux LoRA 训练流程,比大多数教程说得要实际得多。我们已经用 RunPod 和 FluxGym 训练过 30 多个 NSFW 角色 Flux LoRA,一旦你知道哪些步骤可以跳过、哪些值得投入,实际的工作流程其实非常直接。网上的教程把数据集准备搞得过于复杂,又把打标讲得过于简单。这篇指南要把这个顺序反过来。

快速答案: 一个角色 NSFW Flux LoRA 需要 15 到 30 张精挑细选的图片、带触发词的恰当打标,以及在 RunPod RTX 4090 上大约 2 到 4 小时的训练,每小时约 $0.34。每个 LoRA 的总成本通常落在 $2 到 $5 之间。使用 FluxGym 作为界面,以 1024x1024 分辨率训练,1500 到 2500 步,批量大小 1,学习率 1e-4。数据集比参数更重要。
关键要点:
  • 在 RunPod RTX 4090 社区云上,每个 LoRA 的总成本通常落在 $2 到 $5 之间。
  • 15 到 30 张高质量图片每次都胜过 100 张平庸的图片。
  • 打标是对输出质量影响最大的单一变量。
  • FluxGym 是 2026 年训练 Flux LoRA 最简单的界面。
  • 在至少 3 个不同的检查点上测试 LoRA,以验证它能够泛化。

为什么要训练自定义的 NSFW Flux LoRA

老实说,我们最常被问到的问题是,当 Civitai 上已经有成千上万个现成的 LoRA 时,训练自定义 LoRA 到底值不值。答案取决于你想做什么。对于通用风格或热门角色,直接下载现成的 LoRA 就好。对于你正在构建的特定角色、私有模型,或者你自己设计的尚未发布的风格,训练你自己的才是唯一的路径。

我们为自己的 AI 角色作品、客户项目,以及作为理解训练行为如何随数据集变化而响应的实验,训练过 LoRA。我们自己构建的角色 LoRA,在我们训练的角色上表现优于任何通用 LoRA,因为它们捕捉到了没有任何公开 LoRA 瞄准的特定身份细节。这就是全部的价值主张所在。你的训练数据集会变成模型的知识。

Flux 生态系统的训练动态也与 SDXL 不同。在我们的经验中,Flux LoRA 训练更快、需要更少的图片,并且比 SDXL LoRA 泛化得更好。我们见过用 12 到 15 张图片训练的 Flux LoRA,产出的角色比用 50 张图片训练的 SDXL LoRA 更一致。Flux 基础模型在提取身份特征方面就是更强。这让训练 NSFW Flux LoRA 出人意料地高效。

另一件值得一说的事是,NSFW LoRA 训练有它自己的特点。Flux 基础模型默认会抗拒露骨内容,所以你的训练数据集需要包含足够多的露骨参考素材来克服这种抗拒。如果你的数据集 80% 是 SFW、20% 是 NSFW,那么即使训练完成,这个 LoRA 在面对露骨提示词时也会很吃力。我们是吃了亏才学到这一点的。数据集的平衡很重要。

数据集甄选,15 到 30 张图片

这里是大多数教程出错的地方。它们告诉你用 50 到 100 张图片以获得"最佳效果"。说实话,对角色 LoRA 来说那是过头了,而且如果你的数据集没有经过甄选,反而有害。我们用 15 到 30 张专门挑选的图片能得到最好的效果。如果"更多"意味着加入平庸或偏离角色的图片,那么更多并不更好。

为角色 NSFW 训练准备的优秀数据集长什么样?

  • 8 到 12 张来自不同角度的高质量面部特写
  • 5 到 8 张构图干净的全身照
  • 3 到 5 张展示角色在 NSFW 场景中的露骨参考图
  • 2 到 4 张多样化镜头,不同服装、表情、光线

分辨率很重要。我们对源图片的目标是 1024x1024 或更大。更小的分辨率会迫使模型从放大产生的伪影中学习。如果你的参考图是 512x512,请先用 R-ESRGAN 4x+ 这样的高质量模型放大后再训练,不要直接在低分辨率上训练。

数据集中影响最大的单一选择是多样性。模型学习的是你参考图片中一致的东西。如果每张面部特写都用相同的光线和角度,那么模型就只会生成那种光线和角度。请变化条件。不同的时间、不同的场景、不同的表情。模型从变化中提取身份。

我们的 Flux LoRA 数据集准备指南 更深入地讲解了数据集这一面。这些原则同样适用于 NSFW 训练,只是要在合适的比例下加入露骨参考素材。

NSFW 打标策略

打标是对输出质量影响最大、同时也是大多数教程处理得最差的变量。你为训练图片写的标注,实实在在地告诉模型每张图片代表什么。不好的标注会产出不好的 LoRA,无论数据集质量如何。

我们为 NSFW Flux LoRA 制定的打标方法:

  1. 每条标注都以你的触发词开头。挑一个独特的、不会与 Flux 现有词汇冲突的词。我们用类似 "ohwx_woman" 或 "char_alex" 这样的组合,以避免与真实单词碰撞。

  2. 客观地描述图片中的内容。"ohwx_woman, brown hair, green eyes, sitting on bed, soft lighting, photoreal."。不要描述图片中没有的东西。不要描述你希望模型隐式学到的东西。

  3. 对于 NSFW 图片,要明确描述其中的 NSFW 元素。"ohwx_woman, lying on back, nude, anatomically detailed, soft skin texture, intimate composition."。在 NSFW 图片上用含糊的标注,会产出含糊的 LoRA NSFW 响应。

  4. 在整个数据集中变化标注。不要对每张图片都用完全相同的标注模板。这种变化教会模型,触发词代表那个一致的身份,而其余一切都在变化。

  5. 长度方面,每条标注以 15 到 30 个 token 为目标。太短的话模型没有足够的上下文。太长则会稀释触发词的信号。

像 BLIP-2 或 Florence-2 这样的自动打标工具可以用来打第一稿标注,但 NSFW 图片你需要手动编辑。这些自动打标器被训练成回避露骨用语,所以它们会用委婉语来描述 NSFW 图片,或者干脆省略露骨内容。NSFW 标注的手动编辑是必需的。

RunPod Pod 设置与模板

RunPod 是我们做训练的首选,因为 GPU 定价诚实、模板让设置变得很快。下面是实际的设置流程。

如果你还没注册,先在 RunPod 注册。添加付款方式。充值 $10 到 $20 的额度。你每次 LoRA 训练运行会花 $2 到 $5。

免费ComfyUI工作流

查找本文技术的免费开源ComfyUI工作流。 开源很强大。

100%免费 MIT许可证 可用于生产 星标并试用

挑一块 GPU。社区云上的 RTX 4090 是最佳选择,每小时约 $0.34 到 $0.44。带 24GB 显存的 RTX A5000 也能用,成本略低。RTX 3090 能用但更慢。Flux LoRA 训练不要考虑任何低于 24GB 显存的卡,模型太大了。

挑一个模板。在模板区搜索 "FluxGym"。社区构建的 FluxGym 模板已经预装了所有依赖。我们用的是由社区贡献者维护、能自动挂载工作区卷的那个。FluxGym GitHub 仓库 记录了底层的训练脚本,让你能验证 pod 上实际运行的是什么。

设置 pod 大小。30GB 工作区卷对训练来说绰绰有余。如果你想在同一个 pod 上保留多次训练运行,就用 50GB。Pod 创建需要 1 到 3 分钟。

pod 运行起来后用 SSH 或网页终端。打开 RunPod 提供的 JupyterLab 界面。FluxGym 的网页界面通常运行在 7860 端口,通过 RunPod 的 URL 路由做 HTTP 代理。pod 页面会显示这个 URL。

想了解 RunPod 更深入的操作细节,我们的 在 RunPod 上一跑就成的 ComfyUI Docker 设置 讲解了更广泛的 RunPod 模板生态,以及在社区模板不适合你工作流时如何构建自定义模板。

FluxGym 配置详解

FluxGym 为 Flux LoRA 训练提供了一个简洁的界面。默认值大体上是合理的,但 NSFW 用例需要几处具体的调整。

上传你的数据集。界面允许你拖放图片文件夹。标注应该放在与每张图片同名的对应 .txt 文件里。所以 "image_001.png" 配对 "image_001.txt"。FluxGym 会自动读取这些 txt 文件。

设置基础模型。用 Flux Dev 以获得最高质量的输出。Flux Schnell 训练更快,但产出的 LoRA 质量更低。对于输出质量比训练速度更重要的 NSFW 工作,应该选 Flux Dev。如果你时间或预算紧张,基于 Schnell 的训练能把训练时间大致砍掉一半。

分辨率。宽和高都设为 1024。不要低于 1024,质量下降很明显。也不要高于 1024,对大多数角色 LoRA 来说,显存和时间的代价不值得。

想跳过复杂性吗? Lewdly 无需技术设置即可立即为您提供专业的AI结果。

零设置 相同质量 30秒内开始 免费试用Lewdly
无需信用卡

批量大小。在 RTX 4090 上设为 1。更高的批量大小需要的显存超过了 4090 在 Flux LoRA 训练时所拥有的。一些 48GB 的卡能处理批量大小 2,但对 24GB 的卡来说,批量大小 1 才是能跑通的。

学习率。1e-4 对大多数 NSFW 角色 LoRA 来说是最佳点。更低(1e-5)训练更慢,且有模型学不全身份的风险。更高(1e-3)很快就会过拟合,产出一个过于激进的 LoRA。

网络维度。对角色 LoRA,我们的默认值是 network_dim 32 配 network_alpha 16。风格 LoRA 可以更高到 network_dim 64。NSFW 概念 LoRA 在 16 上就工作得很好。dim 控制 LoRA 的表征容量。越高越灵活,但文件越大。

训练步数。角色 NSFW LoRA 用 1500 到 2500 步。把 epoch 设为 "auto",让 FluxGym 自己计算。对于一个 20 张图片、每 epoch 100 步的数据集,那大约是 20 到 25 个 epoch。

每 N 步保存一次。设为 250 到 500。你会想要中间的检查点来测试训练的哪个阶段产出了最好的输出。有时第 1500 步是最佳点,有时第 2000 步胜出。

训练运行与监控

开始训练。FluxGym 实时显示进度。终端日志会显示损失值和步数计数器。初始损失通常在 0.4 到 0.5 左右,到训练结束时应该降到 0.1 到 0.15。如果损失居高不下(1000 步后仍高于 0.3),那说明数据集或标注出了问题。

在 RTX 4090 上以 1024 分辨率、批量大小 1 训练,大约耗时:

  • 1500 步约 2.5 小时
  • 2000 步约 3.3 小时
  • 2500 步约 4.1 小时

按 $0.34 每小时算,每次训练运行视步数而定为 $0.85 到 $1.40。加上 pod 设置时间,每个 LoRA 大约 $1 到 $2。通过数据集精修做多次迭代可能总共花 $5 到 $10。相比可比的服务你要付的费用,这仍然很便宜。

监控过拟合。如果训练过程中的样本图片开始反复呈现你某张参考图里的确切姿势,那就是过拟合了。停止训练,使用更早的检查点。角色 LoRA 上的过拟合表现为模型只在训练图片的确切构图中生成该角色。

创作者计划

创作内容每月赚取$1,250+

加入我们的独家创作者联盟计划。根据病毒视频表现获得报酬。以完全的创作自由按您的风格创作内容。

$100
300K+ views
$300
1M+ views
$500
5M+ views
每周支付
无前期费用
完全创作自由

每 250 到 500 步保存一次输出作为中间检查点。我们通常最后用的是训练中段的某个检查点,而不是最终那个。对角色 LoRA 来说,第 1750 步或第 2000 步往往胜过第 2500 步。

跨检查点测试 LoRA

LoRA 在训练结束时还没完成。它要在你已经验证过它能在实际会用到的检查点上工作时才算完成。至少在三个不同的 Flux 检查点上测试。

测试 1,Flux Dev 基础模型。LoRA 应该能在基础 Flux Dev 模型上干净地产出你的角色,因为那就是你训练所针对的对象。

测试 2,像 Chroma 这样的社区 Flux 微调模型。LoRA 应该仍然能产出一个可辨认的角色版本,可能会有些质量上的变化。

测试 3,叠加另一个 LoRA。把你的角色 LoRA 与一个解锁 LoRA 或解剖 LoRA 搭配。角色应该仍然可辨认,但比例或细节上可能会有轻微偏移。

我们发现,在实际使用中以 0.6 到 0.8 权重训练的 LoRA,能在角色保真度和提示词灵活性之间产出最好的平衡。在 1.0 权重下,LoRA 会主导一切,你会失去改变场景的能力。在 0.4 或更低时,角色开始漂移。

如果 LoRA 在这些测试中的任何一个里失败了,修复办法通常是改数据集,而不是改训练参数。增加 3 到 5 张针对失败情形的参考图。重新训练。再试一次。

想了解更广泛的 LoRA 训练背景,在 ComfyUI 中训练 Flux LoRA 指南 讲解了如果你偏好这个工作流而非 RunPod 的托管方式,如何在 ComfyUI 内部进行训练。原则相同,工具不同。

成本拆解与完成时间

来自我们最近 5 次在 RunPod 上 NSFW Flux LoRA 训练运行的真实数字:

  • LoRA 1,角色作品,20 张图片,1750 步,$2.10 GPU + $0.30 存储 = $2.40 总计
  • LoRA 2,角色作品,25 张图片,2000 步,$2.85 GPU + $0.35 存储 = $3.20 总计
  • LoRA 3,风格迁移,30 张图片,2500 步,$3.40 GPU + $0.40 存储 = $3.80 总计
  • LoRA 4,概念 LoRA,18 张图片,1500 步,$1.95 GPU + $0.30 存储 = $2.25 总计
  • LoRA 5,角色作品,22 张图片,1800 步,$2.55 GPU + $0.35 存储 = $2.90 总计

平均每个 LoRA 约 $2.91。时间方面,GPU 运行时长为 2 到 4 小时,但你不需要全程盯着。开始训练,结束时回来查看就行。对你来说真正的实际耗时是 30 到 60 分钟的数据集准备,加上 5 分钟测试结果。

对一个要构建 10 个角色 LoRA 的人来说,总成本约 $30。这远少于购买商业训练服务的访问权限,而且你完全拥有产出的 LoRA 文件。作为对比,我们的 DreamBooth 与 LoRA 训练对比 讲解了什么时候完整的 DreamBooth 比 LoRA 训练更有意义。对大多数 NSFW 角色作品来说,LoRA 在成本和灵活性上胜出。我们已经把用这种方式训练的 LoRA 投入到 lewdly.ai 中用于我们自己的角色,所以我们可以担保,从 RunPod 训练到生产部署的工作流是真实的,而不是理论上的。

如果你不想自己跑 RunPod 训练,像 lewdly.ai 这样的托管平台会把训练流程作为一项服务来处理。充分披露,我们参与了它的构建。好处是没有设置或技术管理。坏处是对训练参数的控制更少。对于产出许多角色 LoRA 的高产创作者,直接走 RunPod 路径更省钱。对于训练一两个 LoRA 的休闲用户,托管路线更简单。

常见问题

训练一个 Flux NSFW LoRA 我需要多少张图片?

15 到 30 张高质量、精挑细选的图片胜过 50 到 100 张平庸的图片。具体到角色 LoRA,15 到 20 张精选图片往往比更大的、有噪声的数据集产出更好的结果。

RunPod 上做 Flux LoRA 训练最便宜的 GPU 是哪个?

每小时约 $0.30 的 24GB RTX A5000 是最便宜的可行选项。每小时 $0.34 的 RTX 4090 稍贵一点,但训练更快,所以总成本最后大致相当。

我能在 16GB 显存的卡上训练 Flux LoRA 吗?

实际上不行。Flux LoRA 训练在 1024 分辨率、批量大小 1 下需要约 22 到 24GB 显存。你可以试试在 16GB 上做 512 分辨率训练,但输出质量会大幅下降。还是去 RunPod 上租一块 4090 吧。

训练要花多长时间?

在 RTX 4090 上以 1024 分辨率,1500 步约 2.5 小时。2000 步约 3.3 小时。2500 步约 4.1 小时。你的数据集大小通过每步时间对此略有影响,但主要变量是总步数。

我应该用什么学习率?

对 Flux Dev 上的大多数 NSFW 角色 LoRA 来说,1e-4 是安全的默认值。风格 LoRA 有时能从 5e-5 中受益。概念 LoRA 在 1e-4 到 2e-4 之间工作。除非你清楚自己在做什么,否则不要超过 5e-4。

我的 Flux LoRA 能在 SDXL 上用吗?

不能。Flux LoRA 和 SDXL LoRA 完全不兼容。架构不同、训练流程不同、文件结构不同。你需要为每个基础模型分别训练。

我能出售自己训练的 LoRA 吗?

如果你是在 Chroma(Apache 2.0 许可证)上训练,可以。对于 Flux Dev,许可证在衍生品的商业使用上更严格。如果你要商业化,请仔细阅读 Flux Dev 许可证

FluxGym 和 Kohya 是什么关系?

FluxGym 是围绕 Kohya 训练脚本的一个界面封装。Kohya 提供实际的训练逻辑。FluxGym 让它无需命令行操作就能使用。底层引擎和大多数其他 Flux 训练工具相同。

准备好创建你的AI网红了吗?

加入115名学生,在我们完整的51节课程中掌握ComfyUI和AI网红营销。

早鸟价结束倒计时:
--
:
--
小时
:
--
分钟
:
--
立即占位 - $199
节省$200 - 价格永久涨至$399