AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入

AI 生图新突破!一个模型同时接受文本和图像输入。

新模型 FLUX.1 Kontext 使用流匹配架构(Flow Matching),不再是文本编码器和扩散模型各干各的,与此前技术都不同。

最来自之前很火的 Black Forest Labs,官方表示这一次能做到真正的上下文生成和编辑。

在编辑能力上,有人在著名的奥特曼尴尬照上 P 了一个小绿龙。

在生成能力上,有网友测试的猩猩打羽毛球细节也很丰富。

具体来说 FLUX.1 Kontext 有 4 个特性:

角色一致性:可跨场景保留元素

局部编辑:只针对特定部分而不影响其余部分

风格参考:以现有风格生成新场景

交互速度:以最小延迟进行迭代

这次提供两种模型,专业版 FLUX.1 Kontext [ pro ] 更适合快速迭代,可基于之前的编辑

最高配版 FLUX.1 Kontext [ max ] ,在遵循提示、文字排版和一致性有所提高。

同时推出官方试玩平台 Flux Playground,两种型号都可以选用

此外开放权重版 FLUX.1 Kontext [ dev ] 提供内测。

提示词技巧

第三方平台 Replicate 对 FLUX.1 Kontext 做了详细测试,结论是比 OpenAI 的 4o 效果更好,还更便宜,图像也不会偏黄。

测试报告中还针对不同功能给了提示词技巧。

图像编辑

当编辑人物时,无论改动大小,人物的身份特征都会保留。

对于风格迁移任务,也能保留人物的基本特征。

对于更复杂的更改,例如添加人物或更改背景,需要分几步描述每项修改,只要每次改动不太复杂就可以获得好的效果。

风格迁移

风格迁移任务至少具体到 " 印象派绘画 " 或 " 水彩素描 ",带上具体的流派艺术家效果更好,如 " 文艺复兴 " 或 "20 世纪 60 年代的波普艺术 "。

如果风格标签不够精准,那就描述一下关键特征,例如 " 清晰的笔触、厚重的颜料质感和丰富的色彩深度 "。如果想保留某些元素,也需要明确说明,如 " 保持原始构图 "。

总之,描述的越具体效果越好。

文本编辑

支持往图上新增文本、删除文本,甚至定位到已有文本修改。

处理文本时的一些技巧:

使用易读的字体,过于艺术化的字体表现不佳

明确说明要保留哪些内容。如果保留字体样式很重要,请务必提及

尽可能匹配编辑前后的文本长度。长度的大幅变化可能会改变布局

此外根据网友测试,FLUX.1 Kontext 还可以删除文本,如把电影海报上的字全去掉。

角色一致性

在连续编辑时,首先要明确人物,然后说明哪些方面发生了变化,无论是场景、活动还是风格。

如果想让同一个人物继续存在,需要说明哪些方面需要保留:面部、表情、服饰或其他任何重要方面。

在编辑背景和场景的同时保持角色的一致性需要详细描述,以保持人物处于相同的位置、比例或姿势。

简短的提示有时会留下太多模糊的地方,如 " 把他挪到沙滩上 ",就不如:

将背景换成海滩,同时保持人物位置不变,保持相同的主体位置、拍摄角度、取景和视角。只需替换人物周围的环境即可。

其他技巧

最后,Repilicate 还对使用 FLUX.1 Kontext 的提示词技巧做了一个总结:

使用清晰、详细的语言。准确命名颜色,精准描述视觉元素,并选择直接的动作动词。避免使用 " 使其更好 " 之类的模糊词语。

将复杂的编辑分解成更小的步骤。按顺序进行操作,更容易管理较大的变更。

明确哪些部分应该保留。使用 " 同时保持相同的面部特征 " 或 " 维持原始构图 " 等短语来保护关键元素。

使用描述性短语,例如 " 留着黑色短发的女人 " 或 " 红色汽车 "。避免使用代词。

编辑文本时使用引号,例如," 将‘ x ’替换为‘ y ’ "

明确控制构图 :编辑场景时,明确说明是否要保留摄像机角度或取景框等内容。

谨慎选择动词 :" 改造 " 之类的词语暗示着彻底的改造。如果想要更精准的控制,可以使用更具体的操作,例如 " 换衣服 " 或 " 替换背景 "。

One More Thing

最后再来看一下文生图领域的格局,在 AritificialAnalysis 的排行榜上,GPT-4o、字节的 Seedream 3.0 和 Recraft V3 排名前三。

Black Forest Labs 的上一代爆款产品 FLUX.1 已经相对靠后。

可以期待一下 FLUX.1 Kontex 的投票结果。

在线试玩

https://playground.bfl.ai/image/generate

参考链接:

[ 1 ] https://x.com/bfl_ml/status/1928143010811748863

[ 2 ] https://replicate.com/blog/flux-kontext

[ 3 ] https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

—  完  —

 量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。

也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!