AI 图像编辑领域再迎重磅突破,小红书自研的 FireRed-Image-Edit 基础模型正式亮相,一举拿下 ImgEdit、GEdit 等多个权威榜单的 SOTA 成绩,成为业界新一代标杆。这款模型在复杂指令理解、风格化转换、高精度文字编辑等核心能力上实现质的飞跃,更重要的是,其代码、技术报告与 Demo 网页已全面开源,模型权重也将在数日內上线,让普通用户也能轻松解锁专业级 P 图能力,这个春节彻底实现 “修图自由”。
硬核成绩单:多项指标登顶,人工评估胜率遥遥领先
FireRed-Image-Edit 的实力,体现在实打实的评测数据中。凭借更精准的自然语言理解能力、更强的图像主体 ID 保持度,以及经过深度优化的高效架构,该模型在主流图像编辑评测集和小红书自建的 RedEdit Bench 中均表现亮眼,各项核心指标全面超越 LongCat、FLUX.2、Qwen 等主流模型。
在人工评估环节,FireRed-Image-Edit 的胜出率达到 61.1%,大幅领先于同类竞品,成为用户体验层面的最优解。无论是简单的画面增删改,还是高难度的人像精修、低画质修复、文字精准替换,模型都能精准落地用户需求,真正做到 “指哪改哪”,打破了传统图像编辑模型 “理解偏差”“效果失真” 的痛点。
技术底层逻辑:全新评测标准 + 三阶段训练,打造全能编辑模型
FireRed-Image-Edit 之所以能成为 “六边形战士”,核心在于小红书 Super Intelligence Team 打造的全链路技术底座,从评测标准到数据构造,再到模型训练,每一环都做到了行业创新。
1. 重定义评测标准:RedEdit Bench 覆盖真实全场景
针对现有图像编辑评测集无法覆盖用户真实复杂需求的问题,团队推出了全新的深度评测方案 RedEdit Bench,包含 15 个子任务,不仅覆盖画面增删改、背景替换、颜色调整等常规操作,还前瞻性纳入人像美化、低画质增强、文字修改等高频实战场景,对模型的通用能力评估精度远超 ImgEdit 和 GEdit。该评测集后续也将开源,为社区建立新的评估标准。
2. 高效数据引擎:三条路径实现规模化高质量数据生产
模型的核心战力,源于一套 “快速、可控、精准” 的图像编辑数据生产引擎。团队将复杂编辑需求拆解为可组合子任务,通过指令控制的专家模型合成、结构化控制的专家模型合成(分割 / 关键点 / 深度等)、模型无关的模板化合成(3D / 布局 / 文字)三条路径,规模化产出高质量训练对。
针对长尾编辑任务样本稀缺的问题,引擎采用 “检查 — 补齐” 的定向补数流程,配合三层级去重、十余种质量清洗算子和严格的一致性校验,确保所有训练数据的指令遵循度、视觉自然度和内容一致性,从源头保证模型能力。
3. 三阶段训练体系:层层进阶,精准打磨核心能力
模型参考主流编辑框架,设计了科学的三阶段训练逻辑,实现能力的阶梯式提升:
-
预训练阶段:通过多条件感知桶采样平衡不同编辑任务,结合随机动态指令提升模型的指令泛化理解能力,前置 embedding 抽取大幅提升训练效率;
-
微调阶段:引入高质量标注数据,针对性优化模型表现,强化细节处理能力;
-
强化学习阶段:通过非对称梯度优化强化正样本反馈,创新提出基于 OCR 奖励的 diffusionNFT 策略,重点提升文字编辑的准确性,解决文字错位、变形、拼写错误等行业难题。
核心能力亮点:不止是修图,更是精准的 “图像创作助手”
FireRed-Image-Edit 对 “编辑” 的理解,早已超越简单的画面重绘,而是实现了对图像的精准可控创作,四大核心能力让其脱颖而出:
1. 指令遵循一致性:真正理解语义,拒绝 “死记硬背”
模型引入随机指令对齐机制,通过打乱、重组 prompt 让模型深度理解语义与图像的对应关系,而非机械匹配关键词。无论是修正图像中的数字、文字错误,还是完成复杂的组合式编辑需求,都能精准落地,彻底告别 “答非所问”。
2. 文字编辑天花板:Layout-Aware OCR-based Reward 精准控字
这是 FireRed-Image-Edit 的一大杀手锏。团队创新性提出 Layout-Aware OCR-based Reward 策略,在强化学习中不仅惩罚错别字,还对字符错位、大小异常、布局崩坏进行精准惩罚。让模型在海报文字替换、画面文字添加时,既能保证内容准确,又能完美匹配原始字体、风格和排版,实现 “无缝修改”。
3. 创意与多图生成:风格迁移 + 多图融合,解锁无限创作可能
依托强大的架构能力,模型支持创造力场景生成和多参考图融合,可轻松实现风格迁移、多元素组合创作。无论是将普通图片转化为震撼的游戏 CG 风格,还是融合多张参考图的元素完成定制化创作,甚至设计折叠卡、产品海报等创意内容,都能做到细节拉满、质感出众。
4. 画质修复全能手:一键搞定老照片 / 模糊图精修
针对用户高频的画质修复需求,模型将超分、去模糊、去噪、光影增强等底层视觉任务统一纳入指令微调范畴,实现 “一键修复”。模糊照片秒变高清、老照片上色修复、低光图像提亮增质,无需专业技巧,普通用户也能轻松做出影楼级修图效果。
全面开源 + 持续迭代,打造图像编辑生态基座
目前,FireRed-Image-Edit 的代码、技术报告、在线 Demo 已在 GitHub 和 Hugging Face 上线,用户可直接体验模型的强大能力,模型权重也将在未来几天正式开源。小红书表示,此次开源旨在为社区提供一个高效、可控、高质量的图像编辑基座,后续还将持续提升模型在人像美化、内容一致性、文字编辑上的能力,并在数月内开源更新版本和文生图基座模型,推动 AI 图像编辑技术的普惠与创新。
小红书 Super Intelligence Team 作为背后的技术支撑,是小红书面向通用智能的核心技术引擎,下设 Audio Lab、Vision Lab 等多个基础实验室,不仅在学术上发表 40 余篇顶会论文,还沉淀了 InstantID、FireRedTTS 等行业影响力成果,更将前沿技术落地为语音评论、满屏高清等站内爆款功能,实现了技术从实验室到产品的高效转化。
从专业开发者到普通用户,FireRed-Image-Edit 的开源让每个人都能拥有专业级的图像编辑能力,无论是春节修图、日常创作,还是商业设计,这款 SOTA 模型都将成为全新的效率利器,而其背后的技术创新,也将为 AI 图像编辑领域的发展提供全新思路。



