字节跳动发布豆包大模型1.6、图像编辑模型3.0、同声传译模型2.0
- 2025-07-31 12:26:41
- 444
IT之家7月30日消息,今天,在FORCELinkAI创新巡展・厦门站,字节跳动火山引擎发布豆包・图像编辑模型3.0、豆包・同声传译模型2.0,豆包大模型1.6系列全新升级,并宣布开源扣子核心能力,发布企业自有模型托管方案、ResponsesAPI等多个模型服务和工具产品。
IT之家从官方获悉,豆包・图像编辑模型SeedEdit3.0基于强大的文生图模型Seedream3.0,具备更强的指令遵循能力、图像保持能力和更强的图像生成质量;叠加多样化的数据融合方法与特定奖励模型,可支持1K以上高清图像的生成与处理。
用户只需通过自然语言指令,即可完成消除多余内容、改变光影效果、替换文字等操作。同时,豆包・图像编辑模型3.0具备对风格、结构与语义的精准控制力,能够像人类大脑一样理解指令、深度思考,解锁更多创新的修图场景,例如图像风格转换、变换材质、变化人物姿势、根据提示词进行推理等P图玩法。
官方介绍称,豆包・图像编辑模型3.0可广泛应用于影像创作、广告营销、游戏宣传等领域,企业用户可在火山方舟平台调用API,个人用户可使用即梦或豆包App进行体验。
不该动的地方,绝不动!
豆包・图像编辑模型3.0精准锁定头发区域换成短发,只修改毛衣区域颜色和纹理并添加项链。
调整人物姿态让其自然落座,背景、人物面部特征、其他细节毫发无损!
你的话,它听得懂、做得到!
豆包・图像编辑模型3.0只瞄准文字区域,字体、光影会自动匹配原图风格,智能填充周围纹理,画面完好如初!
P完还是那么美,那么清晰!
豆包・图像编辑模型3.0让黑夜秒变阳光明媚的白昼,光影自然过渡,建筑、树木细节清晰锐利,毫无涂抹感或分辨率下降。
会“脑补”,理解力MAX!
豆包・图像编辑模型3.0能理解“发酵”过程,生成体积膨大、充满气泡的发酵面团图。并且基于面团状态进行推理,在保持面团主体关联性的前提下,生成金黄酥脆、香气四溢的面包图。
旅游照片中路人太多?说句“去掉所有路人”,背景瞬间干干净净~
下载的图片有水印?下指令“消除文字”,无痕处理比橡皮擦还好用~
老照片想上色?线稿想变写实?一句话搞定,色彩均匀又自然。
想换光影氛围?发出指令“逆光+暖色调+金色光晕”,秒变电影质感。
想给照片或设计换个Style?“毛毡风”“水彩风”“卡通风”……一句指令就能切换,让你的创意无限延伸!
豆包・同声传译模型2.0正式发布:3秒极低延迟,0样本声音复刻
传统的翻译系统通常依赖于“级联模型”——多个模块相互串联,依次处理语音识别、翻译、声音复刻和语音合成等任务,翻译结果不够连贯、处理速度慢。
此次全新发布的豆包・同声传译模型Seed-LiveInterpret2.0,支持全双工语音理解和生成框架,将传统机器同传的语音延迟从8-10秒降低到2-3秒,实现文本与语音的同步生成;无需提前录制,一边说话一边采样,实现0样本声音复刻,让同一个人同音色开口说外语,带来更沉浸的体验。
豆包大模型1.6系列再升级:极速版延迟低至10ms
今年6月,豆包大模型1.6系列多个模型正式发布,为企业提供多样化选择。此次,极速版Doubao-Seed-1.6-flash模型在保持出色的视觉理解能力的同时,升级了代码、推理、数学等大语言模型能力。
Doubao-Seed-1.6-flash模型,非常适合智能巡检、手机助手、智能硬件等对模型效果、速度和成本都有要求的大规模商业化场景。该模型具有业界领先的极低延迟,TPOT仅10ms,并依然具备强大的视觉理解能力。
价格上,Doubao-Seed-1.6-flash在输入文本长度0-32k的区间中(企业使用量最大),每百万tokens输入仅需0.15元,输出仅1.5元。在真实的客户案例中,该模型帮助客户延迟下降60%,成本降低70%。
此外,火山引擎发布全模态向量化模型Seed1.6-Embedding,首次实现了“文本+图像+视频”混合模态的融合检索,帮助企业构建更强大的多模态知识库。在权威测评榜单中,该模型包揽了多模态全面任务、中文文本的SOTA成绩。
- 上一篇:为救女儿生下的儿子也患罕见遗传病
- 下一篇:美国加州街头变战场