Stability AI 在 2024 年 10 月 22 日推出 Stable Diffusion 3.5,包含多个型号变体,包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo,以及稍晚发布的 Stable Diffusion 3.5 Medium。
这些模型的尺寸可高度定制,可在消费级硬件上运行,并且根据宽松的Stability AI 社区许可,可免费用于商业和非商业用途。
Stable Diffusion 3.5 的主要改进:
- 改进文字渲染:最显著的更新之一是更好地处理图像中的文字。这意味着,与以前的机型相比,涉及详细说明、标牌或任何其他形式文本内容的提示将显示得更准确。
- 增强图像质量:提高了整体图像质量。更复杂的细节、更好的色彩构成和更精致的纹理,都将带来更逼真、更美观的视觉效果。
- 安全机制:SD 3.5 更加强调人工智能的道德使用。稳定人工智能集成了新的安全机制,旨在防止生成有害或有偏见的内容,确保该工具在更广泛的使用情况下更加安全。
- 更详细的人类特征:该模型经过训练,可以创建更准确的人体特征,如面部表情和身体比例。这对于人像风格的提示尤其有利,生成的图像更加逼真,视觉效果更佳。
- 复杂场景中的一致性:SD 3.5 Large 更善于理解和维持复杂场景中的上下文。无论是创建多角色场景,还是生成相互关联的特定对象,该版本都能比以往更流畅地处理这些任务。
Google MusicFX
Google MusicFX是谷歌推出的一款免费的人工智能音乐生成工具,基于谷歌的MusicLM模型和DeepMind的水印技术SynthID,可以创作长达30秒的曲子和loop循环。
MusicFX 目前可通过谷歌的 AI Test Kitchen 平台访问使用,这个平台还提供ImageFX、VideoFX和MusicFX DJ等实验工具。谷歌与格莱美奖获奖歌手、词曲作者兼制作人Jacob Collier合作,推出了其最新的人工智能项目 MusicFX DJ。这是一款生成式音乐创作工具,可以混合乐器、流派甚至情绪的提示,以控制连续的现场音乐流的流动。
示例提示:
Rock melodic pop that is chill, slow tempo with a build at the end
Claude 3.5 Sonnet 推出新功能
Anthropic的Claude 3.5 Sonnet升级版推出一项突破性的新功能:操作电脑。开发人员可以通过 API 控制 Claude 以人类的方式使用计算机——查看屏幕、移动光标、单击按钮和输入文本。
这个功能可以用于自动化重复流程、构建和测试软件,以及开展开放式任务,例如研究。按照民间的脑洞,就是让CAPTCHA验证码相信自己是一个人类,或者往社区“灌水”。
NVIDIA Sana 文本转图像模型
NVIDIA开源了基础模型Sana,可在普通 PC 上即时创建 4K 图像,称比 Flux-dev 快 25 到 100 倍,质量相当。
Nvidia(以及来自麻省理工学院和清华大学)团队在Sana 的研究论文中写道:“Sana-0.6B 与现代巨型扩散模型(例如 Flux-12B)非常有竞争力,其体积比现代模型小 20 倍,而吞吐量却快 100 多倍。此外,Sana-0.6B 可以部署在 16GB 笔记本电脑 GPU 上,只需不到 1 秒即可生成 1024×1024 分辨率的图像。”
👍
楼主残忍的关闭了评论