AI特刊：Stable Diffusion 3.5 发布

Stability AI 在 2024 年 10 月 22 日推出 Stable Diffusion 3.5，包含多个型号变体，包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo，以及稍晚发布的 Stable Diffusion 3.5 Medium。

这些模型的尺寸可高度定制，可在消费级硬件上运行，并且根据宽松的Stability AI 社区许可，可免费用于商业和非商业用途。

Stable Diffusion 3.5 的主要改进：

改进文字渲染：最显著的更新之一是更好地处理图像中的文字。这意味着，与以前的机型相比，涉及详细说明、标牌或任何其他形式文本内容的提示将显示得更准确。
增强图像质量：提高了整体图像质量。更复杂的细节、更好的色彩构成和更精致的纹理，都将带来更逼真、更美观的视觉效果。
安全机制：SD 3.5 更加强调人工智能的道德使用。稳定人工智能集成了新的安全机制，旨在防止生成有害或有偏见的内容，确保该工具在更广泛的使用情况下更加安全。
更详细的人类特征：该模型经过训练，可以创建更准确的人体特征，如面部表情和身体比例。这对于人像风格的提示尤其有利，生成的图像更加逼真，视觉效果更佳。
复杂场景中的一致性：SD 3.5 Large 更善于理解和维持复杂场景中的上下文。无论是创建多角色场景，还是生成相互关联的特定对象，该版本都能比以往更流畅地处理这些任务。

Google MusicFX

Google MusicFX是谷歌推出的一款免费的人工智能音乐生成工具，基于谷歌的MusicLM模型和DeepMind的水印技术SynthID，可以创作长达30秒的曲子和loop循环。

MusicFX

MusicFX 目前可通过谷歌的 AI Test Kitchen 平台访问使用，这个平台还提供ImageFX、VideoFX和MusicFX DJ等实验工具。谷歌与格莱美奖获奖歌手、词曲作者兼制作人Jacob Collier合作，推出了其最新的人工智能项目 MusicFX DJ。这是一款生成式音乐创作工具，可以混合乐器、流派甚至情绪的提示，以控制连续的现场音乐流的流动。

示例提示：

Rock melodic pop that is chill, slow tempo with a build at the end

Claude 3.5 Sonnet 推出新功能

Anthropic的Claude 3.5 Sonnet升级版推出一项突破性的新功能：操作电脑。开发人员可以通过 API 控制 Claude 以人类的方式使用计算机——查看屏幕、移动光标、单击按钮和输入文本。

这个功能可以用于自动化重复流程、构建和测试软件，以及开展开放式任务，例如研究。按照民间的脑洞，就是让CAPTCHA验证码相信自己是一个人类，或者往社区“灌水”。

NVIDIA Sana 文本转图像模型

NVIDIA开源了基础模型Sana，可在普通 PC 上即时创建 4K 图像，称比 Flux-dev 快 25 到 100 倍，质量相当。

Nvidia（以及来自麻省理工学院和清华大学）团队在Sana 的研究论文中写道：“Sana-0.6B 与现代巨型扩散模型（例如 Flux-12B）非常有竞争力，其体积比现代模型小 20 倍，而吞吐量却快 100 多倍。此外，Sana-0.6B 可以部署在 16GB 笔记本电脑 GPU 上，只需不到 1 秒即可生成 1024×1024 分辨率的图像。”

👍

酷玛DS

酷玛DS