深度求索(DeepSeek)是由中国对冲基金幻量化(High-Flyer)创立和支持的人工智能公司。2024年12月,该公司将其人工智能模型 DeepSeek-V3 版作为开源发布,声称该模型可与 OpenAI 和谷歌的模型相媲美,但训练成本仅为 560 万美元(尚不清楚具体包括哪些支出,但推测是该模型使用 2,048 个 NVIDIA H800 GPU 进行了约两个月预训练的 GPU 成本)。
DeepSeek在网页端、APP 和 API 全面上线,可以写代码、读文件、写作各种创意内容,该模型正受到越来越多的关注。在Vibe-Eval基准测试中是迄今为止排名最高的公开授权模型,也是目前最大的公开授权模型,比 Meta 公司最大的 Llama 系列模型 Llama 3.1 405B 还要大得多。
幻方量化是中国最大的量化基金之一,利用机器学习进行股票交易,现在管理着约 80 亿美元的资金。2021年,幻方量化投资了包含 10,000 多个Nvidia A100 GPU的超级计算机。幻方量化过去几年的回报率比股市基准高出20%-50%,但机器学习的择时能力不佳,并且在市场波动期间,模型会承担更高的风险,从而导致资产损失。糟糕的业绩和监管机构对量化投资的打击加剧了幻方量化的困境,直到似乎自然而然进入人工智能模型。
如果投资管理完全基于数学和统计方法来做出投资决策,则投资流程属于量化投资流程;如果投资决策基于基本面分析和人为判断,则该流程属于基本面投资流程。
人工智能生态系统正在形成三个层次:应用程序(Duolingo、Netflix、Tesla)、人工智能模型(Anthropic、Gemini、OpenAI)和基础设施(AWS、Google Cloud、Nvidia),其中有两家公司占据主导地位——OpenAI在过去六个月中将其年收入翻了一番,达到 34 亿美元。在过去 12 个月中,Nvidia 报告的收入为 960 亿美元,是其 2022 年总收入的 4 倍。
DeepSeek 使用不太先进的 Nvidia 芯片低成本地实现了 AI 能力的飞跃,这让硅谷芯片制造商的投资者感到恐慌,Nvidia 股价在一天内下跌了 17%,以及引发更多科技、经济和政治话题。相比此前所有的顶级玩家,幻方并不是一家高科技公司,数天前还几乎不为人知。
现在,我们对其充足的硬件储备和特殊的技术实现充满好奇。SemiAnalysis 汇编的供应链数据显示,DeepSeek 最终可能积累了约 50,000 块 Nvidia 芯片,包括 H800、H20 和被禁的 H100。OpenAI 表示正在调查 DeepSeek 是否使用其模型来训练其聊天机器人。
国务院总理李强2025年1月20日下午主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。DeepSeek创始人梁文锋受邀出席并发言(via CCTV)。
2025年1月20日,DeepSeek-R1 发布,性能对标 OpenAI o1 正式版。R1 可能代表着降低 AI 成本的转折点:专注于软件和模型改进,而不是不断追求昂贵的硬件计算能力。DeepSeek 以低廉的价格提供了强大的性能,但还没有具体的商业化计划。
更多相关请持续关注,目前Ben Thompson对此写的《DeepSeek 常见问题解答》是一篇不错的汇总。从技术角度来看,DeepSeek 挑战了人工智能产业在过去一段时间的核心信念,即认为更强大的硬件才是推动人工智能发展的关键。Project Syndicate《DeepSeek 为何重要?》一文则综合了学者在经济和地缘政治角度的更多观点。
👍
楼主残忍的关闭了评论