cds 发布的文章

视频生成软件 RunwayML 评论


随着GPT3和Bloom(文本生成)、Peregrine和Speechactors(音频生成)、DALLE和Stable Diffusion(图像生成)及RunwayML(视频生成)等生成式ML模型的出现,内容创建和创意工作正在发生永远的变化。

runwayml-green-screen-video-editor-1024x385.jpg

RunwayML 是一款适用于所有视频创作者的综合视频编辑软件,允许用户使用机器学习功能编辑视频。


数据采集那些事


最早的网站数据采集形式可能是离线浏览器,通常可能叫Website Ripper、Website Downloader、Website Copier或者Website Grabber,给定一个站点链接,就可以下载有链接关系的所有页面和附件,并保持原始网站的相对链接结构。

HTTrack.jpg

抓取一个网站的所有内容既不厚道(未经许可制作镜像站点)、不现实(大多动态内容不能下载)也不实用(下载了许多对自己没有价值的内容),于是进化成为网页采集器。网页采集器使用正则表达式制定路径和过滤规则,轻松地批量获取目标内容的文章内容,却不带任何代码和样式,有利于制作看起来是自己原创的东西。


英伟达 GPU 技术会议(GTC 2022)


2022 年 3 月 21 日,英伟达(NVIDIA)首席执行官黄仁勋(Jensen Huang)以一场主题演讲拉开了 GTC 2022 的序幕,介绍了人工智能、数据科学、高性能计算、图形、边缘计算、网络和自主机器方面的最新突破。

4493257a-5af5-4cc9-aff3-12270d96ffb3.jpg

演讲在硬件、系统软件、平台软件和应用程序四个层面推出产品,包括下一代 GPU——Hopper H100 及元宇宙协作平台 NVIDIA OVX Omniverse,将成为机器人开发的核心;自动驾驶芯片 Orin 将正式投产销售,新一代自动驾驶平台 Hyperion 9 和自动驾驶芯片 Atlan 也在计划中。


人机交互技术简析


让计算机能听、能说、能看、能感觉,是未来人机交互(Human-computer interaction,HCI)的发展方向,其中语音已成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。目前,语音服务存在于各种场景中,包括实时会议记录、视频实时直播字幕、呼叫中心语音质检、实时会议记录等。

1_8r7kdCZMnso7XYk6V8Go7w.png


吴恩达、Joelle Pineau和Yoshua Bengio预见2022年人工智能趋势


AI商业评论】2021年AI技术变革的步伐加快,这一势能势不可挡,2022年将继续加速。IDC报告预测,2021年~2025年期间,全球人工智能年复合年增长率接近24.5%。从技术维度看,根据全球知名编程语言社区TIOBE指数,人工智能主编程语言Python在2021年可谓“轰轰烈烈”,它超过Java成为世界上最受欢迎的语言。全球知名数据科学平台Anaconda分析师表示,“Python将继续滑入我们的生活”。

ai.png

2022年,硬科技时代拉开帷幕,一起看看图领奖获得者Yoshua Bengio、前百度AI研究院院长吴恩达、Meta AI研究中心主任Joelle Pineau等专家们认为人工智能世界接下来会发生什么:


特斯拉展示DOJO D1芯片,旨在征服人工智能训练


从无数的初创公司,一直到亚马逊、百度、英特尔和英伟达等大公司,许多公司为 AI 工作负载构建专用集成电路(Application-specific integrated circuit,ASIC)。

Tesla DOJO D1 Chip

2021 年 8 月 19 日,特斯拉在 AI 日(Tesla AI Day,Youtube全程视频,那人从47分钟开始观看)上推出人工智能训练计算机 DOJO D1 芯片,D1 芯片是台积电在 7nm 半导体节点上打造的产品。该芯片包含超过 500 亿个晶体管,拥有 645mm^2 的巨大裸片尺寸。


浮点数的双精度、单精度和半精度


浮点数是计算机上最常用的数据类型之一,有些语言甚至数值只有浮点型(如Perl,Lua)。常用的浮点数有双精度、单精度和英伟达提出的半精度。双精度和单精度是为了计算,而半精度更多是为了降低数据传输和存储成本。

images.png

很多场景对于精度要求也没那么高,例如分布式深度学习里面,如果用半精度的话,比起单精度来可以节省一半传输成本。考虑到深度学习的模型可能会有几亿个参数,使用半精度传输还是非常有价值的。