数据采集那些事


最早的网站数据采集形式可能是离线浏览器,通常可能叫Website Ripper、Website Downloader、Website Copier或者Website Grabber,给定一个站点链接,就可以下载有链接关系的所有页面和附件,并保持原始网站的相对链接结构。

HTTrack.jpg

抓取一个网站的所有内容既不厚道(未经许可制作镜像站点)、不现实(大多动态内容不能下载)也不实用(下载了许多对自己没有价值的内容),于是进化成为网页采集器。网页采集器使用正则表达式制定路径和过滤规则,轻松地批量获取目标内容的文章内容,却不带任何代码和样式,有利于制作看起来是自己原创的东西。

后来人们又对网络上的结构化数据产生了兴趣,比如想要收集电商网站的产品名称、图像、描述和价格,就有相应的服务出来了,叫数据采集器。Python 语言热度高涨,很大一部分原因是由于人们拿它来开发和运行网络爬虫。


人工智能如何获得数据集


在人工智能领域,数据集在训练、验证和测试人工智能模型时具有决定性作用,进而决定着人工智能究竟有多智能。人工智能需要有史以来最多的数据集。

现在,视频成为最繁荣的行业,生成影像的人工智能工具也竞相诞生,影像数据集是最庞大的分类。那么像DALL·E(OpenAI)、Imagen(Google)、Transframer(DeepMind)、Stable Diffusion(Stability.Ai)这些生成影像模型是如何获得数据集的呢?

以下以最新发布的 Stable Diffusion 为例。

Stability AI 的愿意是构建开放式 AI 工具,为唤醒人类潜能奠定基础,尊重创新而不是传统,不怕违反既定规范并探索创造力。

这种创新也体现在其获取图片数据集这件事情上。

我们知道,Stable Diffusion 开放了模型和应用平台,其实,它还开放了自己的数据集。


LAION-5B


Stable Diffusion 是根据 LAION 收集的三个大型数据集进行训练的。LAION是一家非营利组织,其计算时间主要由 Stable Diffusion 的所有者 Stability AI 提供资金。

LAION 收集了网络上所有具有 alt-text 属性的 HTML 图像标签,生成 58.5 亿个图像的数据集 LAION-5B。然后过滤掉低分辨率和可能带有水印的图像,对 LAION-5B 进行基于分辨率、主观视觉质量(审美)等标准的分类,主要有:

LAION5B High-Res:LAION5B 的一个子集,由超过 1024x1024 的高分辨率图像组成,包含 1.7 亿个样本。

LAION Aesthetics:LAION5B 的一个子集,由训练模型估计为仅包含美观的图像,主要是水彩风景和女性肖像。

image-24-1024x437.jpg

LAION-2B-EN:LAION5B 的一个子集,由 23 亿张 alt-text 属性为英文标注的低分辨率图像组成,Stable Diffusion 主要在 LAION-2B-EN 上进行训练。


分析LAION-5B


Simon WillisonAndy Baio 抓取了 LAION-2B-EN 中的 12,096,835 张图像数据,制作了一个数据浏览器,这部分图片占 LAION-2B-EN 的 0.5%。

laion-aesthetic.datasette.jpg

他们还分析了这些图片的特性。

来源

1、近一半的图片(约 47%)仅来自 100 个域,其中来自 Pinterest 的图片数量最多,总数据集的 8.5%。
2、用户生成的内容平台是图像数据的巨大来源,来自 wp.​​com 和 wordpress.com 共有 819k 张图片,占所有图片的 6.8%。
3、来自艺术印刷品和海报销售网站共有 698k 图像,占所有图片的 5.8%。
4、各种商业图库。

人物

艺术家

在数据集中排名前 25 位的艺术家中,只有三位仍然在世:Phil Koch、Erin Hanson 和 Steve Henderson。
数据集中出现频率最高的艺术家是 Thomas Kinkade。

名人

image-26.jpg

Donald Trump 是图像数据集中被引用次数最多的名字之一,紧随其后的是 Charlize Theron 。

虚构人物

Captain Marvel(4,993 张图片)、Black Panther(4,395 张)和Captain America(3,155 张)等来自 MCU 的角色是数据集中表现最好的角色。


英伟达 GPU 技术会议(GTC 2022)


2022 年 3 月 21 日,英伟达(NVIDIA)首席执行官黄仁勋(Jensen Huang)以一场主题演讲拉开了 GTC 2022 的序幕,介绍了人工智能、数据科学、高性能计算、图形、边缘计算、网络和自主机器方面的最新突破。

4493257a-5af5-4cc9-aff3-12270d96ffb3.jpg

演讲在硬件、系统软件、平台软件和应用程序四个层面推出产品,包括下一代 GPU——Hopper H100 及元宇宙协作平台 NVIDIA OVX Omniverse,将成为机器人开发的核心;自动驾驶芯片 Orin 将正式投产销售,新一代自动驾驶平台 Hyperion 9 和自动驾驶芯片 Atlan 也在计划中。


人机交互技术简析


让计算机能听、能说、能看、能感觉,是未来人机交互(Human-computer interaction,HCI)的发展方向,其中语音已成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。目前,语音服务存在于各种场景中,包括实时会议记录、视频实时直播字幕、呼叫中心语音质检、实时会议记录等。

1_8r7kdCZMnso7XYk6V8Go7w.png


吴恩达、Joelle Pineau和Yoshua Bengio预见2022年人工智能趋势


AI商业评论】2021年AI技术变革的步伐加快,这一势能势不可挡,2022年将继续加速。IDC报告预测,2021年~2025年期间,全球人工智能年复合年增长率接近24.5%。从技术维度看,根据全球知名编程语言社区TIOBE指数,人工智能主编程语言Python在2021年可谓“轰轰烈烈”,它超过Java成为世界上最受欢迎的语言。全球知名数据科学平台Anaconda分析师表示,“Python将继续滑入我们的生活”。

ai.png

2022年,硬科技时代拉开帷幕,一起看看图领奖获得者Yoshua Bengio、前百度AI研究院院长吴恩达、Meta AI研究中心主任Joelle Pineau等专家们认为人工智能世界接下来会发生什么:


特斯拉展示DOJO D1芯片,旨在征服人工智能训练


从无数的初创公司,一直到亚马逊、百度、英特尔和英伟达等大公司,许多公司为 AI 工作负载构建专用集成电路(Application-specific integrated circuit,ASIC)。

Tesla DOJO D1 Chip

2021 年 8 月 19 日,特斯拉在 AI 日(Tesla AI Day,Youtube全程视频,那人从47分钟开始观看)上推出人工智能训练计算机 DOJO D1 芯片,D1 芯片是台积电在 7nm 半导体节点上打造的产品。该芯片包含超过 500 亿个晶体管,拥有 645mm^2 的巨大裸片尺寸。