最早的网站数据采集形式可能是离线浏览器,通常可能叫Website Ripper、Website Downloader、Website Copier或者Website Grabber,给定一个站点链接,就可以下载有链接关系的所有页面和附件,并保持原始网站的相对链接结构。
抓取一个网站的所有内容既不厚道(未经许可制作镜像站点)、不现实(大多动态内容不能下载)也不实用(下载了许多对自己没有价值的内容),于是进化成为网页采集器。网页采集器使用正则表达式制定路径和过滤规则,轻松地批量获取目标内容的文章内容,却不带任何代码和样式,有利于制作看起来是自己原创的东西。
后来人们又对网络上的结构化数据产生了兴趣,比如想要收集电商网站的产品名称、图像、描述和价格,就有相应的服务出来了,叫数据采集器。Python 语言热度高涨,很大一部分原因是由于人们拿它来开发和运行网络爬虫。
人工智能如何获得数据集
在人工智能领域,数据集在训练、验证和测试人工智能模型时具有决定性作用,进而决定着人工智能究竟有多智能。人工智能需要有史以来最多的数据集。
现在,视频成为最繁荣的行业,生成影像的人工智能工具也竞相诞生,影像数据集是最庞大的分类。那么像DALL·E(OpenAI)、Imagen(Google)、Transframer(DeepMind)、Stable Diffusion(Stability.Ai)这些生成影像模型是如何获得数据集的呢?
以下以最新发布的 Stable Diffusion 为例。
Stability AI 的愿意是构建开放式 AI 工具,为唤醒人类潜能奠定基础,尊重创新而不是传统,不怕违反既定规范并探索创造力。
这种创新也体现在其获取图片数据集这件事情上。
我们知道,Stable Diffusion 开放了模型和应用平台,其实,它还开放了自己的数据集。
LAION-5B
Stable Diffusion 是根据 LAION 收集的三个大型数据集进行训练的。LAION是一家非营利组织,其计算时间主要由 Stable Diffusion 的所有者 Stability AI 提供资金。
LAION 收集了网络上所有具有 alt-text 属性的 HTML 图像标签,生成 58.5 亿个图像的数据集 LAION-5B。然后过滤掉低分辨率和可能带有水印的图像,对 LAION-5B 进行基于分辨率、主观视觉质量(审美)等标准的分类,主要有:
LAION5B High-Res:LAION5B 的一个子集,由超过 1024x1024 的高分辨率图像组成,包含 1.7 亿个样本。
LAION Aesthetics:LAION5B 的一个子集,由训练模型估计为仅包含美观的图像,主要是水彩风景和女性肖像。
LAION-2B-EN:LAION5B 的一个子集,由 23 亿张 alt-text 属性为英文标注的低分辨率图像组成,Stable Diffusion 主要在 LAION-2B-EN 上进行训练。
图像数据集是 AI 文本到图像生成器的核心,它依赖于它们提供用于解构和创建新图像的大量视觉材料。LAION 是世界上最大的免费 AI 训练数据集,驱动科技行业的 AI 军备竞赛进入超速时代,已用于文本到图像生成器,例如 Google 的 Imagen 和 Stable Diffusion。
LAION 等数据库中的许多图像和链接一直在网络上显而易见,在某些情况下已经存在了几十年。人工智能的繁荣才揭示了它的真正价值,因为数据集越大、越多样化,其中的图像质量越高,人工智能生成的图像就会越清晰、越精确。
LAION 是由德国汉堡Gymnasium Klosterschule中学的物理和计算机科学教师Christoph Schuhmann与一小群志愿者合作构建的。Bloomberg的文章《The Future of AI Relies on a High School Teacher’s Free Database》讲述了数据集及构建者的故事。
分析LAION-5B
Simon Willison 和 Andy Baio 抓取了 LAION-2B-EN 中的 12,096,835 张图像数据,制作了一个数据浏览器,这部分图片占 LAION-2B-EN 的 0.5%。
他们还分析了这些图片的特性。
来源
1、近一半的图片(约 47%)仅来自 100 个域,其中来自 Pinterest 的图片数量最多,总数据集的 8.5%。
2、用户生成的内容平台是图像数据的巨大来源,来自 wp.com 和 wordpress.com 共有 819k 张图片,占所有图片的 6.8%。
3、来自艺术印刷品和海报销售网站共有 698k 图像,占所有图片的 5.8%。
4、各种商业图库。
人物
艺术家
在数据集中排名前 25 位的艺术家中,只有三位仍然在世:Phil Koch、Erin Hanson 和 Steve Henderson。
数据集中出现频率最高的艺术家是 Thomas Kinkade。
名人
Donald Trump 是图像数据集中被引用次数最多的名字之一,紧随其后的是 Charlize Theron 。
虚构人物
Captain Marvel(4,993 张图片)、Black Panther(4,395 张)和Captain America(3,155 张)等来自 MCU 的角色是数据集中表现最好的角色。
👍
还不快抢沙发