全球最大照片网站 Unsplash 开放图片检索数据集

news/2024/7/24 2:19:48 标签: 数据库, 人工智能, css, python, 区块链

By 超神经

内容概要:全球最大的照片网站 Unsplash 宣布平台已经开放了超过 20 万名摄影师的近 200 万张免费图片的,并开放了两个图片检索结果的数据集。

关键词:数据集 图片搜索 图像分类

Unsplash 是世界上最大的照片摄影网站之一,由全世界 20 多万摄影师参与,贡献了数百万张高清优质的摄影作品。

 照片下载站黑马:从 Tumblr 出圈

2013 年 5 月,Unsplash 刚刚诞生,还只是 Tumblr 上的一个小站,摄影师、网友们会将优质的摄影作品上传进来。

短短半年后, Unsplash 的图片下载量就达到了 1000 万次,也顺理成章地从 Tumblr 上分离了出来,推出了网站和搜索功能。

2015 年,Unsplash 的下载量达到 3000 万次,并首次推出了 API,Medium、Trello、Adobe 都是 Unsplash API 的客户。

近期,Unsplash 宣布平台已经有超过 20 万名摄影师的近 200 万张免费照片,并将数亿次搜索结果打包成两个图片检索结果数据集,将其开放。

 数十亿次检索信息,这个数据集不简单

Unsplash 本次开放的检索数据集,被官方定义为 World’s largest open library dataset (全球最大的开放检索信息数据集),包含了数十亿次照片搜索的信息和对应的照片信息。

数据集分为商用精简版和非商用版本

该数据集包含两个版本:

精简版数据集(下载链接为该版本):可用于商业和非商业使用场景。包含 2.5 万张自然主题的 Unsplash 照片的检索信息,共 2.5 万个关键词。

完整版数据集:仅限于非商业使用场景。包含 200 万张高质量 Unsplash 照片的检索信息,共 500 万个关键词。

本数据集为精简版数据集,压缩包 190M,解压后 550M ,包含四个单独的 TSV 文件,分别为:

TSV 文件可以在 PostgreSQL 数据库或 Pyhton 环境中加载

  • Collections : 82 MB

    包含 Unsplash 用户创建的照片收藏夹的信息:包括照片的ID(photo_id)、收藏夹的ID(collection_id)、收藏夹的标题(collection_title)和时间戳(photo_collected_at)等数据;

  • Conversions :  349 MB

    包含用户搜索后选择的图像信息:包括照片时间戳(convert_at)、关键词(keyword)、照片ID(photo_id)、脱敏后的用户ID(onymous_user_id) 和用户地理位置(conversion_country)等数据;

  • Keywords : 104 MB

    包含用户搜索的照片ID(photo_id)、搜索的关键字词(keyword)、关键字与图片的置信值(ai_service_1_confidence)等数据;

  • Photos : 6.5 MB

    在这个文件中,可没有照片哦,而是包含照片ID(photo_id)、url(photo_image_url)、摄影师信息(Photographer_username)、相机信息(exif_camera)、参数(exif_iso)、平台查看总次数(stats_views)、下载总次数(stats_downloads)、拍摄地地理坐标(ai_primary_landmark_name)

 怎么下载,怎么使用?

获取该数据集和文档可以访问:https://github.com/unsplash 了解更多使用方法,同时也可以结合 Unsplash 的开放 API,调用更多功能。

API:https://unsplash.com/developers

超神经 HyperAI 也将精简版数据集,在国内进行了做种加速。

访问 https://hyper.ai/datasets/13127 或点击原文阅读即可进行高速下载。


该数据集可以应用在搜索系统、推荐系统、图片分类等场景的优化上。

除此之外,Unsplash 开放 API 提供了官方的 Js、PHP、Ruby 三个库,同时社区开源了 Go、Python、Swift 等库。结合数据集,也可以进行更多的尝试。

—— 完 ——

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容(点击图片阅读)


http://www.niftyadmin.cn/n/1857371.html

相关文章

第一节 Redis 使用及哨兵集群 2022-1-2

Java组件总目录 Redis 使用及哨兵集群Java组件总目录一 Redis基本数据类型使用场景1 String2 List 存储列表结构3 Hash4 Set5 Zset二级目录三级目录二 Redis 的补充数据类型1 BitMap2 HyperLogLog3 Geospatial三 Redis 消息模式 (了解)3.1 队列模式注意事…

python基础类库_python基础知识---简单语法

1.if语句 a 10 b 20 if(a>b): print("a max!") else: print("b max!") b max! student "zhangxiaoyu" if (student "zhanxgiaoyu"): print("YES") else: print("NO") NO if (student ! "zhanxgiaoyu&…

豪赌 ARM 梦碎:63 岁孙正义的「花甲历险记」

By 超神经内容概要:近期关于软银卖 ARM 还债的消息被各大媒体争相报道,尤其在最近传出 NVIDIA 可能将以 400 亿英镑的价格收购 ARM,引发业界一片哗然。孙正义似乎流年不顺,一直在做赔本买卖,而且似乎在 2016 年就出现了…

Javascript+CSS实现影像卷帘效果

用过Arcgis的筒子们对于Arcmap里面的一个卷帘效果肯定记忆很深刻,想把它搬到自己的WebGIS系统中去,抱着同样的想法,我也对这种比较炫的卷帘效果做了一下研究,吼吼,出来了,给大家汇报一下成果,先…

第二节 Redis Cluster 集群与性能调优 2022-1-2

Java组件总目录 Redis Cluster 集群与性能调优Java组件总目录一 Redis-cluster 集群1.1 RedisCluster 集群创建1.2 工作原理节点说明1.3 Redis-cluster 投票:容错节点失效判断集群失效判断1.4 优缺点1.5 主从切换1.6 副本漂移1.7 扩展集群1 添加节点2 分配slot1.8 添加从节点1.…

YouTube 网红程序员,修复美、日、俄多国古老街景视频

By 超神经内容提要:油管上一位 Up 主,修复历史视频上了瘾。目前,他已经利用 AI 技术修复了百年前的纽约、东京等地的街头视频。继上次感受百年前老北京街景之后,让我们穿越到百年前的东京、纽约街头看看吧!关键词&…

paddlepaddle 使用GPU 计算,安装cuDNN 和 CUDA记录

paddlepaddle 使用GPU 计算,安装cuDNN 和 CUDA记录根据paddlepaddle 指导文档选择安装版本,早点选择10.2不用浪费半天。查看N卡版本信号 如果你使用的是安培架构的GPU,推荐使用CUDA11以上。如果你使用的是非安培架构的GPU,推荐使…

如何定义适配器adapter类_深入MyBatis源码,理解Java设计模式之适配器模式

什么是适配器模式定义:将一个系统的接口转换成另外一种形式,从而使原来不能直接调用的接口变得可以调用。适配器模式角色划分适配器模式涉及3个角色:1.源(Adaptee):需要被适配的对象或类型,相当于插头。2.适配器(Adapt…