梦筑建材有限公司

热点资讯

产品中心

你的位置:梦筑建材有限公司 > 产品中心 >

射精专区一区二区朝鲜 李飞飞又脱手了!开源了1亿张授权图片数据集,重塑视觉生成基准

发布日期:2026-06-07 10:42    点击次数:200

射精专区一区二区朝鲜 李飞飞又脱手了!开源了1亿张授权图片数据集,重塑视觉生成基准

  起首:DeepTech深科技射精专区一区二区朝鲜

  近日,好意思国斯坦福大学李飞飞、吴佳俊团队发布了一个图片数据集,名字叫作念 GPIC,该数据集包含了一亿张相片,总像素接近 28 万亿。每张图片皆配有介怀的翰墨描画,有的是一两个重要词,有的是五六句话的长段落。

  其最终点的方位在于扫数图片皆可免用度于营业和计议,无需顾忌版权问题。他们还提供了一个程序的测试才气,让不同公司的 AI 模子省略在相通的礼貌下比拼生图才气。

  GPIC 处置了 AI 生图界限的两个老浩劫问题:

  其一处置了版权问题,昔日大公司老到模子使用的图片好多身分不解以至于惹上讼事,而 GPIC 扫数图片的许可证皆清领略爽,商用充足没问题;

  其二处置了可重迭性问题,昔日好多数据集给到是图片一语气,时间深刻一语气就会失效,别东谈主没法复现实验着力。GPIC 把图片打包成为固定的 tar 文献然后存在 Hugging Face 上,任何时候下载皆是一样的。

  这意味着畴昔无论是手机里的修图软件、游戏里的场景生成器以至是电影殊效器具,皆能用上更机灵的 AI 生图模子。老到模子需要多数的图片,昔日的作念法是从网上到处扒图,关联词好多图片皆有版权,好多时候不敢缓慢用。

  https://arxiv.org/abs/2605.30341)

  关于使用图片的计议者来说,不同数据集的测试程序不一样,A 模子说我方得分很高,B 模子说我方是第一,根底无法自制相比。

  李飞飞等东谈主这次干脆我方从新搭建了一套系统,他们从 Flickr 和 Wikimedia 两个网站网罗了越过 1.1 亿张图片,只挑选那些明确允许商用的。网罗到的图片还弗成平直使用,有的图片分辨率太低污秽不清,有的近乎空缺,还有些图片的履行分歧适。

  为此,他们使用 Qwen3 VL 4B 模子作念自动筛选,把质地差和不安全的图片踢出去,苟简淘汰了百分之一。剩下的一亿张相片里,还有多数的重迭履行。关于一些连拍相片、已被转发传播的相片以及修改版相片,皆需要对其进行去重。

  https://arxiv.org/abs/2605.30341)

  他们使用一种名为 SSCD 的拷贝检测本领,给每一张图片皆生成一个唯独无二的特征码,关于那些相似渡过高的相片只保留其中一张。经过这套经由之后,最终留住了干净的相片。

  图片准备好了,接下来即是配上翰墨描画。关于合并种图片,不错有多种翰墨描画的方式。针对合并个画面,李飞飞等东谈主遐想了四种描画方式。

领先是标签式,即是为图片配置几个重要词,国产另类无码专区丝袜这种相比相宜快速检索。

其次是短描画式,即使用一两句话来轮廓主要履行,浮浅世界用户贯通。

再次是中描画式,即是用两三句话来移交细节和空间相关。

临了是长描画式,即是使用五到七句话把配景、物体位置和翰墨信息一起写显现。

  他们累计给一亿张相片配置了描画,短描画和中描画各占 45%,标签占 1%,长描画占 9%。濒临这么一个责任量宽广的描画责任,细目弗成使用手工来写。他们使用 Qwen3 VL 4B 模子来批量生成,处理一起图使用了苟简 500 张 H100 显卡,跑了一个多月。

  https://arxiv.org/abs/2605.30341)

  为了考据 AI 写的描画到底如何,他们立地抽取了 1,520 张图,用东谈主工方式重写一遍描画,随后拿着 AI 版块和东谈主工版块作对比。

  对比维度主要有五个,差别是:举座轮廓准不准、数目数得对不对、空间相关厘没厘清、步地材质等属性绑定是否正确、图片里的翰墨识别得准不准。

  着力炫夸 Qwen3 VL 4B 模子在速率和准确率之间得回了最佳的均衡,比更大的 Qwen3 VL 30B 模子并莫得慢太多,然则质地却异常接近。

  为了用好这个数据集,他们遐想了一套测试礼貌,把一亿张图片分红三块,大部分用来老到模子,20 万张用来调试参数,100 万张四肢测试基准。老到 AI 生图模子的时候,只可使用那 100 万张测试集里的 5 万条描画去生成图片,接着和 100 万张真确图片作念对比,看哪个模子生成得最像。

  用来相比的磋磨叫作念 FD DINOv2,它使用 DINOv2 这个视觉模子来索要图片的特征,然后再磋磨生成图和真确图之间的统计距离。

  https://arxiv.org/abs/2605.30341)

  他们还老到了一个参考模子四肢基准,使用的是 JiT 架构,这是一种平直在像素空间里作念流匹配的模子,参数为 1.1 亿,在 GPIC 老到了一个周期,用了苟简 40 个小时,8 张 H100 显卡。最佳着力的 FD DINOv2 得分为 76.25,这个分数不算高,不外从论文来看他们并不蓄意冲高分,仅仅给其后者立个标杆。有关论文的第一作家是李飞飞团队的博士生 Keshigeyan Chandrasegaran。

  关于 AI 生图来说,GPIC 好比为其提供了一册教科书,它不仅免费、灵通、程序斡旋,还附带老到大纲,一定进程上不错为 AI 公司提供一个不错自制相比的程序。

  参考贵府:

  有关论文 https://arxiv.org/abs/2605.30341

  https://keshik6.github.io/

  排版:胡巍巍

海量资讯、精确解读,尽在新浪财经APP

牵累裁剪:张恒星 射精专区一区二区朝鲜



Powered by 梦筑建材有限公司 @2013-2022 RSS地图 HTML地图