给大语言模型开个眼,看图说话性能超CLIP,斯坦福等新方法无-看点
发布时间:2023-07-06 12:57:50
来源:互联网
(资料图)
不靠多模态数据,大语言模型也能看得懂图?!
话不多说,直接看效果。
就拿曾测试过 BLIP-2 的长城照片来说,它不仅可以识别出是长城,还能讲两句历史:
再来一个奇形怪状的房子,它也能准确识别出不正常,并且知道该如何进出:
故意把“Red”弄成紫色,“Green”涂成红色也干扰不了它:
这就是最近研究人员提出的一种新模块化框架 ——LENS
标签: