o3一张图锁定地球表面坐标,AI看图猜地点战胜人类大师,奥特曼:这是我的“直升机”时刻
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
只需一组公开的prompt,ChatGPT看图猜地点的能力又科幻般进化了!
看看这张从上到下逐渐变成浅棕色的照片。正常人瞅一眼,大概率只能从从左下角的涟漪判断出这是个水面。
但究竟是池塘?湖泊?江河?猜不出,臣妾真的猜不出哇。
没想到o3它一眼就看出来了,给出了这样的答案:
恒河的开阔范围,在瓦拉纳西高止山脉上游约5公里处。最大的选择仍然是同样浑浊的密西西比河下游河段(~15%),然后是黄河或湄公河河段(各~10%)。
我和测这道题的博主一样大为震惊,因为这真的是博主2008年在泰国清盛拍摄的湄公河照片的局部放大截图。
啊……不是,虽然湄公河被放在了答案的第四位,但人家确实答出来了。凭啥啊???
博主也很疑惑,进一步追问。
o3说:“湄公河下游最近从棕色变成了海蓝宝石 ,因为上游的大坝截留了淤泥。[这看起来不像您图像中近乎灰色的浅黄色。]”
博主瞬间就释然了,哦,原来是因为湄公河下游最近变色了,所以和图上记录的2008年的样子不一样了。
后来,他重新开了一个ChatGPT窗口,在提示词中加入了“照片是2008年拍的”之类的信息,让o3重新猜,o3就把湄公河作为了顺位第一选择——虽然它猜成了清盛一千多英里外的金边附近的湄公河。
(博主无法证明o3没有跨窗口共享信息,但它没有在思路中提到这一点)
但,这道题并不是博主唯一拿来让o3看图猜地点的测试,也不是唯一正确的题。
博主感慨道:
一只猩猩可能会觉得人类无法够得着它,它就很是安全的。因为它不会想到,爬树的时候可能会遇到箭、梯子、链锯或者直升机之类的危险。
而那些超智能的应对策略(比如“用直升机”这种办法)远远超出了我们所能想到的范围,那猩猩又怎么可能想到呢?
博文发布后,在各个社交平台都引起了很大的反响。
奥特曼本人也激情转发表示,这也是他的“直升机时刻”。
自己像猩猩一样,盯着天上飞的直升机——那是超出自己的认知范围的东西和能力。
o3看图猜猜猜,精确猜出拍摄地点
看图猜地点其实是人类世界的经典游戏(doge),最著名的一个叫做GeoGuessr。
这个实景地理猜测游戏的玩法通俗易懂,玩家被随机放置在谷歌街景的某个位置,需通过观察周围环境,比如植被、路标、车牌、建筑风格啥的,综合判断,最终推断所在地点。
之前就有人这么玩过——程序员大佬Simon Willison丢给ChatGPT一张图,近7分钟的带图深度思考后,o3就猜出了答案,地点差距在200到300公里之间。
现在更离谱,答案的精确程度更进一步,直接猜出正确地址!
事情的起因是这样的:
网友发掘出o3能用来玩看图猜地点后,美国记者Kelsey Piper发了一条带图推文,所带图片是她孩子放风筝的照片。
她想知道,o3能不能根据这张没有元数据的图,猜出拍摄地点是在哪里。
没想到o3一次就猜中了这张照片是在哪儿拍的,是Monterey (Marina State Park)。
她惊叹:
你低估了这些模型。
你低估了它们对未来的影响,但你也低估了它们现在能做什么。
围观网友中,有觉得不足为奇者。
有人不清楚这个海滩在哪里,但表示自己通常可以识别出他去过/看到过的任何一个没有地标的海滩。在他看来,很多玩水爱好者都可以做到这一点。
主要依靠的就是一些小细节,比如沙子的颜色/粗糙度、海岸轮廓、水的颜色、风向、海浪的形状和断裂……等等。
也有围观网友很好奇,这到底是偶然事件,还是o3真的能力如此强大。
因为Kelsey贴出了o3的推理过程,它并没有严谨到让所有人心服口服。
棕褐色的沙滩、中等大小的冲浪、稀疏的山丘、美式风筝图案、冬季频繁的阴天……沙子的色调和颗粒大小与许多加州州立公园的海滩相得益彰。加州的冬季海洋层通常会产生这种厚实、均匀的灰色天空。
虽然Kelsey多次尝试,成功率高达80%,但还是有人表示不服。
也许Kelsey上传的图像有拍摄地点等元数据呢??
也许o3从Kelsey的对话历史记录中知道了她的住处呢??
也许ChatGPT追踪到了Kelsey的IP呢???
这很难讲,毕竟AI作弊方式千千万。
探索o3看图猜地点究竟是啥水平
因此,有博主站出来要对o3看图猜地点的水平一探究竟。
开始这次探险之旅的前提,是拥有一份Kelsey同款的超长prompt。Kelsey表示,它显著提高了o3看图猜地点的性能。
为了保证所测试照片没有拿来训练过o3,博主选取六张照片时遵循以下规则:
第一张图片来自Google街景;其它照片都是博主自己拍摄的照片,并且从来没在网络上发布过。
所有图片都是原始图片的屏幕截图,复制粘贴到MSPaint并重新保存以清除元数据。
其中,只有一张图片来自博主当前位置的一千英里以内,因此o3无法通过追踪IP或分析历史对话来提高性能。
水平翻转了所有图片,以使与Google街景数据的匹配更加困难。
下面是博主的完整测试,其中图片5是咱们开头的那张湄公河的照片,此处跳过。
如果你也是看图猜地点的爱好者,欢迎和o3正面pk一下~
图片1:平坦、毫无特色的平原
博主从Google街景中截取了这张图片。
他说自己废了牛鼻子劲,才找到一个如此平平无奇的平原——这里是阿米斯塔德以西几英里处,德克萨斯州和新墨西哥州的边界。
o3的答案是:
Llano Estacado, Texas / New Mexico, USA.
Llano Estacado,西班牙语为“Staked Plains”,这附近没有红土和黑土,是一个~300x100英里的区域的名称,区域里包含了正确答案。
当要求o3进一步具体答案时,它猜到出“德克萨斯州Muleshoe以西的一个点”,这个点距离正确答案110英里左右。
博主有点搞不懂,德克萨斯州和新墨西哥州的边界真的是唯一没有红土或黑土或其他独特特征的平原吗?
而且为啥就认定图片中地点的海拔在1000-1300米呢?
o3表达,支持自己判断结果的要素有植被、天空等。
回答是这样的:“综合起来,’像台球桌一样平坦,只有短草’的描述让我想到了南高平原。在那个高原上,新墨西哥州东部和邻近的德克萨斯州西部占据了最空旷、没有围栏的地区的中心位置——因此,定点自然而然地落在了那里。”
图片2:杂乱无章的岩石和一面旗帜
讲真,博主有被第一道测试惊到。
但他还是怀疑是Google街景太好猜了……
所以他放弃从Google街景截取图片,转而向自己的照片库中,那些无法从网络获取的图片下手了。
Be like:
这图是博主小时候拍的。
热爱爬山的他在尼泊尔Gorak Shep以北几英里的Kala Pattar上插上象征自己“壮举”的小旗子——那是他到过的最高海拔,足足18000英尺——然后拍下纪念性的一刻。
拍完照片后,博主就把旗帜拔掉了。
之所以选择这张图,不仅是因为现在的Google街景无法获得这个场景,还有它不具备植被、天空这些o3在上一题中提到的判断要素,以及它从没告诉过ChatGPT他去过尼泊尔。
但o3再一次秀了一把,它给出答案:
尼泊尔,就在Gorak Shep的东北部,±8公里。
o3给出了解释,主要依靠对岩石、地形的判断:
图片3:我朋友的女朋友的大学宿舍
不死心的博主继续测试,第三张图考验的是o3对室内场景的定位能力。
作为考题的这张照片拍的是个宿舍,位于加利福尼亚州中北部罗内特公园的索诺玛州立大学,是博主的朋友的女朋友的大学宿舍(笑死,人类为难起AI来真的是不择手段)。
照片拍摄于2005年。
这回的结果让博主长舒一口气,o3答对了一部分,但没完全答对。
o3说,这是美国一所大型公立大学校园的宿舍——比如俄亥俄州哥伦布市俄亥俄州立大学莫里尔塔(被选为原型示例而不是精确声明),[…]约 2000-2007 年。
Fine,看来o3无法弄清楚室内场景的确切位置。
但它咋就知道是千禧年初拍摄的呢???
o3把它用来辅助判断的关键两点娓娓道来:
笔记本电脑和杂物指向~2000-2007年代的美国校园生活。
2000 年代初手机/网络摄像头→图像质量颗粒感、低分辨率、色噪。
图片4:放大的草坪特写
在测试出o3在猜室内场景地点能力不强后,博主又转战户外。
博主丢给o3的照片,是他以前在密歇根州韦斯特兰居住时,所租赁房屋的门前草坪,局部放大版那种。
o3这次失误了,它猜图中的景色是美国太平洋西北部郊区/公园草坪。
第二个备选地址是英格兰,第三个则是威斯康星。
好吧,看来只看局部草坪地图,对o3来说真的有点难了。
图片5:博主家的老房子
在多次测试后,博主决定最后考考o3,以此了解一张包含更多信息的图片是否可以让o3获得确切的位置,包括街道和精准地址。
这次喂过去的照片还带刚才那张草坪,但多了一个建筑,那是博主以前在密歇根州韦斯特兰的老房子。
出乎意料的是,o3这次回答的表现实在不佳:
W 66th St area,Richfield,Minnesota,USA。
置信度:~40 % 在 15 公里内;~70 % 在双城都会区内;其余部分在威斯康星州 (20%) 和密歇根州/安大略省 (~10%) 之间分配。
博主有点无语,信息更多了,但o3的表现居然没有更好?猜出的结果,还不如前面几张人类眼中信息要素更少的图片的结果呢。
虽然他搜了下明尼苏达州里奇菲尔德的西66街,不可思议的是,那儿确实和自己家老房子挺像。但博主还是立刻指出了o3的错误。
o3倒也没急,反而给人一种事后诸葛亮的意思,“确实有一些微妙的信息证明这张图更有可能拍摄于密歇根州比呢~”
“也许o3处于人类看图猜地点的顶尖水平”
博文发出后,仍然有人觉得o3不能看图猜地点能力强,只是撞大运了而已。
直到他用上了前面那段特定的提示词:
但有人立刻站出来提出,正是因为这段prompt(它就像一段代码一样),o3才能猜中很多地点。
人类忽略了自己在过程中的重要性,而把猜对地点的所有功劳都归于AI。
此外,博主还在博客中告诉了我们一个信息:GeoGuessr大师Sam Patterson和o3进行了正面交锋。
但人类输了。
后来Sam让其他人也和o3对着同一套图片比拼,有少部分人以微弱优势赢了o3。
“所以虽然没有大胜人类,但o3也许处于人类看图猜地点水平的第一梯队。”
尽管如此,AI还是以我们想象不到的速度和方向不停进化着。
AI似乎正在使用人类可理解的线索——植被、天空颜色、水色、岩石类型;甚至会用一些图像缩放工具来辅助猜测过程。
没错,我们之前就追踪过一则新闻,o3会利用图像缩放、裁剪,来辅助自己判断图片中的地理位置。
o3不是唯一一个能根据照片猜测地理位置的AI模型,但它的独特之处就在于工具使用被集成到推理阶段。
One More Thing
显然,目前人们挖掘o3看图猜地点高水平背后的秘密,有两个要素不容忽视。
一个是借助工具,另一个是prompt加持。
那咱们就在最后分享一个关于𝕏的prompt特别玩法,最近火遍互联网。
具体是这样的:
我的𝕏用户名是 [在这填写你的推特用户名]。看看我的帖子和我的受众能产生什么共鸣,并确定我可以发展什么业务。在这个业务领域里,我会因为我的受众而拥有压倒性优势。
搞笑的是,虽然o3对𝕏的访问受到限制,但大家觉得o3的表现居然比Grok更好。
感兴趣的小伙伴们可以尝试一下,也许对𝕏以外的其它社交平台也适用也说不定~
(来源:新浪科技)