“人类终极考试”基准测试发布:顶级AI系统表现惨淡,回答准确率均未超10%

“人类终极考试”基准测试发布:顶级AI系统表现惨淡,回答准确率均未超10%
1 月 24 日消息,非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。 据IT之家了解,该基准测试包含来自 50 个国家 / 地区 500 多个机构...
2025年01月24日,16时30分 科技新知 阅读 47 views 次

禽流感疫情引发严重“蛋荒”,美国鸡蛋价格再创新高

禽流感疫情引发严重“蛋荒”,美国鸡蛋价格再创新高
来源:华尔街见闻 Urner Barry最新批发数据显示,一打鸡蛋的价格已跃升至5.4美元的历史新高,超过了2022年12月创下的4.65美元的纪录。预计批发价格的持续上涨将进一步推高超市零售价格。 近期,美国再次遭遇严重的禽流感疫情,产蛋母鸡数大受冲击,导致鸡蛋价格飙升至历史新高,甚至远超几年前禽流感首次出现时的涨势。...
2025年01月24日,16时18分 国内动态 阅读 43 views 次

通过台积电看宁王:逃不掉的周期宿命

通过台积电看宁王:逃不掉的周期宿命
文 | 海豚投研 动力电池龙头宁德时代去年12月底,宣布要融资至少50亿美元去港交所挂牌。而海豚君上一次首次覆盖宁王还是2021年宁王接受众星捧月的礼遇的时候。 在经历了国内供给爆破、拉估值与杀估值之后,跌落神坛的宁王反而想起登陆港股。当然上市之心很好理解,碰壁海外市场,来港股是一个很好与国际资本交流的平台...
2025年01月24日,16时03分 科技新知 阅读 42 views 次

估值鸿沟待弥合,中资股能否逆袭?

估值鸿沟待弥合,中资股能否逆袭?
文 | 财华社 摩根大通(JPM.US)CEO、传奇银行家杰米·戴蒙(Jamie Dimon)近日在达沃斯论坛上提到,美股市场“有点夸张”,从席勒市盈率周期来看,刚上任的特朗普也继承了美国历史上最昂贵的股市。 根据《华尔街日报》的分析,特朗普第二次就职典礼当天,美股的席勒市盈率比赫伯特·克拉克&mid...
2025年01月24日,16时43分 科技新知 阅读 44 views 次

中国科学院院士褚君浩入驻抖音,为青少年科普光电知识

中国科学院院士褚君浩入驻抖音,为青少年科普光电知识
1月20日,中国科学院院士、著名红外物理学家、半导体物理和器件专家褚君浩正式入驻抖音平台,表示将通过短视频的形式,向大众及青少年科普光电科学。当日,褚院士连续发布了三条短视频,与网友分享了关于光电现象的趣味知识,引发热烈反响。 褚君浩院士是我国自主培养的第一位红外物理博士,长期从事红外光电子材料和器...
2025年01月24日,16时42分 国内动态 阅读 24 views 次

爆款预定,2025年“悬疑类”题材短剧或将迎来全面爆发

爆款预定,2025年“悬疑类”题材短剧或将迎来全面爆发
文 | DataEye 短剧题材百花齐放,大家都在同质化和内卷上各出奇招,试图找出一条差异化的道路。 根据笔者对于短剧行业的长期观察,奇怪地发现:有一类题材,在长剧、电影、网文等行业一直备受青睐、爆款频出,但是在短剧行业却踪迹难觅、门可罗雀。 这类题材就是——悬疑。 一、长短之间·差异巨大 根...
2025年01月24日,16时52分 科技新知 阅读 61 views 次

中国AI太强,Meta工程师自曝疯狂熬夜复制DeepSeek

中国AI太强,Meta工程师自曝疯狂熬夜复制DeepSeek
【导读】Meta员工在TeamBlind爆料,点燃了一把火。自诩开源先锋的Meta,直接被DeepSeek这家中国公司整得无地自容。不仅工程师争分夺秒复现模型,年薪超过DeepSeek训练成本的高管们,心底也有点虚。 今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 Deep...
2025年01月24日,16时06分 科技新知 阅读 59 views 次

从“网红”到“网黑”,哈尔滨的新年开局崩了?

从“网红”到“网黑”,哈尔滨的新年开局崩了?
文 | 显微故事,作者 | 楚樵,编辑 | 卓然 时隔一年,哈尔滨再次成为公众热议的焦点。 曾经全民追捧的“网红”大哥,突然变成游客吐槽不休的“网黑”小妹。 15块钱的冻梨、30块钱的糖葫芦、50块钱的烤肠,以及由几百元一晚飙升到几千元一晚的酒店,都是大家吐槽的对象。 社交媒体上,与“...
2025年01月24日,16时48分 科技新知 阅读 59 views 次

百川智能发布深度思考模型Baichuan-M1-preview

百川智能发布深度思考模型Baichuan-M1-preview
原标题:百川智能发布深度思考模型Baichuan-M1-preview,同时具备语言、视觉和搜索三大领域推理能力 IT之家 1 月 24 日消息,百川智能今日宣布推出全场景深度思考模型 Baichuan-M1-preview,聚齐三大核心推理能力。同时,百川智能还推出了行业首个开源医疗增强大模型 Baichuan-M1-14B。 据官方介绍,Baichuan-M1-previe...
2025年01月24日,16时42分 科技新知 阅读 52 views 次

强如Operator也怕验证码,1450元花得值吗?第一波实测来了

强如Operator也怕验证码,1450元花得值吗?第一波实测来了
要花1450元才能玩到Operator,让本来满满期待的大伙,一下难受住了。 而交了钱的各位,开始兴奋的晒出各种测试结果。 有网友分享,Operator通过浏览网页在3分钟之内帮打找到了附近牙医诊所,回报了地址和电话。 也有人让它作为研究助手,在arXiv上挨个打开每篇论文,看完后输出总结。 也有“坏人”专门出难题,看AI如何...
2025年01月24日,16时39分 科技新知 阅读 21 views 次

安卓第一家!三星Galaxy S25把电池制造日期标注出来了

安卓第一家!三星Galaxy S25把电池制造日期标注出来了
快科技1月24日消息,据报道,三星Galaxy S25系列是安卓第一家完整展示电池信息的旗舰机型。 在Galaxy S25、Galaxy S25+和Galaxy S25 Ultra上,用户打开设置,在电池信息中能清晰看到电池健康度(百分比)、电池循环次数、电池制造日期、电池首次使用日期等等。 目前行业内通常只显示电池健康度,三星是第一家展示电池制...
2025年01月24日,16时26分 科技新知 阅读 36 views 次


用户登录