字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露

字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露
就在今天,字节豆包大模型团队在 arxiv 上发布了一篇技术报告,完整公开了文生图模型技术细节,涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法,也详细披露了此前大火的文字精准渲染能力如何炼成。 报告将豆包文生图模型称为Seedream 2.0,并明确提到,该模型于去年 12 月初上线到豆包 APP 和即梦平台。...
2025年03月12日,14时59分 OpenAI 阅读 32 views 次

将哈密顿力学泛化到神经算子,何恺明团队又发新作,实现更高级物理推理

将哈密顿力学泛化到神经算子,何恺明团队又发新作,实现更高级物理推理
继上月末连发两篇论文(扩散模型不一定需要噪声条件和分形生成模型)之后,大神何恺明又出新作了!这次的主题是「用于物理推理的去噪哈密顿网络」。 物理推理包含推断、预测和解释动态系统行为的能力,这些是科学研究的基础。应对此类挑战的机器学习框架通常被期望超越仅仅记忆数据分布的做法,从而维护物理定律,解释能...
2025年03月12日,14时39分 OpenAI 阅读 28 views 次

GPT4规模大模型落地,Meta提ExFM框架:万亿参数基础大模型的工业级落地成为可能

GPT4规模大模型落地,Meta提ExFM框架:万亿参数基础大模型的工业级落地成为可能
如何让万亿级基础大模型能够高效、低成本地服务于大规模工业级应用,并且让能够随着模型规模的提升(Scaling)而得到持续的性能增长?这一直是众多企业困扰良久的难题。 在线广告推荐系统是互联网平台的核心服务之一,其模型性能直接影响用户体验与商业价值。近年来,随着 GPT-4、 DeepSeek、 Llama 等万亿参数基础模...
2025年03月12日,14时11分 OpenAI 阅读 46 views 次

AI现实动物森友会,NVIDIA携手国际组织助力野生动物保护

AI现实动物森友会,NVIDIA携手国际组织助力野生动物保护
编辑丨toileter 不久前,世界野生动植物之日方才过去。在如今世界各地对于野生环境的保护日益重视的发展现状中,利用 AI 来协助人们进行自然环境保护的举措理所当然地成为了更具影响的手段。 在联合国估计超过 100 万个物种面临灭绝威胁之际,这是一项维持生态系统和支持生物多样性的关键工作。 Ai2 的 EarthRanger 总...
2025年03月12日,13时57分 OpenAI 阅读 43 views 次

加速精准医疗,开源GNN实现分子精准建模,质谱识别准确率提升至49%

加速精准医疗,开源GNN实现分子精准建模,质谱识别准确率提升至49%
编辑丨& 非靶向代谢组学在推进精准医学和生物标志物发现方面前景广阔。由于谱图参比库的不完整,从串联质谱中鉴定化合物在当前仍是一项颇有挑战的任务。 为了应对这项挑战,德国联邦材料研究与测试研究所(BAM)与柏林自由大学的一支团队提出了 FIORA,这是一种旨在模拟串联质谱的开源图神经网络。利用键的分子邻域...
2025年03月12日,13时50分 OpenAI 阅读 38 views 次

OpenAI突然发布智能体API!支持网络和文件搜索以及computer use

OpenAI突然发布智能体API!支持网络和文件搜索以及computer use
「Agent/智能体」可说是当今 AI 领域最炙手可热的话题。今天凌晨,OpenAI 发布了一系列可让开发者通过 API 构建智能体的新工具,其中最大的看点便是 Responses API⁠,这是对之前的 Chat Completions API 的一轮大升级,使其获得了 Assistants API 般使用工具的能力,从而可以帮助开发者构建智能体。目前,Responses API⁠...
2025年03月12日,11时31分 OpenAI 阅读 54 views 次

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架
在 ChatGPT 爆火两年多的时间里,大语言模型的上下文窗口长度基准线被拉升,以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。 随之而来的是,长文本推理速度被提出更高要求,而基于现有 Transformer 架构的模型受限于注意力机制的二次方复杂度,难以在较短时延内处理超长文本请求。 针对这一...
2025年03月12日,11时40分 OpenAI 阅读 53 views 次

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集
目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。 为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清...
2025年03月12日,11时04分 OpenAI 阅读 51 views 次

一行代码、无需训练突破视频生成时长「魔咒」,清华朱军团队开源全新解决方案RIFLEx

一行代码、无需训练突破视频生成时长「魔咒」,清华朱军团队开源全新解决方案RIFLEx
自 OpenAI 发布 Sora 以来,视频生成领域迎来爆发式增长,AI 赋能内容创作的时代已然来临。 去年 4 月,生数科技联合清华大学基于团队提出的首个扩散 Transformer 融合架构 U-ViT,发布了首个国产全自研视频大模型 Vidu,打破国外技术垄断,支持一键生成 16 秒高清视频,展现出中国科技企业的创新实力。Vidu 自去年 7 ...
2025年03月12日,11时39分 OpenAI 阅读 45 views 次

揭示显式CoT训练机制:思维链如何增强推理泛化能力

揭示显式CoT训练机制:思维链如何增强推理泛化能力
基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。 例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。RFT/ReFT[2] 的一个关键组成部分...
2025年03月12日,11时04分 OpenAI 阅读 32 views 次

字节音效生成模型来了,一键生成大片感音效!已上线即梦

字节音效生成模型来了,一键生成大片感音效!已上线即梦
在 AIGC 持续突破视频生成边界的当下,音效制作仍是制约行业发展的瓶颈。字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方...
2025年03月11日,19时40分 OpenAI 阅读 35 views 次

李飞飞团队「具身智能」最新研究:机器人接手所有家务

李飞飞团队「具身智能」最新研究:机器人接手所有家务
李飞飞「具身智能」又出新研究了。 「机器人学习领域中的一个『圣杯』级挑战是执行通用的日常家庭移动操作任务。借助一款新型双臂移动机器人,我们的最新成果 ——BEHAVIOR Robot Suite(简称 BRS)正在尝试攻克这一极为困难且尚未解决的难题!」 在日常生活中,你有没有想过这样一个问题,即机器人究竟需要...
2025年03月11日,18时54分 OpenAI 阅读 48 views 次

Pepper之父又造了个AI外星娃,售价3万美金!比爱马仕实用多了

Pepper之父又造了个AI外星娃,售价3万美金!比爱马仕实用多了
编辑 | Sia 「盘腿」的机器人见过不少:履带、两轮、四轮、四条腿、两条腿...... 盘「脸+人设」的,还真是头回见。 它不仅连续两年成为 CES 消费电子展最受欢迎的 AI 机器人。 更让英伟达 CEO 黄仁勋在 Keynote 上留白数秒。 它叫 Mirokaï 。 严格说来,它们是 Mirokaï 族人——一个距离地球数...
2025年03月11日,18时26分 OpenAI 阅读 41 views 次

从「大模型」到「具身智能」,安克深耕前沿技术的另一面藏在这里

从「大模型」到「具身智能」,安克深耕前沿技术的另一面藏在这里
前段时间,幻方科技、DeepSeek 创始人梁文锋亲自挂名的一篇论文传遍了全球互联网。 论文地址:https://arxiv.org/pdf/2502.11089 从论文的署名信息来看,十五位作者分属三家机构,大部分来自 DeepSeek,也有几位是在读博士生、以实习生的身份参与研究:一位来自华盛顿大学,一作和另外两位作者来自国内的「北大 - 安克...
2025年03月11日,18时46分 OpenAI 阅读 28 views 次

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗? 近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。 下面我们就来具体看看他的博客文章,了解一番他的开发思路。 ...
2025年03月11日,18时06分 OpenAI 阅读 17 views 次

L²M条件,MIT团队为长文本建模建立新理论框架

L²M条件,MIT团队为长文本建模建立新理论框架
编辑 | ScienceAI 在追求更强大AI系统的道路上,大语言模型处理长上下文的能力始终是制约其发展的关键瓶颈。 尽管DeepSeek、GPT-4、LLaMA-3等顶尖模型已能处理数万token的文本,但学界对「模型究竟需要何种能力才能有效理解长文本」这一根本问题仍缺乏理论指导。 近日,麻省理工学院Zhuo Chen、Oriol Mayn ́e i Comas、...
2025年03月11日,18时21分 OpenAI 阅读 23 views 次

基于药效团与GPT从头生成分子,北大开发TransPharmer助力药物发现

基于药效团与GPT从头生成分子,北大开发TransPharmer助力药物发现
编辑 | 萝卜皮 深度生成模型推动了药物发现,但生成的化合物通常结构新颖性有限,限制了药物化学家的灵感。 为了解决这个问题,北京大学的研究人员开发了 TransPharmer,这是一种生成模型,它将基于配体的可解释药效团指纹与基于生成预训练 Transformer(GPT)的框架相结合,用于从头生成分子。 TransPharmer 在无条件...
2025年03月11日,18时53分 OpenAI 阅读 26 views 次

12万级标配激光雷达:零跑把高阶智驾做到了极致

12万级标配激光雷达:零跑把高阶智驾做到了极致
进入 2025 年,「智能化」成为了各家车企的主要竞争方向,不论是高阶智能驾驶还是 AI 智能座舱,都呈现出全面铺开、价格下调的趋势。 昨天,有智能电动车普惠者之称的零跑,又为行业立下了新的标杆。 3 月 10 日,零跑在杭州宣布旗下全新 B 系列首款全球化车型 —— 零跑 B10 正式开启预售, 预售价仅为 10...
2025年03月11日,18时09分 OpenAI 阅读 19 views 次

ICLR 2025 | 原生3D+流匹配,现有SOTA被GaussianAnything超越

ICLR 2025 | 原生3D+流匹配,现有SOTA被GaussianAnything超越
兰宇时,MMLab@NTU博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。 尽管 3D 内容生成技术取得了显著进展,现有方法仍在输入格式、潜空间设计和输出表示上面临挑战。 在 ICLR 2025 中,来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香...
2025年03月11日,18时37分 OpenAI 阅读 42 views 次

19.98-24.98万元,25款坦克300三擎齐发续写霸榜传奇

19.98-24.98万元,25款坦克300三擎齐发续写霸榜传奇
3月10日,2025款坦克300于珠海横琴文化艺术中心全动力焕新上市。2025款坦克300 Hi4-T建议零售价24.98万元,2025款坦克300柴油版零建议售价23.48万元,2025款坦克300挑战者建议零售价19.98万元,征服者建议零售价21.68万元。 三款动力版本,三种出行体验,尊享七重购车权益,凡是在5月6日24点前下定并于5月15日24点前提...
2025年03月11日,18时52分 OpenAI 阅读 21 views 次

国产编程语言的进击:MoonBit 发布 LLVM 后端,同步入驻世界一流高校课程体系

国产编程语言的进击:MoonBit 发布 LLVM 后端,同步入驻世界一流高校课程体系
在人工智能驱动全球技术竞赛的当下,国产基础软件的自主化进程正迈向深水区。作为这一进程中的代表性力量,MoonBit 月兔以 “快速、简单、可拓展” 为核心特质,逐步构建起跨越学术与产业的技术生态。自2022年诞生以来,MoonBit通过多后端架构设计,在编译速度、运行效率和代码体积等关键指标上实现对传统编程语言的超越,...
2025年03月11日,17时47分 OpenAI 阅读 42 views 次

“专为我开了一个新课题”,顶尖博士为什么偏爱去字节实习?

“专为我开了一个新课题”,顶尖博士为什么偏爱去字节实习?
在字节跳动,有这样一群实习生,他们的另一重身份,都是来自顶尖高校的技术博士。 实习第 100 天,团队为了清华博士云飞专门开了一个全新课题。北大博士瑞晨曾经不得已搁置的想法,也在这里实现了大规模验证。 在字节跳动的实习经历,几乎贯穿了北大博士天亮和中科院博士露阳的整个博士生涯。天亮从一个 “束手束脚...
2025年03月10日,18时38分 OpenAI 阅读 53 views 次

Manus被破解了?曝出系统提示词和背后大模型,CTO也回复了

Manus被破解了?曝出系统提示词和背后大模型,CTO也回复了
最近几天,一个叫「Manus」的通用 AI Agent 产品刷屏网络。 它能完成复杂的文件处理、数据分析、代码编写等多种任务。刚上线不久,大家纷纷在线求购邀请码,都想亲自上手一试这个突然火起来的智能体。 还在苦苦等待邀请码的小伙伴,可以转向开源复刻版本的体验了。例如,MetaGPT 团队开发的开源复刻版 OpenManus,完全...
2025年03月10日,18时36分 OpenAI 阅读 32 views 次

全新CoD颠覆推理范式,准确率接近但token消耗成倍降低

全新CoD颠覆推理范式,准确率接近但token消耗成倍降低
如今,OpenAI o1 和 DeepSeek R1 等推理模型的发展,显著提升了思维链 (CoT) 之类的技术在大语言模型 (LLM) 推理任务上的表现。这种范式鼓励模型将问题分解为逐步探索,模仿人类的结构化推理过程。虽然这种方法有效,但它在推理时需要更多的计算资源,导致输出冗长且延迟更高。 这种冗长与人类通常解决问题的方式形成...
2025年03月10日,18时32分 OpenAI 阅读 37 views 次


用户登录