大模型是否有自知之明?新研究发现LLM可以知晓自己的知识范围

-
论文标题:Do Large Language Models Know How Much They Know? -
论文地址:https://arxiv.org/pdf/2502.19573

-
生成训练文档;(这里采用了日记作者的日记文档设定) -
使用其预训练目标来微调语言模型,让其记住这些文档; -
测试语言模型回忆所有相关文档的能力。
-
仅解码器模型:OPT(7M 到 2.7B)和 OPT(7M 到 2.7B); -
编码器 - 解码器模型:Flan-T5(80M to 3B)。





-
当规模足够大时,模型回忆的文档通常长度正确且没有错误。 -
在简化设置下训练的模型成功地回忆起了单个训练文档中的信息。因此,关键似乎不在于回忆的文档的内容,而在于回忆的文档数量。 -
如果规模不合适,模型似乎无法回忆正确数量的文档,而是会回忆随机数量的文档。 -
最小的 Pythia 模型如果从随机权重而不是预训练权重开始进行微调,其性能会更好,这表明预训练权重的糟糕表现不能完全归因于架构原因。相反,问题部分在于预训练权重未能学习到一种可以泛化到回忆正确数量文档问题的解决方案,而不仅仅是记住训练样本。