AI重建“巴别塔”

2025年10月22日,18时37分57秒 科技新知 阅读 3 views 次

AI重建“巴别塔”

撰文 | 李信马

题图 | DoNews制图

《圣经·创世记》中记载,所有的人类曾经说同一种语言,他们计划合力建造一座通天巨塔,工程如火如荼之际,上帝耶和华降临察看,说:“看哪,他们成为一样的人民,都是一样的言语,如今既做起这事来,以后他们所要做的事就没有不成就的了。”

上帝让人类变得言语不通、彼此无法沟通,于是工程中止,人们四散各方,这座未完成的巨塔便被称作“巴别塔”。

故事是假的,但语言不同对人类造成的困扰是真的。就连美国总统卡特,1977年访问波兰时,因为翻译的水平不行,也曾闹了笑话,甚至影响了美国和波兰的外交关系。

《亮剑》中攻打平安县城的剧情,是全剧的高潮所在,被剧迷们戏称为第二次世界大战的转折点,不过,这场仗差点没打起来,原因在于我军虽然监听到了敌人通话,但“咱们的电报员日语是个二把刀,只能听个大概。他发现他们反复提到一个地名,但他不知道这代表了什么”,后来问了日本翻译,才知道这是平安县城。

从古至今,要解决语言不通这个大难题,基本就两个办法:一是你自己学,但费时费力,而且不一定学会;二是找个翻译,但昂贵又麻烦,还不一定翻译的对。

人工智能的发展,却在今天大大降低了我们听懂另一门语言的门槛,重建“巴别塔”这一故事中的不可能,成为了可能的未来。

01、一副耳机,跨国无障碍交流

不久前,在上海的世界会客厅,戴着一副AI翻译耳机的演讲者,远程连线了迪拜Gitex Global展会的现场。

AI重建“巴别塔”

DoNews拍摄

两人跨越大半个亚洲,隔着足够马可·波罗走上好几年的距离,操着不同的语言,却在流畅清晰地交流。

其中用到的机器,就是新一代讯飞AI翻译耳机。据了解,这款耳机支持:

  • 通话实时翻译,支持跨洲际对话与多任务并行;
  • 面对面翻译,可双人无按键互译,且支持18组语种对的离线使用;
  • 线上同传,具备双语转译与录音复盘功能;
  • 旁听同传,凭借5-8米定向拾音适配会场需求。

除此之外,它还能语音唤醒 “小飞” ,实现口语陪练、资讯查询等服务,还能生成专属语音播客。

这件事的重要性毋庸置疑,科大讯飞副总裁、消费者事业群常务副总裁赵翔在会后的采访中表示:“现在中国依然坚持对外开放,即便全球有一些地缘因素的不确定性,但国与国之间的交流其实是更紧密的。虽然局部地缘政策影响明显,但‘开放式人员交流深化’是大趋势。不管是中国还是全球,翻译市场其实一直在增长,核心原因就是 ‘交流反向促进需求’——翻译做得越好,人们越愿意深入交流,进而带动翻译需求进一步扩大。”

比起要堆人力的人工翻译,AI翻译显然更有想象力,意义也更大。比如科大讯飞发现,随着 “一带一路” 推进,中国企业出海越来越多,跨国商务沟通的需求激增:海外展会洽谈、工厂跨境协作,这些场景需要 “即时、准确、便携” 的翻译工具。这也推动科大讯飞针对性地开发了翻译机、翻译耳机,还做了会议室同传系统。

还有他们发现,企业在跨境沟通中,不仅需要语言翻译,还需要文化解读 —— 比如某些国家的商务礼仪、专业术语的本地化表达,所以在产品里加入了 “文化相关知识训练”,并提供轻量化的行业术语库。

科技的发展,让人类的幻想变成了现实,不过,这样的产品又是如何实现的呢?又为什么现在才出现?

02、AI翻译是怎样炼成的?

早在人工智能诞生之初,科学家们就尝试用AI来代替人做翻译。1954年,美国乔治敦大学与IBM合作完成英俄翻译实验,标志着机器翻译研究的正式启动,不过,早期的AI翻译主要依赖词典和语法规则生成翻译,质量只能说……惨不忍睹。

直到神经网络机器翻译(NMT)的出现,解决了长句翻译问题,才使AI翻译的质量大幅提升;大模型时代,生成式AI又让AI翻译的水平大幅提升,变得更加流畅自然,“机器味”显著减少。

今天,科大讯飞也自主研发了大模型,“如果只是在别人的开源模型上做微调,很难做到国际领先。因为我们的很多产品应用,需要大量场景化数据(在保护隐私的前提下)不断打磨,没有自主可控的模型底座,进度和效果都无法保证,也没法适配真实场景的需求。”

不过赵翔也表示,科大讯飞的AI翻译不是靠大模型这两三年 “一蹴而就” 的。“我们的优势来自20多年的技术积累,从底层的语音识别、语音合成,到中间的语音翻译算法,再到上层的语音平台,整个技术链条是自然衔接、持续迭代的。”

下面这张图可以看到,科大讯飞的语音同传在历经了十余年的发展后,终于达到了专业译员的水平,期间,讯飞从语音技术起家,形成了“语音识别 - 翻译 - 语音合成 - 端侧产品” 的完整技术链条。

据国际权威咨询机构 IDC最新发布的《中国 AI 翻译技术评估,2025》报告显示,科大讯飞在AI翻译速度、效果、专业度、拟人度、产品应用成熟度、商业化规模、研发投入及用户推荐度8大核心维度中排名第一,其中6项满分。

AI重建“巴别塔”

DoNews拍摄

值得一提的是,语音识别的准确率,成了当下制约语音翻译大规模应用的关键。科大讯飞的解决方案覆盖了全国202个地市级方言,并在小语种上,支持101个语种的识别、55个语种的合成。大模型的迁移学习能力在这方面帮了大忙,以往一个新语种的识别,可能需要上千乃至上万小时的标注数据,现在需要的资源量大幅减少。

最后,还要打磨对应的硬件,落地到具体的行业场景。比如,上文提到的耳机,其降噪技术就经历了十余年的研发,以做到在工厂、展会等嘈杂场景精准降噪;医疗、金融、法律等行业在翻译上存在高壁垒,科大讯飞的新模型也通过将专业词库扩充至10万+来攻克。

DoNews拍摄

不过,正如我们对自动驾驶的要求不仅仅是超过人类司机的平均水平,而是追求“0事故”,对AI翻译,我们也希望精益求精。赵翔表示,目前在方言、小语种的翻译准确率上,和中英这种大语种还有差距。未来,科大讯飞计划将持续打磨核心技术,投入大量资源做 “脏活累活”,比如覆盖更多小语种、方言的数据积累,在语音识别、多语种翻译的准确率上不断突破,并针对工厂跨境沟通、国际展会洽谈等具体场景做定制化开发,解决真实场景里的痛点。

在我们的有生之年,甚至更近,在不久后的未来,我们也许就能看到,地球上任何的两个人,都可以通过设备进行无障碍的沟通。神话时代建不成的“巴别塔”,终会在人类的科技时代矗立。

(来源:DoNews)



用户登录