摘要:

苹果近日发布了端侧大语言模型 ReALM,该模型可以显著提升 Siri 的智能程度,并且在多项测试中表现优于 OpenAI 的知名语言模型 GPT-4。ReALM 在理解用户查询、识别实体、语义理解等方面都取得了突破性进展,有望为用户带来更加自然和高效的人机交互体验。

引言:

在自然语言处理领域,指代消解(Coreference Resolution)是一项重要任务,旨在确定代词(如"他"、"她"、"它"等)或其他指示性词语(如"这个"、"那个"等)所指代的实体或对象。准确理解指代对于实现机器阅读理解和自然交互至关重要。在人与人之间的交流中,代词的使用通常能够被准确理解。然而,当我们与机器交互时,代词的理解往往会造成歧义,影响用户体验。例如,当我们问 Siri “它在哪里?”时,Siri 可能无法理解“它”指的是什么,从而导致错误的理解和回复。

近年来,大型语言模型 (LLM) 的发展为指代消解任务带来了新的机遇。LLM 可以通过学习大量文本数据,掌握语言的语义和规则,从而更好地理解代词的含义。然而,现有的 LLM 模型大多部署在服务器端,无法满足移动设备对实时性和低功耗的要求。此外,传统的图像识别模型通常使用真实世界的图片进行训练,而手机屏幕上的图像与真实世界的图片分布差异很大,并且,对于手机屏幕图像,很多信息在底层已经获得,如文本内容、元素位置等。因此,使用传统图像识别模型会造成信息冗余,降低识别效率。导致识别效果不佳。

ReALM 模型创新:

苹果的 ReALM 模型针对上述问题进行了创新性改进。首先,ReALM 采用端侧部署模式,可以有效降低功耗和延迟,提升响应速度。其次,ReALM 针对手机屏幕上的图像特点,设计了新的编码算法,可以有效提取图像中的关键信息,提升识别精度。

(1)在数据准备方面,苹果准备了三类专用数据:

会话数据:类似于人与人之间的对话。例如,你问朋友:"你知道这家餐厅的电话号码吗?" 朋友回答:"是123-4567。" 这段对话包含了两个实体:餐厅和电话号码。

合成数据:人工制造的数据。例如,使用模板生成一个餐厅列表,其中包含餐厅名称、地址、电话号码等信息。

屏幕数据:手机屏幕上的信息。例如,从网页上提取电话号码、电子邮件地址等信息。

(2)在模型选择方面,苹果使用了 FLAN-T5 模型:

没有进行大量的超参数搜索,而是采用默认的微调参数。这种简洁的方法不仅降低了计算成本,而且证明了 ReALM 的有效性。

ReALM 的优势:

更强的理解能力:ReALM 可以有效地理解用户查询并识别相关实体,包括对话中的实体、屏幕上的实体和背景实体。

更优的性能:在对话引用和屏幕引用方面,ReALM 的性能都优于现有的方法,包括非 LLM 模型和 GPT-3.5/GPT-4 等大型语言模型。

更广的泛化能力:在未见过的领域 (例如闹钟),ReALM 的性能略好于 GPT-4。

更强的领域适应能力:由于针对用户查询进行微调,ReALM 能够理解更多领域特定的问题,例如智能家居设备相关的查询。

更小的模型尺寸和更快的运行速度:尽管参数数量少得多,ReALM 的性能接近最先进的 LLM (GPT-4),并且运行速度更快。

ReALM 的应用前景:

ReALM 的发布标志着苹果在端侧大语言模型领域取得了重大突破,有望为 Siri 等智能助手带来质的提升。未来,ReALM 可以应用于更广泛的场景,例如:

·智能家居控制

·信息检索

·机器翻译

·文本生成

·人机交互

结语:

苹果 ReALM 的发布,为端侧大语言模型的发展开辟了新的道路。相信随着技术的不断进步,人机交互将会更加自然和高效,智能助手也将更加人性化,为用户带来更加便捷和智能的生活体验。

精彩内容

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。