microsoft 苹果发布 ReALM——端侧大语言模型再突破！显著提升 Siri 智能程度

jemmiexu 博客 2024-04-10 8 0

摘要：

苹果近日发布了端侧大语言模型 ReALM，该模型可以显著提升 Siri 的智能程度，并且在多项测试中表现优于 OpenAI 的知名语言模型 GPT-4。ReALM 在理解用户查询、识别实体、语义理解等方面都取得了突破性进展，有望为用户带来更加自然和高效的人机交互体验。

引言：

在自然语言处理领域，指代消解(Coreference Resolution)是一项重要任务，旨在确定代词(如"他"、"她"、"它"等)或其他指示性词语(如"这个"、"那个"等)所指代的实体或对象。准确理解指代对于实现机器阅读理解和自然交互至关重要。在人与人之间的交流中，代词的使用通常能够被准确理解。然而，当我们与机器交互时，代词的理解往往会造成歧义，影响用户体验。例如，当我们问 Siri “它在哪里？”时，Siri 可能无法理解“它”指的是什么，从而导致错误的理解和回复。

近年来，大型语言模型 (LLM) 的发展为指代消解任务带来了新的机遇。LLM 可以通过学习大量文本数据，掌握语言的语义和规则，从而更好地理解代词的含义。然而，现有的 LLM 模型大多部署在服务器端，无法满足移动设备对实时性和低功耗的要求。此外，传统的图像识别模型通常使用真实世界的图片进行训练，而手机屏幕上的图像与真实世界的图片分布差异很大，并且，对于手机屏幕图像,很多信息在底层已经获得，如文本内容、元素位置等。因此，使用传统图像识别模型会造成信息冗余，降低识别效率。导致识别效果不佳。

ReALM 模型创新：

苹果的 ReALM 模型针对上述问题进行了创新性改进。首先，ReALM 采用端侧部署模式，可以有效降低功耗和延迟，提升响应速度。其次，ReALM 针对手机屏幕上的图像特点，设计了新的编码算法，可以有效提取图像中的关键信息，提升识别精度。

（1）在数据准备方面,苹果准备了三类专用数据:

会话数据：类似于人与人之间的对话。例如，你问朋友："你知道这家餐厅的电话号码吗?" 朋友回答："是123-4567。" 这段对话包含了两个实体：餐厅和电话号码。

合成数据：人工制造的数据。例如，使用模板生成一个餐厅列表，其中包含餐厅名称、地址、电话号码等信息。

屏幕数据：手机屏幕上的信息。例如，从网页上提取电话号码、电子邮件地址等信息。

（2）在模型选择方面，苹果使用了 FLAN-T5 模型：

没有进行大量的超参数搜索，而是采用默认的微调参数。这种简洁的方法不仅降低了计算成本，而且证明了 ReALM 的有效性。

ReALM 的优势：

更强的理解能力：ReALM 可以有效地理解用户查询并识别相关实体，包括对话中的实体、屏幕上的实体和背景实体。

更优的性能：在对话引用和屏幕引用方面，ReALM 的性能都优于现有的方法，包括非 LLM 模型和 GPT-3.5/GPT-4 等大型语言模型。

更广的泛化能力：在未见过的领域 (例如闹钟)，ReALM 的性能略好于 GPT-4。

更强的领域适应能力：由于针对用户查询进行微调，ReALM 能够理解更多领域特定的问题，例如智能家居设备相关的查询。

更小的模型尺寸和更快的运行速度：尽管参数数量少得多，ReALM 的性能接近最先进的 LLM (GPT-4)，并且运行速度更快。

ReALM 的应用前景：

ReALM 的发布标志着苹果在端侧大语言模型领域取得了重大突破，有望为 Siri 等智能助手带来质的提升。未来，ReALM 可以应用于更广泛的场景，例如：

·智能家居控制

·信息检索

·机器翻译

·文本生成

·人机交互

结语:

苹果 ReALM 的发布，为端侧大语言模型的发展开辟了新的道路。相信随着技术的不断进步，人机交互将会更加自然和高效，智能助手也将更加人性化，为用户带来更加便捷和智能的生活体验。

精彩内容

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-04-10 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713728177.html

夸智网

microsoft 苹果发布 ReALM——端侧大语言模型再突破！显著提升 Siri 智能程度

AI机器人科幻绘画小学，机器人科幻画一等奖作品大全

数据湖概述：大数据演进阶段-数据湖

发表评论取消回复

夸智网

microsoft 苹果发布 ReALM——端侧大语言模型再突破！显著提升 Siri 智能程度

AI机器人科幻绘画小学，机器人科幻画一等奖作品大全

数据湖概述：大数据演进阶段-数据湖

相关文章

发表评论取消回复