探讨驱动型人工智能的可用性挑战及潜在解决方案

GenAI 代表了用户界面设计的新范式，以及从主导过去 50 年计算的基于命令的交互模型和图形用户界面的根本转变。

奇怪的是，几乎在一夜之间，点击和滚动就成为了与机器交互的主要方式。

然而，虽然ChatGPT、Google 的Bard、Midjourney和Dall-E 2等 GenAI 工具已成为人类与机器之间更多对话和自然交互的催化剂，但它们绝不是最终状态。

今天，我们有幸见证这些工具在“尴尬的青春期”中的演变，因为它们遇到了一系列影响采用和规模的挑战——从没有令人信服的价值主张的用例到数据和隐私问题、幻觉、有限的可追溯性和输出的可重复性。

风险投资公司红杉资本的研究突显了人工智能优先公司在解决参与度和保留率下降问题时相对于科技巨头所面临的挑战。领先的消费类应用的日均活跃用户率为 63%，月均留存率为 51%。相比之下，人工智能优先的公司则落后了，其用户的日活跃率仅为 14%，月留存率为 42%。

解决这一挑战很复杂，需要产品团队突破炒作，在整个开发过程中回归基础。为了实现这一目标，需要从技术转向以用户为主导的思维，推动开始解决物质问题和潜在需求（而不是认为一切都可以通过人工智能副驾驶解决的观点）和激光聚焦在用户体验上打破聊天界面的限制并快速提高可用性。

AI的可用性问题

在产品设计中，可用性与五个主要属性相关——易学性、效率、可记忆性、错误和满意度。迄今为止，针对提示驱动人工智能的公开可用性研究还很有限。然而，由于一系列因素，包括有限的用例、高错误率、与其他应用程序的集成不佳或上下文信息的基本使用（例如，当前位置、联系人或过去经常去的位置）。

当涉及到复杂的查询时，虚拟助手就会陷入困境。Alexa 的准确率为 55%，而 Google Assistant 在复杂查询方面的准确率为 70%。

越来越多的在线用户分享（非常有趣）虚拟助手如何在最简单的任务上失败并逐渐变得越来越愚蠢的例子也证明了这一趋势。

虽然大型语言模型智能正在通过预先训练的知识和更好的自然语言理解来改善我们的人工智能交互，但对用户需要如何与这些系统交互的非技术方面，特别是他们提出的新要求的考虑有限。用户通过提示。

提示差距

如今的生成式人工智能工具依赖于意图的规范，用户只需要告诉机器他们想要实现什么，而不是实现目标的步骤。

在意图存在的假设下，这非常有效——然而，现实是用户通常不知道他们在寻找什么。

用户不仅需要有与系统交互的意图——他们还需要能够阐明它通过提示。这代表了行为模式的重大转变——当今图形界面 95% 的典型体验可能是阅读和参与视觉提示，5% 是写作和参与搜索。在基于文本提示驱动的人工智能世界中，这个数字可能更接近 50% 的视觉和 50% 的书写。

我相信，随着技术的扩展，这将带来关键的可用性挑战，因为写作比阅读困难得多。简而言之，它需要思考，需要清晰地表达概念、词汇和语法正确的句子——在一个人们希望尽量减少认知努力但往往不想思考的世界里。

这就引出了一个问题——与图形界面相比，提示驱动的人工智能是否能为识字率较低的用户带来更好的结果？我们可以部署哪些机制来帮助这些用户高级利用提示驱动的人工智能功能？风险在于，工具是为文化程度高的人打造的，而发达国家一半以上的成年人口拥有 9 至 12 岁儿童的阅读和写作能力。

通过提示市场和在线提示课程的出现，我们可以看到未来挑战的一瞥，这些课程可以调节用户使用这些工具的体验，并利用知识和素养差距。

考虑到这一点，提示驱动型人工智能需要如何发展才能提高可用性？需要加速三个关键转变，以确保用户不被抛在后面。

多模式接口
混合图形和提示驱动界面
生成接口

转变 1：多式联运

毫不奇怪，提示驱动的人工智能正在不断发展，允许用户以多种方式输入和输出。OpenAI 最近宣布ChatGPT推出语音聊天功能，并且能够通过上传图像进行提示，类似于 Google Lens。这使用户能够拍摄照片并将其注入提示中，以更好地理解意图和上下文响应。

OpenAI 最近与 Spotify 的合作以及将播客翻译成其他语言同时保留播客声音的功能测试也证明了这种转变。

将来，毫无疑问，这些功能将扩展到其他模式，例如视频和手势（例如手语、面部表情和肢体语言），以更好地理解意图、上下文并提供更个性化的体验。

转变 2：混合接口

我们可能会越来越多地看到越来越多的图形元素被引入到提示驱动的界面中，而不再是默认的聊天框。

这与 Google 搜索的发展有很强的相似之处，Google 搜索从纯文本和列表转向更复杂的用户界面，包括通用搜索选项卡（2007 年）、搜索建议（2008 年）、知识面板和轮播（2012 年）以及可扩展的“人员”还询问’清单（2015）。这些交互元素的持续开发使谷歌能够弥合人机差距，通过使用户更快地完成任务来提高可用性和搜索体验。

GrammarlyGo最近通过其 Generative AI Co-pilot 引入了一系列图形和交互元素，这让我们可以一睹未来的发展方向。这些涵盖了一系列用例，从生成提示想法（例如“写一个故事”）、快捷方式（例如“缩短它”）到通过表情符号选择语气，使声音听起来更友好、更专业或更令人兴奋。

转变 3：生成界面

除了混合界面之外，我们还将开始看到基于用户提示的上下文生成元素的注入。虽然这个领域才刚刚兴起，但Perplexity 最近推出的 co-pilot 就是一个很好的例子，它利用 OpenAI 的 GPT-4 模型根据用户提示收集交互式输入。

这与纯混合界面不同，因为它允许用户通过根据上下文动态优化提示并消除后续查询的需要来获得更丰富的搜索体验 – 类似于传统搜索中过滤器提供的功能。

考虑探索提示驱动的人工智能吗？

回到基础：从用户摩擦和潜在需求开始，避免提示驱动的人工智能用例和没有令人信服的价值主张的数字产品。
与解决方案无关：看透炒作，并对并非基于 GenAI 或任何类型技术构建的解决方案持开放态度。挑战设计团队探索可以解决相同问题的政策、人员或流程变更。
质疑对话式设计：询问对话式设计是否是正确的模型。利用Google 的对话式设计手册来提供帮助。
了解读写能力：确保在发现研究中探索读写能力，并在可用性测试的背景下进行考虑。
打破界面：挑战设计团队打破聊天界面，探索混合和生成元素，以在需要时提高可用性。

特别感谢雅各布·尼尔森（Jakob Nielsen）——他的想法成为撰写本文的催化剂！

{{userData.name}}已认证