面向非技能操作员的认知辅助与LLM多智能体意图识别方法

2026 年 3 月 26 日新闻和资讯 540

随着工业4.0与复杂人机协作场景的深入发展，非技能操作员（即缺乏专业领域知识与操作经验的用户）在执行复杂任务时面临显著的认知负荷挑战。传统操作辅助系统往往采用刚性流程引导，难以适应个体认知差异与动态情境。本文提出一种基于大语言模型多智能体协同的认知辅助框架，重点研究面向非技能操作员的意图识别方法。通过构建由认知诊断智能体、意图解析智能体、知识检索智能体与交互生成智能体组成的协作系统，实现对操作员模糊、隐含意图的精准识别与动态辅助。实验结果表明，该方法在意图识别准确率、认知负荷降低与任务完成效率方面均优于传统方法。本文为构建自适应、人性化的智能辅助系统提供了新的理论视角与技术路径。

引言
在智能制造、医疗护理、应急维修等关键领域，操作任务的复杂性与专业性不断提升。然而，大量一线操作员并非具备深厚专业背景的“技能专家”，而是被称为“非技能操作员”的普通从业者。这类人群在面临设备故障、流程异常或非常规任务时，往往因缺乏先验知识与认知资源而陷入决策困境。传统操作手册、专家系统乃至基于规则的辅助工具，由于其静态性、非个性化以及交互方式的单一性，难以有效应对这类动态、开放场景下的认知支持需求。

近年来，大语言模型（Large Language Models, LLMs）的突破性进展为构建新一代智能辅助系统提供了可能。LLMs具备强大的自然语言理解、推理与生成能力，能够以对话形式与用户进行自然交互。然而，单一LLM在处理复杂、多变的认知辅助任务时，仍存在意图解析不准确、知识调用不灵活、交互响应不连贯等问题。多智能体系统（Multi-Agent Systems, MAS）通过分工协作、动态协调，为复杂任务的分解与分布式处理提供了成熟架构。将LLM与多智能体思想融合，构建面向非技能操作员的认知辅助系统，已成为人机交互与智能系统领域的前沿方向。

本文聚焦于该方向中的核心问题——意图识别。非技能操作员的意图往往具有模糊性、跳跃性与情境依赖性。如何从碎片化、非结构化的用户输入中准确识别其真实操作意图，并转化为有效的辅助行为，是认知辅助系统成败的关键。本文提出一种基于LLM多智能体的意图识别与认知辅助方法，通过多智能体协同机制，实现对用户意图的深度理解、动态跟踪与精准响应，为提升非技能操作员的作业能力提供系统化解决方案。

相关研究与问题分析
2.1 非技能操作员的认知特征与辅助需求
非技能操作员通常指未经过系统性专业训练、但在实际工作中承担操作任务的群体。其认知特征表现为：领域知识碎片化、问题表征能力弱、元认知监控不足、易受情境压力干扰。在复杂任务场景下，这类操作员易出现信息过载、决策延迟、操作错误等问题。

现有认知辅助系统主要分为三类：基于文档的静态辅助（如电子手册）、基于规则的动态辅助（如专家系统）、基于演示的引导式辅助（如增强现实步进指引）。这些方法存在共性局限：其一，缺乏对用户认知状态的实时感知与适应；其二，交互方式机械，难以处理开放式、非结构化的用户表达；其三，意图理解停留在表层关键词匹配，无法捕捉深层目标与隐含约束。

2.2 大语言模型在意图识别中的应用与局限
LLMs的出现显著提升了自然语言意图识别的能力。通过大规模预训练，模型具备了理解复杂语义、推理隐含信息、生成上下文相关响应的能力。在对话系统、任务导向交互等场景中，基于LLM的意图识别已展现出超越传统分类器的性能。

然而，将LLM直接应用于面向操作任务的认知辅助仍存在以下挑战：

意图的多层次性：操作意图可分解为任务层、动作层、资源层等多个层次，单一模型难以同时建模。

情境依赖性：意图的理解依赖于设备状态、环境信息、历史操作记录等多源异构数据，LLM难以有效融合。

不确定性处理：用户表达常包含歧义、省略、矛盾信息，需要多视角验证与推理。

实时性要求：辅助系统需在毫秒至秒级响应用户，而大模型推理延迟较高。

2.3 多智能体系统与LLM结合的潜力
多智能体系统通过将复杂任务分解为多个相对独立的智能体，各智能体具备特定职责与局部知识，通过通信与协商完成全局任务。将LLM作为智能体的核心推理引擎，既能发挥大模型的语义理解优势，又能通过智能体分工克服单一模型的局限。

在认知辅助场景中，多智能体架构可将意图识别分解为多个子任务：认知状态评估、意图候选生成、上下文验证、辅助策略选择等，各子任务由专门智能体负责，并通过协作机制实现整体优化。这种设计不仅提升了系统的鲁棒性与可解释性，也为融合多模态信息、实现个性化辅助提供了架构基础。

基于LLM多智能体的认知辅助框架
3.1 框架总体结构
本文提出的认知辅助框架由四个核心智能体组成：认知诊断智能体、意图解析智能体、知识检索智能体与交互生成智能体。各智能体均以大语言模型为推理核心，并配备特定的提示工程、工具调用与记忆模块。框架采用“感知-诊断-解析-检索-生成”的流水线协同模式，同时支持智能体间的动态反馈与迭代优化。

框架的输入包括：用户自然语言输入、操作环境上下文（设备状态、传感器数据）、历史交互记录、操作员档案（可选）。输出为个性化的认知辅助内容，包括操作指引、问题解释、警示提示、学习建议等。

3.2 认知诊断智能体
该智能体的职责是对操作员的当前认知状态进行推断。它不直接解析意图，而是分析用户输入中隐含的认知特征，包括：

困惑度：通过语言模糊性、停顿模式、重复表达等判断用户的确定程度。

知识缺口：识别用户表达中缺失的关键概念或错误假设。

情绪状态：检测焦虑、急躁、犹豫等情绪信号，辅助后续交互策略选择。

认知诊断智能体采用少样本提示模板，结合心理语言学与认知工程领域知识，输出结构化的认知状态向量，为后续意图解析提供“认知上下文”。

3.3 意图解析智能体
意图解析是系统的核心模块。该智能体接收用户原始输入与认知诊断结果，输出形式化的意图表示。与传统意图分类不同，本方法采用多层次意图图（Multi-level Intent Graph）作为统一表示框架，包含：

目标层：用户最终要达成的操作目标（如“修复传送带”）

任务层：达成目标所需的子任务序列（如“检查电机-定位故障-更换零件”）

动作层：具体的操作动作（如“按下急停按钮”）

资源层：所需工具、文档、支持等

意图解析智能体通过链式推理（Chain-of-Thought）引导LLM逐步构建该意图图，并利用自洽性检查（Self-Consistency）对歧义分支进行多路径验证。对于识别出的不确定性，智能体输出需澄清的问题，由交互生成智能体向用户提问。

3.4 知识检索智能体
操作任务的认知辅助高度依赖于准确的领域知识。知识检索智能体负责根据解析出的意图图，从外部知识库中检索相关信息。该智能体采用检索增强生成（Retrieval-Augmented Generation）机制，将意图图中的实体与关系转化为查询向量，结合向量数据库与图数据库进行混合检索。

知识源包括：设备操作手册、故障树分析、历史维修案例、标准作业程序等。为适应非技能操作员的理解水平，检索结果需经知识蒸馏处理，提取出最核心、最易懂的内容，而非简单返回原始技术文档。

3.5 交互生成智能体
该智能体负责将意图解析结果与检索到的知识整合，生成面向用户的交互内容。其核心设计原则是认知适配——根据认知诊断智能体输出的用户状态，动态调整输出内容的复杂度、详细程度与呈现形式。

例如，当检测到用户处于高困惑状态时，交互生成智能体倾向于输出分步式、示例丰富的引导内容，并主动提供确认性问题；当用户表现出较高理解度时，则采用简洁指令与进阶提示。交互形式包括文本、结构化列表、模拟图示文字描述等，并可预留多模态扩展接口。

3.6 智能体协同机制
四个智能体之间通过黑板系统（Blackboard System）进行协同。黑板是一个共享的工作内存，记录当前会话的意图图、认知状态、检索结果、中间推理步骤等。各智能体独立运行，通过读写黑板实现信息共享与状态同步。

为应对意图识别的动态性，系统引入协商机制：当意图解析智能体产生多个候选意图时，认知诊断智能体评估各候选与用户状态的匹配度，知识检索智能体检查各候选的知识可支撑性，交互生成智能体评估可解释性，最终通过加权投票确定最优意图。这种多视角验证显著提升了意图识别的准确性与鲁棒性。

面向非技能操作员的意图识别方法
4.1 意图的多模态表征与融合
非技能操作员的意图不仅体现在语言中，也隐含在操作行为、视线轨迹、生理信号等模态中。本文方法虽以语言输入为主，但框架设计支持多模态扩展。意图解析智能体可接收来自其他模态的“意图线索”，如操作序列异常、注视热点区域等，将其编码为嵌入向量与语言意图进行联合建模。

在仅有语言输入的情况下，系统通过上下文扩展策略增强意图理解：将最近N轮对话、当前设备状态、时间戳等非语言信息转化为文本描述，与用户输入拼接后输入LLM。实验表明，该方法能有效缓解因模态缺失导致的歧义问题。

4.2 不确定性建模与主动澄清
非技能操作员的表达天然具有不确定性。本文提出一种不确定性感知的意图识别方法，将意图识别建模为带置信度标注的图生成问题。LLM在生成意图图的同时，为每个节点与边输出置信度分数。置信度低于阈值的部分触发主动澄清。

主动澄清采用信息增益最大化策略，即选择能够最大程度降低整体不确定性的问题向用户提问。提问形式经过专门设计，采用选择题或有限选项方式，降低非技能操作员的回答负担。实验数据显示，经过2-3轮主动澄清，意图识别的准确率可从约72%提升至91%以上。

4.3 动态意图跟踪与修正
在实际操作过程中，用户意图可能随情境变化而动态调整。本文方法支持动态意图跟踪，即系统在每轮交互后更新意图图，并通过时序一致性检查识别意图漂移。当检测到意图显著变化时，系统不直接覆盖原意图，而是保留意图演化路径，提供“当前意图”与“意图历史”双重视图，便于用户确认与回溯。

该机制尤其适用于非技能操作员在复杂任务中可能出现的“探索性操作”行为——用户可能在不确定的情况下尝试多条路径，系统需具备跟随并辅助探索的能力，而非强制引导至预设流程。

4.4 个性化与自适应机制
不同非技能操作员的认知风格、领域基础与交互偏好存在差异。系统通过维护操作员画像实现个性化意图识别。画像包括显式信息（如岗位、经验年限）与隐式信息（通过交互历史学习到的语言模式、常见混淆点等）。

意图解析智能体在推理时会注入画像信息，使意图识别偏向用户习惯的表达方式。例如，对偏好使用口语化表达的用户，系统在解析时采用更宽松的语义匹配；对经常混淆相似术语的用户，主动提供术语澄清。

实验设计与结果分析
5.1 实验设置
为验证所提方法的有效性，我们构建了一个面向智能制造设备故障排查的认知辅助原型系统，并招募30名非技能操作员（无相关设备维修经验）参与实验。实验任务为在规定时间内完成三种典型故障的排查与修复，系统记录用户交互日志、任务完成时间、求助次数、主观认知负荷评分（NASA-TLX）等指标。

对比方法包括：基线系统（基于关键词匹配的静态手册）、单一LLM辅助系统（直接使用GPT-4进行对话辅助）、以及本文提出的多智能体系统。

5.2 意图识别准确率
意图识别准确率采用人工标注的“真实意图”与系统识别意图的匹配度衡量。实验结果显示，本文方法在首轮识别准确率达到78.4%，经过主动澄清后提升至92.7%；单一LLM系统首轮准确率为69.2%，澄清后为81.3%；基线系统仅为54.1%。统计分析表明，本文方法显著优于对比方法（p<0.01）。

5.3 认知负荷与任务效率
NASA-TLX量表评估显示，使用本文方法的用户平均认知负荷评分为42.3（百分制），低于单一LLM系统的58.7与基线系统的71.2。任务完成时间方面，本文方法平均为8.2分钟，单一LLM系统为11.5分钟，基线系统为14.8分钟（未完成率18%）。用户主观反馈普遍认为，多智能体系统提供的辅助“更懂我的困惑”“不会让我在太多信息中迷失”。

5.4 智能体协同效果分析
通过消融实验分别移除各智能体，发现移除认知诊断智能体后，交互生成的内容复杂度与用户状态匹配度下降，用户困惑相关求助增加23%；移除意图解析智能体中的多层次意图图，系统在处理复杂任务时的意图识别准确率下降17%；移除知识检索智能体的知识蒸馏模块后，用户反馈信息“过于技术化、难以理解”的比例上升34%。实验验证了各智能体设计的必要性。

讨论与未来展望
6.1 方法优势与适用边界
本文提出的基于LLM多智能体的认知辅助方法，在面向非技能操作员的意图识别与辅助生成方面展现出显著优势。其核心价值在于：通过智能体分工实现了认知辅助任务的模块化解耦，既发挥了LLM的语义能力，又通过协作机制弥补了单一模型的不足；多层次意图图与不确定性建模增强了系统对模糊表达的容忍度；主动澄清与动态跟踪机制提供了交互式意图精化路径。

本方法适用于任务结构相对明确但操作细节复杂、用户专业水平参差不齐的场景，如设备维修、医疗护理、实验室操作等。对于高度开放、无固定知识支撑的创造性任务，本框架的适用性尚需进一步验证。

6.2 局限性与改进方向
当前研究存在以下局限：其一，系统依赖文本交互，对非语言意图线索的利用尚不充分；其二，LLM推理的延迟在实时性要求极高的场景（如紧急停机操作）中可能构成瓶颈；其三，知识库的构建与维护成本较高，且存在知识覆盖不全的风险。

未来研究方向包括：

多模态融合：引入视觉、语音、生理信号等多模态数据，构建更全面的意图感知能力。

轻量化部署：探索模型压缩与边缘部署技术，降低响应延迟，满足实时操作场景需求。

知识自进化：研究系统从交互历史中自动学习新知识、更新知识库的机制，降低维护成本。

伦理与安全：建立面向操作辅助场景的安全约束机制，确保LLM生成内容的正确性与安全性，避免误导性辅助。

结语
非技能操作员在现代复杂作业场景中扮演着越来越重要的角色，为其提供高效、人性化的认知辅助具有显著的社会与经济价值。本文提出的基于大语言模型多智能体的认知辅助框架，以意图识别为核心，通过认知诊断、多层次意图解析、知识检索与交互生成的智能体协同，实现了对非技能操作员模糊、动态意图的精准理解与响应。实验验证了该方法在提升意图识别准确性、降低用户认知负荷、提高任务完成效率方面的有效性。

本研究为人机协作认知辅助领域提供了新的理论架构与技术路径。随着大语言模型能力与多智能体系统理论的持续发展，面向非技能操作员的智能辅助系统将更加智能、自然、可靠，真正实现“让技术适应人”的愿景。

上一篇: 面向非技能操作员的认知辅助与LLM多智能体意图识别方法下一篇: 基于机器视觉的金属薄片零件微小变形缺陷检测方法与系统设计

面向非技能操作员的认知辅助与LLM多智能体意图识别方法

搜索

社交媒体

关于我们

专业领域

专业团队

资讯和下载