1.强化学习遇到的问题

2.强化学习可解释性

2.1定义

2.2可解释性遇到到的问题

2.3可解释性分类

2.4XRL 自身的独特性

2.4如何进行可解释性研究

2.4.1 XAI 的共识

2.4.2强化学习可解释性需要解释的问题

2.4.3.强化学习可解释性分析发展现状

参考文献

引用论文：强化学习可解释性基础问题探索和方法综述

1.强化学习遇到的问题

(1) 安全敏感领域中的应用受限.由于缺乏可解释性,RL 策略难以保证其可靠性,存在安全隐患.这一问题在安全敏感任务(如医疗、驾驶等)中难以被忽略.因此,为避免模型不可靠带来的危险,RL 在安全敏感任务中大多局限于辅助人类的决策,如机器人辅助手术,辅助驾驶等;

(2) 真实世界知识的学习困难.虽然目前 RL 应用在一些仿真环境中具有优异表现,如 OpenAI gym , 但这些仿真环境以简单游戏为主,与真实世界存在较大差异.另外,RL 应用难以避免对环境的过拟合. 当过拟合发生时,模型学到环境的背景信息,而非真正的知识.这导致了两难的问题,一方面,在真实世界中训练 RL 模型通常消耗巨大,另一方面,难以确定在虚拟环境中训练的模型学到了真实的规律.

(3) 相似任务的策略泛化困难.RL 策略通常与环境存在强耦合,难以被应用到相似环境中.甚至在同样的环境下,环境参数的微小变化也会极大影响模型性能.这一问题影响了模型的泛化能力,难以确定模型在相似任务中的表现.

(4) 对抗攻击的安全隐患难于应对.对抗攻击是一种针对模型输入的攻击技术,通过将微小的恶意扰动加入到模型的输入中生成对抗样本.对人而言,对抗样本不影响判断,甚至难以察觉,然而对于模型而言,对抗样本会使模型的输出产生极大的偏差.对抗攻击从深度学习扩展到 RL,成为 RL算法的安全隐患.对抗攻击的有效性进一步暴露了RL 缺乏可解释性的问题,同时也进一步说明RL模型并未学到真正的知识.

解释对模型的设计者和使用者都具有重要的意义. 对于模型的设计者, 解释能体现模型所学的知识, 便于通过人的经验验证模型是否学到鲁棒的知识, 从而使人高效地参与到模型的设计和优化中; 对于特定领域的专家使用者, 解释提供模型的内部逻辑, 当模型表现优于人时, 便于从模型中提取知识以指导人在该领域内的实践. 对于普通用户, 解释呈现模型的决策的原因, 从而加深用户对模型的理解, 增强用户对模型的信心.

2.强化学习可解释性

2.1定义

强化学习可解释性(Explainable Reinforcement Learning, XRL)是人工智能可解释性 (Explainable Artificial Intelligence, XAI)的子问题,用于增强人对模型理解,目前XRL尚无统一的可解释性方法，所以在研究XRL时要参考父类XAI的方法。在寻找共性的同时，找到自己的特性。

传统算法，比如排序问题，二元方程，我们都有固定的解法答案，但智能算法，通常我们是在用现阶段最优的方法，找到最优的答案，是最接近正确答案的答案，但不是正确的答案。目前对深度学习的使用，就好像在一篇数据废墟中，去寻找这座高楼曾经是如何盖起来的，机器能理解，但人类完全无法理解这个过程，所以可解释性分析，广义上讲，就是希望机器能以人类的思考方式，告诉人类它们对这个世界的理解。

2.2可解释性遇到到的问题

可解释性方法就是要具象化人对模型的理解，由于人对大量条例混乱的数据缺乏理解,因此解释通常对模型内在逻辑的抽象，可能并不是真正一样上对模型的解释，而且在解释时为了便于理解，通常要对模型进行简化，所以保证解释逻辑符合模型本身主体逻辑是很重要的一环、

在实际应用时，解释的难度是相对的,同时由问题规模和模型结构两个因素决定,并且这两个因素在一定条件下相互转化. 例如,结构简单的模型(如决策树、贝叶斯网络等)在通常可以直观的展示输入和输出之间的逻辑关系,但面对由大量简单结构组成的庞大模型,其错综复杂的逻辑关系仍然导致模型的整体不可理解.同时,虽然结构复杂的模型(如神经网络)通常难以被理解,但当模型被极致约减时(如将神经网络塌缩为具有少数变量的复合函数),模型本身仍然可以被人所理解。

2.3可解释性分类

人的学习过程与强化学习过程存在一定的相似性, 因此, 如果将人脑看作目前最先进的智能模型, 则人对模型的理解不仅是人对模型的直观感受, 也是一个先进的智能体对强化学习模型的综合评估. 然而, 一个无法理解的模型不可能被有效评估, 因此对模型的解释成为人理解模型的媒介. 作为人和模型之间媒介, 可解释性算法不同程度的具备两个相互平衡特点: 接近模型和接近人的感知. 具体来说, 不同的解释有的更注重准确的描述模型, 而另一些更注重与人的感知一致. 基于这一概念, 将可解释性分为如下3个层次.

(1) 数学表达: 通过理想化的数学推导解释模型. 数学表达是使用数学语言简化模型的表达. 由于强化学习模型建立在数学理论的基础上, 因此通过数学表达可以准确地描述和重构模型. 虽然数学理论体系是人描述世界的一种重要方式, 但其与人的普遍直觉之间存在较大差异. 以深度学习为例, 虽然存在大量文章论证了其在数学上的合理性, 但深度学习方法仍然被认为是不可解释的. 因此, 数学的表达能够在微观(参数)层面对模型进行描述, 但难以迁移至人类知识体系.

（2) 逻辑表达: 通过将模型转换为显性的逻辑规律解释模型. 逻辑表达是对模型中主体策略的提取, 即忽略其细微分支, 凸显主体逻辑. 一方面, 逻辑表达保留了模型的主体策略, 因此与模型真实决策结果相近, 解释本身可以部分重现模型的决策; 另一方面, 逻辑表达简化了模型, 符合人的认知. 逻辑表达是较为直观的解释, 但需要人具备特定领域的知识, 是面对人类专家的解释, 而对一般用户尚不够直观.

(3) 感知表达: 通过提供符合人类直觉感知的规律解释模型. 感知表达基于模型生成符合人类感知的解释, 由于不需要人具备特定领域的知识, 因此易于理解. 例如, 可视化关键输入、示例对比等解释形式都属于感知表达的范畴. 然而, 感知表达通常是对模型策略的极大精简, 无法重现模型的决策, 因此只表达决策的合理性. 在可解释性的3个层次中, 数学表达作为第1个层次, 也是构建强化学习算法的理论基础. 在已知模型所有参数的情况下, 数学表达通常可以较为准确的推断出模型的结果, 然而, 数学上的合理性不意味着能被人所理解; 逻辑表达介于数学表达和感知表达之间, 是对模型策略的近似, 但逻辑表达方法产生的解释通常要求用户具备特定领域的专业知识; 感知表达对模型决策的重要因素进行筛选, 并使用清晰、简洁的形式进行呈现, 虽然结果易于理解, 但已经不具备重构策略的能力. 总而言之, 不同的解释在接近模型和接近人类感知之间存在着平衡, 难以兼顾.

2.4XRL 自身的独特性

另一方面,XRL 也具备自身的独特性.强化学习问题由环境、任务、智能体策略三个关键因素组成,因此, 解决 XRL 问题必须同时考虑这三个关键因素.由于 XRL 的发展仍处于初步阶段,大部分方法直接从 XAI 的研究中继承,导致现有研究集中于对智能体策略的解释,即解释智能体行为的动机及行为之间的关联.然而,缺乏对环境和任务的认识使得一些关键问题无从解决:缺乏对环境的认识使人在面临复杂任务时,缺乏对环境内部规律的理解,导致对环境状态进行抽象时忽略有利信息,使智能体难以学到真实的规律;缺乏对任务的解释使任务目标与过程状态序列之间的关联不明确,不利于智能体策略与环境的解耦合,影响强化学习智能体策略在相似任务或动态环境中的泛化能力.因此,对环境、任务和策略的解释存在强关联,是实现强化学习解释必然面临的问题.

2.4如何进行可解释性研究

2.4.1 XAI 的共识

对 XRL 的研究不能脱离 XAI 的基础.一方面,XRL 是 XAI 的子领域,其方法和定义密切相关,因此 XRL 的现有研究广泛借鉴了 XAI 在其他方向(如视觉)的成果;另一方面,XRL 目前仍处于起步阶段,对其针对性的讨论较少,而对于 XAI,研究者们长期以来进行了广泛的研究和讨论,具有深刻的借鉴意义

首先看一下 XAI 的共识:

(1) 人与模型是可解释性直接面对的两个关键的实体,可解释性是一项以模型为对象,以人为目标的技术;

(2) 解释作为理解的媒介存在,该媒介可以是真实存在的事物,也可以是理想构建的逻辑,亦或是二者并举,达到让人能够理解模型的目的;

(3) 人的对模型的理解不需要建立在完全掌握模型的基础上;

(4) 可准确重现的数学推导不可取代可解释性,人对模型的理解包括感性和理性的认知;

(5) 可解释性是模型的特性,这一特性可用于验证模型的性能.

2.4.2强化学习可解释性需要解释的问题

可解释性的对象是智能算法而非机械算法.传统认知中的机械算法,如排序、查找等,面对确定的任务目标, 同时具有固定的算法程序.强化学习作为一种智能算法,在与环境动态交互的过程中寻找最优的策略,最大化获得的奖赏.界定智能算法和机械算法可用于确定被解释的对象,进而回答“什么需要被解释”的问题.一方面,智能算法与机械算法存在差异,而解释只在面向智能算法时存在必要性;另一方面,即使对于强化学习,也无需对其所有过程产生解释,而应针对其具有智能算法特性的部分进行解释,如动作生成、环境状态转移等.

与其他 ML 方法不同,RL 问题由环境、任务、智能体三个关键因素组成.其中,环境为给定的具有一定内部规律的黑盒系统;任务为智能体为最大化其平均奖赏的而拟合的目标函数;策略是智能体行为的依据和一系列行为之间的关联.根据强化学习的三个关键组成因素,归纳出 XRL 的三个独有问题,即环境解释,任务解释,策略解释.三个独有问题之间存在着密切的关联,与整个强化学习过程密不可分,是实现强化学习解释直接面临的问题.

2.4.3.强化学习可解释性分析发展现状

因为尚未形成统一的理论，不同领域对强化学习可解释性分析，有自己的角度分析，不同方法之间差异较大，本着求同存异的准则，对现有方法汇总。

首先,根据技术类别和解释的展现形式,将现有方法分为视觉和语言辅助解释、策略模仿、可解释模型、逻辑关系提取和策略分解五个类别.然后,在通用分类方法(即获取解释的时间、解释的范围)的基础上,结合本文所提出的分类依据(即解释的程度,面对的关键科学问题),确定不同类别方法的属性.

在可解释性领域中,分类通常基于获取解释的时间和解释的范围两个因素[31] .具体而言,根据获取解释的时间,可解释性方法被分为固有(intrinsic)解释和事后(post-hoc)解释.

固有解释通过限制模型的表达,使模型在运行时生成具备可解释性的输出.例如,基于较强可解释性的原理和组件(决策树、线性模型等)构造模型,如LIME,或者通过增加特定过程使模型生成可解释性的输出，如CAM;

事后解释是通过对模型行为的分析,总结模型的行为模式,从而达到解释的目的.通常而言,固有解释是策略产生过程中的解释,特定于某个模型,而事后解释是策略产生后的解释, 与模型无关.

根据解释的范围,可解释性方法被分为全局(global)解释和局部(local)解释,

全局解释忽略模型的微观结构(如参数、层数等因素),从宏观层面提供对模型的解释,

局部解释从微观入手,通过分析模型的微观结构获得对模型的解释.

参考文献

1.「强化学习可解释性」最新2022综述_人工智能学家的博客-CSDN博客

2.（中文翻译）可解释强化学习调查：概念、算法和挑战_小葡萄吖的博客-CSDN博客

3.【文献翻译】综述：机器学习可解释性_饮默、的博客-CSDN博客

4.基于强化学习的可解释性推荐文献三篇_reinforcement knowledge graph reasoning for explai_白水baishui的博客-CSDN博客

强化学习可解释性分析

1.强化学习遇到的问题

2.强化学习可解释性

2.1定义

2.2可解释性遇到到的问题

2.3可解释性分类

2.4XRL 自身的独特性

2.4如何进行可解释性研究

2.4.1 XAI 的共识

2.4.2强化学习可解释性需要解释的问题

2.4.3.强化学习可解释性分析发展现状

参考文献

相关文章

不看后悔一辈子！不看错过50K!历尽心血总结Redis全局命令

桌面端UI自动化测试如何让SplitButtonControl展开

vb+SQL航空公司管理系统设计与实现

Spring中参数校验@Validation注解的详细介绍

c++位运算及相关操作

‘大数据技术与应用’和‘数据科学与大数据技术’有什么区别

开发监控使用

Myatis和MybatisPlus常见分页方式