时间:2023-01-21 来源:原创/投稿/转载作者:管理员点击:
「可解释性」一直是深度学习难以绕过的难题,用户无法理解模型的运行机制,也就无法放心地把模型应用到实际场景中。
最近来自苏黎世联邦理工学院和DeepMind的研究人员提出了一种全新的模型构造工具Tracr,直接由人来根据「已知的机制」针对不同任务编写代码,然后由Tracr编译成模型的权重,让模型的解释变得更轻松!
Tracr的输入为采用领域特定语言RASP编写的代码,输出为标准的、仅包含解码器的、类似GPT的Transformer结构的权重。
可解释性是理解机器学习模型的重要手段,但由于模型的实际运行方式仍然不清晰,所以目前的研究成果大多难以评估。
其中一个工作机理可解释性(Mechanistic interpretability)尝试对神经网络进行逆向工程(reverse engineering)来对模型实现的算法给出一个机理上的解释,并在一系列任务中取得进展,包括用于图像分类的卷积神经网络,Transformer语言模型等。
评估机理解释的标准方法结合了许多临时实验的证据,然而,由于这样做的成本很高,许多方法只能在玩具模型中进行评估,或在真实模型中的少数不重要的circuits上进行评估。
Tracr的解决方案则是,通过将人类可读的代码「编译」成神经网络的权重,直接解决缺乏基础机理解释的问题。
可以把RASP程序视为一个计算图,当根据给定的输入token序列时,图上的每个节点都会取一个特定值。
虽然RASP的操作可以直接映射到Transformers中,但仍然需要对RASP语言进行修改以对模型权重进行翻译。
如果说RASP算是编译的高级语言,那么craft就是汇编语言,它提供了比在纯权重矩阵上操作更多的抽象性。
craft可以表示具有基维度(basis dimensions)的向量空间,及其相应的操作,可以用基方向的标签来定义投影或其他线性操作。重要的是,craft抽象化了跟踪权重矩阵中的填充的需要。
Tracr的代码使用Python进行编写,并将RASP实现嵌入到Python中,从而可以在Python中直接编写RASP程序,比较方便地对变量编码(variable encoding)进行标注。
在Tracr中,RASP程序是一个数据结构,通过向每个操作传递依赖关系来逐步构建,同时对RASP程序做了一些基本的简化。
追踪整个程序以创建一个代表计算过程的有向图。对于输出的s-op,图中包括表示tokens和indices的source节点,和代表输出s-op的sink节点。
对于每个s-op,需要决定如何将其嵌入到剩余流中;为了使用类别编码,需要知道一个s-op可以取哪些值。
所以第二步的主要操作就是对图进行遍历,并为每个节点标注出其可能的输出;标注使用简单的启发式方法,确保找到的是s-op值集合的超集。
独立考虑计算图中的每个节点,并将其转化为一个craft组件;元素操作翻译为MLP块,选择-聚合操作翻译为注意力块。
使用人工设计的MLP和注意力模块库来近似数字和分类输入和输出的任意函数;将具有分类输入和输出的MLPs作为查找表使;带有数字输入和输出的MLP使用基于通用函数近似定理的明确结构。
理想情况下,目标是找到最小的模型来进行所需的计算,但一般可以将其表述为一个具有几个约束条件的组合优化问题:Transformer结构具有交替的注意力和MLP层,而且所有相互依赖的计算都需要有正确的顺序。
首先,计算出从输入到一个给定节点的最长路径,其路径长度是可以分配给该节点的层数的一个上限;然后应用额外的启发式方法,将层与可以并行计算的块结合起来。
直接对模型组件的输入和输出空间进行求和作为构建的残差流空间(residual stream space )。
然后按照层分配决定的顺序遍历计算图,并将组件堆迭起来,得到一个用craft表示的完整Transformer。
首先把并行的MLP层合并为一个层,再把并行的注意力头合并为一个层。其中在注意层中,把_{}和_{}矩阵分成、、、重量矩阵。
然后调整所有权重的形状,并将其连接到Transformer架构中就可以推断出模型配置(深度、层宽、残差流大小等),以适应所创建的元素。
Tracr可以加速受控实验的验证过程,以测试关于Transformer的计算结构的特定假设;通过这种方式,它也相当于成了可解释性研究的实验平台。
编译的模型可以很自然地作为测试「解释忠实性」的基础,并提供了一种伪造可解释性技术给出的解释的方法。
发展到最后,这些模型可以被用来建立可解释性工具的测试案例库,反过来又可以实现定量的评价指标。
例如有研究人员通过用他们自己理想化的实现来替换模型的组件以测试他们对Transformer如何实现模块化加法的理解,结果发现该思路可以提高下游任务的性能,相当于有力地证明了所提出的解释是正确的。
虽然Tracr是将一个算法编译成一个完整的Transformer模型,但也可以通过修改代码调整为只编译训练模型中的一部分,从而使得更容易评估对大型模型的理解。
除了评估之外,编译的模型可以作为研究circuits级别现象和开发解释Transformer模型新方法的试验台。