A Deterministic Agentic Workflow for HS Tariff Classification: Multi-Dimensional Rule Reasoning with Interpretable Decisions

📄 arXiv: 2605.14857v1 📥 PDF

作者: Yu Zhang, Dongjiang Zhuang, Qu Zhou, Zheng Huang, Junhe Wu, Jing Cao, Kai Chen

分类: cs.AI, cs.IR

发布日期: 2026-05-14


💡 一句话要点

提出确定性Agent工作流,解决HS编码多维度规则推理难题,实现可解释的关税分类。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: HS编码分类 多维度规则推理 确定性Agent 可解释性AI 语言模型 关税分类 知识工程

📋 核心要点

  1. 现有方法在HS编码分类中,难以同时满足材料、功能等多个维度的优先级规则,导致分类错误。
  2. 提出确定性Agent工作流,通过固定控制流和分阶段的语言模型调用,实现可解释的多维度规则推理。
  3. 实验结果表明,该工作流在HSCodeComp数据集上取得了显著的top-1和top-3准确率提升,并发现数据集标签可能存在偏差。

📝 摘要(中文)

协调制度(HS)关税分类是一项高风险、专家级的任务,需要将自由形式的产品描述映射到特定的六位或八位数字编码,并遵循《总则》、《类注》、《章注》和《注释》。其难点不在于知识量,而在于多维度规则推理:正确的分类必须同时满足多个轴上的竞争优先级规则,包括材料、形式、功能、主要特征、零件与整体的界限,以及特定条目与剩余条目。大型语言模型的端到端提示通常会失败,因为它们解决了一个轴的问题,而忽略了其他轴上的优先级约束。我们提出了一种确定性Agent工作流,与自我规划Agent形成对比:控制流是固定的,语言模型调用被限制在狭窄的阶段,并且反射和验证被保留为局部机制。这种设计通过构造产生可解释性——每个决策都被分解为阶段性的结构化输出,并逐字引用相关的章节或节注释。该架构将中国HS关税的离线知识工程与在线六阶段流水线相结合。在HSCodeComp上以六位数字级别进行评估,使用Qwen3.6-plus的工作流在前四位数字上达到75.0%的top-1和91.5%的top-3准确率,在六位数字上达到64.2%的top-1和78.3%的top-3准确率;一个开放权重的Qwen3.6-27B-FP8骨干网络在非思考模式下,在前沿模型上实现了84.2%的四位数字和77.4%的六位数字的top-1一致性。对226个六位数字不一致之处的两阶段人工审核表明,HSCodeComp基本事实标签的相当一部分可能偏离HS总则;完整的裁决记录在附录中发布,作为社区审查的初步结果。

🔬 方法详解

问题定义:论文旨在解决协调制度(HS)关税分类中的多维度规则推理问题。现有方法,特别是基于大型语言模型的端到端提示方法,难以同时满足多个维度(如材料、功能、形式等)的优先级规则,导致分类结果不准确且缺乏可解释性。这些方法通常会优先考虑一个维度而忽略其他维度上的约束,无法有效模拟专家进行HS编码分类时的复杂推理过程。

核心思路:论文的核心思路是采用确定性Agent工作流,将复杂的HS编码分类任务分解为一系列固定流程的阶段,每个阶段专注于解决特定维度的规则推理问题。这种确定性的流程控制避免了自我规划Agent的随意性,并允许对每个阶段的决策进行精确控制和解释。通过限制语言模型在特定阶段的调用,并引入局部反射和验证机制,确保了分类结果的准确性和可解释性。

技术框架:该架构包含离线知识工程和在线六阶段流水线。离线知识工程负责构建中国HS关税的知识库。在线流水线包含六个阶段,每个阶段负责解决HS编码分类中的一个特定问题,例如确定材料、功能、形式等。每个阶段都使用语言模型进行推理,并输出结构化的决策结果,包括引用的章节或节注释。

关键创新:最重要的技术创新点在于确定性Agent工作流的设计,它与传统的自我规划Agent形成鲜明对比。通过固定控制流和分阶段的语言模型调用,实现了可解释性,并提高了分类的准确性。此外,该工作流还引入了局部反射和验证机制,进一步增强了分类结果的可靠性。

关键设计:论文的关键设计包括六阶段流水线的具体划分、每个阶段使用的语言模型类型和提示工程、以及反射和验证机制的实现细节。具体参数设置和损失函数等技术细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,使用Qwen3.6-plus的工作流在HSCodeComp数据集上,四位数字的top-1准确率达到75.0%,top-3准确率达到91.5%,六位数字的top-1准确率达到64.2%,top-3准确率达到78.3%。使用开放权重的Qwen3.6-27B-FP8骨干网络在非思考模式下,四位数字的top-1一致性达到84.2%,六位数字的top-1一致性达到77.4%。

🎯 应用场景

该研究成果可应用于自动化关税分类系统,提高进出口贸易效率,降低企业合规成本。通过提供可解释的分类决策,有助于海关人员进行审核,并为企业提供更清晰的合规指导。未来,该方法可扩展到其他需要复杂规则推理的领域,如法律文本分析、医疗诊断等。

📄 摘要(原文)

Harmonized System (HS) tariff classification is a high-stakes, expert-level task in which a free-form product description must be mapped to a specific six- or eight-digit code under the General Interpretive Rules (GIR), section notes, chapter notes, and Explanatory Notes. The difficulty lies not in knowledge volume but in multi-dimensional rule reasoning: a correct classification must satisfy competing priority rules along several axes simultaneously, including material, form, function, essential character, the part-versus-whole boundary, and specific listing versus residual headings. End-to-end prompting of large language models fails characteristically by resolving one axis while ignoring the priority constraints on the others. We present a deterministic agentic workflow in contrast to self-planning agents: the control flow is fixed, language model calls are confined to narrow stages, and reflection and verification are retained as local mechanisms. This design yields interpretability by construction--each decision is decomposed into stage-wise structured outputs with verbatim citation of the chapter or section notes that bear on it. The architecture combines offline knowledge-engineering of the Chinese HS tariff with an online six-stage pipeline. Evaluated on HSCodeComp at the six-digit level, the workflow reaches 75.0% top-1 and 91.5% top-3 at four digits, and 64.2% top-1 and 78.3% top-3 at six digits with Qwen3.6-plus; an open-weight Qwen3.6-27B-FP8 backbone in non-thinking mode achieves 84.2% four-digit and 77.4% six-digit top-1 agreement with the frontier model. A two-stage manual audit of 226 six-digit disagreements suggests that a non-trivial fraction of HSCodeComp ground-truth labels may deviate from HS general rules; full adjudication records are released in the appendix as preliminary findings for community review.