A Deterministic Agentic Workflow for HS Tariff Classification: Multi-Dimensional Rule Reasoning with Interpretable Decisions

作者: Yu Zhang, Dongjiang Zhuang, Qu Zhou, Zheng Huang, Junhe Wu, Jing Cao, Kai Chen

分类: cs.AI, cs.IR

发布日期: 2026-05-14

💡 一句话要点

提出确定性Agent工作流，解决HS编码多维度规则推理难题，实现可解释的关税分类。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: HS编码分类 多维度规则推理 确定性Agent 可解释性AI 语言模型 关税分类 知识工程

📋 核心要点

现有方法在HS编码分类中，难以同时满足材料、功能等多个维度的优先级规则，导致分类错误。
提出确定性Agent工作流，通过固定控制流和分阶段的语言模型调用，实现可解释的多维度规则推理。
实验结果表明，该工作流在HSCodeComp数据集上取得了显著的top-1和top-3准确率提升，并发现数据集标签可能存在偏差。

📝 摘要（中文）

协调制度(HS)关税分类是一项高风险、专家级的任务，需要将自由形式的产品描述映射到特定的六位或八位数字编码，并遵循《总则》、《类注》、《章注》和《注释》。其难点不在于知识量，而在于多维度规则推理：正确的分类必须同时满足多个轴上的竞争优先级规则，包括材料、形式、功能、主要特征、零件与整体的界限，以及特定条目与剩余条目。大型语言模型的端到端提示通常会失败，因为它们解决了一个轴的问题，而忽略了其他轴上的优先级约束。我们提出了一种确定性Agent工作流，与自我规划Agent形成对比：控制流是固定的，语言模型调用被限制在狭窄的阶段，并且反射和验证被保留为局部机制。这种设计通过构造产生可解释性——每个决策都被分解为阶段性的结构化输出，并逐字引用相关的章节或节注释。该架构将中国HS关税的离线知识工程与在线六阶段流水线相结合。在HSCodeComp上以六位数字级别进行评估，使用Qwen3.6-plus的工作流在前四位数字上达到75.0%的top-1和91.5%的top-3准确率，在六位数字上达到64.2%的top-1和78.3%的top-3准确率；一个开放权重的Qwen3.6-27B-FP8骨干网络在非思考模式下，在前沿模型上实现了84.2%的四位数字和77.4%的六位数字的top-1一致性。对226个六位数字不一致之处的两阶段人工审核表明，HSCodeComp基本事实标签的相当一部分可能偏离HS总则；完整的裁决记录在附录中发布，作为社区审查的初步结果。

🔬 方法详解

问题定义：论文旨在解决协调制度(HS)关税分类中的多维度规则推理问题。现有方法，特别是基于大型语言模型的端到端提示方法，难以同时满足多个维度（如材料、功能、形式等）的优先级规则，导致分类结果不准确且缺乏可解释性。这些方法通常会优先考虑一个维度而忽略其他维度上的约束，无法有效模拟专家进行HS编码分类时的复杂推理过程。

核心思路：论文的核心思路是采用确定性Agent工作流，将复杂的HS编码分类任务分解为一系列固定流程的阶段，每个阶段专注于解决特定维度的规则推理问题。这种确定性的流程控制避免了自我规划Agent的随意性，并允许对每个阶段的决策进行精确控制和解释。通过限制语言模型在特定阶段的调用，并引入局部反射和验证机制，确保了分类结果的准确性和可解释性。

技术框架：该架构包含离线知识工程和在线六阶段流水线。离线知识工程负责构建中国HS关税的知识库。在线流水线包含六个阶段，每个阶段负责解决HS编码分类中的一个特定问题，例如确定材料、功能、形式等。每个阶段都使用语言模型进行推理，并输出结构化的决策结果，包括引用的章节或节注释。

关键创新：最重要的技术创新点在于确定性Agent工作流的设计，它与传统的自我规划Agent形成鲜明对比。通过固定控制流和分阶段的语言模型调用，实现了可解释性，并提高了分类的准确性。此外，该工作流还引入了局部反射和验证机制，进一步增强了分类结果的可靠性。

关键设计：论文的关键设计包括六阶段流水线的具体划分、每个阶段使用的语言模型类型和提示工程、以及反射和验证机制的实现细节。具体参数设置和损失函数等技术细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果显示，使用Qwen3.6-plus的工作流在HSCodeComp数据集上，四位数字的top-1准确率达到75.0%，top-3准确率达到91.5%，六位数字的top-1准确率达到64.2%，top-3准确率达到78.3%。使用开放权重的Qwen3.6-27B-FP8骨干网络在非思考模式下，四位数字的top-1一致性达到84.2%，六位数字的top-1一致性达到77.4%。

🎯 应用场景

该研究成果可应用于自动化关税分类系统，提高进出口贸易效率，降低企业合规成本。通过提供可解释的分类决策，有助于海关人员进行审核，并为企业提供更清晰的合规指导。未来，该方法可扩展到其他需要复杂规则推理的领域，如法律文本分析、医疗诊断等。

📄 摘要（原文）

Harmonized System (HS) tariff classification is a high-stakes, expert-level task in which a free-form product description must be mapped to a specific six- or eight-digit code under the General Interpretive Rules (GIR), section notes, chapter notes, and Explanatory Notes. The difficulty lies not in knowledge volume but in multi-dimensional rule reasoning: a correct classification must satisfy competing priority rules along several axes simultaneously, including material, form, function, essential character, the part-versus-whole boundary, and specific listing versus residual headings. End-to-end prompting of large language models fails characteristically by resolving one axis while ignoring the priority constraints on the others. We present a deterministic agentic workflow in contrast to self-planning agents: the control flow is fixed, language model calls are confined to narrow stages, and reflection and verification are retained as local mechanisms. This design yields interpretability by construction--each decision is decomposed into stage-wise structured outputs with verbatim citation of the chapter or section notes that bear on it. The architecture combines offline knowledge-engineering of the Chinese HS tariff with an online six-stage pipeline. Evaluated on HSCodeComp at the six-digit level, the workflow reaches 75.0% top-1 and 91.5% top-3 at four digits, and 64.2% top-1 and 78.3% top-3 at six digits with Qwen3.6-plus; an open-weight Qwen3.6-27B-FP8 backbone in non-thinking mode achieves 84.2% four-digit and 77.4% six-digit top-1 agreement with the frontier model. A two-stage manual audit of 226 six-digit disagreements suggests that a non-trivial fraction of HSCodeComp ground-truth labels may deviate from HS general rules; full adjudication records are released in the appendix as preliminary findings for community review.

A Deterministic Agentic Workflow for HS Tariff Classification: Multi-Dimensional Rule Reasoning with Interpretable Decisions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理