LREF: A Novel LLM-based Relevance Framework
for E-commerce Search

arXiv: 2503.09223 · JD.com 团队 · 电商搜索相关性

一句话概括

用 LLM(而非 BERT)做电商搜索相关性分类,通过数据筛选精调 → 多步推理引导 → 偏好对齐纠偏,三阶段把 LLM 在相关性任务上的"过于乐观"的毛病治好了,并在京东 A/B 测试中拿到显著正增益。

背景:为什么不用 BERT 了?

维度BERT 方案LLM 方案
范式判别式(discriminative)生成式 + 推理
知识容量有限,依赖微调数据预训练知识 + 微调
推理能力弱,黑盒打分可输出推理链 (CoT)
问题语义理解浅、过拟合标注噪声新问题:乐观偏差 (lenient bias)

核心方法:三阶段流水线

📊 SFT + Data Selection
从噪声标注中筛高质量数据
🧠 Multi-CoT Tuning
注入分步推理链
⚖️ DPO De-biasing
纠正"随便还行"的乐观偏差

Stage 1: SFT + 数据筛选

电商标注数据噪声大——同一个 query-product 对,不同标注员打分可能差两档。直接喂 LLM 微调会导致模型学到噪声。

解法:多轮筛选,每轮去掉标注一致性低的样本。只保留"高置信度"标注数据做 SFT。

消融实验:DataSelect 对比随机采样一致提升

Stage 2: Multi-CoT 调优

相关性判断不是简单分类——需要理解用户意图、商品描述、搜索场景。CoT 让 LLM 先分析再打分。

Multi-CoT:不止一条推理链,而是多角度同时推理(搜索意图匹配度、商品属性匹配度、用户需求覆盖率),综合打分。

消融实验:Multi-CoT 相比单步分类一致提升

Stage 3: DPO 去偏

LLM 天生"和气"——判断相关性时倾向给高分(反正说"有点相关"比说"完全不相关"安全)。这在电商搜索中是致命的:用户搜"索尼耳机",结果出现"索尼耳机盒",LLM 可能给 Marginal 甚至 Significant 的打分,导致垃圾结果被排到前排。

解法:DPO (Direct Preference Optimization) 直接优化排序偏好——明确告诉模型哪些打分是错的(构造偏好对:正确打分 > 乐观打分),让模型学会严格判断。

消融实验:DPO 后低相关度任务的精确率显著提升

相关性分类体系:ESMTR

等级定义例子
Exact完全匹配用户需求搜"iPhone 15"→ iPhone 15
Significant高度相关,可替代搜"iPhone 15"→ iPhone 15 Pro
Marginal部分相关,勉强可用搜"iPhone 15"→ 手机壳 for iPhone 15
Trivial非常弱的关联搜"iPhone 15"→ 通用手机支架
Irrelevant完全不相关搜"iPhone 15"→ 洗衣机

实验亮点

离线实验

在大规模真实数据集(JD 电商搜索日志)上对比多个基线(Cross-Encoder BERT, RankT5 等),LREF 三阶段叠加后全面 SOTA。

关键发现:DPO 去偏对低相关度样本(Marginal/Trivial→Irrelevant 的区分)提升最明显——这正是 BERT 和普通 LLM 最容易翻车的地方。

在线 A/B 实验(京东)

部署在 JD 搜索系统,通过知识蒸馏将 LLM 判断能力迁移到轻量模型,降低线上延迟。A/B 测试 20% 流量:

与你工作的关联(1688 搜索)

可借鉴的点
  1. ESMTR 分类体系可直接迁移到 1688 的相关性标注中——B2B 电商的 query-product 匹配比 B2C 更复杂(规格、材质、用途、起批量),五级分类比"相关/不相关"二元分类更细粒度
  2. DPO 去偏思路对电商搜索特别关键——LLM 的"过于和气"倾向在 1688 场景下问题更大(用户搜"304不锈钢管",LLM 可能对"201不锈钢管"给高分
  3. 数据筛选方法——1688 标注数据质量参差不齐,用一致性筛选做 SFT 能降低噪声影响
  4. 蒸馏思路——用 LLM 产高质量判断 → 蒸馏到小模型上线,兼顾效果和延迟

局限性