LREF: A Novel LLM-based Relevance Framework
for E-commerce Search

arXiv: 2503.09223 · JD.com 团队 · 电商搜索相关性

一句话概括

用 LLM（而非 BERT）做电商搜索相关性分类，通过数据筛选精调 → 多步推理引导 → 偏好对齐纠偏，三阶段把 LLM 在相关性任务上的"过于乐观"的毛病治好了，并在京东 A/B 测试中拿到显著正增益。

背景：为什么不用 BERT 了？

维度	BERT 方案	LLM 方案
范式	判别式（discriminative）	生成式 + 推理
知识容量	有限，依赖微调数据	预训练知识 + 微调
推理能力	弱，黑盒打分	可输出推理链 (CoT)
问题	语义理解浅、过拟合标注噪声	新问题：乐观偏差 (lenient bias)

核心方法：三阶段流水线

📊 SFT + Data Selection

从噪声标注中筛高质量数据

→

🧠 Multi-CoT Tuning

注入分步推理链

→

⚖️ DPO De-biasing

纠正"随便还行"的乐观偏差

Stage 1: SFT + 数据筛选

电商标注数据噪声大——同一个 query-product 对，不同标注员打分可能差两档。直接喂 LLM 微调会导致模型学到噪声。

解法：多轮筛选，每轮去掉标注一致性低的样本。只保留"高置信度"标注数据做 SFT。

消融实验：DataSelect 对比随机采样一致提升

Stage 2: Multi-CoT 调优

相关性判断不是简单分类——需要理解用户意图、商品描述、搜索场景。CoT 让 LLM 先分析再打分。

Multi-CoT：不止一条推理链，而是多角度同时推理（搜索意图匹配度、商品属性匹配度、用户需求覆盖率），综合打分。

消融实验：Multi-CoT 相比单步分类一致提升

Stage 3: DPO 去偏

LLM 天生"和气"——判断相关性时倾向给高分（反正说"有点相关"比说"完全不相关"安全）。这在电商搜索中是致命的：用户搜"索尼耳机"，结果出现"索尼耳机盒"，LLM 可能给 Marginal 甚至 Significant 的打分，导致垃圾结果被排到前排。

解法：DPO (Direct Preference Optimization) 直接优化排序偏好——明确告诉模型哪些打分是错的（构造偏好对：正确打分 > 乐观打分），让模型学会严格判断。

消融实验：DPO 后低相关度任务的精确率显著提升

等级	定义	例子
Exact	完全匹配用户需求	搜"iPhone 15"→ iPhone 15
Significant	高度相关，可替代	搜"iPhone 15"→ iPhone 15 Pro
Marginal	部分相关，勉强可用	搜"iPhone 15"→ 手机壳 for iPhone 15
Trivial	非常弱的关联	搜"iPhone 15"→ 通用手机支架
Irrelevant	完全不相关	搜"iPhone 15"→ 洗衣机

实验亮点

离线实验

在大规模真实数据集（JD 电商搜索日志）上对比多个基线（Cross-Encoder BERT, RankT5 等），LREF 三阶段叠加后全面 SOTA。

关键发现：DPO 去偏对低相关度样本（Marginal/Trivial→Irrelevant 的区分）提升最明显——这正是 BERT 和普通 LLM 最容易翻车的地方。

在线 A/B 实验（京东）

部署在 JD 搜索系统，通过知识蒸馏将 LLM 判断能力迁移到轻量模型，降低线上延迟。A/B 测试 20% 流量：

✅ 用户点击率 显著提升
✅ 搜索结果满意度 正向增益
✅ 蒸馏模型延迟低于 10ms，满足线上 RT 要求

与你工作的关联（1688 搜索）

可借鉴的点

ESMTR 分类体系可直接迁移到 1688 的相关性标注中——B2B 电商的 query-product 匹配比 B2C 更复杂（规格、材质、用途、起批量），五级分类比"相关/不相关"二元分类更细粒度
DPO 去偏思路对电商搜索特别关键——LLM 的"过于和气"倾向在 1688 场景下问题更大（用户搜"304不锈钢管"，LLM 可能对"201不锈钢管"给高分
数据筛选方法——1688 标注数据质量参差不齐，用一致性筛选做 SFT 能降低噪声影响
蒸馏思路——用 LLM 产高质量判断 → 蒸馏到小模型上线，兼顾效果和延迟

局限性

仅验证京东 B2C 场景，B2B 电商（如 1688）未覆盖
Multi-CoT 推理增加延迟，蒸馏是必须的但不是免费的（蒸馏有精度损失）
ESMTR 五分类的边界模糊——Marginal vs Trivial 的区分在标注时就有主观性
未讨论多语言场景（1688 有中英文混搜的需求）

LREF: A Novel LLM-based Relevance Frameworkfor E-commerce Search