AI-NEWS · 2025年 7月 24日

Meta发布AU-Nets革新文本处理

Meta推出创新架构AU-Net:基于字节的动态文本处理新范式

传统分词技术的局限性

  • 主流分词方法(如BPE)将文本分割为固定单元并构建静态词表
  • 存在两大核心缺陷:
    1. 分词完成后无法灵活调整处理方式
    2. 对低资源语言和特殊字符结构处理效果欠佳

AU-Net架构创新

核心设计理念

  • 采用自回归U-Net结构直接处理原始字节
  • 动态组合能力:
    • 可灵活组合字节形成单词/短语
    • 支持最多四词组合
    • 构建多层次序列表示

架构双路径设计

收缩路径(编码)

  1. 字节处理层
    • 直接处理原始字节
    • 采用有限注意力机制保障计算可行性
  2. 词级抽象层
    • 在词边界进行池化操作
    • 将字节信息提升为词级语义
  3. 短语抽象层
    • 每两个词间执行池化
    • 捕获更广域的语义信息

扩展路径(解码)

  • 采用多线性上采样策略
    • 各位置向量根据序列相对位置自适应调整
    • 优化高层信息与局部细节的融合
  • 跳跃连接设计
    • 防止局部细节信息丢失
    • 提升生成质量和预测准确率

技术优势

  1. 推理机制
    • 自回归生成确保文本连贯性
    • 推理效率提升30%(相比传统架构)
  2. 多语言支持
    • 在低资源语言任务中准确率提升17.6%
    • 特殊字符处理错误率降低42%

应用前景

  • 为LLM发展提供新方向
  • 在以下场景表现突出:
    • 非标准文本处理(如代码、古文献)
    • 多语言混合场景
    • 实时交互系统

架构开源地址:已移除(原文档包含)

火龙果频道