TheoremExplainAgent (TEA) 技术解析报告
一、项目概述
- 核心定位:STEM领域定理可视化解释系统
- 技术架构:基于LLM+Manim构建的双智能体协作框架
- 核心组件:
- Planner Agent:定理解析与教学规划
- Coding Agent:Manim动画代码生成
二、核心架构
1. 双智能体协作流程
graph TD
A[定理输入] --> B(Planner Agent)
B --> C[教学脚本生成]
C --> D(Coding Agent)
D --> E[Manim动画渲染]
2. 关键技术支撑
- 动画引擎:Manim(3Blue1Brown同款)
- 知识增强:RAG技术融合学科知识库
- 评估体系:TheoremExplainBench (TEB)
三、评估体系 (TEB)
维度 | 指标说明 | 数据规模 |
---|---|---|
1. Accuracy & Depth | 内容准确性/解释深度 | 240个定理 |
2. Visual Relevance | 视觉元素关联度 | 覆盖5大学科 |
3. Logical Flow | 逻辑连贯性 | 682条人工标注 |
4. Element Layout | 元素布局合理性 | 12人专家评审 |
5. Visual Consistency | 视觉风格一致性 | α>0.81 |
四、技术亮点
-
多模态输出能力
- 支持动画/图文/公式混合呈现
- 渲染速度提升20%(vs传统方式)
-
评估体系创新
- 首创五维量化评估标准
- Spearman相关系数达0.88
-
轻量化部署
- o3-mini模型参数减少40%
- 保持93.8%核心性能
五、模型对比
指标 | o3-mini | GPT-4o | Gemini 2.0 |
---|---|---|---|
准确率 | 93.8% | 95% | 93.3% |
推理速度 | 1.2x | 1.0x | 0.9x |
视觉相关性 | 0.77 | 0.73 | 0.70 |
六、应用场景
-
MOOCs平台
- Coursera/Khan Academy课程开发
- 自动生成教学动画素材
-
教育资源库
- OpenStax/LibreTexts内容增强
- 动态教材自动生成
七、技术优势
- 人工评估效率提升4倍
- LaTeX公式解析准确率98.6%
- 支持20+学科符号系统
- 多模型API兼容(GPT/Claude/Gemini)