Google Gemini Embedding 技术分析报告
概述
Google 最近推出了名为 "gemini-embedding-exp-03-07" 的 Gemini API,该技术在大规模文本嵌入基准(MTEB)上表现出色,特别是在检索和分类任务中。此技术通过 Fine-tuning 方法优化,支持高达 8K tokens 的输入,并在多种嵌入长度(如 3K, 2K, 1K, 512)上进行了测试。
技术细节
- MTEB 表现:在 MTEB 基准测试中,Gemini Embedding 达到了 68.32 的分数,相较于之前版本提升了 5.81 分。
- Fine-tuning:通过 Fine-tuning 技术,Gemini Embedding 在特定任务上的表现得到了显著提升。
- Token 支持:支持高达 8K tokens 的输入,适用于处理长文本数据。
- Matryoshka Representation Learning (MRL):采用了 MRL 技术,使得模型在不同长度的嵌入(如 3K, 2K, 1K, 512)上都能保持高效和准确。
应用示例
通过 Google 提供的 API,用户可以轻松地将文本内容嵌入到模型中。例如,使用以下代码可以将问题 "How does AlphaFold work?" 嵌入到 Gemini Embedding 模型中,并获取嵌入结果:
from google import genai
client = genai.Client(api_key="YOURGEMINIAPIKEY")
result = client.models.embed_content(
model="gemini-embedding-exp-03-07",
contents="How does AlphaFold work?",
)
print(result.embeddings)
结论
Google 的 Gemini Embedding 技术通过其高效的 Fine-tuning 方法和强大的 token 支持,为处理大规模文本数据提供了强有力的工具。其在 MTEB 基准测试中的优异表现,证明了其在检索和分类任务中的高效性和准确性。