哈佛大学发布百万册公共领域书籍数据集
哈佛大学近日宣布,将推出一个包含近一百万册公共领域书籍的数据集,供大众训练大型语言模型及其他AI工具。该项目由哈佛大学新成立的机构数据计划(Institutional Data Initiative)主导,并获得微软和OpenAI的资金支持。
数据集内容及规模
- 数据来源:该数据集包括来自谷歌图书项目的扫描书籍,涵盖莎士比亚、狄更斯和但丁等经典作者的作品,以及一些较为冷门的捷克数学教科书和威尔士词典。
- 数据量:此次发布的数据集规模是之前所谓的“Books3数据集”的五倍。
项目目标
该项目旨在提供一个公平的竞争环境,使公众、尤其是小型AI公司和个人研究人员能够访问高质量的数据资源。这些数据通常只有大型科技企业才能获取。
背景及支持方声明
- 哈佛大学:Greg Leppert指出,这个项目经过了严格的筛选和精心的策划。
- 微软:微软副总裁Burton Davis强调,微软支持该项目旨在创建一个“可访问的数据池”,并确保数据以公共利益为管理目标。
- OpenAI:Tom Rubin(知识产权主管)也表示公司对支持此倡议感到高兴。
版权问题及影响
随着关于使用受版权保护数据进行AI训练的诉讼案件持续增多,哈佛大学发布的这个公共领域书籍数据集成为了重要的训练资源。虽然目前尚不清楚该数据集的具体发布方式,但它预计能为公司提供丰富的高质量数据,并避免版权纠纷。
未来规划
- 扩展合作:哈佛大学不仅限于书籍领域,还与波士顿公共图书馆合作扫描了数百万篇公共领域的报纸文章。
- 技术伙伴合作:此外,哈佛正与谷歌讨论如何促进该数据集的公众分发。
随着更多公共领域数据集的出现,AI公司未来将有更多的训练模型选项,并减少与版权相关的法律风险。这将进一步推动AI行业的公平竞争和技术创新。