哈佛发布百万册图书数据集训练AI模型

哈佛大学发布百万册公共领域书籍数据集

哈佛大学近日宣布，将推出一个包含近一百万册公共领域书籍的数据集，供大众训练大型语言模型及其他AI工具。该项目由哈佛大学新成立的机构数据计划（Institutional Data Initiative）主导，并获得微软和OpenAI的资金支持。

该项目旨在提供一个公平的竞争环境，使公众、尤其是小型AI公司和个人研究人员能够访问高质量的数据资源。这些数据通常只有大型科技企业才能获取。

随着关于使用受版权保护数据进行AI训练的诉讼案件持续增多，哈佛大学发布的这个公共领域书籍数据集成为了重要的训练资源。虽然目前尚不清楚该数据集的具体发布方式，但它预计能为公司提供丰富的高质量数据，并避免版权纠纷。

随着更多公共领域数据集的出现，AI公司未来将有更多的训练模型选项，并减少与版权相关的法律风险。这将进一步推动AI行业的公平竞争和技术创新。