英伟达近日发布了NeMo Curator,这是一个专为大型语言模型(LLM)训练设计的数据清洗和准备工具。它利用GPU加速技术,能够高效处理大规模数据集,显著提升数据预处理效率。NeMo Curator支持多种数据源,包括网页文本、PDF和代码库,并提供了去重、过滤和质量评估等功能。
该工具旨在帮助企业和研究机构更快速地构建高质量的训练数据集,从而优化AI模型的性能。英伟达表示,NeMo Curator已在其内部训练中使用,未来将开源,以推动AI社区的发展。
长按识别二维码