给科研人的ML开源发布工具包

什么是开源发布工具包？

恭喜你的论文成功发表，这是一个巨大的成就！你的研究成果将为学界做出贡献。

其实除了发表论文之外，你还可以通过发布研究的其他部分，如代码、数据集、模型等，来增加研究的可见度和采用率。这将使更多人能够使用你的研究，并推动研究成果的应用。我们整理了这份文件，让你可以更好的了解和实践开源。希望这份文件对你有所帮助！

什么是开源？

公开研究-不仅仅是论文，还包括相关的所有成果，如代码、模型、数据集或在线演示。

为什么要开源？

进行开放获取研究[^1]，可以让更多的人了解和使用你的研究或项目成果，促进社区研究人员之间的合作。通过共享机器学习的知识和资源以及社区协作，来推动机器学习领域的发展。

[^1]:开放获取意味着一个成果是公开可访问的。例如，你可以公开发布一个模型，同时拥有一个不完全符合开源倡议组织(OSI)对开源所设定的确切标准的许可证。例如，如果许可证限制了模型的使用方式，它就不被视为开源。不过，它仍然是对社区有价值的开放获取成果！

如何开源？

机器学习发布有很多的形式和规模。你可以根据你的时间线、优先级、内部政策或者其他因素来决定如何开源和开源哪些内容。比如：你可以只公布代码，也可以公布模型等其他成果。

以下是开源的步骤概览：

论文代码仓库数据集模型构建在线演示demo推广应用

你可以自由定义想要发布的内容、如何发布以及什么时间进行发布；本文档会详细介绍上述每项内容的具体步骤和指导。

你会用到什么工具？

分享论文可以使用arXiv：这是一个免费的可以公开发表论文的平台，在机器学习领域中被广泛使用。

分享代码可以使用GitHub：这是一个代码版本控制平台。在GitHub上，你可以分享训练代码、如何加载模型或数据集的示例等。

分享模型权重，数据集及演示则可以使用HuggingFaceHub：HF是一个协作式机器学习平台，人们可以在其中轻松地探索、体验并共同创建机器学习。此外它还提供一定的社交功能，如论文讨论。

如何使用这份文档？

这份文档提供了具体的项目和步骤指导，你可以选择按照步骤完成所有项目成果的发布，也可以根据自己的需求来选择想要发布的项目成果。步骤看似很多，但是每一步仅需不到一分钟的时间即可完成。我们建议你复制这份文档，以便随时查阅。文档末尾会有一个核对清单，帮助你核对每一步，为开源你的项目成果做好充分的准备。

热门开源发布示例

Meta的Llama2(论文,代码库,模型,演示)EPFL的Meditron(论文,代码库,模型,数据)Adept的Fuyu(博客,模型,演示)Meta的Seamless(论文,代码库,合集)

GitHub仓库：