什么是开源发布工具包?
恭喜你的论文成功发表,这是一个巨大的成就!你的研究成果将为学界做出贡献。
其实除了发表论文之外,你还可以通过发布研究的其他部分,如代码、数据集、模型等,来增加研究的可见度和采用率。这将使更多人能够使用你的研究,并推动研究成果的应用。我们整理了这份文件,让你可以更好的了解和实践开源。希望这份文件对你有所帮助!
什么是开源?
公开研究-不仅仅是论文,还包括相关的所有成果,如代码、模型、数据集或在线演示。
为什么要开源?
进行开放获取研究[^1],可以让更多的人了解和使用你的研究或项目成果,促进社区研究人员之间的合作。通过共享机器学习的知识和资源以及社区协作,来推动机器学习领域的发展。
[^1]:开放获取意味着一个成果是公开可访问的。例如,你可以公开发布一个模型,同时拥有一个不完全符合开源倡议组织(OSI)对开源所设定的确切标准的许可证。例如,如果许可证限制了模型的使用方式,它就不被视为开源。不过,它仍然是对社区有价值的开放获取成果!
如何开源?
机器学习发布有很多的形式和规模。你可以根据你的时间线、优先级、内部政策或者其他因素来决定如何开源和开源哪些内容。比如:你可以只公布代码,也可以公布模型等其他成果。
以下是开源的步骤概览:
论文代码仓库数据集模型构建在线演示demo推广应用你可以自由定义想要发布的内容、如何发布以及什么时间进行发布;本文档会详细介绍上述每项内容的具体步骤和指导。
你会用到什么工具?
分享论文可以使用arXiv:这是一个免费的可以公开发表论文的平台,在机器学习领域中被广泛使用。
分享代码可以使用GitHub:这是一个代码版本控制平台。在GitHub上,你可以分享训练代码、如何加载模型或数据集的示例等。
分享模型权重,数据集及演示则可以使用HuggingFaceHub:HF是一个协作式机器学习平台,人们可以在其中轻松地探索、体验并共同创建机器学习。此外它还提供一定的社交功能,如论文讨论。
如何使用这份文档?
这份文档提供了具体的项目和步骤指导,你可以选择按照步骤完成所有项目成果的发布,也可以根据自己的需求来选择想要发布的项目成果。步骤看似很多,但是每一步仅需不到一分钟的时间即可完成。我们建议你复制这份文档,以便随时查阅。文档末尾会有一个核对清单,帮助你核对每一步,为开源你的项目成果做好充分的准备。
热门开源发布示例
Meta的Llama2(论文,代码库,模型,演示)EPFL的Meditron(论文,代码库,模型,数据)Adept的Fuyu(博客,模型,演示)Meta的Seamless(论文,代码库,合集)GitHub仓库: