北京中科医院骗人 http://www.kstejiao.com/雷锋网AI开发者按:在大多数机器学习竞赛中,特诊工程的质量通常决定着整个作品的得分与排名,也是参赛者们非常看重的一部分。在GitHub上,作者Nomi(专注于计算机视觉与嵌入式技术,也是tiny-dnn的原作者)向我们介绍了一个面向kaggle数据科学和离线竞赛的实用工具库nyaggle,可供开发者专用于特征工程与验证。作者简介来源:Nomi工具库nyaggle在机器学习和模式识别中,特征工程的好坏将会影响整个模型的预测性能。其中特征是在观测现象中的一种独立、可测量的属性。选择信息量大、有差别性、独立的特征是模式识别、分类和回归问题的关键一步,可以帮助开发者最大限度地从原始数据中提取特征以供算法和模型使用。数据科学思维导图来源:网络而nyaggle就是一个特定于Kaggle和离线比赛的实用工具库,它主要作用于四个部分,即:特征工程、模型验证、模型实验以及模型融合,尤其在特征工程和模型验证方面有较强的性能。其中,在特征工程方面,nyaggle包含了K个特征目标编码和BERT句子向量化。目标编码使用的是目标变量的均值编码类别变量,为训练集中的每个分组计算目标变量的统计量,之后会合并验证集、测试集以捕捉分组和目标之间的关系。BERT句子向量化则是对Bert模型的输入做一个向量化,提取词句的三维信息。BERT词句向量化示例来源:网络nyaggleGitHub
转载请注明:http://www.aierlanlan.com/rzfs/7459.html