对python中蛋白质序列的一种热编码

问题描述 投票:-1回答:1

enter image description here

我需要将序列作为训练数据,将输出列作为标签。但是在我必须对序列应用一种热编码之前,如您所见,序列的长度是不同的。请建议我如何对所有氨基酸应用一热编码以分配不同的整数值

python machine-learning one-hot-encoding
1个回答
0
投票

没有其他人可以确定对数据集进行分类的最佳方法。这是只有对目标和数据集有很好理解的人才能做出的决定。 x(x)-您的特征向量-总是非常特定于您的数据。

例如,如果您具有DNA,则可能具有确定是否存在某种密码子或针对腺嘌呤的数量等的特征,这是非常主观的,即使对调优有了很好的了解也是一项艰巨的任务。

[您必须非常小心,因为您可能会在数据中造成某些类别的偏倚,这些类别具有一定的长度,某些氨基酸的数量等。如果生成特征向量,这些偏见并不能真正代表您要分类的内容。不正确。这可能导致测试和培训错误率具有欺骗性,并得出错误的结论。

诚实,如果您在上大学,我建议您请计算机科学系或其他类似机构的人员为您的项目做贡献。虽然使用预烘焙的sklearn编码似乎很诱人,但这并不是您的情况的好解决方案。由于数据量有限,很有可能在序列长度方面出现异常情况,并且尝试将每个字符转换为它自己的功能会导致在拟合方面表现不佳。

至于实际上是将数据读入python,它是一个csv,因此您可以使用open()和split(',')进行手工解析,也可以使用一些流行的库来解析csv格式。 YMMV

© www.soinside.com 2019 - 2024. All rights reserved.