我想写一些代码来分析短蛋白质序列,并确定它们的相似性,我没有参考序列,但是我想写一些for循环来比较它们,看看有多少重复序列,以及它们相似的区域。
我目前有他们所有的序列在一个csv。
我上过生物信息学课程,也做过类似的Illumina测序数据,但我是从SRA表开始的,有fasta文件。
另外,我尝试使用CD hit,但是我遇到了problems的makefile和我的编译器的兼容性。我安装了自制程序来解决这个问题,但是我仍然遇到了这个问题,make CXX=g++-9 CC=gcc-9 comand不工作。
我想知道是否有更多的更新方法比CD命中,因为我注意到,没有人真正使用CD命中自2020年以来。
另外,我知道的唯一编码语言是R和Shell,但我目前正在学习Python。
1条答案
按热度按时间s4chpxco1#
https://bioinfo.lifl.fr/yass/index.php我用它来检测SARS-CoV-2,发现它与许多病毒相似