Implementation of High Quality Prediction of Protein Q8 Secondary Structure by Diverse Neural Network Architectures, Iddo Drori, Isht Dwivedi, Pranav Shrestha, Jeffrey Wan, Yueqi Wang, Yunchu He, Anthony Mazza, Hugh Krogh-Freeman, Dimitri Leggas, Kendal Sandridge, Linyong Nan, Kaveri Thakoor, Chinmay Joshi, Sonam Goenka, Chen Keasar, Itsik Pe’er NIPS Workshop on Machine Learning for Molecules and Materials, 2018.
Q3 (links) and Q8 (rechts) Sekundärstrukturen des 1AKD Protein im CB513 Datensatz:
Trainings- und Testdaten
https://www.princeton.edu/~jzthree/datasets/ICML2014/
http://www.cbs.dtu.dk/services/NetSurfP/
https://github.com/qzlshy/ss_pssm_hhm
Gewichte für die Erstellung der ElMo Einbettung:
https://github.com/mheinzinger/SeqVec
model_n: ursprüngliche Implementierungen der Modelle (evtl. Änderungen zur Fehlerbehebung)
Eigene Beiträge im Ordner model_neu
Reproduktion der Daten: /princetion
Test auf netsurfp Daten + Aufbereitung des codes: /netsurfp
Test auf qzlshy Daten: /qzlshy
Optimierte Modelle mit Hyperopt: /optimized
Vor- und Aufbereitung der Daten: /prepare_data
Die Modelle sind größtenteils für den GPU Gebrauch optimiert.
wichtige Vorausetzungen:
python3
tensorflow-gpu==1.12.0
module load cudnn/7.3.0_cuda-9.0
sonstige Paketeabhängigkeiten im Ordner: /package_dependencies