Python filter_out_invalid_smiles示例，utils.filter_out_invalid_smiles Python示例

示例#1

0

显示文件

文件： dataset.py 项目： chao1224/BioChemGNN_Dense

    def __init__(self, **kwargs):
        self.root = kwargs['root']
        self.model = kwargs['model']

        file_name = '{}/toxcast_data.csv'.format(self.root)
        df = pd.read_csv(file_name, nrows=1)
        self.given_targets = list(df.columns[1:])
        print('# of targets: {}'.format(len(self.given_targets)))

        smiles_list, task_label_list = from_2Dcsv(
            csv_file=file_name,
            smiles_field='smiles',
            task_list_field=self.given_targets)
        smiles_list, self.task_label_list = filter_out_invalid_smiles(
            smiles_list, task_label_list)
        print('smiles list: {}\tlabel list: {}'.format(
            len(smiles_list), len(self.task_label_list)))
        print('max atom num: {}'.format(
            _get_max_atom_num_from_smiles_list(smiles_list)))
        kwargs['representation'] = 'smiles'
        self.data = transform(smiles_list, **kwargs)
        self.task_label_list = preprocessing_classification_task_label_list(
            self.task_label_list)

        return

示例#2

0

显示文件

文件： dataset.py 项目： chao1224/BioChemGNN_Dense

    def __init__(self, **kwargs):
        self.root = kwargs['root']
        self.model = kwargs['model']
        self.given_targets = [
            'NR-AR', 'NR-AR-LBD', 'NR-AhR', 'NR-Aromatase', 'NR-ER',
            'NR-ER-LBD', 'NR-PPAR-gamma', 'SR-ARE', 'SR-ATAD5', 'SR-HSE',
            'SR-MMP', 'SR-p53'
        ]

        file_name = '{}/tox21.csv'.format(self.root)
        smiles_list, task_label_list = from_2Dcsv(
            csv_file=file_name,
            smiles_field='smiles',
            task_list_field=self.given_targets)
        smiles_list, self.task_label_list = filter_out_invalid_smiles(
            smiles_list, task_label_list)
        print('smiles list: {}\tlabel list: {}'.format(
            len(smiles_list), len(self.task_label_list)))
        print('max atom num: {}'.format(
            _get_max_atom_num_from_smiles_list(smiles_list)))
        kwargs['representation'] = 'smiles'
        self.data = transform(smiles_list, **kwargs)
        self.task_label_list = preprocessing_classification_task_label_list(
            self.task_label_list)

        return

示例#3

0

显示文件

文件： dataset.py 项目： chao1224/BioChemGNN_Dense

    def __init__(self, **kwargs):
        self.root = kwargs['root']
        self.model = kwargs['model']
        self.given_targets = [
            'MUV-466', 'MUV-548', 'MUV-600', 'MUV-644', 'MUV-652', 'MUV-689',
            'MUV-692', 'MUV-712', 'MUV-713', 'MUV-733', 'MUV-737', 'MUV-810',
            'MUV-832', 'MUV-846', 'MUV-852', 'MUV-858', 'MUV-859'
        ]

        file_name = '{}/muv.csv'.format(self.root)
        smiles_list, task_label_list = from_2Dcsv(
            csv_file=file_name,
            smiles_field='smiles',
            task_list_field=self.given_targets)
        smiles_list, self.task_label_list = filter_out_invalid_smiles(
            smiles_list, task_label_list)
        print('smiles list: {}\tlabel list: {}'.format(
            len(smiles_list), len(self.task_label_list)))
        print('max atom num: {}'.format(
            _get_max_atom_num_from_smiles_list(smiles_list)))
        kwargs['representation'] = 'smiles'
        self.data = transform(smiles_list, **kwargs)
        self.task_label_list = preprocessing_classification_task_label_list(
            self.task_label_list)

        return

示例#4

0

显示文件

    def __init__(self, **kwargs):
        super(BBBPDataset, self).__init__()
        self.model = kwargs['model']
        self.given_target = 'p_np'

        file_name = './datasets/BBBP.csv'
        smiles_list, task_label_list = from_2Dcsv(csv_file=file_name, smiles_field='smiles', task_list_field=[self.given_target])
        smiles_list, self.task_label_list = filter_out_invalid_smiles(smiles_list, task_label_list)
        print('smiles list: {}\tlabel list: {}'.format(len(smiles_list), len(self.task_label_list)))
        # print('max atom num: {}'.format(_get_max_atom_num_from_smiles_list(smiles_list)))
        kwargs['representation'] = 'smiles'
        self.data = transform(smiles_list, **kwargs)

        return

示例#5

0

显示文件

文件： dataset.py 项目： chao1224/BioChemGNN_Dense

    def __init__(self, **kwargs):
        self.root = kwargs['root']
        self.model = kwargs['model']
        self.given_targets = [
            'Hepatobiliary disorders', 'Metabolism and nutrition disorders',
            'Product issues', 'Eye disorders', 'Investigations',
            'Musculoskeletal and connective tissue disorders',
            'Gastrointestinal disorders', 'Social circumstances',
            'Immune system disorders',
            'Reproductive system and breast disorders',
            'Neoplasms benign, malignant and unspecified (incl cysts and polyps)',
            'General disorders and administration site conditions',
            'Endocrine disorders', 'Surgical and medical procedures',
            'Vascular disorders', 'Blood and lymphatic system disorders',
            'Skin and subcutaneous tissue disorders',
            'Congenital, familial and genetic disorders',
            'Infections and infestations',
            'Respiratory, thoracic and mediastinal disorders',
            'Psychiatric disorders', 'Renal and urinary disorders',
            'Pregnancy, puerperium and perinatal conditions',
            'Ear and labyrinth disorders', 'Cardiac disorders',
            'Nervous system disorders',
            'Injury, poisoning and procedural complications'
        ]

        file_name = '{}/sider.csv'.format(self.root)
        smiles_list, task_label_list = from_2Dcsv(
            csv_file=file_name,
            smiles_field='smiles',
            task_list_field=self.given_targets)
        smiles_list, self.task_label_list = filter_out_invalid_smiles(
            smiles_list, task_label_list)
        print('smiles list: {}\tlabel list: {}'.format(
            len(smiles_list), len(self.task_label_list)))
        print('max atom num: {}'.format(
            _get_max_atom_num_from_smiles_list(smiles_list)))
        kwargs['representation'] = 'smiles'
        self.data = transform(smiles_list, **kwargs)
        self.task_label_list = preprocessing_classification_task_label_list(
            self.task_label_list)

        return

示例#6

0

显示文件

文件： dataset.py 项目： chao1224/BioChemGNN_Dense

    def __init__(self, **kwargs):
        self.root = kwargs['root']
        self.model = kwargs['model']
        self.given_targets = ['FDA_APPROVED', 'CT_TOX']

        file_name = '{}/clintox.csv'.format(self.root)
        smiles_list, task_label_list = from_2Dcsv(
            csv_file=file_name,
            smiles_field='smiles',
            task_list_field=self.given_targets)
        smiles_list, self.task_label_list = filter_out_invalid_smiles(
            smiles_list, task_label_list)
        print('smiles list: {}\tlabel list: {}'.format(
            len(smiles_list), len(self.task_label_list)))
        print('max atom num: {}'.format(
            _get_max_atom_num_from_smiles_list(smiles_list)))
        kwargs['representation'] = 'smiles'
        self.data = transform(smiles_list, **kwargs)
        self.task_label_list = preprocessing_classification_task_label_list(
            self.task_label_list)

        return