Exploring chemical space for lead identification by propagating on chemical similarity network

Motivation: Lead identification is a fundamental step to prioritize candidate compounds for downstream drug discovery process. Machine learning (ML) and deep learning (DL) approaches are widely used to identify lead compounds using both chemical property and experimental information. However, ML or...

Full description

Bibliographic Details
Main Authors:	Jungseob Yi, Sangseon Lee, Sangsoo Lim, Changyun Cho, Yinhua Piao, Marie Yeo, Dongkyu Kim, Sun Kim, Sunho Lee
Format:	Article
Language:	English
Published:	Elsevier 2023-01-01
Series:	Computational and Structural Biotechnology Journal
Subjects:	Lead identification Data mining Chemical network construction Network propagation
Online Access:	http://www.sciencedirect.com/science/article/pii/S200103702300291X

_version_	1797384060565192704
author	Jungseob Yi Sangseon Lee Sangsoo Lim Changyun Cho Yinhua Piao Marie Yeo Dongkyu Kim Sun Kim Sunho Lee
author_facet	Jungseob Yi Sangseon Lee Sangsoo Lim Changyun Cho Yinhua Piao Marie Yeo Dongkyu Kim Sun Kim Sunho Lee
author_sort	Jungseob Yi
collection	DOAJ
description	Motivation: Lead identification is a fundamental step to prioritize candidate compounds for downstream drug discovery process. Machine learning (ML) and deep learning (DL) approaches are widely used to identify lead compounds using both chemical property and experimental information. However, ML or DL methods rarely consider compound similarity information directly since ML and DL models use abstract representation of molecules for model construction. Alternatively, data mining approaches are also used to explore chemical space with drug candidates by screening undesirable compounds. A major challenge for data mining approaches is to develop efficient data mining methods that search large chemical space for desirable lead compounds with low false positive rate. Results: In this work, we developed a network propagation (NP) based data mining method for lead identification that performs search on an ensemble of chemical similarity networks. We compiled 14 fingerprint-based similarity networks. Given a target protein of interest, we use a deep learning-based drug target interaction model to narrow down compound candidates and then we use network propagation to prioritize drug candidates that are highly correlated with drug activity score such as IC50. In an extensive experiment with BindingDB, we showed that our approach successfully discovered intentionally unlabeled compounds for given targets. To further demonstrate the prediction power of our approach, we identified 24 candidate leads for CLK1. Two out of five synthesizable candidates were experimentally validated in binding assays. In conclusion, our framework can be very useful for lead identification from very large compound databases such as ZINC.
first_indexed	2024-03-08T21:30:02Z
format	Article
id	doaj.art-4f3644f0e62848a29be9d63c8db20012
institution	Directory Open Access Journal
issn	2001-0370
language	English
last_indexed	2024-03-08T21:30:02Z
publishDate	2023-01-01
publisher	Elsevier
record_format	Article
series	Computational and Structural Biotechnology Journal
spelling	doaj.art-4f3644f0e62848a29be9d63c8db200122023-12-21T07:31:57ZengElsevierComputational and Structural Biotechnology Journal2001-03702023-01-012141874195Exploring chemical space for lead identification by propagating on chemical similarity networkJungseob Yi0Sangseon Lee1Sangsoo Lim2Changyun Cho3Yinhua Piao4Marie Yeo5Dongkyu Kim6Sun Kim7Sunho Lee8Interdisciplinary Program in Artificial Intelligence, Seoul National University, Gwanak-ro 1, Gwanak-gu, Seoul, 08826, South KoreaInstitute of Computer Technology, Seoul National University, Gwanak-ro 1, Gwanak-gu, Seoul, 08826, South KoreaSchool of AI Software Convergence, Dongguk University, Pildong-ro 1-gil, Jung-gu, Seoul, South KoreaInterdisciplinary Program in Bioinformatics, Seoul National University, Gwanak-ro 1, Gwanak-gu, Seoul, 08826, South KoreaDepartment of Computer Science and Engineering, Seoul National University, Gwanak-ro 1, Gwanak-gu, Seoul, 08826, South KoreaPHARMGENSCIENCE CO., LTD., 216, Dongjak-daero, Seocho-gu, Seoul, 06554, South KoreaPHARMGENSCIENCE CO., LTD., 216, Dongjak-daero, Seocho-gu, Seoul, 06554, South KoreaInterdisciplinary Program in Artificial Intelligence, Seoul National University, Gwanak-ro 1, Gwanak-gu, Seoul, 08826, South Korea; Interdisciplinary Program in Bioinformatics, Seoul National University, Gwanak-ro 1, Gwanak-gu, Seoul, 08826, South Korea; Department of Computer Science and Engineering, Seoul National University, Gwanak-ro 1, Gwanak-gu, Seoul, 08826, South Korea; AIGENDRUG CO., LTD., Gwanak-ro 1, Gwanak-gu, Seoul, 08826, South KoreaAIGENDRUG CO., LTD., Gwanak-ro 1, Gwanak-gu, Seoul, 08826, South Korea; Corresponding author.Motivation: Lead identification is a fundamental step to prioritize candidate compounds for downstream drug discovery process. Machine learning (ML) and deep learning (DL) approaches are widely used to identify lead compounds using both chemical property and experimental information. However, ML or DL methods rarely consider compound similarity information directly since ML and DL models use abstract representation of molecules for model construction. Alternatively, data mining approaches are also used to explore chemical space with drug candidates by screening undesirable compounds. A major challenge for data mining approaches is to develop efficient data mining methods that search large chemical space for desirable lead compounds with low false positive rate. Results: In this work, we developed a network propagation (NP) based data mining method for lead identification that performs search on an ensemble of chemical similarity networks. We compiled 14 fingerprint-based similarity networks. Given a target protein of interest, we use a deep learning-based drug target interaction model to narrow down compound candidates and then we use network propagation to prioritize drug candidates that are highly correlated with drug activity score such as IC50. In an extensive experiment with BindingDB, we showed that our approach successfully discovered intentionally unlabeled compounds for given targets. To further demonstrate the prediction power of our approach, we identified 24 candidate leads for CLK1. Two out of five synthesizable candidates were experimentally validated in binding assays. In conclusion, our framework can be very useful for lead identification from very large compound databases such as ZINC.http://www.sciencedirect.com/science/article/pii/S200103702300291XLead identificationData miningChemical network constructionNetwork propagation
spellingShingle	Jungseob Yi Sangseon Lee Sangsoo Lim Changyun Cho Yinhua Piao Marie Yeo Dongkyu Kim Sun Kim Sunho Lee Exploring chemical space for lead identification by propagating on chemical similarity network Computational and Structural Biotechnology Journal Lead identification Data mining Chemical network construction Network propagation
title	Exploring chemical space for lead identification by propagating on chemical similarity network
title_full	Exploring chemical space for lead identification by propagating on chemical similarity network
title_fullStr	Exploring chemical space for lead identification by propagating on chemical similarity network
title_full_unstemmed	Exploring chemical space for lead identification by propagating on chemical similarity network
title_short	Exploring chemical space for lead identification by propagating on chemical similarity network
title_sort	exploring chemical space for lead identification by propagating on chemical similarity network
topic	Lead identification Data mining Chemical network construction Network propagation
url	http://www.sciencedirect.com/science/article/pii/S200103702300291X
work_keys_str_mv	AT jungseobyi exploringchemicalspaceforleadidentificationbypropagatingonchemicalsimilaritynetwork AT sangseonlee exploringchemicalspaceforleadidentificationbypropagatingonchemicalsimilaritynetwork AT sangsoolim exploringchemicalspaceforleadidentificationbypropagatingonchemicalsimilaritynetwork AT changyuncho exploringchemicalspaceforleadidentificationbypropagatingonchemicalsimilaritynetwork AT yinhuapiao exploringchemicalspaceforleadidentificationbypropagatingonchemicalsimilaritynetwork AT marieyeo exploringchemicalspaceforleadidentificationbypropagatingonchemicalsimilaritynetwork AT dongkyukim exploringchemicalspaceforleadidentificationbypropagatingonchemicalsimilaritynetwork AT sunkim exploringchemicalspaceforleadidentificationbypropagatingonchemicalsimilaritynetwork AT sunholee exploringchemicalspaceforleadidentificationbypropagatingonchemicalsimilaritynetwork

Exploring chemical space for lead identification by propagating on chemical similarity network

Similar Items