Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений
Очевидно, что результаты моделирования связи «структура-свойство», основанные на моделях типа уравнения (1), существенно зависят от выбранных молекулярных параметров, а также вида аппроксимирующей функции. Рассмотрим основные типы параметров, используемых в С^РЛ-моделях, а также их достоинства и недостатки. а) Физико-химические параметры. В обзоре приведен обширный список таких параметров… Читать ещё >
Содержание
- ГЛАВА 1. Методы построения моделей связи «структура-свойство» на основе базисных инвариантов и базисных подграфов молекулярных графов
- 1. 1. Введение
- 1. 2. Базис инвариантов графов (определение 1), его свойства и применение для моделирования связи «структура-свойство» (метод № 1)
- 1. 3. Базис инвариантов графов (определение 2) и его свойства
- 1. 4. Модификация базисных инвариантов, введенных в
- 1. 3. и их применение для моделирования связи «структура — свойство» (метод № 2)
- 1. 5. Базис инвариантов графов (определение 3), его свойства и применение для моделирования связи «структура-свойство» (метод № 3)
- 1. 6. Базисные подграфы и их применение для моделирования связи «структура
- — свойство» (метод № 4)
Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений (реферат, курсовая, диплом, контрольная)
§ 2.2. Описание алгоритма конструирования инвариантов графа.113.
§ 2.3. Основные топологические индексы как результат реализации алгоритма генерации инвариантов графа.124.
§ 2.4. Метод построения корреляций «структура-свойство» на основе алгоритма генерации инвариантов графов и результаты его тестирования.128.
§ 2.5. Основные результаты и выводы.137.
ГЛАВА 3. Методы определения области применимости модели связи «структура — свойство».140.
§ 3.1.
Введение
140.
§ 3.2. Вероятностный метод определения области применимости линейной модели связи «структура-свойство». 140.
§ 3.3. Определение области применимости модели связи «структура — свойство во» на основе базисных инвариантов. 144.
§ 3.4. Основные результаты и выводы. 149.
ГЛАВА 4. Обратные задачи в исследованиях связи «структура-свойство»: теоретико-графовый подход. 154.
§ 4.1.
Введение
154.
§ 4.2. Обратная задача для индекса Рандича. 155.
§ 4.3. Обратная задача для «каппа"-индексов Кира. 168.
§ 4.4. Обратная задача для информационных топологических индексов.175.
§ 4.5. Обратная задача для индекса Хосойя.179.
§ 4.6. Основные результаты и выводы.192.
ГЛАВА 5. Построение моделей связи «структура-свойство» и прогнозирование свойств химических соединений на основе концепции молекулярного подобия.196.
§ 5.1.
Введение
196.
§ 5.2. Общая аналитическая формула для произвольной меры подобия молекулярных графов и следствия из нее.196.
§ 5.3. Метод прогнозирования свойств соединений, основанный на оптимальном подборе меры молекулярного подобия.201.
§ 5.4. Построение оптимальной меры подобия молекулярных графов при прогнозировании свойств соединений по методу «ближайшего соседа».207.
§ 5.5. Формализация постулата «близкие структуры имеют близкие свойства» и его анализ.210.
§ 5.6. Основные результаты и выводы.212.
ГЛАВА 6. Алгоритмы на графах, используемые для их кодирования, идентификации и исследования структурных особенностей.217.
§ 6.1.
Введение
217.
§ 6.2. Алгоритм поиска канонической нумерации вершин графа и его группы автоморфизмов, основанный на спектральной теории графов.217.
§ 6.3. Алгоритм установления изоморфизма графов и поиска его группы симметрии.224.
§ 6.4. Алгоритм нахождения в графе заданных подграфов.226.
§ 6.5. Основные результаты и выводы.234.
ВЫВОДЫ. 236.
СПИСОК ЦИТИРОВАННОЙ ЛИТЕРАТУРЫ. 241.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ.253.
ПРИЛОЖЕНИЕ.261.
1. Общая характеристика области исследованийи ее современного состояния.
• Постановка основной задачи и ее актуальность. Проблема математического моделирования связи между структурой и различными свойствами органических соединений является одной из важнейших задач современной теоретической химии [1−10,11]. Эту область исследований обычно называют QSAR/QSPR (Quantitative Structure-Activity/Property Relationships Studies), или QSPR, если под «свойством» химических соединений подразумевают любое их свойство — физико-химическое, биологическую активность или какой-либо расчетный молекулярный параметр.
Основная цель построения моделей связи «структура-свойство» -прогнозирование свойств соединений, для которых отсутствуют экспериментальные данные. Найденные закономерности имеют большое значение для целенаправленного синтеза соединений с заданными свойствами, так как позволяют, в конечном итоге, предсказывать структуру искомых соединений и прогнозировать их свойства. Следует отметить, что к настоящему времени синтезировано огромное количество химических соединений (согласно работе [12], около 20 млн.), которые интенсивно вовлекаются в сферу практического использования. Однако экспериментальное определение различных свойств этих веществ (физико-химических, разных видов биологической активности) часто связано со значительными трудностями, возникающими, например, при получении достаточного количества вещества, его очисткой, возможной нестойкостью, токсичностью и т. д., да и не всегда возможно. Кроме того, такие исследования требуют значительных финансовых и временных затрат. В работе [13] приводятся следующие данные: для отбора одного вещества с заданным свойством нужно испытать в среднем 3−10 тыс. соединений — таков КПД обращении созданного вещества в вещество, используемое на практикев 1991;1992 г. г. из каждых 50−60 тыс. вновь синтезированных веществ внедрялось в практику лишь одно. В связи с этим разработка любых теоретических методов расчета свойств веществ по их структуре, минуя эксперимент, является актуальной задачей. Отметим также, что выявленные закономерности могут быть полезны и при разработке новых теорий о связи свойств веществ с их строением, а также при изучении механизмов действия биологически активных веществ.
• Статистический подход к построению моделей в QSAR/QAPR-исследованиях. Одним из наиболее распространенных подходов к поиску количественных соотношений типа «структура-свойство» является так называемый статистический подход, суть которого заключается в следующем. Имеется выборка соединений с известными численными значениями некоторого свойства (физико-химического или биологической активности). Структура рассматриваемых соединений описывается при помощи набора молекулярных параметров xi,., x", в качестве которых могут быть использованы топологические, электронные, геометрические характеристики молекул или значения их каких-либо физико-химических свойств. Как правило, математическая модель связи «структура-свойство» в рамках этого подхода имеет вид уравнения, связывающего исследуемое свойство у и параметры х],., хп при помощи некоторой функции/: у=/(хи., хг). (1).
Общий вид функции /предполагается известным (например, это может быть линейная или квадратичная функция) — однако / зависит от ряда подгоночных параметров. Эти параметры подбираются по известным численным значениям рассматриваемого свойства соединений заданной выборки так, чтобы соотношение (1) выполнялось бы как можно более точно на этой выборке.
Важное место в исследованиях связи «структура-свойство» занимают способы количественного описания структуры молекул, т. е. выбор параметров Х],., ХП. От этого выбора значительно зависит успех в построении и применении модели. Эти параметры могут быть как экспериментальными, так и расчетными. Для получения расчетных параметров в качестве основы используется классическая структурная молекулы, которую можно рассматривать как меченый граф. По ней тем или иным способом могут быть построены другие меченые (или взвешенные) графы, называемые молекулярными. Вершины таких графов обычно соответствуют атомам (или фрагментам), а ребра — химическим связям молекулы. Метки вершин кодируют атомы различной химической природы, а метки ребер — связи разного типа. Каждой молекулярной структуре могут быть сопоставлены различные инварианты л-?,., х" соответствующих молекулярных графов. Использование инвариантов графов в этих задачах имеет ряд преимуществ, т.к. они вычисляются непосредственно из структурной формулы и могут быть найдены даже для гипотетических молекул. Выбирая специальным образом веса вершин и ребер молекулярного графа, можно в той или иной степени учесть особенности топологического, электронного и пространственного строения молекулы. Эти веса могут быть взяты как из справочников (например, заряды ядер атомов или ковалентные радиусы атомов), так и рассчитаны при помощи специальных стандартных программ, позволяющих определить электронные и геометрические характеристики молекул (например, могут быть определены межатомные расстояния в трехмерной модели молекулы или квантово-химическими методами рассчитаны заряды на атомах). Инварианты графов, для построения которых использовалась лишь информация о топологии молекулы и, возможно, справочные данные о количественных характеристиках атомов и связях разного типа, в теоретической химии обычно называют топологическими индексами. Инварианты графов, связанных с пространственными моделями молекул, обычно называют геометрическими дескрипторами. Если же для вычисления весов графа использовались квантово-химические методы, то соответствующие инварианты называют квантово-химическими параметрами. Отметим, что при построении молекулярного графа возможна и комбинация вышеуказанных подходов.
Очевидно, что результаты моделирования связи «структура-свойство», основанные на моделях типа уравнения (1), существенно зависят от выбранных молекулярных параметров, а также вида аппроксимирующей функции. Рассмотрим основные типы параметров, используемых в С^РЛ-моделях, а также их достоинства и недостатки [1,4,5,10,11,14,15]. а) Физико-химические параметры. В обзоре [15] приведен обширный список таких параметров. В их число входит логарифм коэффициента распределения, параметр липофильности, параметры тонкослойной хроматографии, парахор, мольный объем, растворимость в воде, молекулярный вес, поверхностное натяжение, молекулярная рефракция, физико-химические константы заместителей, характеризующие их электронное и пространственное строение, и т. д. Отметим, что такие параметры используются, как правило, для моделирования только биологической активности веществ. Наиболее распространенным из них является 1о§ Р — логарифм коэффициента распределения вещества в системе октанол/вода. В качестве недостатка физико-химических параметров следует отметить их экспериментальный характер, что не позволяет использовать модели, содержащие такие параметры, для расчета свойств соединений, для которых не известны соответствующие данные. б) Квантово-химические параметры. В обзоре [16] (содержащем 249 ссылок), посвященном применению квантово-химических параметров в (^АН-исследованиях, приведено 55 таких параметров. В их числе такие, как индекс свободной валентности, энергия наивысшей занятой орбитали (НЗМО) и энергия низшей свободной молекулярной орбитали (НСМО), дипольный момент, потенциал ионизации, сродство к электрону, энергия резонанса и др. Применению квантово-химических методов при прогнозировании токсичности веществ посвящен также обзор [8] (содержит 236 ссылок). Достоинством таких параметров является возможность их физико-химической интерпретации, а также расчетный характер. Однако, как указано в [15], не ясно, каким из квантово-химических параметров следует отдавать предпочтение при построении моделей. В обзоре [11] отмечено, что получаемая в результате квантово-химических расчетов информация не всегда достаточно надежна и точна. В работе [16] указана также проблема вычисления квантово-химических параметров для конформационно-гибких молекул. В работе [17] предложен подход для прогнозирования биологической активности конформационно-гибких соединений, основанный на методе интервального анализа и использующий квантово-химические параметры. в) Геометрические параметры. Эти параметры рассчитываются из трехмерной модели молекулы, полученной путем минимизации энергии структуры (например, методами молекулярной механики). Геометрические параметры характеризуют размер и форму молекулы. Наиболее распространенные из них — ван-дер-ваальсов объем молекулы и собственные числа тензора инерции. Для построения тензора инерции, представляющего собой матрицу размера 3×3, используются атомные массы и пространственные координаты ядер атомов [1]. В работе [18] рассматривается матрица, диагональные элементы которой равны атомным массам, а внедиагональные межатомным расстояниям. В качестве геометрических параметров предложено использовать собственные числа этой матрицы и ряд простейших функций от них.
Одно из важных приложений квантово-химических методов — расчет возможных устойчивых конформаций молекул. Однако результат нередко зависит от того, каким методом он проведен и какие значения молекулярных параметров (например, длин связей и валентных углов) использовались. В свою очередь, одно из возможных применений конформационного анализа заключается в следующем. Рассчитывается устойчивая конформация для каждого из исследуемых соединений, обладающих разной структурой, но одним типом биологического действия. Затем, отыскивая фрагменты, имеющие сходное распределение зарядов, находят активный центр различных биоактивных соединений. Следует отметить, что с помощью квантово-химических методов рассчитываются характеристики изолированных молекул, при этом взаимодействие молекул с растворителем обычно не учитывается. Однако сольватационные эффекты могут оказать сильное влияние на конформационную устойчивость биоактивных молекул [1].
Обсуждая вопросы, связанные с расчетом конформаций молекул, укажем следующий факт, отмеченный в работе [19]. Ранее считалось, что конформация молекулы, соответствующая глобальному минимуму ее потенциальной энергии, является биоактивной. Однако было установлено, что активная форма может не соответствовать глобальному минимуму энергии, а соответствует только одной из низкоэнергетичных форм. Поэтому использование единственной низкоэнергетичной конформации может привести к ошибочным результатам. г) Топологические параметры. Обычно при вычислении этих параметров не учитывают длины связей и валентные углы в молекуле, а также особенности ее электронного строения, выявленные квантово-химическими методами.
Для вычисления топологических параметров молекулу представляют в виде взвешенного (или меченого) графа, называемого молекулярным. Вершины такого графа соответствуют атомам, а ребра — химическим связям молекулы. Веса вершин кодируют атомы различной химической природы, а веса реберсвязи разного типа. Классическая структурная формула молекулы является примером такого графа. Каждой молекулярной структуре могут быть сопоставлены различные инварианты соответствующих молекулярных графов.
Топологические параметры можно условно разделить на две группы. К первой группой относятся инварианты, равные числам вхождения в структуру определенных структурных фрагментов. Такие параметры являются чрезвычайно распространенными при моделировании связи «структура-свойство». Применению фрагментов в С^АК/С^РИ посвящен обзор [6]. Наиболее распространенными из них являются атом-центрированные фрагменты, представляющие из себя окрестность к-ого порядка некоторого центрального атома. При этом учитывают химический символ атома и распределение типов связей. Однако каждому атому могут быть сопоставлены, наряду с химическим символом и его некоторые физико-химические параметры, а также метки, характеризующие вхождение атома в какой-либо специальный фрагмент (например, в цикл). Такая классификация атомов рассмотрена, например, в работе [19]. Другой распространенный тип фрагментов — это цепочки определенной длины, соединяющие пары атомов. В серии работ [7, 12, 13, 20] такие фрагменты использованы для учета невалентных взаимодействий атомов при моделировании связи «структура-свойство». При построении таких цепочек можно учитывать типы концевых атомов (при разных способах классификации атомов), а также длину соответствующей цепочки, как, например, в работе [21], где такие фрагменты названы «атомными парами». В качестве достоинства таких параметров укажем их вычислительный характер, возможность структурной интерпретации, а также очень широкие возможности выбора фрагментов.
Вторая группа топологических параметров — это так называемые топологические индексы (ТИ) [ 4,5, 10,14, 22−32]. Обычно ТИ вычисляют по структурной формуле молекулы, не учитывая при этом типы атомов и связей. Можно рассматривать ТИ как инварианты простых молекулярных графов, соответствующих структурной формуле. В качестве примеров ТИ, наиболее популярных в С^АЯ/С^РЛ — исследованиях, укажем индекс Рандича: у, — и Vу — степени вершин / и суммирование проводится по всем ребрам (Ц) молекулярного графа) — индекс Винера IV: йц — расстояние между вершинами / и суммирование проводится по всем парам вершин (7,/), К/.) — индекс Хосойя 2: ш к=0 где рк — число подграфов, состоящих из к несмежных ребер граф, р0 = 1, пчисло вершин графа.
Однако имеются и обобщения ТИ, при построении которых учитывают типы атомов и связей. Для этого вершинам и ребрам простых молекулярных графов приписывают некоторые числовые веса, характеризующие атомы и связи (обычно взятые из справочников), превращая тем самым простые графы во взвешенные. Следует отметить, что ТИ существует бесконечно много (например, любая функция от уже построенных ТИ — также ТИ). В обзоре [10], наряду с перечнем известных ТИ, их классификацией и указанием областей применения, указан также ряд общих способов построения новых ТИ. В качестве достоинств этих параметров отметим простоту и быстроту их вычисления (в отличие от квантово-химических параметров) и неэмпирический характер (в отличие от физико-химических параметров). Кроме того, выбирая специальным образом веса вершин и ребер графа, можно в определенной степени учесть особенности электронного и пространственного строения молекулы [10, 22−32]. Обычно эти веса берут из справочников (например, ковалентный радиус атома, заряд ядра атома и т. д.), так что для их определения не требуется проведения квантово-химических расчетов или определения геометрии молекулы.
Важным этапом при моделировании связи «структура-свойство» является выбор аппроксимирующей функции / Обычно используют линейную или квадратичную функцию с подбором параметров методом наименьших квадратов. В обзоре [15] указано, что литературные данные по корреляциям «структура-свойство» показывают, что порядок таких функций, как правило, не выше второго. Однако бывают и исключения из этого правила. Например, в работе [33] рассматривается линейная функция от некоторых степеней ряда ТИ, причем подбираются как степени (которые могут быть как положительными, так и отрицательными дробными числами), так и коэффициенты в линейной функции.
В качестве метода построения моделей связи «структура-свойство» можно указать также и метод искусственных нейросетей. Применение этого метода в химии обсуждается в обзоре [34]. Обзор результатов по применению нейросетевого подхода в корреляциях «структура-свойство» приведен также в [35]. В работе [36] описан программный комплекс реализующий вышеуказанный метод для исследования зависимостей «структура-свойство». В этом методе подбирается некоторая нелинейная функция/ для задания которой требуется относительно много подгоночных параметров. Следует отметить, что метод стандартного регрессионного анализа является более распространенным, чем нейросетевой метод.
Таким образом, имеется очень большое количество расчетных молекулярных параметров разных типов. Видны пути построения новых параметров путем формальных математических операций с уже известными параметрами или с матрицами геометрических или топологических расстояний в молекуле. Некоторым параметрам можно дать определенную физико-химическую или структурную интерпретацию, а некоторым — нет. Таким образом, имеется бесконечно много вариантов построения как молекулярных параметров, так и аппроксимирующей функции при моделировании зависимости «структура-свойство». В связи с этим возникает проблема выбора небольшого, конечного числа молекулярных параметров и одной функции/из бесконечного множества вариантов. Такая проблема связана с тем, что заранее не известно, от каких именно параметров зависит рассматриваемое свойство, и каким образом.
Предпринимались попытки построить модели на основе некоторых физико-химических соображений и разумных рассуждений, которые позволили бы выбрать молекулярные параметры и вид функции / Одним из таких подходов является метод Ханша, применимый к гомологическим рядам соединений, детально описанный и проанализированный в монографии [1] и обзорах [3,11]. Полученное в результате различных гипотез уравнение Ханша имеет следующий вид: oglZC =ао+а]7Г+а2л?+а3а+а4Ек, (С — исходная концентрация вещества, л — параметр гидрофобности, аэлектронная константа заместителя, Е3 — стерический параметр Тафта, а0-а4 некоторые константы). В работе [3] отмечаются недостатки этого метода: он подходит только для узких серий соединенийиспользует экспериментальные характеристики, что исключает его применение для соединений с отсутствующими даннымиэкспериментальные данные на практике часто согласуются с другими формами уравнения, так что говорить о строгой теоретической обоснованности метода не имеет смысла.
В качестве другого известного подхода построения моделей связи «структура-свойство» укажем TLSER (Theoretical Linear Solvation Energy Relationship) — метод, описанный в [16,37]. Этот метод в основном применяется для анализа свойств веществ, связанных с взаимодействием вещества с растворителем (водой). Соответствующая модель, основанная на пяти квантово-химических параметрах и одном геометрическом, имеет вид: logl/C=ao-sraiV+a27[*+a3?a+a4?b+a5q++a6q~, где V — ван-дер-ваальсов объем молекулы, л* - поляризуемость молекулы, еа=.
Ецомо воды ~~E[jjjo вещества Sb ЕщМО воды Е HOMO вещества> qнаибольший положительный заряд на атоме водорода, q' - наибольший отрицательный атомный заряд в молекуле, а0-а^ - некоторые константы. В работе [16] отмечено, что при использовании этих параметров предполагается, что растворитель не меняет существенно геометрическую и электронную структуру молекулы, однако, это не всегда так. Имеется много примеров успешного использования этого метода [16]. Однако есть и примеры того, что применение этого метода не позволяет получить достаточно хорошую корреляцию [37].
Таким образом, общих, обоснованных правил выбора молекулярных параметров и аппроксимирующей функции при построении моделей в QSAR/QSPR — исследованиях нет. Традиционный подход к построению моделей связи «структура-свойство» типа уравнения (1) заключается в следующем. Сначала выбирается некоторое множество молекулярных параметров (топологических, квантово-химических, геометрических и др.), обычно известных из литературы [4,5,10,38,39], и составляется комплекс компьютерных программ для их вычисления. Примерами являются известные из литературы программные комплексы POLLY [40], CODES SA [41], STAR [42], EMMA [43]. Далее создается база данных, содержащая соединения с известными значениями изучаемого свойства. Для структур этой базы вычисляют значения выбранных параметров. Как правило, между многими параметрами существуют сильные корреляции. Выявляя такие корреляции, часть параметров отбрасывают. В качестве функции / обычно используется линейная или квадратичная функции. Далее из оставшегося набора параметров стандартным методом (например, методом пошаговой линейной регрессии или каким либо другим) отбирается относительно небольшое число параметров, дающих наилучший результат с точки зрения определенного критерия. В качестве таких критериев могут быть использованы ограничения на коэффициент корреляции R, среднеквадратичное или максимальное отклонение а, и т. д. Например, в работе [44] рассматривается 90 параметров (топологических индексов), в [45] - 81, в [46] - 165, причем в последних двух случаях — топологические, электронные и геометрические параметры.
Изложенный выше подход имеет очевидные ограничения, поскольку заранее неизвестно, какие параметры нужны в данной конкретной задаче даже при заданной функции / Возможно, что для эффективного решения рассматриваемой задачи, определяемой выборкой соединений и свойством, нужны совсем другие параметры, не попавшие в число запрограммированных. Так, например, в работе [46] сообщается о результатах построения линейной регрессионной модели для 127 соединений на основе 165 параметров: наилучший возможный результат, причем недостаточно хороший, был достигнут на 5 параметрах, а добавление других параметров не приводило к существенному улучшению модели.
Возможен и другой, менее распространенный подход к решению этой задачи, основанный на интуиции исследователя. Благодаря удачной «догадке» удается построить новые оригинальные инварианты графа, а также «угадать» вид функции которые и дадут адекватную модель (см., например, [47]). Однако и такой подход не всегда может быть применен.
• Прогнозирование свойств соединений при помощи построенной модели и проблема определения ее области применимости. Рассмотрим следующий этап моделирования связи «структура-свойство» — этап прогнозирования свойств соединений, для которых отсутствуют экспериментальные данные. На этом этапе исследований возникает задача нахождения области применимости (ОП) построенной модели, т. е. определения того класса химических соединений, свойства которых могут быть рассчитаны по соответствующему уравнению с заданной погрешностью 8. Величина 8 зависит от конкретной задачи и определяется, в частности, тем, с какой целью проводится прогноз свойств и какова погрешность измерения экспериментальных данных. Подчеркнем, что использование любой математической модели без учета ее ОП может дать случайный результат. Однако, несмотря на важность вышеуказанной проблемы, имеется лишь относительно небольшое число работ, в которых в той или иной форме обсуждаются эти вопросы.
Первоначально модели связи «структура-свойство» рассматривались лишь для относительно небольших, однородных баз данных структурно родственных соединений. Эти соединения имели один общий фрагмент и несколько заместителей в разных положениях. В этом случае ОП моделей определялась естественным образом: она состояла из всех структур такого типа [48,49]. Затем рассматривались базы данных, состоящие из нескольких классов такого типа. Для таких баз строились корреляционные уравнения, содержащие так называемые индикаторные переменные, соответствующие имеющимся классам соединений. Эти переменные принимают значения 0 или 1, в зависимости от того, принадлежит ли данное соединение определенному классу (или в зависимости от наличия в структуре определенного фрагмента). В этом случае ОП построенных моделей определялась аналогично предыдущему случаю. Рассматривается также разбиение исходной базы на части, соответствующие имеющимся классам соединений, и проведение независимых исследований для каждого класса [50,51]. Если же имеется разнородная база данных, которую нельзя разбить на четко определенные химические классы соединений, то такие методы определения ОП не могут быть применены. Как правило, в этом случае ОП задается перечислением ряда структурных фрагментов, которые обязаны присутствовать или отсутствовать во всех структурах из ОП [52−56]. ОП можно определить, задавая и ограничения на числа вхождения в структуры определенных фрагментов, выявленные на основе анализа исходной выборки [57,58]. При этом выбор фрагментов носит субъективный характер и часто связан с гипотезами о влиянии тех или иных структурных особенностей на данное свойство. Ограничения на ОП можно сделать более жесткими, если наряду со структурными критериями, ввести критерии близости каких-либо физико-химических свойств соединений из исходной выборки и ОП (например, молекулярного веса, абсорбции, растворимостью в воде и т. д. [59]). Однако такие данные не всегда известны для рассматриваемой выборки соединений. Перечисленные выше критерии обеспечивают определенное сходство структур исходной выборки и структур из ОП. Отметим, что во всех этих подходах не учитывается никаким образом сама модель, хотя речь идет именно об ее ОП.
Обсуждая способы определения ОП, основанные на структурном сходстве соединений, следует подчеркнуть, что даже очевидное сходство структур соединений не гарантирует того, что очень «похожая» структура принадлежит ОП. В качестве примера приведем следующий факт, содержащийся в обзоре [60], посвященном истории возникновения С^АЯ. В 1869 г. Ричардсон обнаружил, что наркотический эффект в гомологических рядах спиртов жирного ряда увеличивается пропорционально увеличению количества атомов углерода в их молекулах. В многочисленных экспериментах других ученых справедливость правила Ричардсона была показана для различных гомологических рядов и при воздействии на самые различные живые объекты. Однако в 1876 г. было найдено ограничение этого правила: оказалось, оно справедливо только до определенного члена гомологического ряда.
В [61] предложен другой подход к определению ОП, учитывающий в определенной степени и саму модель. Рассматриваются погрешности расчета свойств соединений исходной выборки по построенной модели, и разбиваются на 2 класса — «хорошие» и «плохие». Для этого подбирается пороговое значение А0, такое, что примерно для 70−80% соединений исходной выборки А1<�Д0 для «хороших» соединений, а Д->Ао для остальных, «плохих» соединений. Далее разрабатывается какое-либо классификационное правило, которое на основе сходства нового соединения и соединений этих двух классов позволяет отнести его в один из вышеуказанных классов. Если соединение отнесено к «хорошему» классу, то считается, что оно принадлежит ОП, если к «плохому» — то нет. Для векторного описания структур в этом подходе используются параметры, вошедшие в построенное уравнение. Однако в этом методе нет достаточных обоснований выбора порога Д0. Кроме того, согласно идеологии этого подхода, 20−30% соединений («плохих») исходной выборки считаются не принадлежащими ОП этой модели. Фактически, роль допустимой погрешности 8 играет число А0, которое здесь не задается a 'priori, а подбирается определенным способом. Однако представляется целесообразным строить и исследовать модели, которые дают «хороший» прогноз по крайней мере на всей обучающей выборке соединений. Отметим, что ни в одной из перечисленных выше работ, посвященных определению ОП, не учитывается допустимая погрешность б, которая должна быть задана изначально, хотя очевидно, что ОП существенно зависит от е. Только в одной работе [59] отмечается необходимость учета погрешности в этих задачах, однако никаких способов ее учесть при этом не предлагается.
Проблема определения ОП тесно связана с проблемой оценки прогнозирующей способности модели. Для этих целей используется тестовая выборка соединений с известными значениями рассматриваемого свойства. Для соединений этой выборки при помощи построенной модели рассчитываются значения свойства, которые затем сравниваются с экспериментальными значениями. Качество прогноза затем оценивается, например, по коэффициенту корреляции и среднеквадратичному отклонению для регрессии, построенной по экспериментальным и расчетным данным. Для получения тестовой и обучающей выборки структур всю исходную базу данных делят каким-либо способом на 2 части (обычно — случайным образом, хотя для этой цели могут быть использованы и специальные алгоритмы [62]): например, в [63] базу делят пополам, в [61] - обучающая выборка составляет 80% базывозможны и другие пропорции при делении базы на 2 части. Следует отметить, что во многих работах выбор обучающей и тестовой выборки просто декларируется, без мотивированных объяснений.
Для оценки качества предсказательной способности модели, построенной по всей базе данных, иногда используют так называемый метод скользящего контроля. Согласно этому методу, из базы последовательно исключаются все соединения по одному, строятся модели по оставшемуся набору соединений, оцениваются свойства исключенных соединений и затем строится корреляция между экспериментальными и расчетными значениями свойств всех соединений базы. Качество построенной корреляции в определенной степени характеризует предсказательную способность исходной модели. Обычно метод скользящего контроля используют для небольших выборок соединений, деление которых на обучающую и тестовую выборки нецелесообразно.
Подчеркнем, что сделать обобщенных выводов из полученных результатов вышеописанных тестов нельзя. Можно только лишь сказать, какие из тестируемых соединений принадлежат ОП построенной модели, а какиенет (если, конечно, при этом известно, какой прогноз считается хорошим). Если модель плохо прогнозирует свойства каких-либо нескольких соединений, то нельзя сказать, что она «плохая» или сам метод моделирования «плох»: возможно, эти соединения просто не принадлежат ОП этой модели. Как справедливо отмечается в [61], знание результатов прогноза на тестовой выборке не позволяет нам судить о том, каков будет прогноз на новой выборке соединений, свойства которых нам не известны. Однако именно последняя выборка и представляет практический интерес. В связи с этим разработка методов определения ОП моделей связи «структура-свойство», позволяющих сократить долю «плохих» прогнозов, является очень важной задачей [61]. Отметим, что если некоторое соединение теоретически не принадлежит ОП данной модели, то следует отказаться от прогноза его свойства по этой модели, и пытаться построить для него другую, более подходящую. Следует подчеркнуть и такой факт: выделение из всей базы данных обучающей выборки и построение модели только по ней приводит к искусственному уменьшению объема анализируемой информации и к потере какой-либо информации о связи «структура-свойство». Анализируя работы в области (^РИ/С^АИ — анализа, можно обнаружить, что в подавляющем большинстве работ, посвященных построению вышеуказанных моделей, тестовая выборка отсутствует. Вероятно, авторы этих работ являются сторонниками вышеуказанной точки зрения.
• Обратная задача в ОЗАШОБРЯ — исследованиях. В исследованиях связи «структура-свойство» может быть сформулирована так называемая обратная задача (03), заключающаяся в исчерпывающей генерации химических структур определенного класса, обладающих заданной величиной (или интервалом изменения) свойства у0, на основе предварительно построенной модели связи «структура-свойство» вида (1). В качестве параметров х],., х^ для описания структуры молекул при решении 03, как правило, рассматриваются инварианты соответствующих молекулярных графов. Это вполне естественно, так как они непосредственно связаны со структурой графов, в отличие, например, от эмпирических молекулярных параметров. В этом случае 03 сводится к исчерпывающей генерации молекулярных графов по заданному значению их инварианта вида /(3С],., хн).
Отметим, что для поиска структур с заданными свойствами на основе модели (1) можно использовать и другие подходы. Например, исследователь может рассчитать свойства тех соединений, которые у него имеются (или которые его интересуют), при помощи полученного уравнения связи «структура-свойство», и отобрать из них требуемые соединения. Однако, при этом можно пропустить какие-либо перспективные соединения. Можно также провести исчерпывающую компьютерную генерацию структур заданного класса, затем «профильтровать» полученное множество структур при помощи имеющегося корреляционного уравнения и получить требуемые структуры. Однако, если класс соединений очень широк, то возможен «комбинаторный взрыв». Если же искусственно сузить этот класс, с целью предотвращения «комбинаторного взрыва», то можно потерять какие-либо перспективные структуры. В связи с этим представляется целесообразным метод 03 поиска соединений с заданными свойствами, дающий, с математической точки зрения, исчерпывающее решение рассматриваемой задачи. В этом случае из полученного множества соединений (как правило, относительно небольшого) исследователь может исключить некоторые соединения, например, нестабильные или те, синтез которых по каким-либо причинам затруднен.
Отметим также, что задачи восстановления графа по значению одного его инварианта в математической литературе по теории графов практически ранее не рассматривались. Это связано с тем, что: 1) в математике обычно представляют особый интерес лишь те инварианты, которые определяют граф однозначно- 2) задача поиска графов с заданным значением какого-либо инварианта теоретически может быть решена переборным путем на основе конструирования всех графов с заданным числом вершин и ребер и вычисления значений заданного инварианта на каждом из них. Однако количество химических графов даже для определенного класса соединений с ростом числа вершин астрономически растет (например, число структурных изомеров алканов СпН2&bdquo-+2 при п=20 равно 366 319, а при п=30 — 4 111 846 763). Очевидно, что с точки зрения химии не важно, одно или много решений будет иметь поставленная задача. С другой стороны, с практической точки зрения важно получить обозримое множество структур за разумное время. Актуальность данной задачи в области поиска соединений с заданными свойствами, а также отсутствие подходящих алгоритмов привели к развитию целого направления в математической химии, связанного с реконструкцией молекулярных графов по их инвариантам.
Первой работой в этой области была работа [64], в которой излагалась методология решения 03 для наиболее популярных инвариантов простых графов (топологических индексов), используемых в корреляциях «структура-свойство» — индексов Винера и Рандича. При этом предполагалось, что соответствующие инварианты могут быть однозначно выражены через «у» из корреляционного уравнения, и заданному значению «у» соответствует некоторое значение рассматриваемого инварианта. Основная идея предлагаемого подхода заключалась в определении по заданной величине свойства всех возможных распределений степеней вершин у искомых простых графов, с последующей генерацией графов по этой информации по уже имеющимся алгоритмам. В статье [65], посвященной применению математики в химии, отмечается, что вышеуказанная работа [64] была пионерской в данной области и стимулировала развитие целого направления в математической химии, связанного с обратными задачами в проблеме связи «структура-свойство». В дальнейшем были разработаны алгоритмы решения 03 и для других инвариантов графов, в которых использовалась та же основная идея. Так, например, в [66] рассматривалась 03 для центрического индекса Балабана, в [67] - для валентно-взвешенного индекса Рандича, в [68−70] - для инвариантов, равных числам вхождения в простой граф цепочек длины 1, 2, 3. В работе [71] предлагается другой подход к решению 03 для индексов Рандича и Винера. Суть этого подхода заключается в том, что в разработанный авторами алгоритм генерации графов с заданным числом вершин и ребер «встраивается» процедура поиска графов с заданным значением соответствующего инварианта. При этом используются некоторые гипотезы о свойствах индексов Рандича и Винера, которые позволяют вести генерацию графов в определенном направлении. Однако, авторы [71] не смогли доказать выдвинутые гипотезы в общем виде, но проверили их справедливость для определенных графов. Таким образом, предложенный в [71] подход к решению 03 носит эмпирический характер. Обзор результатов по разработке методов решения 03, полученных к 1995 г., дан в работе [72]. Среди других подходов к поиску соединений с заданными свойствами на основе предварительно построенных уравнений связи «структура-свойство» отметим методы, основанные на стохастической генерации структур [73] или генерации структур на основе генетических алгоритмов [74]. Эти методы применимы к уравнениям произвольного вида и позволяют решить в определенной степени проблему «комбинаторного взрыва». Однако при таких подходах в общем случае не проводится исчерпывающая генерация структур, и всегда есть возможность пропустить какие-либо перспективные соединения.
• Построение моделей связи «структура-свойство» на основе концепции молекулярного подобия. Модели связи «структура-свойство» могут иметь и другую форму, отличную от уравнения (1). Например, широко используются модели, основанные на концепции молекулярного подобия (КМП), суть которой отражена в постулате «подобные структуры имеют подобные свойства». Эти модели определяются заданием некоторой количественной меры молекулярного подобия с{(Х (1)гХ (2)), где с1 — симметричная функция двух векторных аргументов Л®- =(х/'., хп (')) (1=1,2), образованных какими-либо молекулярными параметрами, соответствующими паре соединений 5/ и ?2 • В отличие от случая уравнения (1), функция с1 задается а’рпоп [9,19,75−86,87]. Предполагается, что имеется база данных по структурам и свойствам соединений. Первоначально выбирается некоторый способ математического описания структуры молекул (например, в виде молекулярных графов и связанных с ними векторами, множествами, последовательностями, матрицами и т. д.). Затем вводится некоторая количественная мера подобия двух структур и $>2, с1(81,82)>0, являющаяся скалярной функцией двух аргументов 5/ и 5<2. Обычно функция с1 является метрикой. Вид функции с1 зависит от выбранного способа описания структуры молекул, и по сути, с! является мерой сходства соответствующих математических объектов. Для прогнозирования свойств соединений в рамках этого подхода используются свои специфические методы, в той или иной форме основанные на постулате «близкие структуры имеют близкие свойства». Суть этих подходов заключается в следующем: для исследуемого соединения при помощи выбранной меры определяется соединение, «ближайшее» к нему в заданной базе данныхсчитается, что значения свойств исследуемого соединения и близкого к нему примерно одинаковы. В более общем случае для расчета свойства уо какого-либо соединения используется так называемый «метод к ближайших соседей», согласно которому у0 есть среднее арифметическое численных значений свойств к соединений, ближайших к данному по мере с1 [19,88−91]. Число к подбирается эмпирическим способом.
В работах [9,19,75−87], носящих обзорный характер или содержащих краткие обзоры по данной тематике, обсуждается интерпретация и справедливость гипотезы «подобные структуры имеют подобные свойства», различные математические способы описания структуры молекул в этих исследованиях (в виде векторов, множеств, графов, последовательностей и т. д.), а также различные меры молекулярного подобия и соответствующие способы оценки свойств соединений. Последним и наиболее полным является обзор [87], содержащий 254 ссылки.
Приведем примеры мер подобия для случая, когда химические структуры Si представлены молекулярными графами G, (i=l, 2) [87].
1) Пусть для графов Gj и G2 построены вектора x (1)=(x/I),., xJI) j и x (2)-(xi (2),., xn (2)), компоненты которых — какие-либо инварианты графов. В этом случае в литературе рассматривались следующие меры подобия: р — любое целое число- (метрика пространства L") — m (k)=(l/n)lxi (k k=l, 2 (коэффициент корреляции) — d3(x (1)^2)) =[Zx!ux!2)] / [Ц (х!!))2+Цх!2))2−1х!их!2)] (коэффициент Танимото) — d^^^x^-x^logt^/x!2) — d5(x (1)^c (2)) =[Zmin (x!'), x.
2) Пусть графам G и G2 поставлены в соответствие конечные множества Di и ?>2, соответственносимвол |D| означает число элементов в множестве D. Для этого случая были введены следующие меры: d9(Di, Dd=Di+D2−2DiCD2- d, o (D, D2)=D1nD2/(D1-D2) — dn (D1,D2)=D] D2 + D2DI I.
3) Пусть MACS (G], G2) — максимальный общий подграф графов Gj и Gf, |G| - суммарное число вершин и ребер графа G. В литературе рассматривались следующие меры подобия, основанные на максимальном общем подграфе: d12(GhG2)=G, + G2−2MACS (G!, G2)-, dв (G и G2)=I MA CS (GI, G2)2/(GI-G2).
4) Пусть графам G и G2 поставлены в соответствие последовательности Lj и Lf, LCS — наибольшая общая подпоследовательность в Lj и L2- Lдлина последовательности L. Тогда можно построить следующие меры подобия: d14(U, L2)=U + L2V2LCS (U, L2)\ di5(L1,L2)=LCS (L1,L2)2/(L1-L2) Однако меры сходства химических структур используются не только для прогнозирования свойств соединений описанным выше методом. Различные меры подобия используются также и при изучения связи структуры и биологической активности, задаваемой качественно (активны/неактивны), методами теории распознавания образов [1,88]. Такие подходы детально описаны в монографиях [1,2], а также в обзоре [3]. Программный комплекс PASS, предназначенный для прогнозирования с определенной вероятностью наличия или отсутствия биологической активности, описан в [63,92,93,94]. Однако мы рассматриваем лишь случаи количественных моделей связи «структура-свойство», и поэтому не будем детально описывать это направление в моделировании связи «структура-свойство».
Отметим также, что имеются подходы, в которых для заданной выборки соединений строятся модели следующего вида: у]=1а4и+а0 < где у] - значение свойства /-ого соединения, аь а0 — постоянные, с1у — значение меры сходства /-ого и /-ого соединения [19].
Метод прогнозирования свойств соединений в рамках КМП на основе метода «ближайшего соседа» (или «к ближайших соседей») имеет следующие преимущества перед описанным выше статистическим подходом: 1) можно сравнивать структуры молекул как целостные объекты, не используя для их описания вектора, состоящие из отдельных молекулярных параметров- 2) если же такие вектора все же использованы, то их длины могут быть любыми- 3) не требуется подбирать аппроксимирующую функцию/ 4) для оценки свойства соединения нужно знать значение свойства лишь «близкого» к нему соединения, а не всех соединений выборки. Однако, при использовании метода, основанного на КМП, возникает и ряд проблем. Например, заранее неизвестно, какой способ математического описания структуры молекулы и вид меры подобия следует выбрать в конкретной задаче. Очевидно также, что результат прогноза существенно зависит от того, как составлена база данных, используемая при прогнозе свойств: возможно, действительно «близкого» соединения с «близким» свойством в ней просто нет. Отметим, что понятие «сходства» химических соединений в первую очередь понимается как визуальное сходство соответствующих структурных формул. Однако, в литературе, посвященной этой тематике, в качестве опровержения такого упрощенного понимания этого понятия, приводятся примеры пар соединений, обладающих: 1) значительным визуальным сходством, но имеющих существенно различные свойства (например, биологически активных и неактивных по отношению к определенному виду активности) — 2) имеющих одинаковые свойства, но совершенно различную структуру (см., например [19]). В связи с этим выбор адекватного способа математического описания молекулярной структуры, а также соответствующей меры подобия, при которых «подобные» структуры будут иметь «подобные» свойства, являются важными составляющими в прогнозировании свойств на основе КМП и определяют эффективность этого метода.
• Алгоритмы на графах, используемые для их кодирования, идентификации, и исследования структурных особенностей. При решении ряда задач компьютерной и математической химии (например, при создании информационно-поисковых систем, в компьютерном синтезе, при анализе связи «структура-свойство», при конструировании структурных формул соединений, обладающих заданным свойством, при генерации изомеров, в масс-спектрометрии и т. д.) возникают следующие задачи из области теории графов: однозначного кодирования соответствующих молекулярных графовустановления изоморфизма графовпоиска групп симметрии (автоморфизмов) графовпоиска в графе заданных подграфов (задача изоморфного вложения графов).
Эти задачи тесно связаны между собой. Так, например, один из способов однозначного кодирования графов связан с построением канонической нумерации вершин графа и использованием в качестве такого кода либо соответствующей матрицы, называемой канонической, либо ее представлением в виде одной строки или числа. Очевидно, что при наличии канонических представлений графов проблема их изоморфизма решается тривиальным образом. Задача поиска всех автоморфизмов графа (т.е. его группы симметрии) (7 с матрицей, А является частным случаем задачи нахождения всех изоморфизмов пары графов С] и с матрицами А1 и соответственно. Действительно, графы С] и с числом вершин п изоморфны тогда и только тогда, когда существует квадратная матрица X «-ого размера, соответствующая некоторой подстановке ж из симметрической группы Бп, такая, что А1Х-ХА2. Все такие матрицы X (или подстановки ж) дают все изоморфизмы графов С] и.
Очевидно, что в частном случае, когда (А=А]=А2 соответствующие подстановки дают группу симметрии графа & Отметим также, что алгоритм нахождения в графе (7- всех подграфов, изоморфных заданному графу бможно использовать для установления изоморфизма двух графов й] и С2 с одинаковым числом вершин.
Следует подчеркнуть, что все вышеуказанные задачи, в принципе, могут быть решены непосредственным перебором вариантов. Однако количество этих вариантов существенно растет при росте числа вершин графа. Поэтому такие процедуры на практике неприменимы, что ведет к необходимости разработки алгоритмов, использующих разные приемы для сокращения перебора. Имеется много работ, посвященных алгоритмам установления изоморфизма графов [1,2,95−103]. Многие из них ориентированы лишь на графы специального типанекоторые процедуры носят эвристический характер. Можно выделить три традиционных подхода к решению этой проблемы. В первом из них множество вершин графа разбивается на классы эквивалентности каким — либо способомзатем проверяются на изоморфизм те отображения множеств вершин, которые переводят в себя вершины каждого класса [100−103]. Для разбиения вершин на такие классы обычно используются какие-либо локальные вершинные инварианты графа (например, степень вершинычисло путей различной длины, начинающихся в данной вершине и т. д.). В другом подходе матрица графа преобразуется в каноническую форму, и полученные канонические матрицы сравниваются между собой [105−109]. Третий подход основан на поиске специального подмножества вершин в «произведении» графов, которое строится определенным образом из двух исходных графов. Наличие такого подмножества вершин показывает, что графы изоморфны [110−112]. Можно выделить также и еще один подход, основанный на поиске полного набора инвариантов графов (т.е. набора инвариантов, определяющих граф однозначно). Однако быстро вычислимого полного набора инвариантов графов пока не найдено. В разных алгоритмах используются некоторые неполные множества инвариантов, позволяющие сократить перебор [95−99]. В работах [108,113−115] приведены алгоритмы поиска группы симметрии графа. Работы [111,112,116.
125] посвящены задаче поиска заданных подграфов в графе. Предлагаемые алгоритмы, по сути своей, являются переборными. Для сокращения перебора используются те или иные необходимые условия изоморфизма, позволяющие в ряде случаев сократить перебор. Эффективность подобных алгоритмов обычно проверяется экспериментально, и результат зависит от вида графов. Отметим также, что для сравнения алгоритмов необходимо иметь соответствующие компьютерные программы, написанные на одном языке программирования, что не всегда реально. Довольно трудно теоретически оценить сложность алгоритмов в общем случае. Однако желательно, чтобы алгоритмы, применяемые на практике, обладали следующими свойствами: 1) универсальность (т.е. применимость его к произвольным графам с любыми метками вершин и ребер- 2) строгость, дающую гарантию правильного результата в любой ситуации- 3) приемлемое быстродействие при обработке больших баз данных или графов с большим числом вершин. Для практического использования описанных в литературе алгоритмов также важно, чтобы они были достаточно детально разработаны и не требовали дальнейших уточнений.
• Выводы. Таким образом, в последние десятилетия опубликовано большое число работ, посвященных моделированию связи «структура-свойство» на основе представления молекул в виде графов и описания их структуры в терминах инвариантов графов. В подавляющем большинстве случаев для описания молекулярной структуры рассматриваются разнообразные топологические индексы, что связано с относительной простотой и быстротой их вычисления, а также с практически неограниченными возможностями варьировать как способ взвешивания графа, так и способ вычисления самого инварианта. На втором месте по степени распространенности — квантово-химические дескрипторы, а на третьемгеометрические параметры. Эту область исследований, возникшую на стыке нескольких научных дисциплин, иногда рассматривают как часть математической химии, компьютерной химии или химической информатики. Многочисленные работы, посвященные этой тематике, публикуются в таких международных журналах, как Journal of Chemical Information and Computer Science, Journal of Computational Chemistry, Journal of Mathematical Chemistry, Computers and Chemistry и. т. д. Постоянно проводятся международные конференции по этой тематике. Интенсивное развитие данного направления связано, прежде всего, с широким внедрением ЭВМ в химические исследования, созданием баз данных по структурам и свойствам соединений, а также доступностью вычислительной техники для химиков. Все это делает возможным проводить статистическую обработку накопленной информации с целью выявления различных скрытых закономерностей. Наличие многочисленных примеров успешного применения вышеуказанного подхода для моделирования связи «структура-свойство» как для физико-химических свойств, так и для разных видов биологической активности, показывающих эффективность применяемого метода, также способствует развитию данного направления. Кроме того, определенным стимулом исследований в этой области является их финансовая поддержка многочисленными организациями, интересующимися поиском и синтезом новых веществ с заранее заданными свойствами, в том числе и определенными видами биологической активности.
Однако, при моделировании связи «структура-свойство» в рамках статистического подхода, основанного на использовании инвариантов молекулярных графов, возникает ряд следующих существенных проблем:
1) Оптимальный выбор весов вершин и ребер молекулярного графа в конкретной задаче. Для решения этой задачи нет определенных, обоснованных методов;
2) Оптимальный выбор функции / (или меры молекулярного подобия с1) и инвариантов для описания структуры молекул в конкретной задаче. Отметим, что число инвариантов графов бесконечно даже для одного, фиксированного способа взвешивания графа. Как правило, большинство инвариантов, используемых в теоретической химии, получают при помощи формальных математических операций с графами, поэтому им трудно дать достаточно ясную физико-химическую или структурную интерпретацию. Следует отметить, что заранее не известно, от каких именно структурных особенностей зависит данное свойство, и каким образом. Кроме того, никаких четких правил выбора молекулярных параметров Х],., ХП и аппроксимирующей функции /.
Г* ^ или меры с!) не существует. В связи с эти/возникает проблема оптимального ' выбора относительно небольшого числа инвариантов для описания структуры молекул в каждой конкретной задаче, а также выбора функций /или <Л;
3) Оценка области применимости модели связи «структура-свойство». Очевидно, что любая математическая модель имеет свою область применимости. В связи с этим возникает задача определения области применимости модели связи «структура-свойство», т. е. определение того класса химических соединений, свойства которых могут быть рассчитаны при помощи построенной модели с заданной точностью. Прогнозирование свойств соединений без учета области применимости модели может привести к неверным результатам;
4) Комбинаторные проблемы при разработке методов компьютерной генерации химических структур, обладающих заданной величиной свойства, на основе модели типа (1) (обратная задача в проблеме связи «структура-свойство»). Как отмечалось выше, основная цель построения моделей типа (1) -рассчитывать численные значения свойств других соединений, минуя эксперимент, и находить соединения с требуемыми свойствами. Для этого для всех соединений некоторого множества, имеющихся у исследователя, рассчитываются значения параметров х},., хп, а затем по ним при помощи уравнения (1) — величина свойства^. Далее по результатам расчета отбираются требуемые структуры. Однако могут существовать соединения (возможно, еще не синтезированные), не входящие в это множество, которые имеют требуемое значение рассматриваемого свойства. Такие новые, перспективные соединения не будут обнаружены при вышеописанном подходе. В связи с этим в рамках исследований связи «структура-свойство» естественно сформулировать так называемая обратную задачу, заключающуюся в исчерпывающей генерации структур, обладающих заданным значением свойства у о. При наличии корреляций типа (1), где х],., хпинварианты графов, эта проблема может быть сведена к математической задаче исчерпывающей генерации графов (возможно, определенного класса) с заданным значением инвариантаи решена теоретико-графовыми методами. Однако модели типа (1) могут иметь разный вид, зависящий от функции / и инвариантов хь., хп. Отдельные методы решения обратных задач для конкретных случаев уравнения (1), учитывающие их специфику, не применимы к другим случаям. В связи с этим необходима разработка алгоритмов решения таких задач для наиболее типичных или общих случаев уравнения (1).
Таким образом, из изложенного выше следует, что основные недостатки существующих подходов к моделированию связи «структура-свойство» следующие:
— отсутствие обоснованных критериев для выбора конкретных инвариантов графов и аппроксимирующей функции;
— отсутствие теоретического обоснования того, что химические соединения, на которые экстраполируется зависимость вида (1), принадлежат области применимости модели (1);
— недостаточная разработка методов решения обратных задач;
— отсутствие обоснованных критериев для выбора меры молекулярного подобия при построении моделей связи «структура-свойство» в рамках концепции молекулярного подобия.
Указанные недостатки могут вести к получению ошибочных выводов о связи строения и свойств соединений и неверным результатам прогнозирования свойств. Кроме того, при отсутствии теоретического обоснования используемых алгоритмов моделирования и наличии бесконечного числа равноценных вариантов возможного выбора сам процесс моделирования приобретает случайный характер и превращается в метод «проб и ошибок». При этом «случайность» этого процесса понимается не в математическом смысле: она определяется наличием у данного пользователя определенных программных средств, позволяющих вычислять те или иные инварианты.
Таким образом, несмотря на наличие большого числа отдельных, частных результатов в этой области, универсальные, достаточно обоснованные методы построения и исследования моделей типа (1) в настоящее время не разработаны. Поэтому разработка общих подходов к моделированию связи «структура-свойство», применимых к произвольным свойствам и классам органических соединений, и допускающих компьютерную реализацию и автоматизацию, является актуальной задачей.
2. Цели диссертационной работы.
Цели работы связаны с перечисленными выше проблемами. Они таковы:
1) Разработать и теоретически обосновать общие методы построения теоретико-графовых моделей связи «структура-свойство» вида (1), применимые к различным свойствам и классам соединений, на основе базисных инвариантов меченых графов. (Базисными инвариантами (в широком смысле слова) мы называем такие инварианты, через которые могут быть выражены каким-либо способом все остальные инварианты графов заданного множествадля построения любой модели связи «структура-свойство» инварианты можно отбирать из числа базисных). Изучить общие свойства базисных инвариантов и предложить конкретные наборы инвариантов в качестве базисных. Провести тестирование разработанных методов моделирования связи «структура-свойство».
2) Разработать систему автоматической генерации инвариантов графов разнообразной природы, моделирующую логику человека, конструирующего инварианты для вышеуказанных задач (систему «искусственного интеллекта»). Показать, что основные, известные из литературы инварианты графов, используемые в теоретической химии, могут быть получены в рамках этой схемы. Разработать на основе этой системы подход к моделированию связи «структура-свойство», альтернативный приведенному выше, когда подходящий набор параметров для модели отбирается из конечного, достаточно большого числа инвариантов, сгенерированных автоматически с использованием процедуры случайного выбора. Провести тестирование предложенного метода.
3) Разработать обоснованные подходы для описания областей применимости теоретико-графовых моделей вида (1). Провести тестирование предложенных методов.
4) Разработать алгоритмы решения обратных задач в проблеме связи «структура-свойство» на основе уравнений (1) различных видов. Провести тестирование этих алгоритмов.
5) Разработать методы построения моделей связи «структура-свойство» и прогнозирования свойств химических соединений на основе концепции молекулярного подобия. Провести тестирование предложенных методов.
6) Разработать ряд комбинаторных алгоритмов на графах, применяемых в компьютерной химии и химической информатике (алгоритмы поиска канонической нумерации вершин графа, установления изоморфизма графов, поиска группы симметрии графа, нахождения всех заданных подграфов в графе).
7) Получить новые теоретические результаты в теории графов: ввести несколько определений, касающихся понятия «базиса инвариантов графов», а также сформулировать и доказать ряд теорем, являющихся основой для разработки вышеуказанных методов и алгоритмов.
3. Структура и основные результаты диссертационной работы.
Диссертационная работа состоит из введения, шести глав, выводов, списка цитированной литературы, списка публикаций по теме диссертации и приложения. Работа содержит 35 таблиц, 49 рисунков и занимает объем в 276 стр. Каждая глава посвящена отдельной тематике, рассматриваемой в рамках общей задачи исследования связи «структура-свойство» и имеет логическую завершенность. Главы логически связаны между собой и отражают практически все основные этапы в рамках (^АМ^РИ-исследований. Так, Глава 1 и Глава 2 посвящены проблеме построения моделей вида (1), связывающих строение и свойства органических соединений. Однако, основная цель построения таких.
ВЫВОДЫ.
Диссертационная работа посвящена разработке и обоснованию математических методов решения основных задач, возникающих при моделировании связи «структура-свойство» органических соединений: построения моделей, определения их областей применимости, конструирования химических соединений с заданными свойствами на основе построенных уравнений. Работа находится на стыке нескольких научных дисциплин: математики (теории графов, теории вероятности, теории матриц, линейной алгебры, регрессионного анализа, комбинаторики), химии (органической химии, физической химии, биохимии), программирования.
В диссертационной работе:
1) Разработан и обоснован ряд новых методов построения моделей связи «структура-свойство» в терминах инвариантов молекулярных графов. Эти методы носят общий характер, применимы к произвольным свойствам и к произвольным выборкам химических соединений, представленных произвольно мечеными графами. Методы строго детерминированы и допускают компьютерную реализацию. Проведено тестирование предложенных подходов для моделирования связи «структура-свойство» для разнообразных свойств (физико-химические, биологическая активность, вычисляемые молекулярные параметры) и классов соединений, показавшее их широкую практическую применимость и эффективность.
2) Разработана интеллектуальная система, предназначенная для автоматического (компьютерного) конструирования произвольных наборов инвариантов графов различной природы для построения корреляций «структура-свойство». В этой системе реализовано моделирование логики и последовательности действий человека, конструирующего инварианты графа для вышеуказанной задачи. Предполагается, что выбор варианта действий в этом алгоритме в процессе конструирования происходит случайным образом. Использование случайного выбора позволяет освободиться от элементов субъективизма и выйти за рамки стандартного мышления в процессе такой деятельности. Однако выбор вариантов может быть осуществлен и исследователем. Проведено исследование возможностей этой системы. Показано, что основные, известные из литературы инварианты молекулярных графов (называемые в теоретической химии топологическими индексами) могут быть получены в рамках разработанной схемы. В то же соответствующий алгоритм позволяет получить принципиально новые пути построения инвариантов графов, в том числе и такие, которые практически не могут быть разработаны человеком «вручную». Предложенная схема, являющаяся, по сути, алгоритмом генерации алгоритмов генерации инвариантов, позволяет строить автоматически сколь угодно много инвариантов графов разного типа. Эти инварианты могут быть использованы при решении различных задач химической информатики, математической и компьютерной химии, в том числе при моделировании связи «структура-свойство». Следует отметить, что аналогов предложенной системы нет.
3) На основе разработанной схемы конструирования инвариантов графов предложен новый метод построения моделей связи «структура-свойство». Проведено тестирование предлагаемого подхода для построения корреляций «структура-свойство» для физико-химических свойств и биологической активности органических соединений различных классов, показавшее его широкую применимость и эффективность.
4) Проведено исследование задачи определения области применимости модели связи «структура-свойство» для заданной допустимой погрешности расчета свойств соединений е>0, а также предложен ряд методов ее решения.
На первом этапе этого исследования рассмотрен вопрос о принципиальной возможности решения этой задачи. Получен ряд теоретических результатов, дающих необходимые и достаточные условия, при которых значение свойства некоторого соединения может быть рассчитано при помощи построенной модели с заданной точностью. Из этих условий, в частности, следует, что на основе исходных данных в принципе невозможно определить, принадлежит ли данный граф (химическая структура) области применимости построенной модели, т. е. исходных данных недостаточно для детерминированного решения этой проблемы. В то же время эти результаты позволяют выявить вид дополнительной информации, необходимой для решения поставленной задачи. Однако априорное выделение класса соединений, близкого в каком-либо смысле к реальной области применимости (теоретической области применимости), является важным при прогнозировании свойств соединений, так как его использование при прогнозировании свойств способствует сокращению доли ошибочных предсказаний.
На втором этапе исследований разработаны два новых, общих, конструктивных метода определения теоретической области применимости моделей связи «структура-свойство» специального вида. Один из них базируется на выдвижении ряда гипотез относительно рассматриваемого свойства, которые, по сути, позволяют увеличить объем исходной информации. Другой, альтернативный подход носит вероятностный характер. Однако и в этом случае используется ряд гипотез, в частности, предположения о характере распределения некоторых случайных величин. Проведено тестирование предложенных методов, показавшее, что использование теоретической области применимости моделей, определенных в соответствии с разработанными методами, позволяет сократить долю ошибочных прогнозов.
5) Разработаны алгоритмизированные методы решения различных обратных задач в исследованиях связи «структура-свойство». Эти методы позволяют провести исчерпывающую генерацию химических структур определенного класса, имеющих заданное значение у0 рассматриваемого свойства (или заданный интервал (у, у2) изменения значений свойства), на основе предварительно построенной модели вида у=/(х!,., хд), связывающей значения рассматриваемого свойства и некоторые инварианты молекулярных графов Х],., Хм. Рассмотрены базовые корреляционные уравнения, содержащие различные инварианты, широко используемые при моделировании связи «структура-свойство» и допускающие определенную структурную интерпретацию. Проведено тестирование предложенных методов.
Разработка алгоритмов решения обратных задач важна для целенаправленного поиска соединений с заданными свойствами. По сравнению с традиционным подходом к поиску таких соединений предложенная методика имеет явное преимущество: она позволяет дать исчерпывающее решение поставленной задачи, что позволяет выявить структуры новых перспективных соединений.
6) Предложены модели связи «структура-свойство» нового типа, которые отражают широко распространенный в химии постулат «близкие структуры имеют близкие свойства», позволяющие в ряде случаев оценивать свойство соединения на основе его сходства с другим соединением, для которого значение изучаемого свойства известно. Эти модели имеют следующий вид: у~ урДОьО^, где уу у) — значения свойств пары соединений 6- и бу, а ¿-/(6&bdquo-6у) -некоторая симметричная функция двух аргументов (графов) б, и бу, значения которой количественно характеризуют степень подобия двух структур б, и бу. Предложен метод оптимального подбора меры й6/, бу) в этом соотношении по заданной выборке соединений, а также способ оценки свойств соединений на основе такой модели.
Проведено тестирование предложенного метода, а также его сравнение с двумя другими методами, использующими другие меры подобия. Это сравнение показывает, что предложенный в работе метод дает более точный результат, чем остальные методы.
7) Предложен алгоритм оптимального подбора меры подобия при прогнозировании свойств соединений по методу «ближайшего» соседа. Подход позволяет построить меру подобия, дающую наилучший результат при вышеуказанном способе прогнозирования свойств соединений, по крайней мере, для исходной выборки.
Проведено тестирование предложенного метода и его сравнение с шестью другими методами оценки свойств соединений на основе различных мер подобия. Это сравнение показывает, что предложенный в работе подход дает более точный результат, чем остальные.
8) Разработан ряд новых комбинаторных алгоритмов на графах, используемых при решении различных задач теоретической, компьютерной и математической химии, связанных с кодированием, идентификацией и анализом структурных особенностей графов. Эти алгоритмы позволяют строить каноническую нумерацию вершин графа, находить группу симметрии графа, устанавливать изоморфизм пары графов, находить все подграфы графа, изоморфные заданному подграфу. Алгоритмы математически строго обоснованы и позволяют обрабатывать графы произвольного вида, имеющие любые веса вершин и ребер. Прилагается копия акта о внедрении программы.
ИВГ", реализующей алгоритм изоморфного вложения графов, в исследования по планированию органического синтеза.
9) Выделены новые классы прикладных задач в теории графов, имеющих практическое применение в области химии, а также предложены методы их решения. Полученные теоретико-графовые результаты являются основой алгоритмов моделирования связи «структура-свойство», разработанных в диссертации.
Первый класс задач связан с проблемой восстановления аналитического вида инварианта меченых графов некоторого множества по всем или некоторым его значениям на графах этого множества. Для решения или исследования задач такого типа в работе предложена новая стратегия, основанная на введении и использовании понятия базиса инвариантов меченых графов. Предложены три возможных строгих определения базиса инвариантов графов, доказан ряд теорем о свойствах базисов, дана химическая интерпретация полученных теоретических результатов, предложены варианты наборов базисных инвариантов.
Второй класс задач связан с проблемой определения такого набора подграфов меченого графа (названных базисными подграфами), по которому граф восстанавливается однозначно. Предложена стратегия решения этой задачи, основанная на использовании ряда результатов спектральной теории графов. Получены теоретические результаты, позволяющие выявить один из возможных наборов таких подграфов.
Третий класс задач связан с задачей аналитического представления произвольной симметричной меры подобия меченых графов произвольного конечного множества. Выведена общая аналитическая формула для такой меры, из которой получен ряд важных следствий. Эта формула позволяет строить меры подобия, удовлетворяющие определенным условиям и адаптировать их к конкретным химическим задачам.
10) Предложена формализация постулата «близкие структуры имеют близкие свойства», являющегося основой некоторых методов прогнозирования свойств соединений, и проведено теоретическое исследование его справедливости. Указаны общие случаи, когда вышеуказанное утверждение будет заведомо верным или заведомо неверным. Актуальность таких исследований связана с широким внедрением компьютеров в химические исследования, что приводит к необходимости формализации различных понятий и эмпирических правил, разработанных в химии. Кроме того, анализ этого постулата важен для обоснования методов прогнозирования свойств соединений, которые на нем основаны.
Таким образом, в диссертационной работе предложен ряд новых, общих алгоритмов и моделей в рамках исследований связи между структурой и свойствами органических соединений для случая, когда структура молекул представлена мечеными графами. Вышеуказанные алгоритмы могут быть реализованы в виде компьютерных программ, составленных для современной на текущий момент времени) вычислительной техники. Проведено тестирование предложенных методов, показавшее их широкую практическую применимость и эффективность. Разработанные подходы имеют большое практическое значение для целенаправленного поиска соединений с заданными свойствами. * *.
Список литературы
- Стьюпер Э., Брюггер У., Джуре П. Машинный анализ связи химической структуры и биологической активности. М.:Мир, 1982, 235 с.
- Розенблит А. Б., Голендер И. Е. Логико комбинаторные методы в конструировании лекарств. Рига, 3инатне, 1983, 352 с.
- Тюрина Л. А., Кадыров Ч. Ш., Симонов В. Д. Машинный поиск закономерностей строение биологическое действие химического соединения. Итого науки и техники, сер. Органическая химия, т.18,1989, 156 с.
- Devillers J., Balaban А. Т. (Eds.). Topological Indices and Related Descriptors in QSAR and QSPR. Gordon and Breath Science Publishers, Amsterdam, 1999.
- Todeschini R., Consonni V. Handbook of Molecular Descriptors. Willey-VCH, Weinheim, 2000.
- Zefirov N. S., Palyulin V. A. Fragmental Approach in QSPR // J. Chem. Inform. Comput. Sei. 2002. — v. 42. — p. 1112−1122.
- Виноградова M. Г., Папулов Ю, Г., Смоляков В. М. Количественные корреляции «структура-свойство» алканов. Аддитивные схемы расчета. (Учебное пособие). Тверь: Изд-во ТГУ, 1999. — 96 с .
- Дьячков П.Н. Квантовохимические расчеты в изучении механизма действия и токсичности чужеродных веществ //Итоги науки и техники. ВИНИТИ. Сер. Токсикология. 1990. т. 16. — 280 с.
- Johnson M. A., Maggiora G. M. (Eds) Concepts and Applications of Molecular Similarity.- Wiley, New York, 1990.
- Станкевич M. И., Станкевич И. В., Зефиров Н. С. Топологические индексы в органической химии // Успехи химии. 1988. — т. 57. — с.337−366.
- Раевский O.A., Сапегин A.M. Возможности и перспективы конструирования биологически активных веществ//Успехи химии.-1988.-т.57.-№ 9.- с.1565−1585.
- Виноградова М.Г. Расчетные методы исследования взаимосвязи «структура-свойство» в атом-атомном представлении // Автореферат дисс. на соискание ученой степени д.х.н.- Тверь.- ТГУ. 2004.
- Папулов Ю. Г. Виноградова М.Г. Расчетные методы в атом-атомном представлении.-Тверь, — ТГУ.-2002.
- Raevsky O.A. Molecular structure descriptors in the computer-aided design of biologically active compounds // Russ.Chem.Rev.-1999.- v.68.- p.505−524.
- Нижний C.B., Эпштейн H.A. Количественные соотношения «химическая структура-биологическая активность» //Успехи химии. -1978. -т. 47. № 4. с.739−772.
- Karelson M., Lobanov V.S., Katritzky A.R. Quantum Chemical Descriptors in QSAR/QSPR Studies//Chem. Rev.- 1996.-v.96.- p.1027−1043.
- Бурляева E.B. Информационно методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений // Автореферат дисс. на соискание ученой степени д.т.н. — М.- МИТХТ.-2004.
- Велик А.В. Теоретическая оценка взаимосвязи структура-свойства для ряда органических соединений // Автореферат дисс. на соискание ученой степени д.х.н.- Уфа. -1994.
- Бородина Ю. В. Компьютерный анализ сходства фармакологических веществ с эндогенными биорегуляторами рецепторного действия и их синтетическими аналогами // Дисс. на соискание ученой степени к. б. н., НИИ Биомедицинской химии РАМН, Москва, 1998.
- Смоляков В.М. Зависимость свойств органических веществ от строения их молекул: расчетно-теоретическое исследование// Автореферат дисс. на соискание ученой степени д.х.н.,-Тверь.-ТГУ.- 1995.
- Carchart R.E., Smith D.H., Venkataraghavan R. Atoms Pairs as Molecular Features in Structure-Activity Studies: Definition and Applications// J. Chem.Inform. Comput.Sci.-1985.-v.25.-p.64−73.
- Кинг P. (ред.). Химические приложения топологии и теории графов. М.: Мир, 1987.-560 с.
- Папулов Ю. Г., Розенфельд В. Р., Кеменова Т. Г. Молекулярные графы (учебное пособие).- Тверь: Изд-во ТГУ, 1990. 88 с.
- Зефиров Н. С., Кучанов С. И. (ред.). Применение теории графов в химии. -Новосибирск, Наука, 1988. 306 с.
- Скворцова М. И., Станкевич И. В. Теория графов в структурной химии. Спектры графов и их применение в теории сопряженных молекул. Часть П.(Учебно-методическое пособие). Москва, Изд-во МИТХТ, 2001. — 64 с.
- Скворцова М. И., Станкевич И. В. Теория графов в структурной химии. Молекулярные графы. Часть I. (Учебно-методическое пособие. Москва, Изд-во МИТХТ, 1998.-88 с.
- Папулов Ю. Г., Чернова Т. И., Смоляков В. М., Поляков М. Н. Использование топологических индексов при построении корреляций «структура-свойство»//Журн. физ. химии. 1993. — т.67. — № 2. — с.203−209.
- Смоленский Е. А. Применение теории графов к расчету структурно -аддитивных свойств углеводородов.// Журн. физ. химии. 1964. — т.38. — № 5. -с. 1288−1290.
- Balaban A. T.(ed.). Chemical Applications of Graph Theory. Academic Press, London, 1976.
- Trinajstic N.(ed.) Chemical Graph Theory, v. l, 2. CRC Press, Boca Raton, FL, 1983.
- King R.B., Rouvray D. H. (ed.). Graph Theory and Topology in Chemistry (Studies in Physics and Theoretical Chemistry, v.51). Elsevier, Amsterdam, 1987.
- Randic M. Chemical Graph Theory Facts and Fictions//Indian J. of Chemistry. -v. 42 a. -2003. — p.1207−1218.
- Marinich J.A., Maguna F., Okulik N., Castro E.A. An Optimal Characterization of Structure by Means of Several Molecular Connectivity and Complexity Indices// Polish J.Chem.- 2002. -v.76. -p.589−600.
- Zupan J., Gastaiger J. Neural Networks for Chemists. -VCH.- Weinhein.- 1993.
- Гальберштам Н.М. Моделирование своймтв и реакционной способности органических соединений с использованием искусственных нейронных сетей // Автореферат дисс. на соискание ученой степени к.х.н. -Москва.- МГУ.-2001.
- Баскин И.И., Гальберштам Н. М., Палюлин В. А., Зефиров Н.С. NASA WIN -программный комплекс для исследования зависимостей «структура-свойство» в химии // Материалы 7-ой Всероссийской конф. «Нейрокомпьютеры и их применение». -М.-2001, с.419−422.
- Sixt S., Altschuh J., Bruggemann R. Quantitative structure-toxity relationships for 80 chlorinated compounds using quantum chemical descriptors// Chemosphere.-1995, — v. 30. No. 12.- p. 2397−2414.
- Rouvray D. H., King R. B. (Eds.). Topology in Chemistry. Discrete Mathematics of Molecules. Horwood Publishing Ltd., 2002.
- Basak S.C., Harriss D.K., Magnuson V.R. POLLY: Copyright of the University of Minnesotf, 1988.
- Katritzky A.R., Lobanov V., Karelson M. CODESSA (Comprehensive DEScriptors for Structural and Statistical Analysis) — University of Florida, Gainesville, FL.
- Баскин И.И., Станкевич М. И. Девдариани P.O., Зефиров Н. С. Комплекс программ для нахождения корреляций «структура-свойство» на основе топологических индексов// Журн. структурной химии. -1989.-т.30.-№ 6.-с.145−147.
- Петелин Д. Е., Палюлин В. А., Зефиров Н. С. Топологические индексы для исследований в QSAR/QSPR, основанные на весах вершин молекулярных графов// ДАН. 1992. -т. 324. — № 5. — с. 1019−1022.
- Basak S.C., Magnuson V.R., Niemi G. I., Regal R.R., Veith G. D. Topological Indices: Their Nature, Mutual Relatedness, and Applications// Mathematical Modelling 1987. -v. 8. — p. 300−305.
- Wessel M.D., Jurs P.C. Prediction of Normal Boiling Points of Hydrocarbons from Molecular Structure// J.Chem. Inf. Comput. Sci. 1995. -v. 35. -No. 1. — p. 6876.
- Sutter J. M., Dixon S.L., Jurs P.C. Automated Description Selection for Quantitative Structure-Activity Relationships Using Generalized Simulated Anneling // J. Chem. Inform. Comput. Sci. 1995.- v.35. -No. 1.- p. 77−84.
- Tratch S. S., Stankevich M. I., Zefirov N.S. Combinatorial Models and Algorithms in Chemistry. An Expanded Wiener Number a Novel Topological Index // J. Сотр. Chem.- 1990. — v. 11. — No. 7. p. 899−908.
- Hansch C. A quantitative Approach to biochemical structure-activity relationships //Acct. Chem. Res.- 1969. v. 2. — p. 232−239.
- Hansch C. On the structure of medicinal chemistry// J. Med. Chem. 1976. -v.19. p.1−6.
- Hansch С. Structure activity relationships of chemical mutagens and carcinogens// Sci. Tot. Environ.-1991. — v. 109/110. -p. 17−29.
- Kim K.H., Hansch C., Fukunagh I. Y., Steller E. E., Jow P.Y.C., Craig P. N., Page J. Quantitative structure-activity relationschips in l-aryl-2-(alkylamino) ethanol antimalarials// J. Med. Chem. 1979. -v. 22. -p. 366−371.
- Klopman G. Artifical Intelligence approach to structure-activities studies. Computer automated Structure Evaluation of biological Activity of Organic Molecules// J. Am. Chem. Soc. 1984. -v. 106, -p. 7315−7321.
- Klopman G. MULTICASE: 1. A Hierarchical Computer Automated Structure Evaluation Program// Quant. Struct.-Act. Relat.- 1992. -v. 11. -p. 176−184.
- Enslein K., Craig P. N. Carcinogenesis: A predictive structure-activity model// J. Toxicol. Environ. Health. 1982. — v. 10. — p. 521−530.
- Enslein K., Borgstedt H. H., Tomb M. E., Blake B. W., Hart H. B. A Structure-activity prediction Model of Carcinogenicity based on NCI/NTP assays and food Additives// Toxicol. Indust. Health. 1987. -v.3. — p. 267−287.
- Enslein K., Gombar V. K., Blake B. W. Use of SAR in Computer Assisted Prediction of Carcinogenicity and Mutagenicity f Chemicals by the TOPCAT Program// Mutation Research. — 1994. -v. 305. — 47−61.
- Skvortsova M.I., Baskin I.I., Slovokhotova O.L., Palyulin V.A., Zefirov N.S. Inverse Problem in QSAR/QSPR Studies for the Case of Topological Indices Characterizing Molecular Shape (Kier Indices)// J. Chem. Inform. Comput. Sci.-1993. v.33. p.630−634.
- Dimitrov S., Dimitrova G., Pavlov Т., Dimitrova N., Patlewicz G., Niemela J., Mekenyan O. A Stepwise Approach for Defining the Applicability Domain of SAR and QSAR Models// J. Chem. Inform. Comput. Sci.- 2005. v. 45. — p.839−849.
- Guha R., Jurs P. Determining the Validity of a QSAR Model A Classification Approach// J.Chem. Inform. Comput. Sci. — 2005. — v.45. -p.65−73.
- Gramatica P., Pilutti P., Papa E. Validated QSAR Prediction of OH Tropospheric Degradation of VOCs: Splitting into Training/Test Sets and Consensus Modeling// J.Chem. Inform. Comput. Sci.- 2004. v.44. — p. 1794−1802.
- Баскин И. И., Гордеева Е. В., Девдариани Р. О., Зефиров Н. С., Палюлин В. А., Станкевич М. И. Методология решения обратной задачи в проблеме связиструктура-свойство" для случая топологических индексов// ДАН АН СССР. -1989. т.307. — № 3. -с. 613−616.
- Milne G. W. A. Mathematics as a Basis for Chemistry// J. Chem. Inform. Comput. Sci. 1977. -v. 37. -c. 639−644.
- Зефиров H. С., Палюлин В. А., Радченко E. В. Генерация химических структур с заданными свойствами. Решение обратной задачи для центрического индекса Балабана// ДАН АН СССР. 1991. -т. 316. -с. 921−924.
- Kier L. В., Hall L. H, Frazer J. W. Design of Molecules from Quantitative Structure-Activity Relationship Models. 1. Information Transfer between Path and Vertex Degree Counts// J. Chem. Inf. Comput. Sci.- 1993. v. 33. — p.143−147.
- Kier L. В., Hall L. H., Frazer J. W. Design of Molecules from Quantitative Structure-Activity Relationship Models. 2. Derivation and Proof of Information Transfer Relating Equations// J. Chem. Inf. Comput. Sci. 1993. — v. 33. — p. 148 152.
- Hall L. H., Dailey R. S., Kier L. B. Design of Molecules from Quantitative Structure-Activity Relationship Models. 3. Role of Higher Order Path Counts // J. Chem. Inf. Comput. Sci. 1993. — v. 33.- p. 598−603.
- Kvasnicka V., Pospichal J. Canonical Indexing and Constructive Enumeration of Molecular Graphs// J. Chem. Inform. Comput. Sci. 1990.- v. 30. -p. 99−105.
- Faulon J.-L. Stochastic Generator of Chemical Structures. 2. Using Simulated Anneling to Search the Space of Constitutional Isomers // J. Chem. Inform. Comput. Sci.- 1996.-v.36. p. 731−740.
- Venkatasubramanian V., Chan K., Caruthers J. Evolutionary Design of Molecules with Desired Properties Using the Genetic Algorithm // J. Chem. Inform. Comput, Sci.- 1995.-v.35.- p.188−195.
- Rouvray D. H. Similarity Studies. l. The Necessity for Analogies in the Development of Science. // J. Chem. Inform. Comput. Sci.- 1994. v. 34. — p. 446 -452.
- Carbo-Dorca R., Mezey P. G. (Eds.). Advances in Molecular Similarity, v.2. -JAI Press, London, 1998.
- Carbo R. (Ed.). Molecular Similarity an Reactivity: From Chemical to Phenomenological Approaches. Kluver Academic Publishers, Dordrecht, Netherlands, 1995.
- Dean P. M. (Ed.). Molecular Similarity in Drug Design.- Blackie Academic & Professional, London, 1995.
- Johnson M. A. A Review and Examination of Mathematical Spaces Underlying Molecular Similarity Analysis. //J. Math. Chem.- 1989. v.3. -№ 2. -p.l 17−145.
- Monev V. Introduction to Similarity Searching in Chemistry. // MATCH. -2004.-v. 51. p. 7−38.
- Martin. J. C. Diverse Viewpoints on Computational Aspects of Molecular Diversity // J. Comb. Chem.-2001. v. 3. — № 3. — p. 231−250.
- Nikolova N., Jaworska J. Approaches to Measure of Similarity a Review. // QSAR Combin Sci. — 2003. -v.22. -p. 1006−1026.
- Randic M. In: Kuchanov S. I. (ed.). Mathematical Methods in Contemporary Chemistry. Gordon and Breath Publishers, Amsterdam, 1996. -p. 1−100.
- Sen K. (Ed.). Molecular Similarity I and II. Topics Curr. Chem.-1973 (1995).?
- Willett P. Similarity and Clustering in Chemical Information Systems. Research Studies Press, Letchworth, 1987.
- Скворцова М.И., Станкевич И. В., Палюлин B.A., Зефиров Н. С. Концепция молекулярного подобия и ее использование для прогнозирования свойств химических соединений// Успехи химии.- 2006.-т.75.-№ 11.- с.1074−1093.
- Джуре П., Айзенауэр Т. Распознавание образов в химии. Мир, Москва, 1977.
- Basak S. С., Grunwald D. G. Estimation of lipophility from molecular structural similarity //New J. Chem. -1995. v. 19.-p. 231−237.
- Basak S. C., Grunwald G. D. Molecular Similarity and Risk Assisment: Analog Selection and and Property Estimation Using Graph Invariants // SAR and QSAR in Environmental Research. 1994. — v.2.- p. 289−307.
- Basak S. C., Bertelsen S., Grunwald G. D. Application of Graph Theoretical Parameters in Quatifying Molecular Similarity and Structure-Activity Relationships // J. Chem. Inform. Comput. Sci. 1994. — v.34. — p. 270−276.
- Anzali S., Barnickel G., Cezanne В., Krug M., Filimonov D., Poroikov V. Discriminating between Drugs and Nondrugs by Prediction of Activity Spectra for Substances (PASS)// J. Med.Chem.- 2001.- v. 15. № 4.- p.2432−2437.
- Lagunin A., Stepanchikova A., Filimonov D., Poroikov V. PASS: prediction of activity spectra for biologically active substances// Bioinformatics.- 2000.- v. 16. -№ 8.- p.747−748.
- Corneil D. G., Kirkpatrik D. G. A theoretical analysis of various heuristics for the graph isomorphism problem // SIAM J. Comput. 1980. — № 2. — v.9. -p. 281−297.
- Read R. C., Corneil D. G. The graph isomorphism disease // J. Graph Theory. -1977, — v.l. -p. 339−363.
- Gati G. Further annotated bibliography on the isomorphism disease // J. Graph Theory.- 1979. № 2. — v.3. — p. 95−109.
- Земляченко В. H., Корнеенко Н. М., Тышкевич Р. И. Проблема изоморфизма графов. В: Записки Научного семинара ЛОМИ АН СССР. -1982.- тЛ 18. с. 83 158.
- Goldbogen C.G., Williams G. Н. A comparision of graph isomorphism algorithms. In: Algorithms and Complexity. New Directions and Recent Results, Proc. Symp. Carnegie-Mellon Univ., New York, 1976- New York, e.a., 1976.
- Курейчик В. M., Королев А. Г. Применение алгоритма изоморфизма графов для контроля схем БИС// Кибернетика. 1977. — № 2. -с. 82−87.
- Corneil D. G., Gotlieb С. С. An efficient algorithm for graph isomorphism// J. Assoc. Comput. Mach.-1970. № 1. — v. 17. -p. 51−64.
- Goldberg M. К. Нефакториальный алгоритм распознавания изоморфизмов графа// Discrete Appl. Math. -1983. -v. 6. p. 229−236.
- Раденски А. А. Алгоритм для нахождения всех изоморфизмов двух графов// Сердика. Бълг. Мат. Списания. 1975. — т.1. — № 2.- с.167−177.
- Tinhofer G. К определению автоморфизмов конечного графа// Computing, -1975. -v.15. № 2. -р. 147−156. ?
- Corneil D., Goldberg М. Нефакториальный алгоритм для канонической нумерации графа// J Algorithms. 1984. -v. 5. — p. 345−362.
- Херндон У. Каноническая нумерация и система линейных обозначений химических графов. В кн.: Кинг Р. (ред.). Химические приложения топологии и теории графов.- М.:Мир, 1987. -с. 266−277.
- Скоробогатов В. А., Хворостов П. В. Методы и алгоритмы анализа симметрии графов// Вычислительные системы (Новосибирск). -1984. № 103. -с. 6−25.
- McKay В. D. Нахождение автоморфизмов и канонических помечиваний графов// Lect. Notes in Math. 1978. — v. 686. — p. 223−230.
- Арлазаров В. Л., Зуев И. И., У сков А. В., Фараджев И. А. Алгоритм приведения конечных неориентированных графов к каноническому виду// Ж. выч. матем. и мат. физ. 1974. — № 3.- с. 737−743.
- Зыков А. А. Основы теории графов. М.: Наука, 1987.
- Akinniya F.A., Wong А.К.С. A new product graph based algorithm for subgraph isomorphism// Proc. CVPR'83: IEEEE Comput. Soc. Conf. Comput. Vision and Pattern Recogn. Washington, DC, 19−23 Jule, 1983. Silver Spring, Md, 1983. -p. 457−467.
- Baron G. Bestimmung der Automorphismengruppe Spezieller Klassen von Graphen// Computing -1967. № 2. -p. 332−335.
- Сенюкова А. Г. Об определении всех автоморфизмов неориентированных графов//Кибернетика. 1978. -№ 1.-е. 141−145.
- Brown H. Molecular Structure Elucidation// SIAM J. Appl. Math. 1977.- v.32. -№ 3. -p.534-?
- Stoubach R. E. Chemical Substructure Searching // J. Chem. Inform. Comput. Sci. 1985. — v.25. — № 3. — 271−177.
- Курейчик В. M., Королев А. Г. Об одном методе изоморфного вложения графов. В сб.: Методы расчета и автоматиз. проектир. устройств микроэлектрон. ЦВМ. 1975, Киев. — р. 6−16.
- Cheng J.K., Huang Т. S. A Subgraph Isomorphism Algorithm Using Resolution//PatternRecogn. 1981.- v. 13. — № 5.-p. 731−739.
- Ullman J. R. An Algorithm for Subgraph Isomorphism // J.Assoc. Comput. Mach.- 1976.-v.2.-№l.-p. 31−42.
- Боровиков A.A. Изоморфизм графов. В сб.: Искусственный интеллект: итоги и перспективы. М., 1974. — с. 83−88.
- Chahraman D. Е., Wong А.К.С., Au Tung. Graph Monomorphism Algorithms// IEEE Trans. Syst. Man. And Cybern.-1980. -v. 10. № 4. — p.189−196.
- Король H. E., Шкурба В. В. Задача идентификации подграфа и ее приложения. В сб.: Мат. методы исследов. и оптимиз. систем, — Киев, 1970, Вып.З.-с. 49−58.
- Kasif S., Kitchen L., Rosenfeld A. A hough transform technique for subgraph isomorphism// Pattern Recogn. Lett. 1983. -v. 2. — № 2. — p. 83−88.
- Шейнаускас Р.И. Алгоритм для установления изоморфизма и изоморфного вхождения двух графов. В сб.: Вычислит, техн., т.З. Каунас, 1972. -с. 347−353.
- Fridrich G., Ugi I. Substructure Searching and Structure Property Locating by Means of Substructure Generation// MATCH. 1979.- v. 6. -p. 201−211.
- Моисеев H.H. Математические задачи системного анализа. М.: Наука, 1981.-488 с.
- Мнухин В. Б. О базисе алгебры инвариантов графа. В сб.: Математический анализ и его приложения. Ростов-на-Дону, 1983. — с.55−60.
- Randic М. Representation of Molecular Graphs by Basic Graphs // J. Chem. Inform. Comput. Sci. 1999. — v.32. — № 1. — p. 57−69.
- Kier L. В., Hall L. H. Molecular Connectivity in Structure-Activity Analisis. -N.Y., Research Studies Press Ltd., John Wiley and Sons Inc., 1986. 262 p.
- Kier L. В., Hall L. H. Molecular Connectivity in Chemistry and Drug Research. N. Y., Academic Press, 1976.
- Kier L. B. Shape Index from Molecular Graphs // Quant. Struct.- Act. Relat. -1985.-v.4.-p. 109−116.
- Kier L. B. Shape Indexes of Orders One and Three from Molecular Graphs // Quant. Struct.-Act. Relat. -1986. v. 5. p. 1−7.
- Kier L. B. Inclusion of Symmetry as a Shape Attribute in Kappa Index Analysis// Quant. Struct.-Act. Relat. 1987.- v.6. — p. 8−12.
- Kier L. B. Indexes of Molecular Shape from Chemical Graphs// Med. Res. Rev.-1987.- v. 7. p. 417−440.
- Bonchev D. Informational Theoretic Indices for Characterization of Chemical Structures. Research Studies Press, N.Y., 1983.
- Магнусон В., Харрис Д., Бейсак С. Топологические индексы, основанные на симметрии окрестностей: химические и биохимические применения. В кн.: Кинг Р.(ред), Химические приложения топологии и теории графов. М., Мир, 1987.- с.206−221.
- Wiener Н. Relation of the Physical Properties of the Isomeric Alkanes to Molecular Structure// J. Phys. Chem. 1948. — v. 52. p. 1082−1089.
- Wiener H. Structural Determination of paraffin boiling Points // J. Am. Chem. Soc. 1947.- v.69. — № 1. p. 17−20.
- Needham D. E., Wei I. C, Seybold P. G. Modeling of the Physical Properties of the Alkanes//J. Am. Chem. Soc.- 1988, — v. 110. p. 4186−4194.
- Zefirov N. S., Palyulin V. A. QSAR for Boiling Points of «Small» Sulfides. Are the «High-Quality Structure-Property-Activity Regressions» the Real High Quality QSAR Models?// J. Chem. Inf. Comput. Sci.- 2001. v.41. p. 1022−1027.
- Sharma V., Goswami R., Madan A. K. Eccentric Connectivity Index: A Novel Highly Discriminating Topological Descriptor for Structure-Property and Structure-Activity Studies// J. Chem. Inform. Comput. Sci. 1997. — v. 37. p. 273−282.
- Randic M., Sabljic A., Nicolic S., Trinajstic N. A Rational Selection of Graph-Theoretical Indices in the QSAR // Intern. J. Quant. Chem.: Quantum Biology Symposium.-1988. v. 15. p. 267−285.
- Molchanova M. S., Shcherbukhin V. V., Zefirov N. S. Computer Generation of Molecular Structures by SMOG Program // J. Chem. Inf. Comput. Sci. 1996. -v. 36. p. 888−899.
- Molchanova M. S., Zefirov N. S. Irredundant Generation of Isomeric Molecular Structures with some Known Fragments // J. Chem. Inform. Comput. Sci.-1998.-v. 38.- p. 8−22.
- Цветкович Д., Дуб M., Захс X. Спектры графов. Теория и применение.-Киев, Наукова Думка, 1984.
- Cvetkovic D., Doob М., Sachs Н. Spectra of Graphs. Theory and Application. -Academic Press, New York, 1980- 2nd revised: Barth, Heidelberg, 1995.
- Sachs H. Beziehungen zwischen den in einem Graphen enthaltenen Kreisen und seinem charakteristischen Polynom // Publ. Math. (Debrecen). -1964.- v. 11, p. 119 134.
- Heilbronner E. Some comments on cospectral graphs // MATCH. 1979.- № 5.-p. 105−113.
- D’Amato S. S., Gimarc В. M., Trinajstic N. Isospectral and Subspectral Molecules // Croat. Chem. Acta. 1981. — v.54. -№ 1. — p. 1−52.
- Knop J. V., Miiller W. R., Szimanski K., Trinajstic N., Kleiner A. F., Randic M. On irreducible endospectral graphs// J.Math.Phys. 1986. -v.27. — p. 2601−2612.
- Плотников А. Д. Дискретная математика (Учебное пособие). М.: Новое знание, 2005. — 288с.
- Rucker G, Riicker С. On Topological Indices, Boiling Points and Cycloalkanes // J. Chem. Inf. Comput. Sci. 1999. — v. 39. p. 788−802.
- Роберте Дж. Расчеты по методу молекулярных орбит. -М.: Изд-во иностр. лит., 1963.- 150 с.
- Gakh A., Gakh E. G., Sumpter B. G., Noid D. W. Neural Network-Graph Theory Approach to the Prediction of the Physical Properties of Organic Compounds // J. Chem. Inf. Comput. Sci. 1994.- v. 34. p. 832−839.
- Оболенцев P. Д. Физические константы углеводородов. M.: Гос. научно-тех. изд-во нефтяной и горно-топл. лит-ры, 1953.
- Татевский В. М. Физико-химические свойства индивидуальных углеводородов. -М.: Гос. научно-тех. изд-во нефтяной и горно-топл. лит-ры, 1960.-412 с.
- Татевский В. М. Химическое строение углеводородов и закономерности в их физико-химических свойствах. М.: Изд-во Моск. ун-та, 1953. — 320 с.
- Randic М. Orthogonal Molecular Descriptors// New J. Chem.- 1991.- v. 15.- p. 517−525.
- Domalski E. S., Hearing E. D. //J. Phys. Chem. Ref. Data. 1988. — v. 17. -p.1637−1645.
- Trinajstic Nv The characteristic polinomial of a chemical graph// J. Math. Chem.- 1988.- v.2. -p.197−215.
- Gutman I. Impact of the Sachs Theorem on theoretical chemistry: a participant’s testimony//MATCH. 2003.- v. 48.- p. 17−34.
- Graovac A., Gutman I., Trinajstic N. Topological Approach to the Chemistry of Conjugated Molecules. Lecture Notes in Chemistry (v. 4). Springer, Berlin, 1977.
- Ivanciuc O., Ivanciuc Т., Klein D. J., Seitz W.A., Balaban A.T. Wiener Index Extension by Counting even/odd Graph Distances // J. Chem. Inform. Comput. Sci. -2001. v.41. p. 536−549.
- Klein D. J., Lukovits I., Gutman I. On the Definition of the Hyper-Wiener For Cycle-Containing Structure// J. Chem. Inform. Comput. Sci. 1995. -v.35. p. 50−52.
- Plavsic D., Nicolic S., Trinajstic N., Mihalic Z. On the Harary Index for the Characterization of Chemical Graphs// J. Math. Chem. -1993. -v. 12. p. 235−250.
- Gutman I., Linert W., Lukovits I., Tomovic Z. The Multiplicative Version of the Wiener Index// J. Chem. Inform. Comput. Sci. -2000. -v.40. -p.l 13−116.
- Bonchev D. The Overall Wiener Index a New Tool for Characterization of Molecular Topology// J. Chem. Inform. Comput. Sci. — 2001.- v.41. p. 582−592.
- Lukovits I., Razinger M. On Calculation of the Detour Index// J. Chem. Inform. Comput. Sci. 1997. — v. 37. -p. 283−286.
- Randic M. Novel Shape Descriptors for Molecular Graphs// J. Chem. Inform. Comput. Sci.- 2001. v.41.-p. 607−613.
- Gutman I., Riicker C., Riicker G. On Walks on Molecular Graphs// J. Chem. Inform. Comput. Sci.-2001.-v.41.-p.739−745.
- Lukovits I. An All-path Version of the Wiener Index// J. Chem. Inform. Comput. Sci. 1988. — v. 38. — p. 125−129.
- Yao, Yun-Yuan- Xu, Lu- Yang, Yi-Qui- Yuan Xiu-Shun. Study on Structure-Activity Relationships on Organic Compounds: Three New Topological Indices and Their Applications//J. Chem. Inform. Comput. Sci. 1993. — v.33. -p. 590−594.
- Randic M. Graph Valence Shells as Molecular Descriptors// J. Chem. Inform. Comput. Sci. 2001.-v.41.-p. 627−630.
- Shultz H. P. Topological Organic Chemistry. 1. Graph Theory and Topological Indices of Alkanes//J. Chem. Inform. Comput. Sci. 1989. — v. 29. — p. 227−228.
- Khadicar P.V., Karmarkar S., Agrawal V. K. A Novel PI Index and Its Application to QSPR/QSAR Studies// J. Chem. Inform. Comput. Sci. 2001. — v.41. -p. 934−949.
- Krenkel G., Castro E. A., Toropov A.A. Improved Molecular Descriptors to
- Calculate Boiling Points Based on the Optimization of Correlation Weightts of Local
- Graph Invariants //J. Mol. Struct (THEOCHEM). 2001.- v. 542. — p.107−113.1 f
- Randic M., Pompe M. The Variable Connectivity Index % Versus the Traditional Molecular Descriptors: A Comparative Study of % Against Descriptors of CODESSA //J. Chem. Inform. Comput. Sci. -2001/ -v. 41. p. 631−638.
- Демиденко Е.З. Линейная и нелинейная регрессия. М.: Финансы и статистика. 1981. — 102 с.
- Степанов Н.Ф., Ерлыкина М. Е., Филиппов Г. Г. Методы линейной алгебры в физической химии. М.: Изд-во МГУ, 1976.
- Чистяков В.П. Курс теории вероятностей. М.: Наука, 1987. — 240 с.
- Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. М.: Наука, 1968. — 720 с.
- Lucic В., Lukovits I., Nikolic S., Trinajstic N. Distance-Related Indexes in the Quantitative Structure-Property Relationships Modeling// J. Chem. Inform. Comput. Sci.-2001.-v.41.-p. 527−535.
- Randic M. On Characterization of Molecular Branching // J. Am. Chem. Soc. -1975.-v. 97.-p. 6609−6615.
- Рейнгольд Э., Нивергельт Ю., Део Н. Комбинаторные алгоритмы. Теория и практика. М.: Мир, 1980.
- Харари Ф. Теория графов. М.: Мир, 1973.
- Молодцов С. Г., Пиоттух-Пелецкий В. Н. Построение всех неизоморфных химических графов из заданного набора структурных фрагментов// Алгоритмы анализа структурной информации (Вычисл. системы). 1984. — Вып. 103. — р. 51−58.
- Molodtsov S. G. Generation of Molecular Graphs with a Given Set of Nonoverlapping Fragments// Commun. Math. Chem. (MATCH). -1994.- v. 30. p. 203−212.
- Molodtsov S. G. Computer-Aided Generation of Molecular Graphs// Commun. Math. Chem. (MATCH). 1994. -v. 30. -p. 213−224.
- Фараджев И. А. Генерация неизоморфных графов с заданным распределением степеней вершин // В: Алгоритмические исследования в комбинаторике. М., Наука, 1978. с. 11−19.
- Masinter L. М., Sridharan N. S., Lederberg J., Smith D. H. Applications of Artifical Intelligence for Chemical Inference. 12. Exhaustive Generation of Cyclic and Acyclic Isomers // J. Am. Chem. Soc. 1974. -v. 96. -p. 7702−7714.
- Bohanec S., Zupan J. Structure Generation of Constitutional Isomers from Structural Fragments// J. Chem. Inform. Comput. Sci. 1991. — v. 31. p. 531−540.
- Zhu S.-Y., Zhang J.-P. Exhaustive Generation of Structural Isomers for a Given Empirical Formula a New Algorithm // J. Chem. Inform. Comput. Sci. — 1982. -v.22.-p. 38−44.
- Липский В. Комбинаторика для программистов. М., Мир, 1988.
- Мжельская Е. В., Скоробогатов В. А. Применение теории графов в химии полициклических бензоидных углеводородов. Новосибирск, (Препринт № 35, Ин-т математики СО АН СССР), 1987. — 34 с.
- Villemin D., Cherqaoui D., Mesbah A. // Predicting Carcinogenity of Polycyclic Aromatic Hydrocarbons from Back- Propagation Neural Networks // J. Chem. Inform. Comput. Sci. 1994. -v. 34. — p. 1288−1298.
- Корнилов M. Ю., Замковой В. И. Расчет чисел изомеров и кодирование конденсированных полициклических систем: перечисление полибензолов //Теорет. и экспер. химия.- 1987. № 1. — с. 54−61.
- Contreras М. L., Valdivia R., Rozas R. Exhaustive Generation of Organic Isomers. 1. Acyclic Structures// J. Chem. Inform. Comput. Sci. 1992. -v. 32. — p. 323−330.
- Cammarata A. Molecular Topology and Aqueous Solubility of Aliphatic Alcohols // J. Pharm. Sci. 1979. — v. 68. — p. 839−842.
- Murray W. J., Hall L. H., Kier L. B. Molecular Connectiity III: Relation to partition Coefficients//J. Pharm. Sci. 1975. — v. 64.-p.1978−1981.
- Carlson R., Prochazka M.P., Lundstedt T.V. Acta chem. scand.- 1988. v. B42. — № 3. -p. 157−165.
- Aldrich Chemical Company. Aldrich Catalog-Handbook of Fine Chemicals. -Milwaukee, WI, 1996−1997.
- Gutman I., Shalabi A., Topological Properties of Benzenoid Systems. XXIX. On Hosoya’s Topological Index// Z. Naturforsch. 1984. — v. 39a. — p.797−799.
- Ivanciuc O., Design of Topological Indices. Part 18. Modeling the Physical Properties of Alkanes with Molecular Graph Descriptors Derived from the Hosoya Operator// Rev. Roum. Chim. 2001. — v. 46. — p. 129−141.
- Nikolic S., Plavsic D., Trinajstic N. On the Z-counting Polynomial for Edge-weighted Graphs// J. Math. Chem. -1992.- v. 9. p. 381−387.
- Plavsic D., Soskic M., Dakovic Z., Gutman I., Graovac A. Extension of the Z-matrix to cycle-counting and edge-weighted molecular graphs// J. Chem. Inf. Comput. Sci. 1997. -v. 37. -p. 529−534.
- Hosoya H., Hosoi K., Gutman I., A topological index for the total л-electron energy. Proof of a generalized Huckel rule for an arbitrary network//Theor. Chim. Acta (Berlin). 1975. — v. 38. — p. 37−47.
- Hosoya H., Murakami M. Topological index as applied to л-electronic systems. II. Topological bond order// Bull. Chem. Soc. Japan. 1975. -v. 48. -p. 3512−3517.
- Hosoya H., Topological Index. A Newly Proposed Quantity Characterizing the Topological Nature of Structural Isomers of Saturated Hydrocarbons// Bull.Chem. Soc. Japan. -1971. v. 44. — p. 2332−2339.
- Hosoya H., The Topological Index Z Before and After 1971 // Internet Electron. J. Mol. Des. 2002. -v. 1. -p. 428−442, http://www. biochempress. com.
- Heilmann O. J., Lieb E. H. Theory of monomer-dimer systems // Commun. Math. Phys. 1972. -v. 25. — p. 190−232.
- Станкевич (Скворцова) М. И., Баскин И. И., Зефиров Н. С. Автоматизированный поиск структурных фрагментов. Алгоритм и программа. Журнал структурной химии, 1987, т.28, № 6, с. 136−137.
- Станкевич (Скворцова) М.И., Баскин И. И., Зефиров Н. С. Комбинаторные модели и алгоритмы в химии. Поиск структурных фрагментов. Деп. ВИНИТИ АН СССР 11.06 1986, № 4288-В86, 27 стр.
- Станкевич (Скворцова) М.И., Станкевич И. В., Зефиров Н. С. Топологические индексы в органической химии. Успехи химии, 1988, т 57, № 3, с. 337−366.
- Баскин И.И., Станкевич (Скворцова) М.И., Девдариани P.O., Зефиров Н. С. Комплекс программ для нахождения корреляций «структура свойство» на основе топологических индексов. Журнал структурной химии, 1989, т. 30, № 6, с.145−147.
- Гордеева Е.В., Баскин И. И., Девдариани P.O., Зефиров Н. С., Станкевич (Скворцова) М. И. Методология решения обратной задачи в проблеме связи «структура-свойство» для случая топологических индексов. ДАН СССР, 1989, т. 307, № 3, с. 613−616.
- Stankevitch (Skvortsova) М. I., Tratch S. S., Zefirov N. S. Combinatorial Models and Algorithms in Chemistry. Search for Isomorphisms and Automorphisms of Molecular Graphs. J. Comput. Chem., 1988, v.9, N 4, p. 303−314.
- Станкевич И. В., Скворцова М. И. Обобщенный индекс Рандича как функционал от тг электронной плотности. Тезисы докладов 1-ой Всесоюзной конференции по теоретической органической химии (ВАТОХ), Волгоград, 1991, с. 97.
- Скворцова М. И., Станкевич И. В., Зефиров Н. С. Генерация молекулярных структур поликонденсированных бензоидных углеводородов по индексу Рандича. Журнал структурной химии, 1992, т. 33, № 3, с. 99−104.
- Станкевич И. В., Скворцова М. И., Томилин О. Б., Зефиров Н. С. Использование проекционных операторов для нумерации атомов и исследования свойств симметрии молекулярных структур. Журнал структурной химии, 1992, т. 33, № 3, с. 93−98.
- Скворцова М. И., Баскин И. И., Словохотова О. Л., Палюлин В. А., Зефиров Н. С. Обратная задача в QSAR/QSPR-анализе для случая топологических индексов, характеризующих молекулярную форму (индексов Кира). ДАН, 1992, т. 324, № 2, с. 344−348.
- Станкевич И. В., Скворцова М. И., Зефиров Н. С. Топологические свойства сопряженных углеводородов: обобщенный индекс Рандича как функционал от тг- электронной плотности. Доклады Академии Наук, 1992, т.324, № 1, с.133−137.
- Skvortsova М. I., Baskin 1.1., Slovokhotova О. L., Palyulin V. A., Zefirov N. S. The Inverse Problem in QSAR/QSPR Studies for the Case of Topological Indices
- Characterizing Molecular Shape (Kier Indices). J. Chem. Inform.Comput.Sci., 1993, v.33,N4, p. 630−634.
- Скворцова M. И., Баскин И. И., Словохотова О. JI., Зефиров Н. С. Методология построения общей модели связи «структура-свойство» на топологическом уровне. Доклады Академии Наук, 1994, т. 336, N 4, с. 496−499.
- Баскин И. И., Скворцова М. И., Станкевич И. В., Зефиров Н. С. О базисе инвариантов помеченных молекулярных графов. Доклады Академии Наук, 1994, т. 339, N3, с. 346−350.
- Stankevich I. V., Skvortsova М. I., Kolmykov V. A., Subbotin V. F., Mnukhin V. В. Spectral Graph Theory in Chemistry. In: Mathematical Methods in Contemporary Chemistry. (Ed. Kuchanov S. I.- Gordon and Breath Publishers, Amsterdam), 1996, p. 101−141.
- Baskin 1.1., Skvortsova M. I., Stankevich I. V., Zefirov N. S. On the Basis of Invariants of Labeled Molecular Graphs. J. Chem. Inform. Comput. Sci., 1995, v. 35, N. 3, p. 527−531.
- Stankevich I. V., Skvortsova M. I., Zefirov N. S. On a Quantum-Chemical Interpretation of Molecular Connectivity Indices for Conjugated Hydrocarbons. J. Mol. Strut. (THEOCHEM), 1995, v. 342, p. 173−179.
- Zefirov N. S., Palyulin V. A., Skvortsova M. I., Baskin 1.1. Inverse Problem in QSAR. In: QSAR and Molecular Modeling: Concepts, Computational Tools and Biological Applications- Barcelona, Prous Science Publishers, 1995. p. 40.
- Skvortsova M. I., Baskin I. I., Stankevich I. V., Zefirov N. S. New Method for Constructing Linear «Structure-Property» Equations. In: Book of Abstracts. International Symposium CACR-96- December 17−18- 1996, Moscow, Russia- p. 60.
- Skvortsova M.I., Baskin I.I., Stankevich I.V., Zefirov N. S. A New Approach to to the Problem of Defining Applicability Range of QSAR/QSPR Models. In: Book of Abstracts. International Symposium CACR-96- December 17−18- 1996, Moscow, Russia- p. 67−68.
- Baskin I. I., Skvortsova M. I., Palyulin V. A., Zefirov N. S. Quantitative Chemical Structure-Property/Activity Studies Using Artifical Neural Networks. Foundations of Computing and Decision Sciences. 1997, v. 22, N 2, p.107−116.
- Скворцова M. И., Баскин И. И., Станкевич И. В., Зефиров Н. С. Об одном способе построения линейных уравнений связи «структура-свойство». Доклады Академии Наук, 1996, т.351, № 1, с. 78−80.
- Скворцова М. И., Станкевич И. В., Баскин И. И., Палюлин В. А., Зефиров Н. С. Аналитическое описание множества мер подобия молекулярных графов. Доклады Академии Наук, 1996, т.350, № 6, с. 786−788.
- Зефиров Н. С., Палюлин В. В., Молчанова М. С., Скворцова М. И., Баскин И. И. Структурная генерация и QSAR. Тезисы докладов IV ого Российского научного конгресса «Человек и лекарство" — Москва, 8−12 апреля 1997 г.- с. 261.
- Скворцова М. И., Словохотова О. JL, Баскин И. И., Палюлин В. А., Зефиров Н. С. Обратная задача в проблеме связи «структура-свойство» для случая информационных топологических индексов. Доклады Академии Наук, 1997, т. 357, № 1, с. 72−74.
- Skvortsova M. I., Baskin I. I., Stankevich I. V., Palyulin V. A., Zefirov N. S. Molecular Similarity. 1. Analitycal Description of Graph Similarity Measures. J. Chem. Inform. Comput. Sci. 1998, v.38, N 5, p. 785−790.
- Skvortsova M. I., Baskin I. I., Skvortsov L. A., Palyulin V. A., Zefirov N. S., Stankevich I. V. Chemical Graphs and Their Basis Invariants. J. Mol. Struct. (THEOHEM), 1999, v. 466, p. 211−217.
- Станкевич И. В., Чистяков А. Л., Скворцова М. И. Исследование структуры и свойств некоторых эндоэндральных кластеров и обобщение понятия молекулярной топологической формы. Известия РАН, сер. химическая, 1999, № 3, с. 436−440.
- Скворцова М. И., Станкевич И. В. Теория графов в структурной химии. Молекулярные графы. Часть I. (Учебно-методическое пособие- Изд-во МИТХТ), 1998, 88 с.
- Скворцова M. И., Федяев К. С., Палюлин В. А., Зефиров Н. С. О вероятностном подходе к определению области применимости уравнений связи «структура-свойство». Доклады Академии Наук, 2000, т. 375, № 1, с. 46−49.
- Пасюков А. В., Скворцова М. И., Палюлин В. А., Зефиров Н. С. Метод прогнозирования свойств химических соединений, основанный на оптимальном подборе меры молекулярного подобия. Доклады Академии Наук, 2000, т. 374, № 6, с.786−789.
- Скворцова М. И., Станкевич И. В. Теория графов в структурной химии. Спектры графов и их применение в теории сопряженных молекул. Часть П.(Учебно-методическое пособие), Москва, МИТХТ им. М. В. Ломоносова, 2001, 64 с.
- Скворцова М. И., Федяев К. С., Палюлин В. А., Зефиров Н. С. Обратная задача в проблеме связи «структура-свойство» для случая корреляционного уравнения, содержащего индекс Хосойя. Доклады Академии Наук, 2001, т. 379, № 2, с. 209−213.
- Скворцова М. И., Федяев К. С., Баскин И. И., Палюлин В. А., Зефиров Н. С. Новый способ кодирования химических структур на основе базисных фрагментов. Доклады Академии Наук, 2002, т. 382, № 5, с. 645−648.
- Скворцова M. И., Федяев К. С., Палюлин В. А., Зефиров Н. С. Моделирование связи между структурой и свойствами углеводородов на основе базисных топологических дескрипторов. Известия АН (сер. химическая), 2004, № 8, с. 1527−1535.
- Скворцова М. И., Станкевич И. В. О связи между собственными векторами взвешенных графов и их подграфами. Дискретная математика, 2004, т. 16, вып. 4, с. 32−40.
- Skvortsova М. I., Stankevich I. V. Eigenvectors of Weighted Graphs: Supplement to Sachs' Theorem. J. Mol. Struct. (THEOCHEM), 2005, v.719, p. 213−223.
- Скворцова М. И., Станкевич И. В., Палюлин В. А., Зефиров Н. С. Концепция молекулярного подобия и ее применение для прогнозирования свойств органических соединений// Успехи химии.- 2006.-т.75.-№ 11.- с. 1074−1093.