Компьютерное конструирование неорганических соединений, перспективных для применения в электронике, с использованием баз данных и методов искусственного интеллекта
Какие проблемы стоят перед компьютерным конструированием неорганических веществ и какие пути их решения? Первая проблема — это качество экспериментальных данных для компьютерного анализа. Ошибки в обучающих выборках — одна из основных причин неправильных прогнозов. Величина ошибки, как правило, пропорциональна отношению ошибочных объектов к общему объему обучающей выборки. Это связано… Читать ещё >
Содержание
- Определения, обозначения и сокращения
- 1. Постановка задачи
- 2. Актуальность темы
- 3. Положения, выносимые на защиту
- 4. Практическая значимость работы
- 1. Разработка баз данных по материалам для электроники
- 1. 1. Базы данных по веществам и материалам для электроники, созданные в мире
- 1. 2. База данных по свойствам неорганических соединений «Фазы»
- 1. 2. 1. Структура базы данных
- 1. 2. 2. Программное и аппаратное обеспечение БД «Фазы»
- 1. 2. 2. 1. Архитектура БД
- 1. 2. 2. 2. Подсистема редактирования информации БД
- 1. 2. 2. 3. Подсистема поиска информации в БД
- 1. 3. База данных по фазовым диаграммам систем с полупроводниковыми соединениями «Диаграмма»
- 1. 3. 1. Системы и свойства, заносимые в базу данных «Диаграмма»
- 1. 3. 2. Структура базы данных
- 1. 3. 3. Программное и аппаратное обеспечение БД «Диаграмма»
- 1. 3. 3. 1. Архитектура БД
- 1. 3. 3. 2. Система удаленного администрирования БД
- 1. 3. 3. 3. Система удаленного доступа пользователей к БД «Диаграмма» из сети Интернет
- 1. 3. 3. 4. Система визуализации графической информации
- 1. 4. 1. Физические основы функционирования акусто-, электро- и нелинейнооптических материалов и обоснование выбора свойств веществ, заносимых в базу данных «Кристалл»
- 1. 4. 2. Критерии отбора материалов, информация о которых заносится в базу данных
- 1. 4. 3. Структура базы данных
- 1. 4. 4. Программное и аппаратное обеспечение БД «Кристалл»
- 1. 4. 4. 1. Архитектура БД
- 1. 4. 4. 2. Система удаленного администрирования БД 79 1.4.4.3: Система удаленного доступа пользователей к БД
- 1. 5. Интеграция баз данных по веществам и материалам
- 2. 1. Квантовомеханические методы
- 2. 2. Эмпирические методы
- 2. 3. Методы поиска многомерных классифицирующих закономерностей
- 2. 3. 1. Автоматическая классификация
- 2. 3. 2. Обучение ЭВМ распознаванию образов
- 2. 3. 2. 1. Статистические методы
- 2. 3. 2. 2. Эвристичрские методы
- 2. 3. 2. 3. Методы нейрокибернетики
- 2. 3. 2. 4. Методы обучения ЭВМ процессу формирования понятий на основе растущих пирамидальных сетей
- 2. 3. 3. Поиск наиболее важных для классификации признаков
- 2. 4. Обзор исследований по конструированию неорганических веществ и материалов
- 2. 4. 1. Прогноз типа диаграмм состояния физикохимических систем
- 2. 4. 2. Прогноз возможности образования соединений определенного состава в неорганических системах
- 2. 4. 3. Прогноз свойств неорганических соединений
- 2. 4. 3. 1. Прогноз типа кристаллической структуры неорганических соединений
- 2. 4. 3. 2. Прогноз физических свойств неорганических соединений
- 2. 4. 4. Применение методов распознавания образов в промышленных разработках неорганических материалов
- 3. 1. Методика конструирования новых неорганических соединений, используемая в настоящей работе
- 3. 1. 1. Выбор наборов признаков для описания физико-химических систем
- 3. 1. 2. Дискретизация признаков
- 3. 1. 3. Выбор примеров для обучения ЭВМ
- 3. 1. 4. Повышение достоверности прогнозирования за счет сравнения результатов прогноза с использованием разных наборов признаков
- 3. 1. 5. Классифицирующие закономерности
- 3. 2. Конструирование соединений, перспективных для разработки новых полупроводниковых материалов
- 3. 2. 1. Соединения состава АВ2Х4 (X = S, Se, Те)
- 3. 2. 1. 1. Прогноз возможности образования соединений состава АВ2Х
- 3. 2. 1. 2. Прогноз типа кристаллической структуры соединений состава АВ2Х
- 3. 2. 2. Соединения состава АВХ2 (X = S, Se, Те)
- 3. 2. 2. 1. Прогноз возможности образования соединений состава АВХ
- 3. 2. 2. 2. Прогноз соединений состава АВХ2 с кристаллической структурой типа a-NaFe
- 3. 2. 3. Соединения состава АВХ (X = Р, As, Sb, Bi)
- 3. 2. 1. Соединения состава АВ2Х4 (X = S, Se, Те)
- 3. 3. Конструирование соединений, перспективных для использования в качестве новых сегнетоэлектрических, пьезоэлектрических, акустооптических, электрооптических и нелинейнооптических материалов
- 3. 3. 1. Халькопириты состава АВХ
- 3. 3. 1. 1. Халькопириты состава АВХ2 (А = Li, Na, К, Rb, Cs, Ag, Au, Zn, Cd, Hg- В = Al, Ga, In, Tl, Fe, Co,
- 3. 3. 1. Халькопириты состава АВХ
- 3. 3. 1. 2. Халькопириты состава ABX2 (A = Mg, Ca, Sr, Ba, Zn, Cd, Hg- В = Si, Ge, Sn- X = N, P, As, Sb, Bi, S, Se, Те) и CDY2 (С = Li, Na, K, Rb, Cs- D = P, As,
- 3. 3. 2. Соединения состава АВОз с кристаллической структурой искаженного ильменита и перовскита
- 3. 3. 2. 1. Поиск эмпирических критериев существования перовскитной структуры
- 3. 3. 2. 2. Прогноз возможности образования соединений состава AB
- 3. 3. 2. 3. Прогноз типа кристаллической структуры соединений состава АВ
- 3. 3. 3. Соединения состава ABF5 с кристаллическими структурами типа BaFeF5, BaGaF5 и CaFeF
- 3. 3. 4. Соединения состава А2В2(Х04)з (X = S, Cr, Mo, W) с кристаллической структурой типа лангбейнита
- 3. 4. Конструирование соединений, перспективных для использования в качестве новых магнитных материалов
- 3. 4. 1. Соединения состава АВ204 со структурой шпинели
- 3. 4. 1. 1. Прогноз возможности образования соединений состава АВ
- 3. 4. 1. 2. Прогноз соединений состава AB204 со структурой шпинели
- 3. 4. 2. Соединения состава АВ2Х2(Х = Al, Si, Ge, Р, As, Sb) с кристаллической структурой типа ThCr2S
- 3. 4. 3. Фазы Гейслера состава АВХ
- 3. 4. 1. Соединения состава АВ204 со структурой шпинели
- 3. 5. Кибернетико-статистический подход к конструированию новых веществ с заданными свойствами
Компьютерное конструирование неорганических соединений, перспективных для применения в электронике, с использованием баз данных и методов искусственного интеллекта (реферат, курсовая, диплом, контрольная)
Задачу компьютерного конструирования новых неорганических соединений можно сформулировать следующим образом: найти совокупность химических элементов и их соотношение (т.е. качественный и количественный состав) для создания (при заданных внешних условиях) определенной молекулярной или кристаллической пространственной структуры соединения, позволяющей реализовать необходимые функциональные свойства. Исходной информацией для расчетов должны быть только свойства химических элементов и данные о других уже изученных соединениях.
Термин «компьютерное конструирование соединений» — «computer-aided compound design» — появился четверть века тому назад в связи с решением проблем поиска взаимосвязей между структурой и свойствами органических соединений [1,2]. Использование разнообразных методов компьютерного анализа экспериментальной информации о многочисленных органических соединениях позволило предсказывать молекулярную структуру, набор и положение заместителей в еще неполученных органических соединениях, которые обеспечивали бы заданные функциональные свойства. Соблюдение правил валентности для четырехвалентного углерода и одновалентного водорода в органических соединениях значительно упрощает решение задачи компьютерного дизайна органических соединений. С этой точки зрения проблема компьютерного конструирования неорганических соединений — более сложная, т.к. правило валентности строго соблюдается лишь в соединениях с ионным типом химической связи и частично — в ковалентных соединениях. Поэтому появившийся в девяностые годы термин «компьютерное конструирование неорганических соединений» [39] ассоциировался не только с разработкой молекулярной структуры, но и с поиском качественного и количественного состава еще неполученных соединений и с оценкой их возможных свойств на основе использования информации об образующих их элементах и других, уже полученных, соединениях. Следует отметить, что термин «компьютерное конструирование соединений» оказался очень удачным, поэтому он сейчас широко используется исследователями для обозначения разнообразных теоретических методов априорного (т.е. на основе только значений свойств компонентов) расчета новых веществ: от квантовоме-ханических методов [10] до эмпирических подходов, использующих методы компьютерного анализа данных [3, 4, 6, 7, 11−26].
Примеры задач компьютерного конструирования неорганических соединений:
— компьютерное конструирование химических систем с образованием и отсутствием соединенийкомпьютерное конструирование химических систем с образованием соединений определенного количественного состава при заданных внешних условиях;
— компьютерное конструирование химических соединений с заданной кристаллической структурой при определенных внешних условиях;
— компьютерное конструирование химических соединений с заданными функциональными свойствами (температурой плавления, температурой перехода в сверхпроводящее состояние и т. д.).
Разработано несколько подходов к решению указанных выше задач:
— квантовомеханический подход [10,27−37];
— простейшие эмпирические двухи трехмерные критерии образования соединений с заданными свойствами [38−62];
— многомерные эмпирические классифицирующие закономерности, предназначенные для прогнозирования новых неорганических веществ [3−7, 1126,63−153].
Как известно [10, 27−37], квантовомеханический подход к расчету химических соединений основан на уравнении Шредингера. Точное решение последнего для конкретных неорганических веществ связано с серьезными математическими трудностями, которые удалось преодолеть лишь для простейших систем. Для сложных атомов и систем в настоящее время возможно получение только приближенных решений.
В связи с многочисленными трудностями, возникающими при квантово-механических расчетах еще неполученных неорганических веществ, химики и материаловеды начали разрабатывать и использовать различные эмпирические критерии образования соединений с заданными свойствами [38−62]. Основная гипотеза, лежащая в основе методов поиска таких критериев и закономерностей в вышеуказанных работах: фундаментальные свойства неорганических соединений при различных условиях (температуре, давлении, соотношении компонентов и т. д.) связаны периодическими зависимостями с фундаментальными свойствами химических элементов, входящих в их состав. При этом предполагается, что многочисленные, известные к настоящему времени, неорганические вещества подчиняются этим зависимостям. В связи с этим задача сводится к поиску закономерностей на основе анализа информации об уже исследованных веществах. Технологию разработки эмпирических критериев легко пояснить с использованием представлений о пространстве свойств химических элементов, входящих в состав химических веществ. Каждое вещество представлено в этом пространстве точкой, координаты которой определяются значениями свойств элементов, входящих в состав вещества. Процесс создания эмпирических критериев основан на анализе расположения точек, соответствующих изученным веществам различных типов, в пространстве свойств элементов и поиске поверхностей, разделяющих классы (классификационных правил). Последние позволяют отделить в пространстве свойств элементов области химических веществ одного типа от областей веществ другого типа (например, разделить точки, соответствующие соединениям с кристаллической структурой перовскита от точек, относящихся к соединениям со структурами ильменита, арагонита, кальцита, ватерита и т. д.). В случае простейших эмпирических критериев анализ расположения точек, соответствующих химическим объектам, осуществляется в двухили трехмерных пространствах свойств элементов. Как правило, подобная классификация является грубой, т.к. свойства химических соединений, особенно многокомпонентных, зависят от многих свойств элементов. Поэтому естественным развитием такого подхода был переход к многомерным классифицирующим закономерностям. Разработка последних возможна только с применением компьютеров и специальных программ поиска закономерностей в больших объемах данных.
В настоящей диссертации разработан подход к компьютерному конструированию сложных неорганических соединений, который использует методы is. искусственного интеллекта для анализа информации баз данных по свойствам неорганических веществ.
Впервые методы искусственного интеллекта использовали для прогноза новых двойных неорганических фаз Е. М. Савицкий с соавторами [12, 81]. Работы, проводимые в ИМЕТ с середины 60-х годов, стали естественным продолжением исследований по применению искусственного интеллекта в химии, начатых в конце пятидесятых годов, с самых первых шагов этого направления информатики. Уже тогда стало ясно, что новый компьютерный подход очень перспективен для решения плохо формализуемых задач химии. Первые применения были связаны с органической химией и обработкой спектральной информации [2, 154, 155]. В 1965 г. в Станфордском университете Buchanan, Feigenbaum и Lederberg начали разработку одной из первых экспертных систем — DENDRAL, предназначенной для анализа спектральных данных об органических соединениях. В 1990 г. за работы по созданию принципов компьютерного дизайна органических соединений E. Corey получил Нобелевскую премию по химии [156].
Савицкий с соавторами использовали очень простые алгоритмы распознавания образов [157, 158], которые позволяли осуществлять прогноз только двойных соединений. Особенности алгоритмов [157, 158], обрабатывающих массивы целочисленных значений без пропусков в значениях, ограничили набор свойств элементов, используемых для описания двойных систем, только количеством электронов на электронных оболочках изолированных атомов. При переходе к более сложным соединениям: тройным, четверным и т. д. резко возрастало время анализа данных и требовался большой объем оперативной памяти ЭВМ. Вычислительная машина «Минск-22», используемая группой Савицкого, не обеспечивала такие возможности, поэтому все пионерские работы по конструированию неорганических фаз с применением алгоритма [157, 158] ограничились прогнозом двойных соединений, причем классифицирующие правила включали только информацию об электронном строении изолированных атомов. К сожалению, работы ИМЕТ по конструированию двойных соединений не получили дальнейшего развития в плане совершенствования программно-аппаратных средств, поэтому уже в начале восьмидесятые годов, после смерти Е. М. Савицкого, они были прекращены.
Исследования по компьютерному конструированию многокомпонентных соединений, изложенные в настоящей диссертации, были начаты нами в начале 70-х годов в Московском университете и были основаны на другом подходе к анализу химических данных [67, 89, 159]. Было протестировано множество алгоритмов распознавания образов и проанализированы недостатки применяемого в ИМЕТ подхода. На основе этого было предложено использовать при анализе данных ассоциативные сетевые структуры, ускоряющие поиск классифицирующих закономерностей в больших информационных массивах и уменьшающие объем оперативной памяти ЭВМ для их обработки. Поиск существующих к тому времени программ обучения ЭВМ, которые использовали ассоциативные структуры для хранения данных, привел в Институт кибернетики АН Украины, где уже была разработана первая версия программной системы «Анализатор» для ЭВМ БЭСМ-6 [160]. В этой системе для хранения информации применялся особый тип ассоциативных структур — растущие пирамидальные сети, предложенные В. П. Гладуном [160]. Уже первые эксперименты по использованию системы «Анализатор» для прогноза возможности образования тройных соединений [159] показали, что она является эффективным инструментом для решения задач конструирования сложных соединений. При ее использовании снимались ограничения на компонентность соединений и стал возможным поиск многомерных классифицирующих закономерностей, включающих любые свойства химических элементов и/или простых соединений, имеющие качественные (нечисловые), целые, действительные и т. д. значения, а также пропуски в значениях. Как показал тридцатилетний опыт работы с программными комплексами, основанными на растущих пирамидальных сетях, эти системы являются эффективными для применения в химии твердого тела. Предложенный подход, использующий сетевые ассоциативные структуры данных, получил большое распространение при конструировании неорганических веществ и стал уже обязательным атрибутом любой современной работы по применению искусственного интеллекта в химии и материаловедении [63−66, 161−163].
Изложенные в диссертации работы по компьютерному конструированию сложных неорганических соединений, начатые нами в МГУ [ 67, 89, 159 ]> в 1976 г. были продолжены в ИМЕТ под руководством Е. М. Савицкого [67, 80, 87, 88, 90−92, 94−98, 106, 116, 120, 122−126, 138]. Программное обеспечение этих работ осуществлялось силами большой группы высококвалифицированных исследователей Института кибернетики (ИК) АН Украины [160, 164, 165]. Исследования, проводимые в ИМЕТ, позволяли совершенствовать разрабатываемые в ИК системы, а самые последние версии систем искусственного интеллекта обеспечивали прогресс работ по компьютерному конструированию неорганических веществ.
С самого начала исследований по компьютерному дизайну неорганических фаз стало ясно, что для получения качественных результатов необходима разработка и использование баз данных (БД) по свойствам неорганических соединений. Поэтому в настоящей работе изложены результаты разработки БД по неорганическим веществам и материалам. В конце восьмидесятых годов была разработана концепция информационно-прогнозирующих систем, предназначенных для поиска информации об уже известных соединениях и прогноза еще неполученных фаз [14]. Разработка таких систем позже начата в разрых странах [46, 166]. Кроме того, опыт создания БД по свойствам неорганических соединений позволил разработать в рамках Государственной научно-технической программы «Новые материалы» (направление «Полупроводниковые и особочистые материалы») базы данных по свойствам материалов для электроники: БД по фазовым диаграммам систем с полупроводниковыми фазами и БД п* свойствам акустооптических, электрооптических и нелинейно-оптических веществ [167 174]. Работы по созданию БД по свойствам электронных материалов проводились под научным руководством проф., д.т.н. В. С. Земскова. В разработке программного обеспечения БД участвовали инженеры-программисты ИМЕТ: В. А. Дударев, В. В. Прокошев, В. В. Хорбенко и Ю. И. Христофоров, а также студенты-дипломники МАТИ и МИЭМ: А. В. Гришаев, Д. П. Мурат, А.В.Столярен-ко. К сбору и оценке достоверности информации БД по материалам для электроники были привлечены специалисты из ведущих ВУЗов и академических институтов России: Р. Х. Акчурин и В. В. Арбенина (МИТХТ), А. А. Буш (МИ-РЭА), В. М. Глазов, Л. М. Павлова и А. С. Пашинкин (МИЭТ), В. А. Долгих, В. П. Зломанов и М. Н. Мамонтов (МГУ), И. С. Ковалева (ИОНХ РАН), В. Л. Кузнецов (ФТИ РАН), В. И. Косяков (ИНХ СО РАН), И. А. Стрельникова и С. Н. Чижевская (ИМЕТ РАН) и другие. Рецензирование собранной информации проводили В. С. Земсков и Л. Е. Шелимова (ИМЕТ РАН). Сверку введенных данных и обработку большей части графической информации провела И. Н. Белокурова (ИМЕТ РАН). Разработанные БД стали информационной основой работ по компьютерному конструированию новых соединений, перспективных для использования в электронике.
2.
Актуальность темы
.
Актуальность темы
обусловлена объектами для компьютерного конструирования — это материалы для электроники. Химия и материаловедение этих веществ являются одними ш наиболее динамически развивающихся отраслей высоких технологий. Особенностью использования материалов в электронике является то, что в большинстве случаев они являются главной функциональной частью электронных устройств. Поэтому разработка новых материалов, процессов их получения и обработки в значительной степени определяет прогресс электроники. Автоматизация поиска новых веществ, перспективных для практического использования в качестве материалов электронной техники, позволяет ускорить процесс перехода от одного поколения электронных устройств к другому.
Настоящая диссертационная работа посвящена разработке методов конструирования новых неорганических веществ, основанных на использовании современных информационных технологий. Создание и применение таких методов является одним из актуальных направлений химии и материаловедения, которое в последние годы интенсивно развивается во всем мире.
Исследования по компьютерному конструированию неорганических соединений и разработке БД были поддержаны российскими и зарубежными фондами и организациями: РФФИ (гранты № 99−07−90 040 и № 04−07−90 086), Правительством Москвы (гранты №В 117 Программы «Поддержка инфраструктуры науки в г. Москве», № 3−4 и 1.2.1 Программы «Инфраструктура и адресная поддержка науки»), International Scientific Foundation (ISF) (гранты MBM000 и МВМ300), European Office of Aerospace Research and Developments (EOARD) (контракты SPC-94−4097, SPC-95−4016, SPC-95−4096, SPC-96−4067 и SPC-00−4014).
3. Положения, выносимые на защиту.
1. Подход к компьютерному конструированию сложных неорганических соединений на основе использования баз данных по свойствам неорганических веществ и материалов и методов искусственного интеллекта для поиска зависимостей, связывающих свойства неорганических соединений со свойствами химических элементов, и результаты его применения на примерах соединений, перспективных для разработки новых полупроводниковых, сегнетоэлектриче-ских, пьезоэлектрических, акустооптических, электрооптических, нелинейно-оптических и магнитных материалов.
2. Результаты компьютерного конструирования неорганических соединений, подтверждающие гипотезу о том, что фундаментальные свойства многокомпонентных неорганическлх соединений (возможность образования соединения, тип кристаллической структуры и т. д.) при определенных условиях (температуре, давлении, соотношении компонентов и т. д.) связаны периодическими зависимостями с фундаментальными свойствами химически^ элементов, входящих в их состав. Использование многомерных зависимостей, включающих в качестве переменных множество свойств химических элементов и простых соединений, позволяет получить наилучшие результаты конструирования для еще неполученных фаз.
3. Критерии выбора алгоритмов искусственного интеллекта, которые предназначены для поиска сложных закономерностей в больших объемах информации, и выбор методов для компьютерного конструирования неорганических соединений, основанных на обучении ЭВМ и сетевых структурах данных.
4. Разработка и использование интегрированной распределенной системы БД по свойствам веществ и материалов для повышения достоверности и оперативности компьютерного конструирования неорганических веществ: БД по свойствам неорганических соединений, БД по фазовым диаграммам полупроводниковых систем и БД по свойствам акустооптических, электрооптических и нелинейнооптических веществ.
5. Результаты применения комплексного подхода к автоматизации процесса разработки новых материалов, включающего теоретические методы компьютерного конструирования веществ и расчетно-экспериментальные методы оптимизации технологических процессов, полученные при решение задачи поиска новых сверхпроводников со структурой фаз Шевреля.
4. Практическая значимость работы.
1. Компьютерное конструирование неорганических соединений позволяет автоматизировать поиск новых неорганических соединений с заданными свойствами. Полученные прогнозы уменьшают количество исследуемых составов при поиске веществ, перспективных для полупроводниковых, сегнетоэлектри-ческих, пьезоэлектрических, акустооптических, электрооптических, нелиней-нооптических, магнитных и прочих применений.
2. Предложенный кибернетико-статистический подход позволяет не только осуществить прогноз новых соединений, но и найти оптимальные режимы получения и обработки материалов с заданными свойствами.
3. Использование интегрированной системы баз данных, объединяющей БД по свойствам неорганических веществ, БД данных по фазовым диаграммам систем с полупроводниковыми соединениями и БД по свойствам акустооптических, электрооптических и нелинейнооптических веществ, которые содержат информацию, собранную и оцененную специалистами, позволяет сократить затраты на разработку новых неорганических материалов за счет оперативного информационного обслуживания специалистов, уменьшения необоснованного дублирования работ и компьютерной обработки информации с целью конструирования новых соединений с заданными свойствами.
1. Разработка баз данных по материалам для электроники.
Заключение
.
4.1. Компьютерное конструирование неорганических веществ как способ автоматизации поиска новых материалов.
В диссертации предложен новый подход к компьютерному конструированию неорганических соединений. Он основан на использовании методов искусственного интеллекта для поиска закономерностей образования соединений в информации баз данных по свойствам веществ и материалов. Проблема состоит в путях поиска таких закономерностей. Наилучшим способом является разработка теоретических моделей, описывающих физическую природу неорганических фаз. Однако современный уровень теоретической физики твердого тела дает только качественную картину процессов, происходящих в системе химических элементов, особенно, если речь идет о конденсированных многокомпонентных веществах.
Второй путь, это тот способ, о котором писал Р. Фейнман [450], когда касался истории создания Д. И. Менделеевым Периодического закона, — «грубое угадывание отношений, определяющих некоторое семейство», которое характерно «для первых схваток с природой, предваряющих открытие какого-то действительно глубокого и очень важного закона». Т. е. речь идет о разработке некоторой классификационной схемы, являющейся первым шагом при формировании любого научного знания. В большинстве естественных наук разработка такой системы понятий (классов), отношений между ними и правил отнесения объектов к тому или иному понятию (классу) носит эмпирический характер. В основе ее лежит анализ опытных данных. С этой точки зрения закономерности, получаемые в результате анализа информации баз данных с использованием программы искусственного интеллекта, являются правилами для классификации физико-химических систем, образованных разными элементами. При этом система понятий (классов) уже разработана специалистами и требуется лишь найти критерии классификации в терминах свойств компонентов физико-химических систем. В принципе не столь важно, какую форму имеет классифицирующее правило: алгебраическая функция, логическое выражение, нейронная или пирамидальная сеть, — главное, чтобы оно правильно разделяло не только известные, но и еще неизученные объекты. Достоверность прогнозирования является основной оценкой качества классифицирующего правила.
Получаемые классифицирующие закономерности не являются фундаментальными законами природы. Они лишь указывают, при каких сочетаниях значений свойств компонентов реализуются те или иные классы физико-химических систем. В этом случае прогнозирование сводится к поиску аналогов нового объекта среди уже изученных. Классифицирующие закономерности жестко связаны с тем набором понятий и теоретических представлений, который используется в настоящее время в химии. Это обстоятельство определяет постановку задач классификации физико-химических систем, выбор свойств компонентов для их описания, интерпретацию полученных результатов, а также неоднозначность и неточность полученных прогнозов. Ведь даже такое ключевое понятие химии как «соединение» является нечетким, как и большинство понятий, сформулированных человеком. Нечеткость («размытость») основных понятий химии и наличие экспериментальных ошибок в обучающих выборках, имеют следствием то, что получаемые правила классификации всегда являются неполными, и прогноз на их основе не может быть абсолютно достоверным.
Предлагаемый подход не является альтернативой методам теоретической физики. Главная задача последних — найти модель, адекватно описывающую некоторую материальную систему. В случае же компьютерного конструирования неорганических соединений с использованием методов искусственного интеллекта решается формальная задача поиска тех значений свойств объектов (физико-химических систем), которые определяют их принадлежность к тому или иному заранее заданному классу. Полная физическая интерпретация полученных закономерностей возможна не всегда. Это является следствием их сложности и не связано с отсутствием физического смысла в обнаруженных классифицирующих правилах. Однако следует отметить, что и многие более простые эмпирические закономерности не нашли пока адекватной физической интерпретации, например, правило Маттиаса для прогноза сверхпроводников со структурой А15 [47] или правило Даркена-Гурри для прогноза взаимной растворимости металлов [48].
Предложенный подход является универсальным. С его помощью нами было осуществлено конструирование тысяч новых неорганических соединений с различным типом химической связи: ионным, ковалентным, интерметаллическим. Помимо указанных выше, были получены прогнозы новых соединений составов: АВХ (X = Al, Si, Ga, Ge, Se, Pd, In, Те) [14, 116, 118], A2BX2 [14] и AxMo6X8 (X = S, Se) [122, 123], AB02 [88], ABX3 (X = F, S, CI, Se, Br, Те, I) [14, 80], ABX4 (X = O, F, CI, Br, I) [67, 90], AB2X4 (X = F, CI, Br, I) [80], A2B2X7 (XO, S, Se) [14, 94], Ax (S04)y * Bz (S04)w [95], A (N03)x * B (N03)y, ABD04 [95] и т. д. Для большинства этих соединений проведено прогнозирование типа кристаллической структуры при нормальных условиях. С помощью методов обучения ЭВМ оценены некоторые свойства предсказанных соединений, например, критическая температура перехода в сверхпроводящее состояние фаз Шевреля составов АхМо6Х8 (X = S, Se) [122, 123], концентрационные интервалы для компонентов R, R" и в соединениях состава Rx. yR, z. wR,.mCu04 [127], в которых реализуются различные кристаллические модификации Т-фаз: Т, Т' и Т*-фазы, и т. д.
Важнейший вопрос при создании любой эмпирической классификационной схемы — выбор тех признаков, которые должны быть включены в правило классификации. В простых случаях набор таких признаков невелик и критерии классификации достаточно просты. Например, к полупроводникам относятся фазы, в которых все квантовые состояния валентной зоны заняты и ширина запрещенной зоны при 298 К находится в пределах 0.08 < АЕ < 3.2 эВ [451]. Указанные в этом правиле свойства фаз могут быть определены, и на основе их значений принято решение о принадлежности фазы к классу полупроводников. Проблема поиска разделяющих признаков становится более сложной, когда нужно выбрать набор классифицирующих признаков фаз из свойств их компонентов (химических элементов или более простых соединений). Если не ограничивать набор компонентов, в этом случае для правильной классификации, чаще всего, бывает недостаточно одного-двух классифицирующих признаков. Поэтому многочисленные попытки поиска двухмерных критериев классификации, связывающих свойства соединений со свойствами элементов, очень часто были удачны только для разделения узкой группы фаз (например, для тройных соединений с двумя фиксированными элементами).
Предложенный подход к поиску классифицирующих закономерностей, позволяющих определять принадлежность физико-химических систем к тому или иному классу на основе знания свойств компонентов, предполагает использование множества свойств компонентов. Их количество и перечень, как правило, определяется природой анализируемых объектов. В некоторых случаях, например, при прогнозе двойных, тройных и четверных систем с образованием и без образования соединений при обычных условиях [20] были использованы, практически все известные свойства элементов. Существуют психофизиологические ограничения на возможности человека в поиске закономерностей, которые включают большое количество признаков, связанных сложными логическими отношениями. Поэтому для формирования таких сложных закономерностей предложено использовать специальные программы искусственного интеллекта, автоматизирующие процесс поиска классифицирующих правил и прогнозирования новых веществ. Системный подход как комплексное взаимосвязанное последовательное рассмотрение всех факторов, путей и методов решения приведенных выше задач прогнозирования [452] является основой компьютерного конструирования неорганических соединений.
Возможна ли полная автоматизация процесса конструирования веществ, при котором человек только ставит проблему перед искусственным разумом и на выходе получает искомое вещество? При всей заманчивости такой суперсистемы ее практическая реализация невозможна на современном уровне развития методологии искусственного интеллекта и исследования человеческого разума. Методы искусственного интеллекта в химии — это всего лишь инструмент исследования взаимосвязей химических объектов, который по своей сути мало отличается от других инструментальных средств, широко используемых в современной химии — рентгеновских дифрактометров, приборов для химического анализа и т. д. Различие связано с тем, что аналитический прибор анализирует вещество, а система компьютерного конструирования неорганических материалов анализирует информацию о веществах. И в том, и в другом случае оба инструмента расширяют возможности человека в познании мира.
4.2. Основные направления развития предложенного подхода.
Для применения методов компьютерного конструирования неорганических веществ на основе искусственного интеллекта существует два ограничения: необходимость выполнения гипотезы компактности и наличие достаточного количества экспериментально изученных химических систем дпя обучения ЭВМ.
Какие проблемы стоят перед компьютерным конструированием неорганических веществ и какие пути их решения? Первая проблема — это качество экспериментальных данных для компьютерного анализа. Ошибки в обучающих выборках — одна из основных причин неправильных прогнозов. Величина ошибки, как правило, пропорциональна отношению ошибочных объектов к общему объему обучающей выборки. Это связано со спецификой предлагаемого подхода, в котором система искусственного интеллекта ищет вещества, близкие по значениям свойств. Как показывает опыт, в течение 25-?О лет обнаруживаются ошибки в среднем в 10−20% информации для обучения ЭВМ. Прогресс в методах исследования, более полное изучение физико-химических систем, включающее построение их Р-Т-х-диаграмм, использование более чистых исходных реагентов и т. д. способствуют уточнению экспериментальных данных. В связи с этим создание быстро обновляющихся БД, в которых содержится достоверная и полная информация о веществах и их свойствах, а также дополнительная оценка данных, проводимая специалистом, который конструирует новые вещества, является одним из основных путей решения проблемы. Разрабатываемая в ИМЕТ система баз данных с оцененной информацией частично решает проблему отсеивания явно некачественных данных. Появляется возможность сравнения любых новых сведений о конкретном свойстве с большим объемом уже накопленной информации об этом параметре. Создание интегрированных систем БД в определенных предметных областях еще более расширит возможности сравнения и оценки информации. Одним из интереснух приложений систем искусственного интеллекта для обнаружения ошибок в базах данных может быть поиск физико-химических систем-аналогов, признаковые описания которых совпадают, а принадлежность к классам — разная. Причинами такого разногласия могут быть либо «плохой» выбор или неточная дискретизация свойств компонентов, либо ошибки в экспериментальных данных. В процессе обучения растущих пирамидальных сетей, проводимого по алгоритмам [160, 164, 165], система искусственного интеллекта выводит список таких «противоречивых» объектов. Исследователь должен проанализировать причину разночтений и дать рекомендацию компьютерной системе о статуса «подозрительных» объектов. При этом появляется возможность отсеивания неправильных сведений и в самих БД, из которых отобрана информация для обучения ЭВМ.
Вторая проблема связана с прогнозом количественных свойств соединений. С помощью предложенного метода компьютерного конструирования неорганических соединений удалось достичь хорошего прогнозирования качественных свойств веществ: возможности образования, типа кристаллической структуры и т. д. Значительно более сложная задача — прогноз количественных свойств фаз (например, температуры плавления или кипения, ширины запрещенной зоны и т. д.). В этом случае, как правило, прогнозируется не сама величина свойства, а превышение некоторого порога (порогов) целевого параметра. Наилучшие результаты можно получить, если в качестве порогов указаны естественные границы между классами, в пределах которых соблюдается гипотеза компактности. Одним из путей поиска пороговых значений целевой функции является предобработка информации, которая включает сочетание методов группировки объектов по степени корреляционной связи и кластер-анализа. Такие возможности реализуют, в частности, системы анализа данных, которые объединяют метод экстремальной группировки параметров и автоматической классификации [336, 337]. Тем не менее, следует заметить, что задачи прогноза количественных свойств неорганических веществ требуют не только значительно большего количества объектов для обучения ЭВМ, чем при прогнозе качественных свойств, но и более тщательной постановки задачи. Сравнение с экспериментом прогнозов некоторых количественных свойств: критической температуры перехода в сверхпроводящее состояние [122, 123, 125, 126], области гомогенности [127] и т. д. свидетельствует, что ошибки прогнозирования еще достаточно велики — выше 40%. Причина высоких ошибок прогнозаочень маленькие объемы обучающих выборок и невыполнение гипотезы компактности за счет «плохих» пороговых значений. Например, при прогнозе температуры перехода в сверхпроводящее состояние фаз Шевреля [122, 123, 125, 126] обучающие выборки включали 44 примера сульфидных и 31 пример селе-нидных фаз. Порог — 4.2 К, был обусловлен лишь технологией охлаждения веществ жидким гелием, а не естественной границей между разными* по Тс классами фаз Шевреля. Решению задачи прогноза количественных свойств неорганических фаз будет способствовать использование больших объемов информации, что непосредственно связано с разработкой баз данных по веществам и материалам.
Одной из трудностей, препятствующих широкому использованию систем компьютерного конструирования неорганических веществ в химической практике, является довольно сложная методика работы с этими системами. Если поиск данных в разработанных в ИМЕТ БД является простой операцией, то подv готовка найденной информации для анализа с использованием системы искусственного интеллекта требует определенной подготовки. Самым перспективным путем решения этой проблемы является разработка информационно-прогнозирующей системы (ИПроС) [3, 4, 14, 21, 22] (рис.40).
ИПроС предназначена для поиска данных об изученных соединениях и прогноза еще неполученных фаз и оценки их свойств. В ее состав входят база данных по свойствам неорганических соединений «Фазы», интегрированная с другими БД по свойствам веществ и материалов, БД по свойствам химических элементов, прогнозирующая подсистема, основанная на системе программ искусственного интеллекта, база знаний, диалоговый процессор и управляющий монитор.
Рис. 40. Схема информационно-прогнозирующей системы.
В базе знаний (БЗ) хранятся уже полученные закономерности для различных классов неорганических соединений, которые могут использоваться для прогноза фаз и оценки их свойств, если в базе данных нет искомых сведений для конкретной физико-химической системы.
Монитор управляет всем вычислительным процессом и осуществляет интерфейс между всеми функциональными подсистемами, а также теледоступ к системе из сети Интернет. Помимо этого, он следит за тем, чтобы новые экспериментальные данные не противоречили прогнозирующим закономерностям. Такое противоречие он снимает путем переобучения ЭВМ с использованием дополнительных новых данных с последующим занесением обновленной закономерности в БЗ.
Диалоговый процессор организует общение пользователя с информационно-прогнозирующей системой, а также реализацию функций экспертов в данной предметной области. В перспективе предполагается использование лингвистического процессора в программной или программно-аппаратной реализации. 9.
Порядок работы ИПроС следующий (рис.40). Например, пользователь запрашивает сведения о существовании соединений определенного состава. Если данные о запрашиваемом соединении есть в БД, то он получает их для ознакомления. Если информации о соединении в БД нет или она неполная, то по директиве пользователя запрашивается БЗ о наличии в ней закономерности, соответствующей искомому свойству для соединений этого типа. Если эта закономерность присутствует, то из БД по свойствам химических элементов поступает соответствующий набор свойств компонентов и проводится прогнозирование нужной характеристики. В том случае, если в БЗ нет нужной закономер ности, тогда в БД проводится поиск примеров для обучения ЭВМ. Эти примеры еще раз оцениваются пользователем с точки зрения их достоверности и представительности и, если выборка достаточна для обучения, то последовательно срабатывают подсистемы обучения и прогнозирования. Полученный прогноз выдается пользователю, а сформированная классифицирующая закономерность пополняет БЗ. Этот пример — самая простая задача, которую сможет решить информационно-прогнозирующая система. Более сложная задача, например, -прогноз возможных фаз разного состава в тройной или более сложной системе и оценка их свойств. Если предыдущая задача еще сможет быть решена в реальном времени, то последняя потребует значительных временных затрат.
Принципы, положенное в основу разрабатываемой информационно-прогнозирующей системы, были успешно проверены ранее на макете системы, реализованном на ЭВМ 2-ого поколения БЭСМ-6 [118].
В чем отличие информационно-прогнозирующей системы отлшироко известных экспертных систем [453]? Как известно, последние также предназначены для решения очень сложных задач в узких предметных областях на основе использования больших объемов высококачественных специальных знаний. Знания извлекаются из самых разнообразных источников: публикаций, экспертов-специалистов и т. д., и представляются в виде правил, фреймов, семантических сетей и других формализмов искусственного интеллекта. Существенной особенностью экспертных систем является наличие в их составе подсистемы объяснения. Она описывает функционирование системы в сжатой форме, удобной для восприятия человеком. Подсистема объяснений отвечает"ча вопросы пользователя «как» и «почему» принято то или иное решение при альтернативном выборе. В отличие от экспертных систем, в ИПроС используется необычная процедура получения знаний от экспертов, и подсистема объяснений носит рудиментарный характер. Как показывает наш опыт, любая попытка получить от химика достаточно исчерпывающий ответ о причинах образования фаз того или иного типа, о природе каких-либо свойств соединений и т. п. вызывает значительные трудности. Для него гораздо естественнее провести оценку достоверности данных о существовании конкретного соединения или значений свойств фазы. Учитывая специфику данной предметной области, было решено отказаться от идеи использования знаний химика для формулировки правил образования неорганических веществ с заданными свойствами и ограничиться его опытом для экспертной оценки данных для обучения ЭВМ. Поэтому и блок объяснений информационно-прогнозирующей системы, отвечая на вопрос пользователя о природе того или иного прогноза, сможет указать лишь интервалы изменения свойств компонентов, определяющие принадлежность фазы к определенному классу, и указать аналоги прогнозируемого соединения среди обучающих примеров.
Отличительной особенностью систем искусственного интеллекта является их способность к автоматическому поиску закономерностей и их использованию для прогноза. Следовательно, экспертные системы являются системами со «слабым» интеллектом, потому что они только используют знания (закономерности), полученные от эксперта или из других источников. Применяемые в настоящем исследовании системы искусственного интеллекта [161″, 164, 165] способны к самостоятельному поиску закономерностей. По идеологии они близки к новому типу систем искусственного интеллекта, которые получили название партнерских [165, 301].
В заключение следует отметить, что путь автоматизации научных исследований — от баз данных до систем конструирования веществ и материалов повторяет исторический путь познания: от сбора и обработки исходных эмпирических данных до обобщения опытных фактов и построения на этой основе научных теорий, отображающих фундаментальные отношения и связи исследуемых процессов и явлений. Создание и применение систем искусственного интеллекта позволяет говорить о появлении нового вида моделирования — моделирования познавательной деятельности [453], инженерии знаний. Этот тип моделирования будет играть особую роль в тех областях науки и техники, в которых математическое моделирование и вычислительный эксперимент часто дают плохие результаты (химия, материаловедение и т. д.).