Проблемы масштабируемости и неоднородности в архитектуре вычислительных суперсистем
Производительность системы зависит от уровня технологии изготовления системы и от ее конфигурации. Система может включать от 1 до 8 основных вычислительных модулей, каждый из которых содержит унипроцессор и мультипроцессор, состоящий из 8 — 512 микропроцессоров. Так как такт уни-процессора равен 4 нс, то производительность унипроцессора составит 16 — 128 СРЬОРБ. При производительности… Читать ещё >
Содержание
- 1. Основные типы архитектур высокопроизводительных вычислительных систем
- 2. Системы МБ с общей памятью
- 3. Системы 81МБ с распределенной памятью
- 4. Системы М1МБ с общей памятью
- 5. Системы М1МБ с распределенной памятью
- 6. Специализированные системы
- 7. Уникальные системы
- 8. Актуальность
- 9. Цели работы
- 10. Положения, выносимые на защиту
- 11. Содержание работы
- Глава 1. Фундаментальные проблемы вычислительных суперсистем
- 1. 1. Параллелизм в вычислительных системах и программах
- 1. 2. Неоднородность в вычислительных системах
- 1. 3. Масштабируемость системы
- 1. 4. Когерентность кэш-памяти
- 1. 5. Модели программирования и оптимизация программ
- 1. 5. 1. Модель общей иамяти
- 1. 5. 2. Модель передачи сообщений
- 1. 5. 3. Модель параллелизма данных
- 1. 6. Вычислительные системы с нетрадиционной архитектурой
- 1. 6. 1. Архитектура систем, управляемых потоком данных
- 1. 6. 2. Систолические архитектуры
- 1. 7. Основные принципы построения неоднородной суперсистемы
- 1. 8. Выводы
- Глава 2. Анализ архитектуры мультипроцессора с общей памятью
- 2. 1. Введение
- 2. 2. Структуры иерархии памяти
- 2. 3. Проблема когерентности памяти
- 2. 4. Модели согласованности памяти
- 2. 4. 1. Модель последовательной согласованности
- 2. 4. 2. Модель процессорной согласованности
- 2. 4. 3. Модель слабой согласованности
- 2. 4. 4. Модель освобожденной согласованности
- 2. 5. Основные элементы протоколов когерентности
- 2. 6. Алгоритмы когерентности и типы синхронизации обращений
- 2. 7. Сравнение WI- и WU-протоколов
- 2. 8. Состояния блока кэш-памяти
- 2. 9. Основные методы реализации
- 2. 10. Выводы
- Глава 3. Реализация когерентности кэш-памяти в кластере мультипроцессора
- 3. 1. Введение
- 3. 2. Когерентность кэш-памяти
- 3. 3. Протоколы с полной рассылкой сообщений
- 3. 4. Протокол слежения с частными состояниями
- 3. 5. Протокол слежения в кластере с общей шиной
- 3. 6. Реализация протокола
- 3. 6. 1. Функционирование контроллера кэш-памяти
- 3. 6. 2. Функционирование контроллера шины
- 3. 6. 3. Взаимодействие контроллеров кэш-памяти и шины
- 3. 7. Многоуровневая организация кэш-памяти
- 3. 7. 1. Свойство включения
- 3. 7. 2. Протокол обмена между уровнями иерархии кэш-памяти
- 3. 8. Методология уменьшения коэффициента промаха кэш-памяти
- 3. 8. 1. Анализ операции обработки промаха кэш-памяти
- 3. 8. 2. Методы усовершенствования общей шины
- 3. 9. Выводы
- Глава 4. Проблемы масштабируемости архитектуры мультипроцессора
- 4. 1. Введение
- 4. 2. Масштабируемость полосы пропускания коммутационной сети
- 4. 3. Общее адресное пространство
- 4. 3. 1. Механизм обращений в общем адресном пространстве распределенной памяти
- 4. 3. 2. Общее физическое адресное пространство и когерентность памяти
- 4. 4. Когерентность кэш-памяти в масштабируемом мультипроцессоре
- 4. 5. Масштабируемый механизм когерентности
- 4. 5. 1. Общие требования
- 4. 5. 2. Основы протокола справочника
- 4. 5. 3. Функционирование протокола справочника
- 4. 5. 4. Масштабирование протокола
- 4. 5. 5. Варианты организации справочника
- 4. 6. Анализ функционирования протоколов справочников
- 4. 6. 1. Централизованный справочник
- 4. 6. 2. Распределенный справочник с односвязным списком
- 4. 6. 3. Распределенный справочник с двусвязным списком
- 4. 6. 4. Сравнение протоколов справочников
- 4. 7. Введение вспомогательного процессора в устройство доступа к коммутационной сети
- 4. 8. Проблемы корректности протокола в большой системе
- 4. 9. Выводы
- Глава 5. Анализ архитектуры системы коммутации мультипроцессора
- 5. 1. Введение
- 5. 2. Топология системы коммутации
- 5. 2. 1. Свойства топологии коммутационной сети
- 5. 2. 2. Примеры и характеристики коммутационных сетей
- 5. 3. Управление маршрутизацией данных
- 5. 3. 1. Требования к механизму маршрутизации
- 5. 3. 2. Схемы управления потоком данных
- 5. 3. 3. Виртуальный канал
- 5. 4. Алгоритмы червячной маршрутизации
- 5. 4. 1. Детерминированная маршрутизация
- 5. 4. 2. Адаптивная маршрутизация
- 5. 5. Анализ архитектуры системы коммутации
- 5. 5. 1. Основные принципы построения системы коммутации
- 5. 5. 2. Определение параметров системы коммутации
- 5. 5. 3. Влияние задержки передачи
- 5. 5. 4. Оценка задержки передачи в условиях конкуренции
- 5. 5. 5. Выбор механизма маршрутизации
- 5. 5. 6. Организация буферной памяти коммутационного узла
- 5. 6. Структура системы коммутации мультипроцессора
- 5. 6. 1. Метод передачи данных в коммутаторе
- 5. 6. 2. Периферийный узел коммутатора первого уровня
- 5. 6. 3. Структура сообщений
- 5. 6. 4. Центральный узел коммутатора первого уровня
- 5. 6. 5. Коммутатор второго уровня
- 5. 6. 6. Реализуемость и пропускная способность коммутатора
- 5. 7. Выводы
- Глава 6. Проблемы архитектуры масштабируемого векторного процессора
- 6. 1. Пределы производительности конвейерных структур
- 6. 2. Уровень технологических возможностей
- 6. 3. Мультиконвейерный векторный процессор
- 6. 3. 1. Принципы построения
- 6. 3. 2. Модуль обработки и коммутации
- 6. 3. 3. Структура процессора
- 6. 3. 4. Система команд
- 6. 3. 5. Режимы работы
- 6. 3. 6. Оценка времени выполнения наборов векторных команд
- 6. 3. 7. Оценка производительности мультиконтекстной обработки
- 6. 4. Оценка аппаратных средств и производительности
- 6. 5. Выводы
- Глава 7. Архитектура и принципы функционирования неоднородной суперсистемы
- 7. 1. Основные принципы построения архитектуры суперсистемы
- 7. 2. Структура и состав суперсистемы
- 7. 3. Системы полупроводниковой и дисковой памяти
- 7. 4. Основной вычислительный модуль
- 7. 5. Функционирование диспетчера пакета заданий
- 7. 6. Масштабируемый мультипроцессор
- 7. 7. Масштабируемый векторный процессор
- 7. 8. Проблемы распределения ресурсов суперсистем
- 7. 8. 1. Методы формирования и планирования заданий и потоков
- 7. 8. 2. Проблемы планирования в крупномасштабной системе
- 7. 8. 3. Планирование на уровне кластера мультипроцессора
- 7. 8. 4. Проблемы распределения большого числа процессоров
- 7. 8. 5. Методы распределения на уровне групп кластеров и вычислительных ду лей
- 7. 9. Конструкторско-технологическая реализация суперсистемы
- 7. 9. 1. Реализация мультипроцессора
- 7. 9. 2. Реализация унипроцессора
- 7. 10. Выводы
Проблемы масштабируемости и неоднородности в архитектуре вычислительных суперсистем (реферат, курсовая, диплом, контрольная)
Высокопроизводительные вычислительные системы, или как принято говорить, суперЭВМ, анализу архитектуры которых посвящена данная работа, предназначены для решения больших научно-технических задач.
В течение последнего десятилетия пиковая производительность суперЭВМ возросла примерно в 1000 раз. Это более чем в 100 раз превышает рост производительности в предыдущее десятилетие. В 1976 году самой быстродействующей вычислительной машиной являлась однопроцессорная конвейерная векторная машина Сгау-1 с пиковой производительностью 160 MFLOPS (число миллионов операций с плавающей запятой, выполненных в секунду), а в декабре 1996 года впервые преодолен барьер в 1 TFLOPS на суперЭВМ Intel ASCI Option Red — вычислительной системе (ВС) с массовым параллелизмом, содержащей 7264 микропроцессоров Pentium Pro [1J. Это событие отражает радикальные изменения, которые произошли в области элементной базы и архитектуры высокопроизводительных вычислительных систем за последние 10 лет.
В настоящее время область вычислительных суперсистем проходит этап быстрого развития, который характеризуется как появлением новых коммерческих и экспериментальных образцов различных параллельных ВС, так и расширением спектра и увеличением масштаба научно-исследовательской работы.
Интенсивные исследования и большие капиталовложения в области высокопроизводительных вычислительных систем обусловлены практическим и стратегическим значением вычислительных задач, решаемых на этих системах. Во-первых, это задачи очень большого объема и сложности: моделирование погоды и климата, моделирование атмосферных катастрофических явлений, моделирование физических экспериментов с ядерными зарядами, комплексное моделирование конструкций наземных транспортных и летательных аппаратов различных типов, анализ и разработка материалов и элементов микрои наноэлектроники, вычислительные задачи химии и биологии, задачи автоматического проектирования электронных схем и систем. Во-вторых, это задачи обработки информации в реальном масштабе времени, например, в системах управляемого термоядерного синтеза, в системах обработки радиолокационных данных или в задачах оперативного управления войсками в боевой обстановке.
Структура аппаратных средств ВС, или архитектура ВС в узком смысле этого понятия, в большой степени определяет возможности быстродействия ВС в целом. Другие, не менее важные, факторы включают возможности компилятора сформировать эффективный программный код для его выполнения на конкретной архитектуре аппаратных средств, а также возможности системы управления осуществить эффективное планирование заданий и распределение ресурсов вычислительной системы. В этой работе основное внимание сосредоточено на архитектуре и принципах функционирования аппаратных средств.
Ниже, в разделах с 1 по 7, приведен краткий обзор современных высокопроизводительных ВС. Надо отметить, что этот рынок стал очень динамичен, а представленные материалы являются только относительно полными. Тем не менее, подобный обзор, на наш взгляд, несомненно полезен, так как позволяет получить общее представление о многообразии средств, с помощью которых в современных ВС достигается высокая производительность. Приведено краткое описание уникальных ВС, имеющих производительность порядка 1 ТРЬОРБ. Данные ВС представлены только в единичных экземплярах и доступны только 15 вычислительных центрах, где они установлены.
В разделе 8 на основе проведенного обзора обоснована актуальность работы.
В разделе 9 на основании вышеизложенного материала сформулированы основные цели диссертационной работы.
В разделе 10 приведены положения, выносимые на защиту.
В разделе 11 описана структура и объем работы.
7.10. Выводы.
Предложены архитектура неоднородной вычислительной суперсистемы, основанная на использовании различных форм параллелизма, и методология построения аппаратно-программного механизма автоматического распределения ресурсов вычислительной системы, основанная на:
• оптимизации распределения заданий по процессорам вычислительной системы, которую выполняет мониторно-моделирующая подсистема;
• распределенных средствах (диспетчерах пакетов заданий) динамического управления выполнением заданий в основных вычислительных модулях;
• распределенных аппаратных средствах для оперативного сбора информации о состоянии ресурсов вычислительной системы.
Производительность системы зависит от уровня технологии изготовления системы и от ее конфигурации. Система может включать от 1 до 8 основных вычислительных модулей, каждый из которых содержит унипроцессор и мультипроцессор, состоящий из 8 — 512 микропроцессоров. Так как такт уни-процессора равен 4 нс, то производительность унипроцессора составит 16 — 128 СРЬОРБ. При производительности микропроцессора порядка 300 МРЬОРБ, производительность мультипроцессора составит 2,4 — 150 СРЬОРБ. Таким образом, интегральная пиковая производительность системы в минимальной конфигурации составляет 18 СТЬОРБ, в максимальной конфигурации — 2,2 ТРШРЗ.
Архитектура системы обеспечивает повышение параметров производительности на перспективной элементной базе. Так при использовании СБИС, имеющих более 100 млн. транзисторов, производительность мультипроцессора молсет составить порядка 8 ТРЬОР8, унипроцессора порядка 4 ТРЬОРБ, а всей системы — до 100 ТРЬОРБ при соответствующем повышении объемов и быстродействия всех уровней памяти системы.
Таким образом, данная работа показала возможность реализации на современной элементной базе масштабируемой неоднородной вычислительной суперсистемы с параметрами, необходимыми для решения больших научно-технических задач.
Заключение
.
В диссертации получены следующие основные результаты:
1. Предложена концепция архитектуры масштабируемой неоднородной вычислительной суперсистемы, включающая следующие основные принципы:
• проблемная ориентация основных вычислительных средств;
• наличие вычислительных средств с различными формами параллелизма;
• модульность и масштабируемость аппаратных и программных средств;
• функциональная специализация вспомогательных вычислительных средств;
• иерархическое построение аппаратных и программных средств;
• повышение эффективности за счет оптимизации аппаратных и программных средств и сокращения накладных расходов.
2. Предложена архитектура масштабируемой неоднородной вычислительной суперсистем])!, которая состоит из следующих функционально-ориентированных подсистем :
• Вычисли тельной подсистемы.
• Системной полупроводниковой памяти.
• Мониторно-моделирующей подсистемы для анализа, подготовки и распределения заданий (MMII).
• Дисковой подсистемы.
• Подсистемы ввода-вывода.
Вычислительная подсистема состоит из одинаковых основных вычислительных модулей (ОВМ). ОВМ — это сильно-связанная структура для объединения масштабируемого векторного унипроцессора и масштабируемого скалярного мультипроцессора, которая характеризуется наличием общей оперативной памяти и общими ресурсами связи с ММП и системной памятью. Объединение всех ОВМ в единую вычислительную систему осуществляется за счет их соединения с мониторно-моделирующей подсистемой и подключения к системной полупроводниковой памяти. Системная память, работая под управлением ММП, в свою очередь связана с дисковой подсистемой и подсистемой ввода-вывода, соединяющей систему с архивной памятью, локальными рабочими станциями и средствами для подключения к внешним сетям.
3. Предложена архитектура масштабируемого мультипроцессора с общей глобально адресуемой памятью. Элементом мультипроцессора является кластер — симметричная мультипроцессорная система. Совокупность кластеров, объединенных двухуровневой иерархической коммутационной сетью, образует мультипроцессор.
Коммутационная сеть мультипроцессора состоит из 8 коммутаторов первого уровня и одного коммутатора второго уровня. Коммутатор первого уровня состоит из 8 периферийных коммутационных узлов и одного центрального узла, соединённых двумерной тороидальной сетыо. Каждый из периферийных узлов коммутатора первого уровня соединен синхронным двунаправленным каналом с одним кластером. Через центральный узел осуществляется связь коммутатора первого уровня с портом оперативной памяти основного вычислительного модуля суперсистемы, а также связь с периферийным узлом коммутатора второго уровня, центральный узел которого осуществляет коммутацию периферийных узлов. Переход к единой системе синхронизации вычислительного модуля осуществляется на уровне входных буферов коммутатора первого уровня.
4. Проведен анализ двухуровневого масштабируемого механизма когерентности кэш-памяти мультипроцессора, в котором между кластерами функционирует протокол справочника, в то время как другой протокол когерентности, протокол слежения или другой протокол справочника, используется для реализации когерентности внутри кластера. Предложен метод реализации внутрикластерного протокола когерентности на основе введения специализированных операций общей шины кластера и функционально-специализированных контроллеров внешней кэш-памяти процессоров кластера.
5. Предложена архитектура мультиконвейерного унипроцессора, основанная на следующих основных принципах:
• обеспечение максимальной скорости синхронного конвейера для обработки цепочек векторных и скалярных операций;
• параллелизм обмена с памятью и выполнения операций;
• функциональная специализация буферной памяти для хранения различных типов команд;
• модульность конвейерных функциональных устройств и возможность масштабирования унипроцессора;
• использование топологических особенностей конвейера для сокращения потерь на хранение и передачу данных.
6. Предложена иерархическая система распределения ресурсов суперсистемы: на уровне мониторно-моделирующей подсистемы (управление конфигурацией системы, управление файловой системой, планирование пакетов заданий ОВМ), на уровне диспетчера пакета заданий основных вычислительных модулей (динамическое управление выполнением заданий кластеров и унипроцессора), на уровне кластера (распределение заданий и потоков).
Таким образом, в диссертации осуществлено теоретическое обобщение и решение крупной научной проблемы, имеющей важное народнохозяйственное значение, — проблемы масштабируемости и неоднородности в архитектуре вычислительных суперсистем. Исследование проведено, включая как изучение фундаментальных ограничений производительности вычислительных суперсистем, разработку архитектуры и основных принципов функционирования, так и оценку конструктивно-технологической реализации масштабируемой неоднородной вычислительной суперсистемы, предназначенной для решения больших научно-технических задач.
Список литературы
- Computers in Pliysics.-1997.-Vol. ll.-Xs 2, — P. 129.
- P. Хокни, К. Джесхоуп. Параллельные ЭВМ. Архитектура, программирование алгоритмы / Пер. с англ. под ред. Е. П. Курочкина.-М.: Радио и связь.—1986.—90 с.
- M.J. Flynn. Some computer organizations and their effectiveneses//IEEE Vansactions on Computers.-1972.-Vol. 21.-P. 948−960.
- S.F. Reddaway. The DAP approach // Infortech State of the Art Report: iupercomputers.-1979.-Vol. 2-P. 311−329.
- P.M. Flanders, R.L. Hellier et al. Efficient high-level programming in the KMT DAP // Proc. IEEE.- 1991, — Vol.79 № 4 -P. 524−536.
- K.E. Batcher. Architecture of a massively parallel processor // Computer rchitecture News.-1980.-Vol. 8.-№ 3.-P. 168−173.
- B.A. Kahle, W.D. Hillis. The Connection machine model CM-1 architecture / IEEE Transactions on Systems, Man, and Cybernetics.-1989,-VoI. 19.-№ 4.-P. 707 713.
- B. Bacon. NCUBE2 and Thinking machine CM-2a aimed at university market // Computers in Physics.-1989 -Vol. 3.-№ 4.-P. 9, 10.
- A. Geist, A. Beguelin, J. Dongarra, R. Manchek, W. Jaing, and V. Sunderam, PVM: A Users' Guide and Tutorial for Networked Parallel Computing, MIT Press, Boston-1994.
- M. Snir, S. Otto, S. Huss-Lederman, D. Walker, J. Dongarra, MPI: The Complete Reference, The MIT Press, 1996. (Книга имеется в электронном виде по адресу http. Y/www.netHb.orgAitk/papers/mpi-book/mpi-book.html/).
- D.V. James, А.Т. Laundrie, S. Gjessing, and G.S. Sohi. Scalable coherent in-:rface // Computer.-1990.-Vol. 23 .-№ 6.-P. 74−77.
- Comput. Physics.-1996.-Vol. 10-P. 352.
- Y. Iwasaki. The CP-PACS project // Nuclear Physics В (Proc. Suppl.).-1999 -ol. 60A.-P. 246−254.
- E. Barzcz. One year with an iPSC/860 // Proceedings of the COMPCON ping'91 Conference.-1991.-P. 213.
- S.L. Lillevik. The Touchstone 30 Gigaflop DELTA prototipe // Proceedings of he sixth Distributed Memory Computer Conference.-1991 .-P. 671.
- P. S. Lomdahl, P. Tamayo, N. Grobech-Jensen, D.M. Beazley. 50 Gflops modular dynamics on the Connection Machine 5 // Proceedings of Supercomputing'93.-993.-P. 520.
- D.R. Mackay, J. Drake, T. Sheehan, B. Shelton. Experrience in programming -rand challenge applications on the Intel MP Paragon supercomputer // Proceedings of he Intel Supercomputer Users Group.-1995. (http://www.cs.sandia.gov/ISUG).
- Y. Abei, K. Itakura, I. Boku, H. Nakamura, K. Nakazawa. Performance improvement for matrix calculation on the CP-PACS node processor // Proceedings of the Tigh Performance Computing on the Information Superhighway Conference.-1997.
- Митропольский Ю.И. Концепция построения неоднородных вычислительных -уперсистем // Труды Пятого Международного семинара «Распределенная обработка гнформации». Новосибирск. СО РАН. Институт физики полупроводников.-1995.-С. 42−46.
- Параллельные вычисления / Под. ред. Г. Родрига: Пер. с англ./Под ред. Ю. Г. Дадаева.-М.: Наука. Гл. ред. физ.-мат. лит., 1986.-С. 49−51.
- M.Kumar. Measuring parallelism in computation intensive scientific/engineering apllications // IEEE Trans, on Computers.-1988.-Vol. 37.-№ 9.-P. 1088−1098.
- A. Nicolau, J.A. Fisher. Measuring the parallelism available for very long instruction word architectures // IEEE Trans, on Computers.-1984.-Vol. 33.-j4? 11.-P. 968−976.
- H.D. Simon. Experience with massive parallelism for CFD at NASA lies Researsh Center // Supercomputer'92. Anwendunngen, Architekturen, Trends, iminar. Mannheim.-1992.-P. 122−136.
- J. Archibald, J.-L. Baer. Cache-coherence protocols: Evaluation using a uniprocessor simulation//ACM Trans. Comput. Syst.-1986.-Vol. 4.-№ 4.-P. 273-)8.
- K. Li, P. Hudak. Memory coherence in shared virtual memory systems // ACM rans. Comput. Syst.-1989.-Vol. 7.-№ 4-P. 321−359.
- C.M. Pancake. Software support for parallel computing: where are we -aded? // Commun. of the ACM.-1991.-Vol. 34.11.-P. 52−66.
- P. Stenstrom. A survey of cache coherence schemes for multiprocessors // omputer.-1990.-Vol. 23.-№ 6-P. 12−24.
- E. Hagersten, A. Landin, and S. Haridi. DDM A cache-only memory archi-icture // Computer.-1992,-VoI. 25.-№ 9-P. 45−54.
- A. J. Smith. Cache Memories//ACM Computing Surveys.-1982.-Vol. 14.-№ .-P. 473−530.
- S. Adve and M. Hill. Weak ordering a new definition // Proceedings of the 7th International Symposium on Computer Architecture.-1990.-P. 2−14.
- M. Dubois, C. Scheurich, and F. Briggs. Memory access buffering in multi-rocessors // Proceedings of the 13th Annual Symposium on Computer Architecture.-986.-P. 434−442.
- K. Gharachorloo, D. Lenoski, J. Laudon, P. Gibbons, A. Gupta, and j. Hen-essy. Memory consistency and event ordering in scalable shared-memory multiproces-3rs // Proceedings of the 17th International Symposium on Computer Architecture.-990.-P. 15−26.
- D. Lenoski, J. Laudon, K. Gharachorloo, A. Gupta, and J. Hennessy. The di-ectory-based cache coherence protocol for the DASH multiprocessor // Proceedings of he 17th International Symposium on Computer Architecture.-1990.-P. 148−159.
- T. Mowry and A. Gupta. Tolerating latency through software controlled pre-etching in shared-memory multiprocessors // Journal of Parallel and Distributed Com-«uting.-1991.-P. 87−106.
- C.L. Seitz. The Cosmic cube // Communications of the ACM.-1985.-Vol.28.-^o l.-P. 22−33.
- P. Pierce. The NX/2 operating system // Proc. Third Conf. On Hypercube Concurrent Computers and Applications.-1988.
- O.A. McBryan. An overview of message passing environments // Parallel Computing.-1994.-Vol. 20.-P. 417−444.
- T. Horiw, K. Hayashi, T. Shimizu, H. Ishihata. Improving the AP1000 parallel computer performance with message passing // Proc. of the 20th Annual Int. Symp. on Computer Architecture.-1993.-P. 314−325.
- Бурцев B.C. Система массового параллелизма с автоматическим распределением аппаратных средств супер-ЭВМ в процессе решения задачи // Сб. Вычислительные машины с нетрадиционной архитектурой. Супер ВМ. Вып. 2. М.: ИВВС РАН.-1994.-С. 3−37.
- S. Borkar et al. Supporting systolic and memory communication in iWarp // Proc. the 17th Annual International Symposium on Computer Architecture.-1990.-P. 70−81.
- L.M. Censier and P.Feautrier. A new solution to coherence problems in multicache systems // IEEE Transactions on Computers.-1978.-Vol. 27.-№ 12.-P. 11 121 118.
- L. Lamport. How to make a multiprocessor computer that correctly executes multiprocess programs // IEEE Transactions on Computers.-1979.-Vol. 28.9.-P. 690−691.
- M. Dubois and C. Scheurich. Memory access dependencies in shared-memory multiprocessors // IEEE Transactions on Software Engineering.-1990.-Vol. 16.-№ 6.-P. 660−673.
- J. R. Goodman. Using cache memory to reduce processor-memory traffic // Proceedings of the 10th Annual Symposium on Computer Architecture.-1983.-P. 124 131.
- L. Lamport. Time, clocks and the ordering of events in a distributed system // Communications of the ACM.-1978.-Vol. 21.-№ 7.-P. 558−565.
- A.W. Wilson, Jr. and R. P. LaRowe, Jr. Hiding shared memory reference latency on the Galactica Net distributed shared memory architecture // Journal of Parallel and Distributed Computing.-1992.-P. 351−367.
- J.R. Goodman. Cache consistency and sequential consistency. Technical Report Computer Sciences № 1006, University of Wisconsin, Madison, February 1991.
- P. Sweazey and A.J. Smith. A class of compatible cache consistency protocols id thier support by the IEEE futurebus // Proc. 13th Symposium on Computer Archi-cture.-1986.-P. 414−423.
- S.J. Eggers and R.H. Katz. Evaluating the performance of four snooping cache) herence protocols // Proceedings of the 16th International Symposium on Computer rchitecture.-1989.- P. 2−15.
- S.J. Eggers and R.H. Katz. A characterization of sharing in parallel programs id its application to coherency protocol evaluation // Proceedings of the 15th Interna-onal Symposium on Computer Architecture.- 1987 -P. 373−382.
- S. Thakkar, M. Dubois, A.T. Laundrie, and G.S. Sohi. Scalable shared-Lemory multiprocessor architectures // Computer.-1990.-Vol. 23.-P. 71−83.
- A.J. Smith. Cache memories // ACM Computing Surveys.-1982.-Vol. 14.-№ .-P. 473−530.
- J.R. Goodman. Using cache memory to reduce processor-memory traffic // roceedings of the 10th Annual Symposium on Computer Architecture.-1983.-P. 12 431.
- S. J. Frank. Tightly coupled multiprocessor systems speeds memory-access .mes // Electronics.-1984.-Vol. 57.-№ l.-P. 164−169.
- M. Papamarcos and J. Patel. A Low overhead coherence solution for multi-rocessors with private cache memories // Proceedings of the 11th Annual Symposium n Computer Architecture.-1984.-P. 348−354.
- M. Hill et al. Design decisions in SPUR // Computer.-1986-Vol. 19.11>. 8−22.
- E. McCreight. The Dragon computer system: An Early Overview // In NATO advanced Study Institute on Microarchitecture of VLSI Computers.-1984.
- A.R. Karlin, M.S. Manasse, L. Rudolph, and D.D. Sleator. Competitive noopy caching // Algorithmica.-1988.-Vol. 3.-№ l.-P. 79−119.
- C.P. Thacker, L.C. Stewart, E.H. Satterthwaite, Jr. Firefly: A multiprocessor vorkstation // IEEE Trans, oil Commun.-1988.-Vol. 37.-№ 8.-P. 909−920.
- Lynn Choi, Hock-Beng Lim, Pen-Chung Yew. Techniques for compiler-directed :ache coherence // IEEE Parallel & Distributed Technology.-1996.-P. 23−34.
- B.A. Delagi, N.P. Saraiya, S. Nishimura, and G.T. Byrd. Instrumented architectural simulation // Proceedings of the Third International Conference on Supercom-puting.-1988.-P. 8−11.
- M. Thapar, B.A. Delagi, and M.J. Flynn. Linked list cache coherence for scalable shared memory multiprocessors // Procceedings of the 7th International Parallel Processing Symposium.-1993.-P. 34−43.
- A. Gupta, W.-D. Weber, T. Mowry. Reducing memory and traffic requirements for scalable directory-based cache-coherence schemes // Proceedings of International Conference on Parallel Processing.-1990.-Vol. I.-P. 312−321.
- B. O’Krafka and A. Newton. An empirical evaluation of two memory-efficient directory methods // Proceedings of the 17th International Symposium on Computer Ar-chitecture.-1990.-P. 138−147.
- A. Agarwal, R. Simoni, J. Hennessy, and M. Horowitz. An evaluation of directory schemes for cache coherence // Proceedings of the 15th International Symposium on Computer Architecture.-1988.-P. 280−289.
- D. Gustavson. The scalable coherence interface and related standards projects //IEEE Micro.-1992.-Vol. 12.-№ l.-P. 10−22.
- A. Agarwal et al. The MIT Alewife machine: Architecture and Performance // Proceedings of the 22nd International Symposium on Computer Architecture.-1995.-P. 2−13.
- D. Lenoski et al. The directory-based cache coherence protocol for the DASH multiprocessor // Proceedings of the 17th International Symposium on Computer Archi-tecture.-1990.-P. 148−159.
- D. Lenoski, J. Laudon, T. Joe, D. Nakahira, L. Stevens, A. Gupta, and J. Hennessy. The DASH prototype: Logic overhead and performance // IEEE Transactions on Parallel and Distributed Systems.-1993.-Vol. 4.-№ l.-P. 41−61.
- A. Silberschatz, J. Peterson, and P. Calvin. Operating system concepts.-1991 Addison Wesley, Reading, MA.
- W. J. Dally. Network and processor architecture for message-driven computers // In VLSI and Parallel Computation / Ed. R. Suaya and G. Birtwistle. San Mateo, CA. Morgan Kaufmann Publishers, Inc.-1990.-P. 140−222.
- P. Kermani, and L. Kleinrock. Virtual cut-through: a new computer communications switching technique // Computer Networks.- 1979.- Vol. 3 .- № 4.-P. 267−286.
- P. Т. Gaughan, and S. Yalamanchili. A family of fault-tolerant routing proto-jls for direct multiprocessor networks // IEEE Trans, on Parallel and Distributed Sys-ims.-1995.-Vol. 6.-№ 5.-P. 482−497.
- L.M. Ni, and P.K. McKinly. A survey of wormhole routing techniques in di-ict networks // Computer.-1993 -Vol. 26.-№ 2-P. 62- 76.
- P.M. Merlin and P.J. Schweitzer. Deadlock avoidance in store-and-forward etworks I: Store-and-forward deadlock // IEEE Trans, on Commun.-1980.-Vol. 28.-j° .-P. 345−354.
- W.J. Dally. Virtual-channel flow control // IEEE Trans, on Parallel and Disputed Svstems.-1992.-Vol. 3.-№ 2.-P. 194−205.
- J. Duato. A new theory of deadlock-free adaptive routing in wormhole net/orks // IEEE Trans, on Parallel and Distributed Systems.-1993.-Vol. 4.-№ 12.-P. 320−1331.
- W.J. Dally and C. L. Seitz. Deadlock-free message routing on multiprocessor nterconnection networks // IEEE Trans, on Comput.-1987.-Vol. 36.-N? 5.-P. 547−553.
- D.H. Linder, J.C. Harden. An adaptive and fault tolerent wormhole routing trategy for k-ary n-cubes //' IEEE Trans, on Computers.-1991 .-Vol. 40.-N? l.-P. 22.
- J.-L. Baer and W.-H. Wang. On the inclusion properties for multi-level cache Lierarchies // Proceedings of the 15th Annual International Symposium on Computer Architecture.-1988.-P. 73−80.
- P.G. Emma. Understanding some simple processor-performance limits //IBM. Res. Develop.-1997.-Vol. 41.-№ 3.-P. 215−232.
- K. Hwang. Advanced Computer Architecture.-N.Y.: McGraw-Hill.-1993.
- С.P. Kruskal, М. Snir. The performance of multistage interconnection networks for multiprocessors // IEEE Trans, on Computers.-1983.-Vol. 32.-№ 12.-P. 1091−1098.
- A. Agarwal. Limit on interconnection performance // IEEE Trans, on Parallel md Distributed Systems.-1991.-Vol. 2.-№ 4.-P. 398−412.
- M. Karol, М. Hluchyi, S. Morgan. Input versus output queueing on a space vision packet switch // IEEE Trans, on Communications.-1987.-Vol. 35.2.-P. $ 47−1356.
- S.-Y. Li. Theory of periodic contention and its application to packet switching Proc. of INFOCOM'88.-1988.-P. 320−325.
- A.B. Анохин. Мультипроцессор многопроцессорная иерархическая подсис-ема основного вычислительного модуля // Сб. Вычислительные машины с нетради-ионной архитектурой. Супер ВМ. Вып. 5. М.: ИВВС РАН.-1997.- С. 15−36.
- Анохин А.В., Митронольский Ю. И., Пучков И. И. Архитектура коммутаци-нной сети многопроцессорной системы// VI Конференция РТА „Многопроцессорные истемы, параллельные вычислительные технологии“. Домодедово.-1996.
- А. В. Анохин. Межкластерный коммутатор мультипроцессора// Сб. Вычис-ительные машины с нетрадиционной архитектурой. Супер ВМ. Вып. 5. М.: ИВВС 'АН.-1997.- С. 37−49.
- R.M. Russel. The Сгау-1 computer system // Comm. of the ACM-1978.-Vol. l.-№ 1--P. 63−72.
- Мельников В.А., Митронольский Ю. И., Шнитман В. З. Научные, техноло-ические и методологические аспекты создания вычислительной системы 'Электроника СС БИС-1» // Юбилейный сборник трудов институтов ОИВТА РАН.-Л.: ОИВТА РАН.-1993.-Т. II.-C. 28−41.
- H.L. Groginsky, G.A. Works. A Pipeline Fast Fourier Transform // IEEE Trans, on Computers.-I970.-Vol. 19.-, i> 11.-P. 1015−1019.
- S.Y. Kung. On supercomputing with systolic/wavefront array processors // эгос. of the IEEE.-1984.-Vol. 72.-Ks 7.-P. 867−884.
- K. Hwang. Multipipeline networking for compound vector processing // IEEE Trans, on Computers.-l988.-Vol. 37.-4° l.-P. 33−47.
- Flynn M.J. Very high-speed computing systems // Proc. of the IEEE.-1966.-Vol. 54.-Nb 12.-P. 1901−1909.
- M.R. Betker et al. The history of microprocessor // Bell Labs Technical Journal.-1997.-Vol. 2.-№ 4.-P. 29−56.
- L. Beldi. Industri roadmaps. The challenge of complexity // Microelectronics Engineering.-1996.-Vol. 34l.-P. 9−26.
- Р.К. Chatterjee, R.R. Doering. The future of microelectronics // Proc. of the iEE.-l998.-VoI. 86.-№ l.-P. 176−183.
- D. Burger, J.R. Goodman. Billion-transistor architectures // Computer.-397.-Vol. 30.9.-P. 46−49.
- Анохин А.В., Ленгник Л. М., Митропольский Ю. И., Пучков И. И. Структу-а и состав неоднородной вычислительной суперсистемы // Сб. Вычислительные ма-(ины с нетрадиционной архитектурой. Супер ВМ. Вып. 5. М.: ИВВС РАН.-1997.-:. 3−14.
- Анохин А.В. Проблемы распределения заданий в неоднородной вычисли-гльной системе // Сб. Вычислительные машины с нетрадиционной архитектурой.)упер ВМ. Вып. 5. М.: ИВВС РАН.-1997, — С. 65−81.
- W.J. Dally et al. The J-machine: A fine-grain concurrenr computer // Proc. f Information Processing'89.-1989.
- D.E. Culler, G.M. Papadopolus. Monsoon: An explicit tooken-store architec-ure // Proceedings of the 17th Annual Symposium on Computer Architecture.-1990.
- R.S. Nikhil, G.M. Papadopolus, and Arvind. *T: A multithreaded massively iarallel architecture // Proceedings of the 19th Annual Symposium on Computer Ar-hitecture -1992 -P. 156 -167.
- Анохин А.В., Ленгник Л. М., Митропольский Ю. И., Пучков И. И. Архитектура и проблемы эффективности неоднородной вычислительной -уперсистемы /У Информационные технологии и вычислительные системы. М.: ЗИВТА РАН. ИВВС PAH.-1997.-K9 4.-С. 12−31.
- J.M.Barton, N.Bitar. A scalable multidiscipline, multiple processor scheduling ramefork for IRIX // Lecture Notes on Computer Science.-1995.-Vol. 949.
- D.E.Black. Scheduling support for concurrency and parallelism in the Mach derating system // Computer.-1990.-Vol. 23.5.-P. 335−343.270
- J.Torrelas, A. Tucker, A.Gupta. Evaluating the performance of cache-affinity scheduling in shared-memory multiprocessor // J. of Parallel and Distributed Sys-tems.-1995.-Vol. 24,-jV? 2.-P. 139−151.
- L.Rudolph, M. Slivkm-Allalouf, and E.Upfal. A simple load balancing scheme for task allocation in parallel machines // 3rd Symp. Parallel Algorithms and Architectures.-1991 .-P. 237−245.
- D.G. Feitelson, L.Rudolph. Gang scheduling performance benefits for fine-grain synchronization // J. Parallel and Distributing Computing.—1992.-Vol. 16.- № 4.-P. 306−312.
- Алексеев В.И., Горгораки Е. И. Конструктивно-технологическая реализация мультипроцессора // Сб. Вычислительные машины с нетрадиционной архитектурой. Супер ВМ. Вып. 5. М.: ИВВС РАН.-1997.- С. 133−141.