Компьютерра, 2005 № 27-28 (599-600) | страница 50
Sony (в альянсе с Toshiba и IBM) пошла еще дальше - оставив в процессоре лишь одно ядро «общего назначения» (как и в Xenon, гиперконвейеризованное, с упорядоченным выполнением инструкций и поддерживающее одновременную работу с двумя потоками данных) и добавив к нему аж восемь «ядрышек» - Synergetic Processing Elements, SPE, лишенных не только OoO-логики, но и таких «бесполезных» изобретений человечества, как MMU (Memory Management Unit, отвечает за реализацию механизмов виртуальной памяти), TLB (это кэш, используемый MMU) и… собственно кэшей вообще всех уровней. Фактически каждый SPE - это современный высокочастотный гиперконвейеризованный векторный аналог… 286-го процессора. Каждый такой SPE «изолирован» от внешней системы и может работать только со специальной «локальной» SRAM-памятью объемом 256 Кбайт, интегрированной в кристалл процессора. То, что находится за пределами этого «компьютера в миниатюре», со своим процессором и оперативной памятью, для SPE практически недоступно: все, что он может делать, - это отдельной специальной инструкцией пересылать, считывать или записывать данные в локальную память большими блоками либо работать в «потоковом» режиме, непрерывно принимая по шине данные, тут же выполняя над ними однотипную операцию и сразу же передавая данные обратно или другому SPE. Microsoft даже презрительно окрестила SPE разновидностью DSP-процессоров[Digital Signal Processors, специализированные программируемые микросхемы, предназначенные для выполнения над потоками данных одних и тех же операций], однако это утверждение весьма далеко от истины. SPE могут делать практически все, что угодно, причем стандартные алгоритмы написания хороших параллельных программ прекрасно ложатся на схему «один большой и главный процессор плюс много простых вспомогательных с локальной памятью»: если бы не пониженная «одинарная» (32-битная) точность вычислений с плавающей точкой, этот процессор ожидало бы большое будущее в научной сфере. Но для расчетов игровой физики и там, где высокая точность все равно не требуется (как в случае, например, рэйтрейсинга), Cell - процессор практически идеальный.
Cell - первый в мире процессор, который широко использует для своих целей оперативную память следующего поколения Rambus XDR с последовательной шиной передачи данных[Подробнее см. на offline.computerra.ru/2004/547/34190], работающей на полной частоте процессора - 3,2 ГГц. Контроллер памяти XDR интегрирован непосредственно в процессор Cell, всего поддерживается две 32-разрядные шины общей пропускной способностью 25,6 Гбайт/с - втрое-вчетверо выше, чем у самых быстрых процессоров Intel и AMD. Cell куда совершеннее даже такого шедевра компьютерной архитектуры, каким является AMD Athlon 64, поскольку объединяет в себе все положительные черты AMD’шной архитектуры (все-таки IBM и AMD - партнеры по разработке процессоров), на основе гораздо более высокопроизводительных (по сравнению с Hyper-Transport) последовательных интерфейсов RaSer от Rambus. Графический процессор подключается напрямую к Cell по шине с пропускной способностью 20 Гбайт/с в сторону Cell и 15 Гбайт/с в сторону GPU; а южный мост - по независимой шине с пропускной способностью 1,5 Гбайт/с. Это перекрывает достижения AMD по пиковой пропускной способности каналов ввода-вывода в полтора-четыре раза и делает оправданным применение в столь быстром графическом чипе, как RSX, технологии, аналогичной TurboCache (которую Nvidia использует в своих самых дешевых видеокартах) и позволяющей графическому процессору использовать в качестве видеопамяти обычную системную оперативную память.