Компьютерра, 2005 № 27-28 (599-600) | страница 49




Внеочередное исполнение команд (Out-of-Order execution) означает, что процессор может переупорядочивать 'по своему вкусу' поток входных инструкций, при условии, что это не приведет к изменению результатов работы программы. Все современные x86-процессоры (и большинство RISC-) являются OoO-процессорами, а вот Xenon и Cell этой поддержки лишены: ее слишком сложно реализовывать в гиперконвейеризованных процессорах. Живой пример такой реализации - Pentium 4 - использует для этих целей весьма своеобразную систему 'реплея' (www.xbitlabs.com/articles/cpu/display/netburst-1.html), являющуюся, по мнению ряда экспертов, одной из главных причин высокого тепловыделения, огромной сложности и серьезных проблем с производительностью 'на мегагерц'. С другой стороны, отсутствие OoO мешает достигнуть высокой производительности при обращении к памяти (OoO-процессор может одновременно с поиском данных в кэше выполнять еще какие-то действия) и затрудняет проведение условных переходов. 'Упрощенный' не-OoO-процессор, встретив любую инструкцию перехода, загрузки или сохранения данных (а это частые гости в любом программном коде), вынужден приостанавливать выполнение текущей задачи до тех пор, пока не будет выполнена инструкция. Приплюсуйте сюда традиционные проблемы гиперконвейерной архитектуры (длиннющий конвейер, необходимый для того, чтобы достичь высоких тактовых частот), в которой любая подобного рода приостановка означает снижение скорости на данном участке кода в разы (!), - и вы поймете, что отсутствие OoO (которое, по некоторым наблюдениям, упрощает процессор в два-четыре раза) резко осложняет жизнь разработчикам, старающимся получить более или менее быстро работающий код. Фактически на Cell и Xenon быстро будут 'считаться' только всевозможные 'тяжелые' вычислительные спецэффекты, математические формулы (скажем, рэйтрейсинг сцены в реальном времени) да некоторые физические расчеты - и ничего больше! Все мы хорошо знаем, какие трудности испытывают в играх процессоры Pentium 4 (причем чем сложнее AI в игре, тем хуже ситуация), однако 'суперскалярные процессоры с упорядоченным выполнением команд' будут натыкаться на те же проблемы в удесятеренном масштабе (Pentium 4 зачастую верно 'угадывает' поведение программы в 'неприятных' для него местах; не-OoO-процессор спотыкается в таких местах всегда).

Так что же, все настолько печально и никакого толку от этих много-много-многогигагерцовых десятипоточных процессоров в играх не будет? Отнюдь. Например, 'незадействованные' ядра Cell или Xbox 360 могут блестяще заменить собой 'геометрические' блоки графических процессоров: все расчеты по вершинным шейдерам эти процессоры могут без заметных потерь производительности взять на себя. Есть даже предположения, что графический чип RSX в PlayStation 3 может и не иметь стандартных восьми вершинных конвейеров G70, а на их месте могут располагаться лишних 4-8 пиксельных конвейеров, которые при сохранении прежней себестоимости RSX значительно увеличат его производительность по сравнению с 'прародителем'. Кроме того, оказалось, что на Xenon и особенно на Cell очень удобно переложить и всю обработку объемного звука в играх. На этих процессорах неплохо считается игровая физика, воспроизводится и кодируется видео, осуществляется постпроцессинг в играх и рендеринг сцен без участия графического ускорителя. Но вот на 'AI следующего поколения' от Xenon и Cell можете даже не надеяться.