On-Line Библиотека www.XServer.ru - учебники, книги, статьи, документация, нормативная литература.
       Главная         В избранное         Контакты        Карта сайта   
    Навигация XServer.ru






 

P3-P4: новый ход Intel.

Дмитрий Дереза

2000 год выдался для Intel не совсем удачным. Direct RDRAM был воспринят индустрией без особого энтузиазма, чипсет i810 так и не стал популярным, i820 потерпел полное фиаско, а VIA более чем удачно сыграла со своим Apollo Pro133/133A. Если AMD смогла не только создать высокопроизводительный high-end процессор, но и в достаточных количествах наладить его выпуск, то Intel до сих пор имеет проблемы с насыщением рынка. Процессор нижнего уровня AMD Duron по всем параметрам с легкостью положил на лопатки Intel Celeron, и только высокая цена и недостаток материнских плат под Socket A еще не сжил Celeron со света. Но Intel отличается боевым характером и, кажется, не собирается сдаваться, поднапрягшись, компания приготовила на последний квартал года несколько новинок. Одним из таких взрывоопасных сюрпризов стал новый процессор Pentium 4, известный ранее как Intel Willamette. С каждым днем приближается его массовый выпуск - уже в октябре-ноябре этого года ожидается появление Pentium 4 1.4 ГГц и 1.5 ГГц. Модель будет производится по 0.18 мкм-технологии и работать с новыми материнскими платами на чипсете i850 Tehama. Мы заинтересовали вас? Тогда присмотримся подробнее к новой архитектуре, названной разработчиками NetBurst.

Технология Hyper Pipelined


Длина конвейера Intel Pentium 4 увеличена до 20 этапов. Хорошо ли это? Для примера - сегодняшний Pentium III имеет 12-этапный конвейер, Athlon - 10-ти. Но при этом не стоит забывать один общеизвестную истину - чем длиннее конвейер, тем легче наращивать тактовую частоту, но, соответственно, тем меньшая производительность приходится на каждый полученный мегагерц :-(. Выходит палка о двух концах.

Системная шина


При все возрастающей производительности процессоров и подсистемы памяти, увеличение скорости уже достаточно пожилой системной шины GTL+ за последний год всего лишь на 33 МГц выглядит не слишком впечатляюще. Поэтому неудивительно, что с выходом Willamette Intel вводит новую системную шину, которая должна значительно повысить пропускную способность. Эта системная шина имеет 128-битные линии с 64-битным доступом, к примеру, у процессоров предыдущих поколений были 32-битные линии. А ее тактовая частота - всего 100 МГц, то есть даже ниже, чем у сегодняшней 133 МГц GTL+, но за счет передачи 4 пакетов за такт, эффективная частота возрастает до 400 МГц.
? Таким образом плюсы новой шины очевидны: значительно выросшая пропускная способность - 3.2 Гб/с (400 МГц, 64 бит) против 1.064 Гб/с у сегодняшней GTL+ (133 МГц, 32 бит) и против 1.6 Гб/с у системной шины EV6 под Athlon (200 МГц, 64-бит).
? А вот минусы получились замаскированными. 4 пакета данных за один такт - это, конечно, здорово, но только в том случае, когда удастся их предоставить к моменту выполнения очередного такта. Иначе пропускная способность шины будет использоваться далеко не полностью. В общем, 3.2 Гб/с - это максимум, на что мы можем рассчитывать. К тому же, использование новой шины требует применения нового чипсета, что также плюсом назвать достаточно трудно.

Целочисленные операции, Rapid Execution Engine


Блоки арифметической логики ALU (Arithmetic Logic Units) работают на удвоенной, по сравнению с ядром процессора, тактовой частоте. Это позволяет выполнять некоторые инструкции за половину такта - скорость целочисленных операций увеличивается в два раза. А поскольку таких блоков у Pentium 4 два - в идеале за один такт работы процессора получается 4 операции с целыми числами!

Сопроцессор


Что касается блока для операций с числами с плавающей запятой у Pentium 4, то получившаяся картина, похоже, не устраивает даже саму Intel. Два таких модуля в операциях с плавающей запятой будут обеспечивать для 1.4 ГГц-процессора Pentium 4 пиковую производительность всего лишь 1.4 GFLOPS :-(. Реальную вычислительную работу выполняет только один модуль - операции типа FADD (сложения) и FMUL (умножения), второй же занимается подсобной деятельностью - операции типа FSTORE (обмен между регистрами и памятью). Не в пример Pentium 4, FPU процессора Athlon содержит три раздельных, полностью конвейеризированных модуля, способных принимать инструкции на каждом такте. При этом один из них предназначен только для инструкции FSTORE, остальные два состоят из устройств FADD и FMUL. Благодаря этому FPU может выполнять за каждый такт по две инструкции - одну сложения и другую умножения, т. е. 1 ГГц Athlon имеет пиковую производительность 2 GFLOPS. Получается, что у Athlon более совершенная архитектура сопроцессора, чем у Pentium 4.

Кэш. Execution Trace Cache


В кэш-памяти первого уровня сохраняются декодированные команды - ~12 Кб микрокоманд, благодаря чему в цикле исполнения устраняются задержки, связанные с раскодированием. Такая технология должна повысить быстродействие кэш-памяти команд и увеличить эффективность использования кэша. Кроме того, процессор Pentium 4 содержит кэш-память второго уровня типа Advanced Transfer Cache объемом 256 Кб, обеспечивающую передачу данных со скоростью 48 Гбит/с, увеличивающуюся пропорционально тактовой частоте ядра. В целом очень неплохо, но ничего революционного.

Усовершенствование динамического исполнения (Advanced Dynamic Execution)


Pentium 4 включает усовершенствованный блок спекулятивных вычислений. Процессор может выполнять инструкции, нарушая их естественную последовательность, что позволит плотнее загрузить исполнительные модули, ликвидируя издержки применения длинного конвейера.
Также Pentium 4 содержит улучшенные схемы предсказания ветвлений, позволяющие ему значительно повысить точность процесса предсказания переходов с вероятностью правильного предсказания до 95 % и снижающие потери времени, связанные с ошибочным выбором последовательности вычислений. Все это поможет справиться с издержками применения все того же очень длинного конвейера.

SIMD-расширения


Как показала практика реализации в Pentium III технологии SSE, инструкции не вызвали особого энтузиазма у разработчиков игр. Однако многие деловые приложения, графические редакторы уже оптимизированы под SSE и показывают при этом значительно большую производительность. Правильно сориентировавшись, Intel трезво оценивает ситуацию и не делает главные ставки на SIMD-расширения. Тем не менее, если разработчики ПО все же поддержат нововведения Intel, новые потоковые SIMD-расширения 2 (SSE2), дополняющие технологии MMX(tm) и SSE 144-мя новыми инструкциями (68 128-разрядных целочисленных инструкций и 76 128-разрядных инструкций для вычислений с плавающей точкой), со временем станут еще одной козырной картой в колоде полупроводникового гиганта.

Выводы


Intel уже демонстрировала опытные образцы Pentium 4. А некоторым независимым источникам (зарубежные компьютерные СМИ) даже удалось попробовать новинку в работе. И если отбросить результаты явно рекламных тестов, активно использующих SSE2, то выводы получатся достаточно обычными - революции не произошло :-(. Несмотря на внедрение всех вышеперечисленных инноваций, результаты первых полевых испытаний не выявили явного преимущества Pentium 4 перед Pentium III Coppermine или AMD Athlon - при равных тактовых частотах.
Но вряд ли стоит огорчаться по этому поводу. Теперь в арсенале Intel имеется отлично масштабируемая архитектура, позволяющая быстро и легко наращивать тактовую частоту процессора, сохраняя при этом хороший прирост производительности системы в целом. Теперь главному конкуренту в лице AMD Athlon будет очень тяжело тягаться с Pentium 4 по уровню достигаемых тактовых частот. В бешеной гонке полупроводниковых гигантов за звание производителя самого быстрого процессора компания Intel сделала огромный рывок вперед, оставив позади соперников - AMD и VIA. Вот только надолго ли?



Литература по процессорам