Apple анонсировала M1 Pro и M1 Max: гигантские новые SoC на архитектуре ARM с полной производительностью
Сегодняшний основной доклад Apple Mac был очень насыщенным — компания анонсировала новую линейку устройств MacBook Pro на базе двух различных новых SoC в линейке Apple Silicon: M1 Pro и M1 Max.
M1 Pro и Max представляют собой продолжение прошлогоднего M1, процессора Mac первого поколения Apple, который стал первым этапом для Apple в реализации планов по замене процессоров на архитектуре x86 чипами собственного дизайна. M1 был успешным для Apple, продемонстрировав фантастическую производительность при невиданной доселе энергоэффективности на рынке ноутбуков. Хотя M1 достаточно быстрый, это все еще был небольшой SoC. Он предназначался, в первую очередь, для таких устройств, как iPad Pro. Соответственно, у него более низкий TDP, уступающий более производительным и мощным чипам от конкурентов.
Сегодняшние два новых чипа стремятся изменить эту ситуацию. При этом Apple делает все возможное для повышения производительности, увеличивая количество ядер процессора и графического процессора, плюс инвестируя в разработку электронных компонентов. Компания вкладывает в это направление весьма немалые средства.
M1 Pro: 10-ядерный процессор, 16-ядерный графический процессор, 33,7 млрд транзисторов в 245 мм 2
Первым из двух чипов, которые были анонсированы, был M1 Pro. Он стал основой для того, что Apple называет бескомпромиссными SoC для ноутбуков.
Apple начала презентацию с показа корпусировки SoC, M1 Pro сохраняет собственный дизайн корпусировки. Apple корпусирует чип SoC вместе с чипами памяти на одной органической печатной плате, что контрастирует с другими традиционными чипами, такими как AMD или Intel, где используются отдельные модули для DRAM. Подход Apple, вероятно, значительно повышает энергоэффективность и компактность.
Компания рассказала о том, что она удвоила пропускную способность шины памяти для M1 Pro по сравнению с M1. Тем самым завершен переход от 128-битного интерфейса LPDDR4X к новому 256-битному интерфейсу LPDDR5, с заявленной пропускной способностью памяти до 200 ГБ/с. Мы не знаем, является ли эта цифра точной или приблизительной, но стандарт LPDDR5-6400 как раз соответствует 204,8 ГБ/с.
В презентации Apple продемонстрировала снимки как M1 Pro, так и M1 Max, чтобы мы увидели макет чипа и деление на блоки. Начнем с контроллеров памяти, которые теперь в углах SoC, а не по краям, как на M1. Из-за увеличенной ширины интерфейса контроллеры памяти стали занимать довольно большую часть SoC. Еще более интересным является тот факт, что Apple теперь, по-видимому, использует два блока кэша системного уровня (SLC) непосредственно за контроллерами памяти.
Блоки кэша на системном уровне Apple отличаются тем, что обслуживают весь SoC, и способны увеличить пропускную способность, уменьшить задержку или просто сэкономить электроэнергию, избегая транзакций с памятью вне кристалла, что значительно повышает общую энергоэффективность. Этот блок SLC нового поколения выглядит совсем иначе, чем у M1. Ячеек SRAM больше, чем в M1, поэтому, хотя мы не можем точно подтвердить это прямо сейчас, это может означать, что в каждом блоке SLC 16 МБ кэша — для M1 Pro это будет 32 МБ общего кэша SLC.
Что касается процессора, Apple сократила количество энергоэффективных ядер с 4 до 2. Мы не знаем, будут ли эти ядра похожи на ядра M1 по эффективности или Apple приняла IP нового поколения от A15 SoC — но ясно, что новый iPhone SoC имеет некоторые более крупные микроархитектурные изменения.
Что касается производительных ядер, Apple удвоила их количество до 8. Производительные ядра Apple были чрезвычайно впечатляющими на M1, однако отставали от других 8-ядерных SoC с точки зрения общей многопоточной производительности. Удвоение ядер должно продемонстрировать огромное повышение производительности в многопотоке.
На снимке мы видим, что Apple зеркалирует два 4-ядерных блока, кэши L2 также зеркалируются. Хотя Apple пишет 24 МБ L2, я думаю, что это скорее конфигурация 2×12 МБ аналогично конфигурациям AMD. В таком случае синхронизация двух кластеров производительных ядер будет проходить через внутреннюю шину и SLC. Здесь можно лишь предполагать, но это предположение имеет смысл, учитывая показанный макет.
Что касается производительности процессора, Apple провела некоторые сравнения с конкурентами. В частности, сравниваемые здесь SKU Core i7-1185G7 от Intel и Core i7-11800H, 4-ядерные и 8-ядерные варианты новейших процессоров Intel Tiger Lake по техпроцессу 10nm ‘SuperFin’.
Apple утверждает, что в многопоточной производительности новые чипы значительно превосходят любые конкурентные чипы от Intel, причем при более низком энергопотреблении. Представленные кривые производительности и мощности показывают: при равном энергопотреблении в 30 Вт новые M1 Pro и Max в 1,7 раза быстрее по пропускной способности процессора, чем 11800H, кривая мощности которого чрезвычайно крутая. В то же время при равных уровнях производительности — пиковой у 11800H — новый M1 Pro/Max достигает тех же показателей при энергопотреблении ниже на 70%. Эти результаты на голову выше того, что есть у Intel.
Наряду с мощными процессорными блоками Apple также радикально масштабирует свою кастомную архитектуру GPU. M1 Pro теперь оснащен 16-ядерным графическим процессором с заявленной вычислительной способностью 5,2 терафлопс. Он идет в паре с гораздо более широкой шиной памяти и, предположительно, 32 МБ SLC. Это аналогично подходу AMD с их GPU Infinite Cache.
Производительность графического процессора Apple, как утверждается, значительно превосходит производительность интегрированной графики конкурентов предыдущего поколения. По этой причине компания решила провести прямые сравнения с дискретной графикой ноутбуков среднего класса — GeForce RTX 3050 Ti 4 ГБ. По результатам тестов чип от Apple показал аналогичную производительность, используя на 70% меньшую мощность. Правда, неясно что такое 30 Вт — является ли это общей мощностью SoC или системы. Возможно, Apple просто сравнивает сам блок графического процессора.
Наряду с GPU и CPU, Apple также отметила значительно улучшенный медиадвижок, который теперь может аппаратно ускорять декодирование и кодирование ProRes и ProRes RAW, что пригодится создателям контента и профессиональным видеографам. Apple Mac традиционно хороши для работы с видео, но аппаратно ускоренные движки для форматов RAW были бы киллер-фичей, которая станет решающей для этой аудитории.
M1 Max: 32-ядерное GPU чудовище на 57 миллиардов транзисторов и 432 мм 2 .
Кроме M1 Pro, Apple также рассказала о «большем брате» — M1 Max. В то время как M1 Pro догоняет и опережает конкурентные ноутбуки с точки зрения производительности, M1 Max предоставляет то, чего раньше еще не было: графический процессор «с турбонаддувом» на 32 ядра. По сути, это больше не SoC со встроенным графическим процессором, а GPU с встроенным SoC.
Корпусировка для M1 Max тоже отличается — чипы DRAM увеличились с 2 до 4, что соответствует увеличению ширины интерфейса памяти с 256-бит до 512-бит. Apple рассказывает о впечатляющей пропускной способности в 400 ГБ/с. Если это LPDDR5-6400, было бы более точным указать 409,6 ГБ/с. Такая пропускная способность неслыханна в SoC, но является нормой для производительных графических чипов.
M1 Max выглядит довольно своеобразно — во-первых, вся верхняя часть чипа над графическим процессором очень похожа на M1 Pro, указывая на то, что Apple повторно используют большую часть дизайна, и что вариант Max просто растет вниз.
Добавлены два 128-битных блока LPDDR5, причем количество блоков SLC растет вместе с ними. Если бы было 16 МБ на блок, то это представляло бы собой 64 МБ общего кэша для всего SoC. Помимо очевидного использования в GPU, мне интересно, чего могут достичь процессоры с помощью такой гигантской пропускной способности памяти.
M1 Max впечатляет количеством транзисторов. Так, Apple сообщила, что у M1 Pro их количество достигает 33,7 млрд, в то время как M1 Max включает уже около 57 млрд транзисторов. AMD, в то же время, с гордостью рассказывает о 26,8 млрд транзисторов в 7-нм графическом чипе Navi 21 на 520 мм 2 . У Apple здесь в два раза больше транзисторов при меньшем размере чипа благодаря использованию передового 5-нм техпроцесса от TSMC. Даже по сравнению с самым большим 7-нанометровым чипом NVIDIA с 54 млрд транзисторов в серверных GA100 — M1 Max имеет большее количество транзисторов.
Что касается размеров чипов, Apple разместила на одном из слайдов M1, M1 Pro и M1 Max рядом друг с другом, и они, похоже, имеют масштаб 1:1. В этом случае M1, который мы уже знаем, составляет 120 мм 2 , соответственно M1 Pro 245 мм 2 , а M1 Max около 432 мм 2 .
Большая часть чипа занята 32-ядерным графическим процессором, для которого Apple заявляет производительность в 10,4 терафлопс. Похоже, что Apple зеркалировала их 16-ядерный GPU. Первое, что приходит на ум — это 2 графических процессора, работающих в унисон, и какая-то общая логика между двумя половинами графического процессора. Мы сможем рассказать больше, как только проверим поведение системы на программном уровне.
С точки зрения производительности Apple успешно может конкурировать с лучшими предложениями на рынке, сравнивая производительность M1 Max с производительностью мобильного GeForce RTX 3080 при меньшей мощности на 100 Вт (60 Вт против 160 Вт). M1 Max и тут превосходит дискретный GPU NVIDIA, при этом потребляя на 40% меньше энергии.
Презентация нового поколения Apple Silicon стала тем, чего мы ждали больше года. Я думаю, что Apple удалось не только оправдать ожидания, но и значительно превзойти их. Как M1 Pro, так и M1 Max кардинально отличаются от всего, что мы когда-либо видели в области ноутбуков. Если M1 был неким признаком успеха Apple в их кремниевых начинаниях, то два новых чипа превосходят любые варианты, что мы видели у конкурирующих компаний.
Источник
Apple’s M1 Pro, M1 Max SoCs Investigated: New Performance and Efficiency Heights
Power Behaviour: No Real TDP, but Wide Range
Last year when we reviewed the M1 inside the Mac mini, we did some rough power measurements based on the wall-power of the machine. Since then, we learned how to read out Apple’s individual CPU, GPU, NPU and memory controller power figures, as well as total advertised package power. We repeat the exercise here for the 16” MacBook Pro, focusing on chip package power, as well as AC active wall power, meaning device load power, minus idle power.
Apple doesn’t advertise any TDP for the chips of the devices – it’s our understanding that simply doesn’t exist, and the only limitation to the power draw of the chips and laptops are simply thermals. As long as temperature is kept in check, the silicon will not throttle or not limit itself in terms of power draw. Of course, there’s still an actual average power draw figure when under different scenarios, which is what we come to test here:
Starting off with device idle, the chip reports a package power of around 200mW when doing nothing but idling on a static screen. This is extremely low compared to competitor designs, and is likely a reason Apple is able achieve such fantastic battery life. The AC wall power under idle was 7.2W, this was on Apple’s included 140W charger, and while the laptop was on minimum display brightness – it’s likely the actual DC battery power under this scenario is much lower, but lacking the ability to measure this, it’s the second-best thing we have. One should probably assume a 90% efficiency figure in the AC-to-DC conversion chain from 230V wall to 28V USB-C MagSafe to whatever the internal PMIC usage voltage of the device is.
In single-threaded workloads, such as CineBench r23 and SPEC 502.gcc_r, both which are more mixed in terms of pure computation vs also memory demanding, we see the chip report 11W package power, however we’re just measuring a 8.5-8.7W difference at the wall when under use. It’s possible the software is over-reporting things here. The actual CPU cluster is only using around 4-5W under this scenario, and we don’t seem to see much of a difference to the M1 in that regard. The package and active power are higher than what we’ve seen on the M1, which could be explained by the much larger memory resources of the M1 Max. 511.povray is mostly core-bound with little memory traffic, package power is reported less, although at the wall again the difference is minor.
In multi-threaded scenarios, the package and wall power vary from 34-43W on package, and wall active power from 40 to 62W. 503.bwaves stands out as having a larger difference between wall power and reported package power – although Apple’s powermetrics showcases a “DRAM” power figure, I think this is just the memory controllers, and that the actual DRAM is not accounted for in the package power figure – the extra wattage that we’re measuring here, because it’s a massive DRAM workload, would be the memory of the M1 Max package.
On the GPU side, we lack notable workloads, but GFXBench Aztec High Offscreen ends up with a 56.8W package figure and 69.80W wall active figure. The GPU block itself is reported to be running at 43W.
Finally, stressing out both CPU and GPU at the same time, the SoC goes up to 92W package power and 120W wall active power. That’s quite high, and we haven’t tested how long the machine is able to sustain such loads (it’s highly environment dependent), but it very much appears that the chip and platform don’t have any practical power limit, and just uses whatever it needs as long as temperatures are in check.
M1 Max MacBook Pro 16″ | Intel i9-11980HK MSI GE76 Raider | |||||
Score | Package Power (W) | Wall Power Total — Idle (W) | Score | Package Power (W) | Wall Power Total — Idle (W) | |
Idle | 0.2 | 7.2 (Total) | 1.08 | 13.5 (Total) | ||
CB23 ST | 1529 | 11.0 | 8.7 | 1604 | 30.0 | 43.5 |
CB23 MT | 12375 | 34.0 | 39.7 | 12830 | 82.6 | 106.5 |
502 ST | 11.9 | 11.0 | 9.5 | 10.7 | 25.5 | 24.5 |
502 MT | 74.6 | 36.9 | 44.8 | 46.2 | 72.6 | 109.5 |
511 ST | 10.3 | 5.5 | 8.0 | 10.7 | 17.6 | 28.5 |
511 MT | 82.7 | 40.9 | 50.8 | 60.1 | 79.5 | 106.5 |
503 ST | 57.3 | 14.5 | 16.8 | 44.2 | 19.5 | 31.5 |
503 MT | 295.7 | 43.9 | 62.3 | 60.4 | 58.3 | 80.5 |
Aztec High Off | 307fps | 56.8 | 69.8 | 266fps | 35 + 144 | 200.5 |
Aztec+511MT | 92.0 | 119.8 | 78 + 142 | 256.5 |
Comparing the M1 Max against the competition, we resorted to Intel’s 11980HK on the MSI GE76 Raider. Unfortunately, we wanted to also do a comparison against AMD’s 5980HS, however our test machine is dead.
In single-threaded workloads, Apple’s showcases massive performance and power advantages against Intel’s best CPU. In CineBench, it’s one of the rare workloads where Apple’s cores lose out in performance for some reason, but this further widens the gap in terms of power usage, whereas the M1 Max only uses 8.7W, while a comparable figure on the 11980HK is 43.5W.
In other ST workloads, the M1 Max is more ahead in performance, or at least in a similar range. The performance/W difference here is around 2.5x to 3x in favour of Apple’s silicon.
In multi-threaded tests, the 11980HK is clearly allowed to go to much higher power levels than the M1 Max, reaching package power levels of 80W, for 105-110W active wall power, significantly more than what the MacBook Pro here is drawing. The performance levels of the M1 Max are significantly higher than the Intel chip here, due to the much better scalability of the cores. The perf/W differences here are 4-6x in favour of the M1 Max, all whilst posting significantly better performance, meaning the perf/W at ISO-perf would be even higher than this.
On the GPU side, the GE76 Raider comes with a GTX 3080 mobile. On Aztec High, this uses a total of 200W power for 266fps, while the M1 Max beats it at 307fps with just 70W wall active power. The package powers for the MSI system are reported at 35+144W.
Finally, the Intel and GeForce GPU go up to 256W power daw when used together, also more than double that of the MacBook Pro and its M1 Max SoC.
The 11980HK isn’t a very efficient chip, as we had noted it back in our May review, and AMD’s chips should fare quite a bit better in a comparison, however the Apple Silicon is likely still ahead by extremely comfortable margins.
Источник