На открывшейся выставке Consumer Electronics Show в США генеральный директор компании NVIDIA Джен-сен Хуан провёл презентацию, на которой анонсировал новейший мобильный чип в семействе систем на кристалле Tegra — X1. Новинка примечательна тем, что архитектура GPU основана на микроархитектуре GM204, используемой в видеокарте GeForce GTX980 для настольных систем.
Tegra X1 — более 1 TFLOPS в FP16-операциях
NVIDIA Tegra X1 продолжает концепции проектирования, объявленные в прошлом году — использование единой микроархитектуры GPU от смартфонов до настольных систем, позволяющее достигнуть высокой производительности при низком энергопотреблении. Система на кристалле K1 стала первым чипом в семействе Tegra, для которой не разрабатывалась своя архитектура GPU, а была модифицирована микроархитектура Kepler. Эксперимент был признан удачным, и в Tegra X1 было решено продолжить эту практику — микроархитектура NVIDIA Maxwell, используемая во флагманских решениях видеокарт GeForce серии 900, отмасштабирована до 256 программируемых CUDA-ядер. А вот стабилизировать выбор микроархитектуры процессора NVIDIA пока не смогла — перейдя от ядер ARM Cortex-A15 к собственной ARMv8-совместимой разработке Denver, в X1 компания вернулась к микроархитектуре Cortex-Ax в восьмиядерной ARMv8-конфигурации big.LITTLE — 4 производительных ядра Cortex-A57 и 4 энергосберегающих Cortex-A53 — которая, впрочем, подверглась значительным модификациям. Система на кристалле изготовлена по нормам 20 нанометрового технологического процесса TSMC, и обладает поддержкой стандартов оперативной памяти LPDDR4 и флеш-хранилищ eMMC 5.1. Основным направлением применения заявлены планшеты, телевизоры и автомобильная промышленность с поддержкой операционных систем Android, Linux и QNX.
Процессор
Увеличить рисунок
Как говорилось выше, NVIDIA приняла решение временно отказаться от своей микроархитектуры Denver, использованной в Tegra K1-64. Причиной такого решения стал недостаток опыта и понимания нового техпроцесса для реализации всех возможностей Denver, поэтому в компании было принято решение прибегнуть к стратегии «тик-так» — сначала обкатка техпроцесса происходит на более стандартизированных ядрах Cortex-Ax, а затем переход на собственную микроархитектуру. В NVIDIA сообщили, что Denver обязательно ещё появится в следующих версиях Tegra, а пока в компании рассказали о модификациях в микроархитектуре big.LITTLE. Процессор работает по принципу переключения кластеров, поэтому одновременно работать все восемь ядер не смогут — либо 4 Cortex-A57 (2 МБ L2-кэша), либо 4 Cortex-A53 (512 КБ L2-кэша). У компании Samsung этот опыт был крайне отрицательный, так как из-за многочисленных ошибок в реализации программируемой схемы соединений контроллера когерентности кэшей чип Exynos 5410 страдал из-за значительных проблем с производительностью. Несмотря на то, что потом критические проблемы удалось разрешить, фундаментальные недостатки Samsung обойти так и не смогла даже с помощью ARM. NVIDIA-же решила отказаться от программируемой схемы соединений CCI-400 от ARM, разработав собственную реализацию когерентности кэшей. Кроме того, NVIDIA избавилась от драйверов ARM IPA для распределения нагрузки в пользу собственной реализации под названием System EDP. Таким образом, с учётом этих нововведений Tegra X1 смогут одновременно работать все восемь ядер — 4 Cortex-A57 (2 МБ L2-кэша) и 4 Cortex-A53 (512 КБ L2-кэша). Причём учитывая опыт использования концепции 4-PLUS-1, похожей на big.LITTLE и использованной в Tegra 3 и Tegra 4, модификации от NVIDIA способны параллелить нетребовательные задачи на слабые ядра, а серьёзную нагрузку отправлять на кластер с Cortex-A57. Благодаря этим усовершенствованиям, Tegra X1 в сравнении с Exynos 5433 (4xCortex-A57 и 4xCortex-A53 на 20 нм TSMC-техпроцессе) способна достигнуть тех же показателей производительности, но затратив вполовину меньше энергии.
Графический ускоритель
Увеличить рисунок
С точки зрения неискушённого потребителя на бумаге процессор Tegra X1 не будет сильно отличаться от аналогичных решений в Snapdragon 810 и Exynos 5433, то с GPU всё значительно интереснее. Микроархитектура GM204 (Maxwell 2), анонсированная в сентябре прошлого года, теперь используется не только в таких мощных видеокартах как GTX980, но и в Tegra X1, что, естественно делает графический чип весьма продвинутым по меркам мобильного рынка. За производительность чипа отвечают два потоковых мультипроцессора, состоящие из 256 CUDA-ядер. Если сравнивать напрямую с Tegra K1, где использовался один 1 SMX-блок со 192 CUDA-ядрами, то из-за многочисленных оптимизаций в Maxwell, Tegra X1 будет примерно в два раза производительнее своей предшественницы на тех же частотах работы. Кроме того, новый чип научился нативно обрабатывать операции с половинной точностью (FP16), тогда как Tegra K1 работала только с операциями одинарной (FP32) и двойной точности (FP64), и производительность в таком режиме составит более 1 TFLOPS. С точки зрения поддержки API, то Tegra X1 поддерживает высокую планку, пока не покорившуюся конкурентам — OpenGL ES 3.1+AEP, OpenGL 4.5, DirectX 12 и CUDA 6. Естественно, в чипе поддерживаются и все нововведения Maxwell: воксельная глобальная иллюминация (VXGI), многокадровое сглаживание (MFAA), улучшенное сжатие памяти и другие возможности.
Увеличить рисунок
Если обратиться к производительности в распространённых бенчмарках для встраиваемых систем, то NVIDIA сравнила производительность Tegra X1 с K1 и Apple A8X, используемом в планшете iPad. Так, например, в тесте GFXBench Manhattan с рендерингом графики в разрешении 1080p, использующем возможности OpenGL ES 3.0, новый чип в два раза производительнее своего предшественника и своего конкурента. В других тестах превосходство варьируется от 50 до 75%, но глава компании Джен-сен Хуан призвал не обращать внимания на бенчмарки в простых тестах, обратив внимание на то, что Tegra X1 способна работать с графикой, недоступной конкурентам. Так, например, на презентации был показан рендеринг Unreal Engine 4 в виде демо-версии Elemental, использующий такие техники как глобальная иллюминация и тесселяция, которые попросту недоступны большинству SoC, построенных на базе ARM. Кроме того, сравнивая с Apple A8X, инженеры на тестовых стендах продемонстрировали, что в тесте GFXBench Manhattan Tegra X1 потребляла лишь 1.51 ватт, тогда как конкурент — 2.67 ватт при аналогичной производительности, а это весьма существенная разница, учитывая, что техпроцесс у чипов одинаковый.
Увеличить рисунок
Другие особенности
Увеличить рисунок
При анонсах SoC наибольшее внимание привлекают процессор и GPU, но в Tegra X1 были сделаны и другие улучшения в сравнении с K1. В чипе реализована поддержка интерфейса LPDDR4, увеличив пропускную способность оперативной памяти с 14.9 Гб/с до 25.6 Гб/с вместе с 40% уменьшением энергопотребления. Максимальное разрешение для экранов устройств увеличилось с 3200x2000 до 3840x2160 с поддержкой потокового сжатия VESA. Благодаря поддержке HDMI 2.0 и HDCP 2.2 при выводе изображения на внешний экран чип способен работать на планке 60 кадров в секунду при разрешении 4К против 30 кадров в секунду при аналогичном разрешении в Tegra K1. Что касается кодеков, то чип поддерживает кодирование и декодирование видео в формате 4K@60 кадров в секунде на кодеках H.264, H.265, VP8 и VP9. Для повышения производительности в I/O-операциях с диском обеспечена поддержка стандарта eMMC 5.1.
Доступность.
Увеличить рисунок
Закончив описание графических возможностей Tegra X1 Джен-сен Хуан со сцены задал риторический вопрос о необходимости таких мощностей в смартфонах, после чего с ироничной улыбкой сам же и ответил: «конечно, нет». Указав на возможность создания высокопроизводительных планшетов, глава компании начал рассказывать о возможностях применения Tegra X1 в автомобилях. NVIDIA предложила две платформы для этой области — NVIDIA DRIVE CX и NVIDIA DRIVE PX. Первая — классическая платформа для создания информационно-развлекательных систем. На её базе можно создавать графически насыщенные навигационные программы, информационные программы о состоянии машины и её окружении в пространстве и многое другое. А вот DRIVE PX — это платформа на базе аж двух Tegra X1, которая является буквально интеллектуальным рулевым. Благодаря вычислительным возможностям GPU, а также многолетних наработках компании в компьютерном зрении, чип при помощи камер и нейронной сети может сам управлять машиной, парковаться, определять окружение, отличать пешехода от велосипедиста, или полицейский автомобиль от такой же марки автомобиля, но без полицейских эмблем, а также многое другое. Впрочем, этих чудес придется подождать до 2016 года.
Увеличить рисунок
Что касается более массовых устройств, то Tegra X1 уже находится в стадии промышленного сэмплинга, и NVIDIA ожидает выход первых устройств с новой SoC весной этого года.
Увеличить рисунок