Tegra K1架构详解：英伟达野心勃勃

发布时间：2014-01-9 阅读量：9671 来源: 发布人:

【导读】Tegra 2是首款双核心安卓处理器，Tegra 3第一个做到了四核，Tegra 4则第一次带来了四核A15。经过四代产品的铺垫，NVIDIA在移动领域积累了大量经验和教训，再次吹响了前进的号角——Tegra K1。本文带你详解K1架构，一窥NVIDIA的勃勃野心。

这一次，NVIDIA首次在同一个名字下提供了两种不同的版本，其一是传统的4+1核心A15，其二是自主设计的双核ARMv8 64位架构(丹佛工程)，并且都集成了开普勒架构的GPU图形核心，抛弃之前陈旧的NV4x而首次追上了桌面显卡的步伐。

这一次，NVIDIA更加野心勃勃。

【CPU选择之一：四核A15】

Tegra K1的这个版本和Tegra 4很相像，也是四个高性能A15核心、一个省电专用A15核心，但仍然有多出明显改进：

1、晶体管布局。这个是对半导体厂商设计能力的最大考验，也是决定芯片表现的关键。NVIDIA自称汲取了Tegra 4上的经验。

2、28nm HPM制造工艺。Tegra 4使用的是台积电28nm HPL，最高只能跑到1.9GHz，而且经常需要为了控制功耗而不得不降频，而更高级的新工艺技术大大降低了动态功耗。

3、A15 R3核心。Tegra 4的核心是A15 r2p1版本，现在升级到了r3p3版本，而伴随每次修订，都会有大量Bug修复和时不时的性能提升。r3系列版本中，ARM增加了更精细的时钟栅极，直接提高了能效。

综上，Tegra K1的最高频率来到了2.3GHz，而且可以在四个核心全部开启的情况下跑出这个频率，仅此带来的性能提升就可以超过20％。

第五个节能核心的频率最高1GHz，不过大部分时候会徘徊在500MHz左右。

NVIDIA宣称，在同样的功耗下，Tegra K1的性能可以提升40％，而在同样的频率下，Tegra K1的功耗能够节省55％。

缓存没有动，还是2MB二级缓存、32+32KB一级缓存，而内存是64-bit LPDDR3/DDR3L，最大容量翻番至8GB，因为支持了40位物理寻址。

A15版本的Tegra K1已经在2013年底投产，将在本季度内提供给厂商，上半年应该就能看到实际产品出炉，不过有了Tegra 4的前车之鉴，厂商们肯定会更谨慎。

【CPU选择之二：64位丹佛】

整整三年前的CES上，NVIDIA宣布正在自主开发ARM指令集微架构，代号“丹佛工程”，不过当时定位的是PC、服务器，并没有提及移动端，可能那个时候大家还没有想到智能手机、平板机会发展得这么猛。

Tegra K1将在今年下半年迎来新版本，集成两个丹佛核心，工艺可能仍是28nm HPM，而且两个版本针脚兼容，因此内存接口也不会变。

丹佛版Tegra K1将不再有节能核心，只有两个更大的主核心。现在大家都在追逐更多核心，NVIDIA一下子返回双核，会不会让诸多小白感到“愤慨”？

NVIDIA宣称丹佛架构是七发射的，看起来很宽，但这只是处理器的内部指令格式，现在还不清楚哪些指令能够并发，这是很关键的。

丹佛的一级指令缓存是128KB，一级数据缓存是64KB，这种非对称设计在消费级领域并不常见，可能和架构设计特点有关。

28nm工艺加上七发射，丹佛版Tegra K1的主频仍然能够高达2.5GHz，这是挺不可思议的，不知道功耗控制会如何。

丹佛版Tegra K1的设计几周前刚刚从工厂里返回，现在已经可以运行安卓4.4了，进展顺利，不过还得等半年多才能看到它。

【GPU：牛X的开普勒】

此前四代Tegra使用的图形核心都叫做GeForce ULP，是基于古老NV40架构而来的，非统一渲染，技术特性也很差，尤其是不支持OpenGL ES 2.0，好在性能还算不错。

Tegra K1上，NVIDIA发狠首次借鉴了桌面级GPU，这在整个行业也是头一遭，而且看上去Tegra未来会一直这么做，比如下代架构麦克斯韦就也会很快进入Tegra。

Tegra、GeForce的开普勒在架构上是差不多的，拥有同样大小的寄存器文件、共享的一级缓存，100％ ISA(指令集架构)兼容，这说明开普勒的设计本身就很高明，直接就能拿过来用到移动端。

当然规模小多了，只有一个阵列、192个流处理器(不过叫192核心芯片就太二了)，而桌面和笔记本上至少两个阵列、384个流处理器。我们看看笔记本上的GeForce 740M，功耗大约19W，其中包括3W左右的内存IO、PCI-E和其它非GPU模块，如果能再去掉6W的漏电，那就只剩下10W。

两个阵列变成一个，功耗再降一半来到5W，而频率和电压再控制一下(核心频率应该是950MHz)，2-3W是非常有可能的。NVIDIA宣称的则是GPU部分低于2W。

曲面细分、几何引擎都没有删减。FP64支持也在，相当于FP32 1/24。纹理单元8个，ROP单元4个，只有PC版的四分之一。

DirectX 11、OpenGL 4.4、OpenGL ES 3.0、CUDA 6.0，这些在桌面上有的，Tegra里一个不缺，号称有史以来最先进的移动GPU并不为过，还添加支持了自适应可伸缩纹理压缩(ATSC)。

192个流处理器×2GFlops浮点性能每核心×950MHz核心频率，Tegra K1的原始性能达到了365GFlops，远远超过Xbox 360、PS3，同时在纹理过滤、内存带宽上也都明显胜出。单从指标上看，Tegra K1已经超越了上代游戏机。

或许是吃了Tegra 4高功耗的亏，NVIDIA这次非常注重能效，包括电路/电源/多层时钟栅极、互连和数据路径优化、空闲/轻负载/高负载管理、二级缓存与压缩、后端处理等等。

桌面上的开普勒拥有众多计算单元和模块，彼此高效互连非常重要，而移动版规模大大缩减，这方面的压力也就轻了很多。

NVIDIA还提出，开普勒的色彩压缩技术可以有效降低内存带宽占用，而且不仅仅是3D游戏里，UI界面渲染同样如此，可节省43-76％。

NVIDIA宣扬的另外一个数据是，在GFXBench 3.0 Manhattan OpenGL ES 3.0测试中，Tegra K1的能效是骁龙800、苹果A7的1.5倍。

【图像信号处理(ISP)、视频】

ISP掌管着处理静态图片、动态视频的图像流水线，负责任务包括RGB转换、3A(自动对焦/自动曝光/自动白平衡)、降噪、镜头纠正等等。

Tegra K1也使用了两个ISP，占用面积更大，可以很好地支持双摄像头拍照等应用。

Tegra K1 ISP是第三代产品了，每个都能以14位输入每秒处理6亿像素，两个合并就是12亿像素了，相比之下Tegra 4 4亿像素、10位输入就太弱了。

它还最高支持1亿像素摄像头，最多4096个对焦点(64×64阵列)，降噪、局部调和映射也都更好了。

Tegra K1兼容此前的Chimera 1.0，包括物体追踪、始终开启HDR、慢动作捕捉、全分辨率爆发等，并且带来了新的Chimera 2.0，支持更好的临时像素组合(temporal pixel binning/综合CMOS的八个曝光点来进一步降噪)、更快的全景拍照、视频稳定、更好的实时特效预览。

它的内核仍然可以运行在CPU、GPU上，但这次应该会支持CUDA了。

视频方面，继续支持2160p30 4K编码、解码，具体来说就是H.264 High Profile Level 5.1解码、H.264 High Profile 4.2编码，整体来收和Tegra 4上差不多，只是进一步优化了效率和功耗。

H.265解码也是支持的，但没有完整的硬件加速，而是交给NVENC、CPU共同处理。

NVIDIA展示了使用Tegra K1外接显示器播放4K 30FPS H.264视频，完全没有掉帧，不过事实上Tegra 4也能做到这一点，都可以通过LVDS、HDMI 1.4b、eDP 1.4来驱动4K显示器。

输入输出方面有两个USB 3.0、三个USB 2.0、eMMC 4.5.1、PCI-E x4。

哦对了，NVIDIA目前演示用的主要是一台更换了Tegra K1处理器的Tegra Note 7，另有4GB内存、1920×1200分辨率，比现在的高级很多。看起来自家平板还会继续坚持做下去。