Tegra K1架构详解:英伟达野心勃勃

发布时间:2014-01-9 阅读量:9320 来源: 发布人:

【导读】Tegra 2是首款双核心安卓处理器,Tegra 3第一个做到了四核,Tegra 4则第一次带来了四核A15。经过四代产品的铺垫,NVIDIA在移动领域积累了大量经验和教训,再次吹响了前进的号角——Tegra K1。本文带你详解K1架构,一窥NVIDIA的勃勃野心。

这一次,NVIDIA首次在同一个名字下提供了两种不同的版本,其一是传统的4+1核心A15,其二是自主设计的双核ARMv8 64位架构(丹佛工程),并且都集成了开普勒架构的GPU图形核心,抛弃之前陈旧的NV4x而首次追上了桌面显卡的步伐。

这一次,NVIDIA更加野心勃勃。


【CPU选择之一:四核A15】


Tegra K1的这个版本和Tegra 4很相像,也是四个高性能A15核心、一个省电专用A15核心,但仍然有多出明显改进:

1、晶体管布局。这个是对半导体厂商设计能力的最大考验,也是决定芯片表现的关键。NVIDIA自称汲取了Tegra 4上的经验。

2、28nm HPM制造工艺。Tegra 4使用的是台积电28nm HPL,最高只能跑到1.9GHz,而且经常需要为了控制功耗而不得不降频,而更高级的新工艺技术大大降低了动态功耗。

3、A15 R3核心。Tegra 4的核心是A15 r2p1版本,现在升级到了r3p3版本,而伴随每次修订,都会有大量Bug修复和时不时的性能提升。r3系列版本中,ARM增加了更精细的时钟栅极,直接提高了能效。

综上,Tegra K1的最高频率来到了2.3GHz,而且可以在四个核心全部开启的情况下跑出这个频率,仅此带来的性能提升就可以超过20%。

第五个节能核心的频率最高1GHz,不过大部分时候会徘徊在500MHz左右。

NVIDIA宣称,在同样的功耗下,Tegra K1的性能可以提升40%,而在同样的频率下,Tegra K1的功耗能够节省55%。


缓存没有动,还是2MB二级缓存、32+32KB一级缓存,而内存是64-bit LPDDR3/DDR3L,最大容量翻番至8GB,因为支持了40位物理寻址。

A15版本的Tegra K1已经在2013年底投产,将在本季度内提供给厂商,上半年应该就能看到实际产品出炉,不过有了Tegra 4的前车之鉴,厂商们肯定会更谨慎。

 

【CPU选择之二:64位丹佛】

整整三年前的CES上,NVIDIA宣布正在自主开发ARM指令集微架构,代号“丹佛工程”,不过当时定位的是PC、服务器,并没有提及移动端,可能那个时候大家还没有想到智能手机、平板机会发展得这么猛。

Tegra K1将在今年下半年迎来新版本,集成两个丹佛核心,工艺可能仍是28nm HPM,而且两个版本针脚兼容,因此内存接口也不会变。


丹佛版Tegra K1将不再有节能核心,只有两个更大的主核心。现在大家都在追逐更多核心,NVIDIA一下子返回双核,会不会让诸多小白感到“愤慨”?

NVIDIA宣称丹佛架构是七发射的,看起来很宽,但这只是处理器的内部指令格式,现在还不清楚哪些指令能够并发,这是很关键的。


丹佛的一级指令缓存是128KB,一级数据缓存是64KB,这种非对称设计在消费级领域并不常见,可能和架构设计特点有关。

28nm工艺加上七发射,丹佛版Tegra K1的主频仍然能够高达2.5GHz,这是挺不可思议的,不知道功耗控制会如何。

丹佛版Tegra K1的设计几周前刚刚从工厂里返回,现在已经可以运行安卓4.4了,进展顺利,不过还得等半年多才能看到它。


 
 

【GPU:牛X的开普勒】

此前四代Tegra使用的图形核心都叫做GeForce ULP,是基于古老NV40架构而来的,非统一渲染,技术特性也很差,尤其是不支持OpenGL ES 2.0,好在性能还算不错。

Tegra K1上,NVIDIA发狠首次借鉴了桌面级GPU,这在整个行业也是头一遭,而且看上去Tegra未来会一直这么做,比如下代架构麦克斯韦就也会很快进入Tegra。


Tegra、GeForce的开普勒在架构上是差不多的,拥有同样大小的寄存器文件、共享的一级缓存,100% ISA(指令集架构)兼容,这说明开普勒的设计本身就很高明,直接就能拿过来用到移动端。

当然规模小多了,只有一个阵列、192个流处理器(不过叫192核心芯片就太二了),而桌面和笔记本上至少两个阵列、384个流处理器。我们看看笔记本上的GeForce 740M,功耗大约19W,其中包括3W左右的内存IO、PCI-E和其它非GPU模块,如果能再去掉6W的漏电,那就只剩下10W。

两个阵列变成一个,功耗再降一半来到5W,而频率和电压再控制一下(核心频率应该是950MHz),2-3W是非常有可能的。NVIDIA宣称的则是GPU部分低于2W。

曲面细分、几何引擎都没有删减。FP64支持也在,相当于FP32 1/24。纹理单元8个,ROP单元4个,只有PC版的四分之一。



DirectX 11、OpenGL 4.4、OpenGL ES 3.0、CUDA 6.0,这些在桌面上有的,Tegra里一个不缺,号称有史以来最先进的移动GPU并不为过,还添加支持了自适应可伸缩纹理压缩(ATSC)。


192个流处理器×2GFlops浮点性能每核心×950MHz核心频率,Tegra K1的原始性能达到了365GFlops,远远超过Xbox 360、PS3,同时在纹理过滤、内存带宽上也都明显胜出。单从指标上看,Tegra K1已经超越了上代游戏机。


 
或许是吃了Tegra 4高功耗的亏,NVIDIA这次非常注重能效,包括电路/电源/多层时钟栅极、互连和数据路径优化、空闲/轻负载/高负载管理、二级缓存与压缩、后端处理等等。

桌面上的开普勒拥有众多计算单元和模块,彼此高效互连非常重要,而移动版规模大大缩减,这方面的压力也就轻了很多。


NVIDIA还提出,开普勒的色彩压缩技术可以有效降低内存带宽占用,而且不仅仅是3D游戏里,UI界面渲染同样如此,可节省43-76%。


NVIDIA宣扬的另外一个数据是,在GFXBench 3.0 Manhattan OpenGL ES 3.0测试中,Tegra K1的能效是骁龙800、苹果A7的1.5倍。


 
 

【图像信号处理(ISP)、视频】

ISP掌管着处理静态图片、动态视频的图像流水线,负责任务包括RGB转换、3A(自动对焦/自动曝光/自动白平衡)、降噪、镜头纠正等等。

Tegra K1也使用了两个ISP,占用面积更大,可以很好地支持双摄像头拍照等应用。

Tegra K1 ISP是第三代产品了,每个都能以14位输入每秒处理6亿像素,两个合并就是12亿像素了,相比之下Tegra 4 4亿像素、10位输入就太弱了。

它还最高支持1亿像素摄像头,最多4096个对焦点(64×64阵列),降噪、局部调和映射也都更好了。



Tegra K1兼容此前的Chimera 1.0,包括物体追踪、始终开启HDR、慢动作捕捉、全分辨率爆发等,并且带来了新的Chimera 2.0,支持更好的临时像素组合(temporal pixel binning/综合CMOS的八个曝光点来进一步降噪)、更快的全景拍照、视频稳定、更好的实时特效预览。

它的内核仍然可以运行在CPU、GPU上,但这次应该会支持CUDA了。


视频方面,继续支持2160p30 4K编码、解码,具体来说就是H.264 High Profile Level 5.1解码、H.264 High Profile 4.2编码,整体来收和Tegra 4上差不多,只是进一步优化了效率和功耗。

H.265解码也是支持的,但没有完整的硬件加速,而是交给NVENC、CPU共同处理。

NVIDIA展示了使用Tegra K1外接显示器播放4K 30FPS H.264视频,完全没有掉帧,不过事实上Tegra 4也能做到这一点,都可以通过LVDS、HDMI 1.4b、eDP 1.4来驱动4K显示器。

输入输出方面有两个USB 3.0、三个USB 2.0、eMMC 4.5.1、PCI-E x4。

哦对了,NVIDIA目前演示用的主要是一台更换了Tegra K1处理器的Tegra Note 7,另有4GB内存、1920×1200分辨率,比现在的高级很多。看起来自家平板还会继续坚持做下去。

相关资讯
算力、智能与控制的融合:英特尔4U工控机、RK3568主板、HPM伺服板的全面对比

在现代工业自动化向智能化、网络化、柔性化加速演进的大背景下,高性能、高可靠、特定场景优化的核心硬件设备构成了系统的“大脑”、“眼睛”和“四肢”。英特尔4U工控机(IPC-615H5)、RK3568高性能监控主板和HPM6400/6300伺服电机控制板分别代表了通用工业计算平台、边缘AI视觉处理平台和高精度运动控制平台的最典型形态。它们在各自的领域拥有独特优势,共同支撑起复杂的工业控制闭环。本文旨在对这三款核心产品进行全方位对比分析,剖析其技术特点、优劣势、应用场景及市场前景,为工业自动化方案选型提供专业参考。

应对AI算力激增:安森美推出全链路数据中心电源解决方案与指南

人工智能技术,特别是生成式AI和大规模机器学习模型的迅猛发展,对全球数据中心的基础设施提出了前所未有的高要求。海量数据的实时处理与复杂模型训练,导致数据中心计算负载激增,随之而来的功耗攀升已成为产业亟待解决的核心瓶颈。这不仅推高了运营成本,也对电网承载能力和可持续发展目标构成严峻挑战。如何在高性能计算需求持续增长的同时,有效控制并降低能源消耗,成为AI数据中心建设与升级的关键命题。

中日芯片巨头强强联手 芯驰X9SP+罗姆PMIC打造智能座舱新方案

2025年6月25日,全球半导体巨头日本罗姆与中国车规芯片领军企业芯驰科技在上海联合宣布,推出面向智能座舱的参考设计"REF68003"。该方案以芯驰科技旗舰级座舱SoC X9SP为核心,集成罗姆多款高安全等级PMIC电源芯片,已在2025上海车展公开展示。

革新视听!三星2025智能显示器携高端OLED M9与全能AI震撼登场

2025年6月25日,三星电子正式发布三款智能显示器新品——M9(32英寸)、M8(32英寸)及M7(32/43英寸双版本)。该系列首次搭载OLED面板与模块化L型支架,通过AI算法重构人机交互逻辑,标志着智能显示技术进入场景自适应新阶段。

LG Innotek CoF技术挺进iPad OLED供应链 6月迎关键认证

随着苹果持续深化OLED面板在平板电脑领域的应用,其供应链体系正迎来新一轮调整。据产业链权威消息,韩国电子组件制造商LG Innotek正积极推进其覆晶薄膜(Chip on Film, CoF)封装技术进入苹果新一代iPad OLED面板供应链体系。该技术是实现显示驱动芯片与面板电气连接的关键封装方案。