Jacinto™7处理器设备和子系统概述 – 上
本文概述TI下一代汽车处理器系列的主要架构特征和优势。
这张幻灯片列出了Jacinto 7 SoC的不同方面,我将在后续章节中介绍这些内容。这里讨论的特性一般适用于Jacinto 7系列中的所有派生处理器。但是,请参考特定的处理器数据手册,以了解哪些功能适用于您的设备。
Jacinto 7处理器提供了非常高水平的应用程序和计算性能,同时还提供了一套广泛的集成系统和外设,这是汽车应用程序的关键。Jacinto 7处理器建立在16 FinFET工艺技术的基础上,这提供了一个最适合汽车所需质量水平的成熟平台,同时也实现了性能与功率的良好平衡,这对汽车热环境至关重要。
除了传统的处理核心,这些设备还包括多种不同的硬件加速器,特别是在成像、网络和深度学习领域,可以显著提高整体系统性能,并降低系统成本。该架构是从下至上设计的,以实现高性能一致的数据和资源共享,同时解决关键的安全和安全需求。这些目标通常是相互对立的,因此这些特性必须是体系结构的一部分。
其中一个关键特点是包含了一个集成的安全微控制器单元,或称安全MCU,它有效地充当一个芯片中的一个芯片。这使得消除外部MCU的需求成为可能,同时仍然满足安全目标和管理系统电源限制。这减少了系统成本,并为系统内的数据共享提供了更大的灵活性。
jacinto7平台利用一个通用的体系结构和一系列衍生产品的外围设备,为系统硬件和软件提供了可扩展性。这允许在整个家族中轻松地移植和重用软件,从而在最大化软件投资的同时,在一系列的应用程序空间中完全跨越需求。后续章节将引用Jacinto 7 SoC平台上可用的特性的超集。要看特性是否适用于特定的工艺或零件号,请参考TI.com上相应的设备数据手册。
Jacinto 7处理器提供了异构处理核心的混合。异构处理方法的基本优点是为适当的任务或工作负载使用适当的核心。在给定的功率和热预算下,这将导致整体更高的系统性能,并允许根据任务灵活地使用适当和/或可用的软件。
在本节中,我将简要概述SoC上可用的每个处理核心,包括设备主域中可用的MPU、DSP和GPU核心,以及设备主域和安全MCU域中可用的MCU核心。Jacinto 7上可用的处理核心包括微处理单元,这是一个dual Arm Cortex A72集群,运行频率高达two gigahertz,并且与共享的L3系统缓存一致缓存。微控制器单元由主域上的两个Arm Cortex R5F双集群和安全MCU域中的一个R5F双集群组成。每一对处理器可以以步调一致的模式运行,也可以作为独立的cpu以分割模式运行,频率最高可达one gigahertz。
Jacinto 7上可用的数字信号处理器包括TI下一代C71x核心,这是一个64位双路径CPU,支持64位标量运算和512位矢量运算,根据执行的算法,其性能是上一代TI DSP的30倍。C71x包括一个强大的数学乘法加速器(MMA),它提供高度并行的深度学习指令。C71x和MMA也与共享的L3系统缓存一致。
多达两个TI C66x DSP核心也可运行高达1.3 gigahertz,并支持重用从以前的TI SoC平台优化的DSP代码。最后,Jacinto 7包含了一个图形处理单元,这是一个来自Imagination Technologies的PowerVR 8XE系列GPU,支持大约100 g flops和多种硬件虚拟化和安全特性,这在汽车领域非常有用。
Jacinto 7处理器提供了一组独特的应用程序专用硬件加速器。尽管在软件中高度可配置,但与在软处理器上实现相同的功能相比,这些基于硬件的加速器为关键系统功能提供了更高的有效性能。它们还提供了从主处理器中卸载任务的好处,并以更低的功耗和热预算实现更高的系统性能,从而也降低了系统成本。
适用于汽车应用的几个关键硬件加速器包括捕获、视觉和深度学习加速、显示子系统和视频加速器。捕获和视觉系统包括12个CSI到摄像机输入通道、视觉预处理加速器(VPAC)和深度和运动感知加速器(DMPAC)。总之,这个信号链实现了一个非常灵活和高质量的成像管,一个高分辨率立体深度引擎,和一个独特的密集光流引擎。
该视觉系统利用了TI在先进驾驶辅助系统(ADAS系统)上超过10年的经验,实现了一个视觉处理链,该视觉处理链专门用于提高基于CNN的深度学习视觉系统的有效性能。MMA实现的深度学习加速设计了一个分层内存系统,以优化外部内存吞吐量和最小化所需的外部DDR设备数量。这降低了系统成本和功率,而这是汽车热环境的关键。
在显示方面,Jacinto 7显示子系统提供多个输出协议,包括MIPI DSI和嵌入式显示端口,还实现隔离和安全功能,允许具有混合临界级别的共享屏幕区域。最后,SoC包括视频编码器和解码器,支持多种格式的多流,还包括安全回放的隔离功能。
Jacinto 7处理器实现了设备配置和管理的分层方法。一个被称为设备管理和安全控制器(DMSC)的小型微控制器负责Jacinto 7 SoC的所有安全配置和大部分公共资源配置。对Jacinto 7处理器的整体系统性能至关重要的是内存架构和跨SoC的数据移动。保持数据流到所有不同的核是很重要的,这样它们的大部分时间就会花在处理上而不会停止。
Jacinto 7支持多级内存系统,包括适用于大多数主要cpu的L1和L2缓存,但也提供了一个大型共享三级系统缓存,它是缓存一致的,可以作为RAM或缓存提供给不同的内核。缓存一致性是由多核共享内存控制器(MSMC)提供的。MSMC还提供访问外部DDR存储器,支持DDR3733速率的LPDDR4和LPDDR4x协议,包括内联ECC,在安全系统中最大限度地降低系统成本。
利用多个DMA引擎向不同的内核提供数据。MCU安全域包括自己的DMA,以保持与主域的独立性。最后,所有的核心和外设通过高性能的分层总线结构访问内存,支持灵活的仲裁和服务质量特性,以确保实时性,并能够高效地访问设备上的虚拟化翻译服务。
Jacinto 7处理器是为汽车安全而设计的。除了前面提到的安全MCU领域外,在主域中还提供了额外的硬件、诊断和监控功能。事实上,SoC架构是从下至上设计的,并考虑到安全性。因此,这些与安全相关的功能渗透到整个体系结构中。
Jacinto7在整个设备中包含了多种功能,这有助于系统设计以确保汽车安全。安全MCU提供了一个独立的系统,可以独立于主域的状态运行ASL-D级任务。电压、时钟和复位隔离,以及包括一整套外设和本地DMA的实现。
域之间的数据共享用超时gaskets保护,这样主域的损坏就不会导致安全MCU域的挂起。在安全域内的MCU R5还可以从具有内联ECC的外部flash执行,并在硬件上进行实时认证,这允许大量扩展MCU代码空间,同时保持安全和安全性。
许多诊断和自底向上的安全功能包括在主和安全MCU领域。这些包括电压、温度和时钟监控,用于CRC计算的专用dma,以及许多IPs的内置硬件自检,包括安全MCU的开机时自检。ECC在所有关键存储器上实现。所有的CPU内核都包含有窗口的看门狗。此列表只是Jacinto 7 SoC上可用的全部安全特性的子集。许多外设和加速器也包括相关的隔离和安全功能。
Jacinto 7处理器实现了多种硬件特性来促进虚拟化,这是实现软件任务之间隔离的一种流行方法。虚拟化硬件包括集中的地址管理,以及嵌入在IPs中的特定隔离特性,如PCIE、GPU和显示子系统。尽管其中一些特性是集中的,但几乎设备上的所有核心和IP都可以直接或通过DMA利用虚拟化数据空间。
Jacinto 7上的主要核心实现内存管理单元(或mmu),有两个阶段,这有助于多个OS实例的虚拟化。SoC还支持IOMMUs,它允许IO外设以最小的管理程序交互实现更高的性能虚拟化。该SoC不仅支持标准的Arm V3系统MMU,允许标准的软件使用,而且允许TI IOMMU的并发使用,允许更确定的地址转换,以虚拟化实时外设,如显示和捕获。
除了这些特性之外,一些主要的外围设备和核心还具有本地虚拟化特性和硬件。这包括在PCIE上的标准SRIOV支持,DSS资源隔离,以及GPU内的嵌入式资源管理器,以支持多种具有混合临界性的虚拟化驱动程序,同时避免阻塞关键的渲染任务。
jacinto7处理器集成了许多围绕安全性的关键功能。从充当独立安全主机的DMSC到主MCU域和安全MCU域中的硬件加密引擎,再到跨设备的各种IP上的多个嵌入式安全功能,最后是跨设备的内存和外围设备的完整端点防火墙保护,安全性确实是整个SoC架构的一个组成部分。随着汽车系统的连接越来越紧密,安全性要求越来越高,安全性在汽车应用领域比以往任何时候都更为重要。
这张幻灯片提供了Jacinto 7设备上可用的一些与安全相关的特性的简短摘要列表。在汽车应用中,电源管理至关重要,以保持在系统的热保护层内。Jacinto 7实现了多种特性和策略来静态和动态地控制功耗。
DMSC为设备的各种电源模式提供中央控制。然而,从时钟选通到电源域和热监视器,控制电源的相关功能真正渗透到整个设备架构中。这张幻灯片提供了Jacinto 7设备上一些与电源管理相关的特性的简短摘要列表。
Jacinto 7处理器实现了一组丰富的网络子系统和外设,它们对于汽车网关系统和高性能芯片间数据和消息共享很有价值。这些子系统包括以太网交换机、PCIE控制器、CAN FD控制器、USB和Media-LB控制器。主域以太网交换机最多提供8个one gigabit端口,支持多种协议。安全MCU上还有一个单独的开关,提供一个单一的one gigabit端口。
主交换机包括以全线路速率进行分类和流量整形的硬件支持,以及复位隔离,使得即使在主域经历热复位时,分组转发也能工作。这些特性可以有效地取代外部交换机,从而降低系统成本。
Jacinto 7支持多达四个具有可配置宽度的PCIE链路,每个链路都支持独立的路由复合模式或端点模式。SRIOV虚拟化支持和端口到端口直接数据传输允许SoC上的PCIE控制器充当交换机,通过消除对昂贵的外部PCIE交换机的需求来优化系统成本。
根据设备的不同,最多可提供16个或更多CAN-FD接口。其中两个位于安全MCU域。两个USB控制器支持高达USB3.0速率的主机或功能模式,还支持一个嵌入式交换机,以提供C型连接器反转而不产生外部交换机成本。最后,还包括一个媒体LB接口,用于连接到外部MOST控制器,支持高达MOST150的速率。
Jacinto 7处理器提供了广泛的存储选项,从八进制或hyperbus接口的NOR flash到大型管理NAND选项,包括EMMC和UFS或PCIE上的固态选项。主域包括一个8位EMFC控制器和多达两个用于可移动存储的4位SD接口。它还包括一个可选的嵌入式加密的UFS 2.1通用闪存接口。
PCIE接口还可以在路由复杂模式下用于访问固态存储设备。还提供了一种通用存储器控制器,用于支持原始NAND或具有有限寻址的通用并行接口。安全MCU域包括多个flash控制器接口。控制器允许支持不同供应商提供的多种闪存,包括Micron Xcella 8位闪存和Cyprus hyperbus 8位闪存,这两种闪存的线性读取速度都高达每秒333兆字节。如前所述,可以使用可选的内联ECC和身份验证访问这些闪存,允许从安全MCU R5就地执行,同时保持安全和安全性。
Jacinto 7处理器提供了大量串行端口,用于与各种外部外围设备通信。这些包括多个UART spi, I2C,以及主域和安全MCU域上兼容的I3C端口以及主域上的多通道音频串行端口。这些接口中的大多数也是多路复用的,在每个域中都有通用的IO。
Jacinto 7处理器提供了异构处理核心的混合。异构处理方法的基本优点是为适当的任务或工作负载使用适当的核心。在给定的功率和热预算下,这将导致整体更高的系统性能,并允许根据任务灵活地使用适当和/或可用的软件。
在本节中,我将简要概述SOC上可用的每个处理核心,包括设备主域中可用的MPU、DSP和GPU核心,以及设备主域和安全MCU域中可用的MCU核心。主微处理器,微处理器单元,在Jacinto 7 SoC上是ARM Cortex-A72。这种与ARMv8-A兼容的64位内核将是在Linux等高级操作系统上运行应用程序软件的主要选择。
A72被组织为一个双核对称多处理(SMP)集群,具有一个共享的二级缓存。CPU频率可动态变化,最高可达2 gigahertz,以帮助在应用程序中有限的操作期间控制电源。在L1和L2缓存存储器上实现了纠错、检测和奇偶校验,以保证鲁棒性和安全性。
内存管理单元支持对SLC内存空间的虚拟化访问,并方便在A72内核上运行多个虚拟机。TI内存控制器体系结构提供了一个L3缓存,可以被A72 cpu访问。L3访问是CPU 缓存一致性的,它允许与SoC上的其他异构内核共享高性能数据,而不需要在A72上进行手动缓存操作。
Jacinto 7 SoC上的主MCU或微控制器单元是ARM Cortex-R5F。这种支持向量浮点的ARMv7-R兼容内核将是在AUTOSAR等实时操作系统上运行安全和控制相关软件的主要选择。MCU被组织在双集群中,可以在分裂模式下独立运行,也可以在锁步模式下成对运行,其中第二个核心严格充当检查器,以验证主核心上不存在故障。
这对于安全系统实现ASIL D级系统任务至关重要。一个MCU集群位于独立的安全MCU域中,而最多两个集群位于SoC的主域中。所有存储器都支持纠错和检测,以确保安全性。
内存保护单元和区域地址转换程序允许控制和扩展R5安全访问到设备的全部内存空间,尽管它是32位本机处理器。R5 cpu可以从内部或DDR内存中执行,也可以从带有内联错误纠正和内联安全身份验证的外部闪存中直接执行(XIP)。这些独特的特性提供了对R5代码空间的大规模扩展,同时仍然保持了安全性。
jacinto7soc的特点是C71x,它是TI数字信号处理器(DSP)的下一代核心。C71x DSP实现了一个1GHz双数据路径CPU,它既能进行64位标量处理,也能进行512位矢量处理。这使得处理能力非常灵活,根据执行的具体算法,其性能是先前C66x代TI DSP的4到30倍。
C71x指令集包含增强功能、特定的除法处理,并有助于有效支持OpenVX进行机器视觉计算。紧密耦合的矩阵乘法加速器(MMA)支持作为C71x指令集扩展的深度学习功能。有效地实现如此高性能的一个关键是多级缓存系统。一级缓存通过双512位流引擎从二级缓存非常高效地馈送,以1GHz的频率同步运行到CPU。
C71x DSP还与A72 MPU内核保持高速缓存一致,这使得内核之间能够高效地共享数据,而无需手动高速缓存操作。此外,由于兼容ARM的MMU,C71x DSP可以访问A72高级操作系统管理的虚拟化内存空间。Jacinto 7 SoC还包括上一代TI数字信号处理核心C66x DSP的最多两个实例。包含这些核心使得用户可以直接重用上一代TI soc中高度优化的代码,如成熟的视觉算法、音频处理算法或数字无线电代码。
然而,核心的Jacinto 7配置可以运行到1.3GHz,并且还可以在缓存和内存系统上进行额外的纠错和检测。这些功能并不是所有以前的TI汽车处理器都具备的。它还提供了一个区域地址转换器,它允许扩展C66x DSP访问到设备的全部内存空间,尽管是32位本地处理器。
Jacinto 7 SoC上的图形处理器GPU基于Imagination Technologies的8XE系列PowerVR内核。最初的设备衍生产品将支持GE8430内核,它支持大约100 GFLOPS和每秒6 gigapixels填充率。请注意,gflop依赖于精确的应用场景,因此GPU的最佳比较度量性能是标准基准,TI将单独提供这些基准。
GPU支持行业标准的OpenGL ES库,促进了标准图形代码的使用。GPU实现帧缓冲区压缩和解压缩硬件,与显示子系统的解压缩一起工作,以最小化系统中的DDR内存带宽。GPU还拥有独立的微处理器内核,负责统一着色集群等硬件资源的管理和调度。
这种硬件资源管理通过隔离和时间复用资源所有权来促进安全性和虚拟化。资源管理器还允许抢占较低优先级的呈现任务,从而提高服务质量。这些功能非常适用于屏幕的特定区域可能由具有不同安全性和安全性要求的独立软件实体拥有的汽车系统。例如,某些区域可能包含安全内容,或者其他区域可能具有更高的临界级别,例如警告消息或图形指示器。
Jacinto 7处理器提供了一组独特的特定于应用程序的硬件加速器。尽管在软件中高度可配置,但与在软处理器上实现相同的功能相比,这些基于硬件的加速器为关键系统功能提供了更高的有效性能。它们还提供了从主处理器中卸载任务的好处,并以更低的功耗和热预算实现更高的系统性能,从而也降低了系统成本。
在本节中,简要介绍关键的硬件加速器,包括捕获、视觉和成像加速器、深度学习加速器以及显示和视频加速器。该体系结构中支持的其他相关加速器包括音频和无线电、安全性和以太网交换。
TI利用了在先进驾驶辅助系统(ADAS)和图像信号处理方面超过10年的经验,创建了一个高度优化的硬件图像处理链,以加速视觉和成像,这也可以用于改进基于卷积神经网络(CNN)的深度学习算法。
该链从两个MIPI标准的CSI-2接口开始,每个接口支持最多4个数据通道,使用CSI虚拟通道支持多流。有两个主要的处理模块,视觉处理加速器(vision processing accelerator,简称VPAC)和深度和运动加速器(depth and motion accelerator,简称DMPAC)。
VPAC模块实现了一个视觉调谐图像信号处理器,该处理器实现了一个行业首创的、完全灵活的原始模式处理器,用于专门为视觉处理调谐信号流,并且可以消除对昂贵的定制FPGA或外部ISP芯片的需要。在视觉系统中,镜头畸变校正、边缘滤波和感兴趣区域(ROI)或层创建都可以减少DSP负载、降低功耗和提高系统整体性能。
DMPAC模块实现了高性能的最佳算法,包括高分辨率立体视差和独特的密集光流算法,跟踪许多点,而不是传统系统中使用的稀疏流。这些特征可以高度增强CNN和深度学习系统的性能,也可以增强多模式系统,包括其他传感器类型,如激光雷达或雷达。总的来说,这些成像特性提高了ADAS系统的质量,并通过消除外部芯片和卸载任务来提高可用的DSP MIPS,从而提供了降低系统成本和功耗的选项。
正如前面提到的C71x DSP部分,另一个非常关键的硬件加速器是矩阵乘法加速器(MMA)。MMA的架构是为了优化深度学习的数据流管理,同时最小化功耗和外部存储设备。
MMA作为C71x指令集的扩展进行访问,并利用与C71x相同的高度并行的数据路径。这个流引擎是一个六维数据移动引擎,它能够使MMA不断地从L2存储器提供数据。
多核共享内存控制器(MSMC)具有本地DMA,可以将数据从L3内存分页到L2内存,并将数据从DDR内存分页到L3内存。这种基于片的处理方法允许充分有效地利用MMA,同时最小化外部DDR带宽和所需外部DDR设备的数量。结果是,在实际执行深度学习任务时,每个top(或每秒Tera操作)的有效性能要高得多,从这个基准比较可以看出,Jacinto 7处理器在使用更少的top和更少的内存带宽的情况下实现了更高的帧速率。TI深度学习(TI DL)软件框架实现了这种数据流管理技术,因此软件用户可以很容易地获得这种性能。
总的来说,TI深度学习解决方案针对现代网络(如MobileNet、ResNet和ShuffleNet)中的实际性能进行了优化,而不是仅仅基于意义不大的TOPS评分。它针对汽车进行了优化,因为它的架构是从下至上的功能安全性。它以合理的DDR系统成本、电力和热预算为目标,以便在汽车环境中运行。
本文地址:https://blog.csdn.net/chocolate2018/article/details/112564415