热门关键词:凯旋门国际平台,凯旋门国际平台首页  
凯旋门国际平台首页-CortexA76没出生就已被它干掉——三星ExynosM3架构详解
2020-11-29 [50682]

凯旋门国际平台

凯旋门国际平台首页_在Exynos M1以来的多调度形式中,解码器接收到的微指令可以同时分配给多个调度器,但在流水线中,在Exynos M3的整数部追加了两个追加调度器,微命令发送能力在上一代两个附加端口之一是具有乘法功能的可选ALU单元,将MUL吞吐量提高一倍,并将非常简单的整数算术吞吐量提高25%。 另一个附加端口是阻抗AGU,可以使核心的阻抗比特率加倍。 暴力的浮点运算能力与上一代相比,Exynos M3的浮点运算能力可以说是暴力。 三星减少了第三条管线。

在非常简单的浮点能力中,乘法和算术吞吐量减少了三倍。 除了Exynos M1的FMAC FADD单元外,EXC FAC/FADD单元减少了三个,从仅次于吞吐量的3(1*FMAC(2) 1*FADD(1) )减少到了6 ()。

当然,由于继续执行吞吐量的急剧减少,需要扩展调度器窗口和物理寄存器页。 Exynos M3的调度器窗口尺寸从32减少到62,FP PRF尺寸也从96扩展到192。 三星依然想减少执行的延迟,但这也仅限于浮点流水线。

Exynos M3乘法单元的继续执行周期从4延长到3,乘法加法单元的继续执行周期也从5上升到4。 非常简单的浮点乘法持续执行周期从3延长到2,浮点乘法单元Radix-64升级,大大减少了乘法延迟。

BTW、Arm在Cortex A76发布时大力宣传其新的浮点流水线,以被称为其新的“VX (矢量继续执行)流水线”而自豪。 但是对于Exynos M3,三星可能在一年内再次领先Arm。 Exynos M3和Cortex A76具有完全相同的浮点延迟,但同时有更高的持续执行吞吐量和更低的ASIMD延迟。

新的读/存储器单元Exynos M3的读/存储器单元减少第二个128位读端口,使加载比特率加倍。 读出调用延迟在4个周期内维持恒定,存储器比特率在1个周期内1次存储器时只延迟1个周期。 Exynos M3的两个读取单元以与Cortex A76完全相同的128位/周期运行,Cortex A75为64位/周期。

通常,Exynos M3的读取/存储调度器容量已经减少,存储缓冲区减少了一倍。 这里,三星的预加载单元必须具有非常低的性能。 这是为了建立极限击中内存的目标,防止内存瓶颈。 后来三星提到了前面提到的新TLB层次。

Exynos M3享受与Exynos M1完全相同的32个条目的dtlb (DTLB ),但Exynos M3添加了具有512个条目容量的新中级DTLB。 ITLB (ITLB )和DTLB检索服务的集成L2 TLB容量也从上一代的1024项设置为4096项。 显然有丢失的高性能管线,但扩大体系结构的规模需要成本。

凯旋门国际平台首页

与Exynos M1的15段流水线相比,Exynos M3的流水线深度减少了2段,为17段,追加到辅助调度阶段和寄存器加载的第2阶段。 相比之下,Cortex A75和Cortex A76的管线深度为13个级别。

Exynos M3的分支预测错误的处罚也从Exynos M1上的14个周期减少到了16个周期。 Exynos M3和Exynos M1对Arm公开版架构的缺点是,其指部和解码单元比Arm公开版多两级,寄存器命名单元多一级,第二级调度阶段(必须再继续一级, 三星没有泄露Exynos M3在流水线的各个阶段之间是否有其他慢路径,但对此作出响应是设计大规模高性能架构的合适成本。

理论上更长的流水线级数不利于频率的提高(Intel为了使Cyrix4冲击高频,在NetBurst架构的Prescott核心中用于31段超长流水线)。 但是奇怪的是三星的17级流水线并没有给Exynos M3带来频率上的好处,反而在冲击高频时花费了很大的功耗成本。

这可能意味着三星在EDA的实力还没有提高。 新的内存层与Cortex A75和Cortex A76相同,Exynos M3引入了新的独霸L2内存作为核心和最终级共享内存的中间级。 新独霸L2每核心512KB,与Exynos M1上的共享L2相比,采访延迟从22个周期增加到12个周期。 但是,Cortex A75的L2命中延期只有8个周期,Exynos M3在这方面处于劣势。

Exynos M3的L2内存比特率也是每时钟周期读取32字节,Cortex A75是每时钟周期读取16字节/32字节的两倍。 值得注意的是,实际的延迟数据可能不会更高,因为实际的芯片不受物理布局的影响。 据估算,骄龙845的L2延期为2.8GHz约4.4ns,Exynos 9810为2.7GHz约4.6ns。 Exynos M3的共享L3内存是以NUCA (NNIFFOR MCCCCACCCCCACCEChearchitecture )方式构建的大型4MB内存,由位于CPU核心对面的4个1MB分区组成。

由于布局的不均匀分布,CPU核在采访内存分区时的延迟不同,采访相邻分区时的延迟为32个周期,采访更远的分区时的延迟为44个周期,三星为全Exynos M3在L3内存上也比Arm公版架构弱,Cortex A75的L3采访延迟只有25个周期,也反映在测量数据中:配偶845的L3采访延迟约为11.4ns,Exynos 9810。 三星在会议上解释说,该内存分区的设计目的是为高端移动设备以外的不同设计构建更好的部署性,除了语言以外的意思可能与S.LSI试图转移到汽车领域有关。 总体来说,三星否认最终产品的内存分层设计没有超过他们确实认为的水平。 硅芯片上的物理布局三星今年公布了芯片物理布局的数据,详细分析了处理器核心的平面图。

以下是图像中几个用语名词的最后解释: PL2 :独霸L2内存,在Exynos M3中每核心512KB。 fpb :浮点数据路径浮点单元/ASIMD单元。 frs :浮点调度器和浮点/矢量寄存器。 mc :解码单元和重命名单元。

凯旋门国际平台

dfx :这是调试/测试逻辑,代表“特定设计”,如DFD (调试设计)、DFT (测试设计)、DFM (生产效率设计)和其他逻辑。 ls :读出/存储器单元及64KB的L1高速数据存储器。 ixu :整数继续执行单元。

包括继续执行单元、调度程序和寄存器。 tbw :也包括半透明缓冲加载、TLB结构。 fe :体系结构前端。

还包括分支预测单元、指单元、64KB L1高速指令存储器。 与Exynos M1相比,Exynos M3中功能单元尺寸大幅增加,最终Exynos M3的内核功能模块面积为2.52mm,另外0.98mm的面积被用作512KB L2存储器。 Exynos M1核心布局Exynos M1核心布局Samsung还展示了Exynos M3集群整体的平面图,四个核心互相邻接排列,L2和L3也有序地互相邻接配置。

这个布局可以大幅度节约芯片布局的工作,把各个模块非常简单地复印4次就可以了。 在IPC平均值提高了59%的会议的最后,三星分析了Exynos M3的性能,据说IPC的增长幅度约为59%。

当然,在不同的动作阻抗中,IPC的快速增长不是直线的,在低ILP (同时执行多个命令)的动作阻抗中,IPC的快速增长仅为25%,以MLP (存储段)的动作阻抗为准三星展示了Exynos M2、Exynos M3和Cortex A75之间GeekBench4的性能比较,产生于代表Exynos 8895、Exynos 9810和配偶845的性能表现。 除了三星展示的比较数据,我们还添加了新的Spec分数,改进了第一个审查数据。 新的Spec分数考虑了动态电压频率调整和更综合的测试环境。

能效比仍然是处理器最重要的评价标准,但三星在Exynos M3中似乎省略了这些。 如上所述,Exynos M3在对高频施加冲击时会花费很大的功耗成本,在2.7GHz下享受有意义的性能,但此时的能量效率比Exynos M2高。 Exynos M3在频率减少到与Exynos M2完全相同的2.3GHz后,显示了有效性方面的优势。

右图显示了完成测试时的耗电量和平均耗电量,左边的条根据耗电量以j (焦耳)为单位,条越高耗电量越少,相应的平台效率越高。 右边的栏表示性能得分,栏越宽表示性能越强。 结果表明,Exynos M3享有非常明确的能效区间。 与Cortex A75相比,Exynos M3在2.3GHz以后可以享受更强的性能和同等的功耗比。

另一方面,与Exynos M2相比,Exynos M3即使在1.8GHz这样的低频率下,性能和能量效率之比也是压倒性地高于2.3GHz的满血Exynos M2。 (公众号:)根据理解,Exynos 9810中的Exynos M3集群在搭载单核、双核、四核的情况下,频率分别为2.7GHz、2.3GHz、1.8GHz,功耗都在3.5瓦左右。 换言之,M3芯在从1.8GHz到2.3GHz,提高500MHz的频率消耗功率后,从2.3GHz到2.7GHz,只有400MHz的提高,消耗功率再次从1.8GHz减少到2.7GHz,性能也是圆形直线实时提高的Exynos 9810的四核Exynos M3都以完全相同的电压和频率运行,在许多情况下,继续执行二级线程的内核不需要在与主线程核完全相同的最低性能点运行,但需要的性能是Cortex A55核开销三星未来的战略和结论最后,三星更好地讨论了Exynos项目的日程。

如开头说明所述,Exynos M3原定于2014年第2季度开始,但随着M1的完成,RTL在2015年第1季度再次进行了大的变更,目标被改编得更高,原来的Exynos M3被分解为Exynos M2,新的ETL RTL于2017年第1季度交付给SoC团队,作为Exynos 9810的第一批EVT0流程芯片(实际产量芯片为EVT1)于2017年中期离线,最后发布的Exynos 9810于2018年3月上市。 Exynos M3对三星设计团队来说是相当大的挑战,整个体系结构设计完全互换,面临极端的时间压力,必须在项目累计日前推出产品。

总的来说,Exynos M3是非常坚固的微体系结构,看起来像桌面级体系结构。 三星为了增强体系结构的性能,以最简单粗暴的方式扩大了规模,这也带来了很大的核心尺寸。 但是,在时间允许的情况下,三星可能仍然有很多未纳入Exynos M3的改进。 特别是内存层次可能是这个框架中最脆弱的部分。

凯旋门国际平台

三星否认他们的反应没有失望。 三星的咪咪架构经过Exynos M2和Exynos M3两代改良,IPC的增长率分别达到了20%和59%。

SARC设计团队目前每年都在进行体系结构改进,三星报告Arm Cortex A76的可靠竞争对手是明年的Exynos M4,而不是现在的Exynos M3。 几天前,Arm发布了未来三年的CPU路线图,介绍了Cortex A76的继承人Deimos和Hercules,承诺了约15%和10%的代际收益。

从当前的测试数据来看,Exynos M3在性能方面可能超过或最大于Cortex A76的水平。 在Exynos M4中,三星自研体系结构的竞争优势依然可见。 感谢三星至今仍在进行的架构曝光,这种详细的展示在业界是罕见的。 S.LSI和SARC希望解决问题Exynos M3体系结构的弱点,使明年的新体系结构更顺利。

via:Anandtech相关文章:浅析ARM的新Cortex A76架构: 2.4GHz后可以杀死配偶845的版权文章,允许发布禁令。 以下,听取刊登的心得。:凯旋门国际平台首页。

本文来源:凯旋门国际平台-www.worldfootgolf.com