一文看懂ARM Cortex-V8 V9架构
在芯片设计中端流程时,景芯SoC会插入UPF约束中的isolation等cell,但是无法插入power switch等cell,因此,作为power switch cell的控制信号pwrdown_mux在没有负载的情况下,会被裁员掉(优化掉),因此需要设置上面MUX器件为dont_touch或者使pwrdown_mux成为module的port并禁止auto_ungroup(并设置no_bou
ARM Cortex-V8 和 Cortex-V9 是 ARM 架构的两个不同版本,它们在性能、安全和功能方面都有显著的差异。
首先对比ARM Cortex-V8看下较老的ARM Cortex-V7架构:
ARM Cortex-V8架构特点
• 引入了 AArch64 指令集,支持 64 位处理能力。
• 提供了 Neon 高级 SIMD 指令集扩展,增强了多媒体和信号处理能力。
• 增强的TrustZone 技术,增强了安全性。
• 支持更强虚拟化技术。
那么Cortex-V7和Cortex-V8主要区别:
• 指令集: V8引入64位AArch64指令集,而V7是32位AArch32指令集。
• 安全性: V8在V7的基础上增强了安全性,包括更高级的TrustZone技术。
• 性能: V8提供更高的性能,包括更大的寄存器和更宽的整数寄存器。
• 内存管理: V8支持更大的虚拟地址空间,有利于运行大型应用程序。
• 架构: V8的架构设计更加现代化,提供了更好的性能和能效比。
ARM Cortex-V9架构特点
• 继续使用 AArch64 作为基准指令集,但增加了重要的功能扩展。
• 强调安全性、AI 和改进的矢量和 DSP 功能。
• 引入了可伸缩矢量扩展 2(SVE2),这是 NEON 的后续产品,提供了更大的并行处理能力和改进的机器学习性能。全新 Armv9 兼容性 CPU 的最显著特征是将可伸缩矢量扩展 2(SVE2)作为 ARM NEON 技术之后新的基准。SVE2 发布于 2019 年 4 月,旨在加速高性能计算,在处理 5G、虚拟现实(VR)和增强现实(AR)以及图像和语音识别等机器学习(ML)任务负载时具有很大增益。SVE2 是 armv9 的一部分,用于更好的机器学习和数字信号处理。矩阵乘法指令(matrix multiplication instruction)是关键所在,是其自身作为 Armv9 CPU 一项基准特性被广泛使用的重要步骤。
• 引入了 Arm Confidential Compute Architecture (CCA),提供了更高级的保密计算功能。ARM 希望通过全新的保密计算架构(Confidential Compute Architecture, CCA)来解决安全性问题。为此,ARM 引入一种新的概念——域(realms),它可以被视为对操作系统(OS)或虚拟机管理程序(hypervisor)完全不透明的安全容器执行环境。虽然虚拟机管理程序依然存在,但只负责资源调度和分配任务。
• 支持更大的内存和更高的处理器频率。
• 引入了 Memory Tagging Extension (MTE),增强了内存安全。
• 提供了更好的性能和效率,预计在未来两次迭代中,CPU 性能将提高 30% 以上。
V9 架构是 ARM 为了满足未来计算需求而设计的,特别是在 AI、安全性和高性能计算方面。它旨在为未来的设备提供更强大的性能和更可靠的安全保障 。
那么Cortex-V8和Cortex-V9主要区别:
一、性能
V9 版本引入了更先进的指令集和微结构优化,提供了更高的运算速度和能效比。
二、安全性
V9 版本在安全性方面进行了诸多增强,包括安全状态和非安全状态的划分,以及安全监控器的引入。
三、功能扩展
V9 版本引入了更多的新指令和扩展功能,如向量扩展、加密扩展等,支持更多的处理器核心和线程,提高了系统的并行处理能力。
四、AI 支持
V9 版本增强了对 AI 应用的支持,包括对 BFloat16 格式的支持和 Matrix Multiply 指令。
接下来,跟着小编一起品品基于arm Cortex v9架构的产品:
旗舰级的 Cortex-X2,A78 继任者 Cortex-A710、全新的 Cortex-A510,延续多年的小核 A55 终于更新了。
Cortex-X2:相比 X1 性能提高 16%,
Cortex-A710:相比 Cortex-A78 同频同制程下性能提升 10%,能效 30%,机器学习 ML 100%.
Cortex-A510:取代了 Cortex-A55,性能提高 35%,能效提高 20%,ML 三倍性能,接近 A73。
Arm Mali-G710:内核可自定义,7 个内核最少,最多 16 个,比 Mali-G78 上限更低,但核心更大,性能更强(+50%),能效更高。
Arm Mali-G610:1-6 核,其他与 G710 相同,面向低端 SoC。
Arm Mali-G510:相比 G57 实现了 100%的性能提升,22%的能耗提升,100% 的 ML 提升。
Arm Mali-G310:相比 G31 在三个性能领域(纹理性能 6x,Vulkan 性能 4.5x 和 Android UI 内容 2x)方面实现了大跃进。
ARM 预测,与目前的 A78/G78 设计相比,配备 A710 CPU 和 Mali-G710 GPU 的芯片组将为游戏工作负载带来 33%的 CPU 性能提升,20%的 GPU 性能提升和 15%的效率提升。这是一个相当大的世代进步。
有意思的是Arm 新的小核心 Cortex-A510 是一个相对更大的微架构跃进。A510 在改进 IPC 的同时仍保证了高能效比,并且它还保留了其有序微架构的特征。
Cortex-X2 超大核和 Cortex-A510 小核都是仅限 AArch64 的微体系结构,它们无法再执行 AArch32 代码,Cortex-A710 仍然支持 AArch32 编码。
景芯SoC v3芯片全流程实战
终身辅导、一对一辅导是景芯SoC训练营的特色!
手把手教您搭建SoC,从入门到进阶,带您掌握熟悉架构、算法、设计、验证、DFT、后端全流程低功耗!直播视频不定期升级!让您快速超越同龄人!
报名微信:13541390811
景芯全流程课程如下:
-
景芯SoC设计 视频+文档+实战+一对一辅导(视频免费)
-
景芯SoC验证 视频+文档+实战+一对一辅导(视频免费)
-
景芯SoC中端 视频+文档+实战+一对一辅导(视频免费)
-
景芯SoC后前 视频+文档+实战+一对一辅导(视频免费)
进阶课程:
-
12nm 2.5GHz A72 低功耗DVFS实战培训(价格不到同行1/2)
-
DDR4/3项目实战培训(价格不到同行1/2)
小编逐步将教程、芯片设计全流程知识公布在知识星球,包括设计、验证、DFT、后端全流程知识以及大量技术文档,如果你和我一样渴求知识,不惧怕全流程的知识爆炸,那么欢迎您加入讨论学习,共同进步!
景芯主营业务是design service+一对一芯片辅导培训!
另外小编团队提供芯片Design Service,设计服务包括:
-
提供SoC、MCU、ISP、CIS等芯片设计、验证、DFT设计服务
-
提供DDR/PCIE/MIPI/CAN/USB/ETH/QSPI/UART/I2C等IP设计
-
提供5nm、7nm、12nm、28nm、40nm、55nm、65nm、90nm等后端设计
-
提供高校、企业定制化芯片设计服务、设计培训业务
景芯SoC v3.0芯片全流程实战训练营的宗旨:
手把手教您掌握SoC算法、设计、验证、DFT、后端全流程低功耗!
景芯SoCv3.0,是一款用于【芯片全流程实战培训】的低功耗多媒体SoC!
景芯SoC系统分为三个层次的功耗管理,并集成低功耗RISC-V处理器,集成ITCM SRAM、DTCM SRAM,集成MIPI、ISP、USB、QSPI、UART、I2C、GPIO等IP,采用SMIC40工艺流片。
(一)SoC设计课程,您将学会
-
高速接口的Verilog设计实现
-
从图像算法到RTL设计实现
-
MIPI、ISP的Verilog实现与仿真
-
Lint、CDC检查及UVM验证
-
SoC子系统的C驱动仿真
-
后仿真
仅设计一门课程内容就抵得上其他培训机构的5-6门课程,价格仅其1/6
(二)SoC验证课程,您将学会
-
SoC子系统级的UVM环境搭建
-
SoC子系统级的UVC环境搭建
-
SoC子系统级的VIP环境搭建
-
SoC子系统的DMA SRAM UVM联合验证
-
SoC子系统的UART、I2C、QSPI UVM验证
仅验证一门课程内容就抵得上其他培训机构的3-4门课程,价格仅其1/6
(三)SoC中端课程,您将学会
-
DFT设计(芯片级)
-
Synthesis逻辑综合(芯片级)
-
低功耗UPF设计、CLP技术
-
formal验证等技术
仅中端一门课程内容就抵得上其他培训机构的4-5门课程,价格仅其1/6
(四)SoC后端课程,您将学会
-
低功耗设计
-
布局布线(低功耗FF flow)
-
StarRC/QRC
-
STA/Tempus
-
功耗分析
-
DRC/LVS设计
仅后端一门课程内容就抵得上其他培训机构的3-4门课程,价格仅其1/6
课程提供服务器供大家实践!带你从算法、前端、DFT到后端全流程参与SoC项目设计。请联系号主报名!联系微信:135-4139-0811
景芯SoC训练营图像处理的数据通路:
景芯SoC的CRG设计:
一键式完成C代码编译、仿真、综合、DFT插入、形式验证、布局布线、寄生参数抽取、STA分析、DRC/LVS、后仿真、形式验证、功耗分析等全流程。升级后的芯片设计工程V2.0 flow如下:
SoC一键式执行flow
MIPI DPHY+CSI2解码
数字电路中经典设计:多条通信数据Lane Merging设计实现
数字电路中经典设计:多条通信数据Lane Distribution实现
UPF低功耗设计
全芯片UPF低功耗设计(含DFT设计)
景芯SoC训练营培训项目,低功耗设计前,功耗为27.9mW。
低功耗设计后,功耗为0.285mW,功耗降低98.9%!
电压降检查:
低功耗检查:
芯片的版图设计V1.0
芯片的版图设计V2.0
低功耗设计的DRC/LVS,芯片顶层的LVS实践价值极高,具有挑战性!业界独一无二的经验分享。
ISP图像处理
-
dpc - 坏点校正
-
blc - 黑电平校正
-
bnr - 拜耳降噪
-
dgain - 数字增益
-
demosaic - 去马赛克
-
wb - 白平衡增益
-
ccm - 色彩校正矩阵
-
csc - 色彩空间转换 (基于整数优化的RGB2YUV转换公式)
-
gamma - Gamma校正 (对亮度基于查表的Gamma校正)
-
ee - 边缘增强
-
stat_ae - 自动曝光统计
-
stat_awb - 自动白平衡统计
CNN图像识别
支持手写数字的AI识别:
仿真结果:仿真识别上图7、2、1、0、4、1、4、9
景芯SoC 3.0 ISP:
景芯SoC V3.0 DFT方案:
如果您和小编一样渴求进步,想掌握芯片设计全流程,欢迎加入小编知识星球,疯狂成长,一起进步!早日成为芯片大佬!
景芯学员们,小编十分感谢你们对景芯的肯定、信任和支持,你们的鼓励让小编十分感激,小编一定更努力精心打磨景芯SoC实战课,我承诺,一定要做到零差评,让大家无论资深还是资浅都能从景芯训练营获得成长!
以上就是今天分享的内容,如果您和小编一样渴求进步,想掌握芯片设计全流程,欢迎加入小编知识星球,疯狂成长,一起进步!早日成为芯片大佬!
景芯SoC V3.0课程提供服务器供大家实践!手把手教您学会SoC的算法、前端、DFT、后端全流程实战。
请联系号主报名!联系微信:135-4139-0811
景芯SoC训练营图像处理的数据通路:
景芯SoC的CRG设计:
一键式完成C代码编译、仿真、综合、DFT插入、形式验证、布局布线、寄生参数抽取、STA分析、DRC/LVS、后仿真、形式验证、功耗分析等全流程。升级后的芯片设计工程V2.0 flow如下:
SoC一键式执行flow
MIPI DPHY+CSI2解码
数字电路中经典设计:多条通信数据Lane Merging设计实现
数字电路中经典设计:多条通信数据Lane Distribution实现
UPF低功耗设计
全芯片UPF低功耗设计(含DFT设计)
景芯SoC训练营培训项目,低功耗设计前,功耗为27.9mW。
低功耗设计后,功耗为0.285mW,功耗降低98.9%!
电压降检查:
低功耗检查:
低功耗设计的DRC/LVS,芯片顶层的LVS实践价值极高,具有挑战性!业界独一无二的经验分享。
丰富的教程文档
景芯训练营有同学问如何给IO添加PAD?请思考景芯SoC的IO和PAD如何实现最佳?
SoC训练营VIP学员问为何低功耗cell没有插入网表?
虽然提问题是值得鼓励的,但是我们在遇到问题时,还是先主动思考,主动解决问题,实在解决不了我们再求助,这样成长更快。
首先,小编拿到这问题,就打开log,查看log是一种IC设计美德!发现EDA工具吃进UPF文件后,报了warning如下,用到了很多ff库。
上图报错UPF指定电压是0.99V,而CELL是1.20V,电压不匹配,导致逻辑综合出来的网表没有插入MV CELL。注意,综合时,我们用的ss库,怎么会是ff库呢?打开约束脚本发现如下bug:
于是,更改约束,将ff换成ss即可。再次run一下,结果就出来了:
低功耗设计部分,设计里面我会留一点小bug在里面 非常简单,我不会公布答案,大家一定要多思考、多动手跑跑,这样才学的深刻。
培训学员请注意,景芯SoC用always on的power domain电压域的pwrdown_mux信号作为power switch cell的switch控制信号,但是设计里面有个小问题,不太算bug的bug,但对upf低功耗flow而言,毫无疑问就是bug!
培训学员请登陆服务器追踪一下pwrdown信号,注意其负载情况,RTL代码如下:
结合PR输出的netlist, 我们做个clp低功耗检查,脚本参见服务器。可以发现,clp报错说power switch的switch控制信号找不到。
不得不说,clp检查对低功耗而言多么重要,对芯片设计而言多重要!景芯SoC的价值就在把芯片设计全流程的这些细小的知识点,全部串接起来!犹豫啥?抓紧报名加入吧!
在芯片设计中端流程时,景芯SoC会插入UPF约束中的isolation等cell,但是无法插入power switch等cell,因此,作为power switch cell的控制信号pwrdown_mux在没有负载的情况下,会被裁员掉(优化掉),因此需要设置上面MUX器件为dont_touch或者使pwrdown_mux成为module的port并禁止auto_ungroup(并设置no_boundary_optimization),这样这个信号才能保留给后端,供后端实现power switch控制。请学员完成代码修改,基于全套flow环境完成如下任务:
-
lint检查、前端仿真,
-
完成中端、后端flow,
-
完成clp检查, 完成后仿真
景芯训练营有同学问,同样的floorplan,有些同学很快跑完,有些同学则遇到大量DRC问题(EDA工具不停iteration)导致工具始终无法跑完,具体什么问题呢?
首先,小编发现该同学的stripe把TM2定义为了horizontal,而熟悉景芯工艺的同学知道,TM2的preference direction是VERTICAL。
查询景芯的lef库文件也可以确认:
用错方向有多大影响呢?大家上景芯SoC的后端flow实践一下吧,实践出真知。
景芯训练营有同学问,为啥PR花了一天一夜24个小时完成布线还大量DRC错误?小编已经将设计规模尽可能减小以加速PR设计,实际上2小时就可以跑完routing,为何这么慢?原因就是低功耗单元的走线。具体原因及解决办法欢迎加入景芯训练营讨论。
其错误主要集中在M4上,请思考如何解决。
景芯训练营有同学问,power switch cell的secondPG pin(VDDG)从M1接出的,而不是M2, 请思考有什么问题?如何解决?
景芯训练营有同学问,景芯SoC培训营同学遇到Corner Pad LVS不过怎么处理?
完成景芯SoC培训的前端设计仿真、DFT后,我们来到后端flow,本教程教你一键式跑完数字后端flow。
生成脚本命令如下:
tclsh ./SCRIPTS/gen_flow.tcl -m flat all
生成flow脚本之前需要配置setup.tcl等相关参数,具体参见【全网唯一】【全栈芯片工程师】提供自研的景芯SoC前端工程、DFT工程、后端工程,带你从算法、前端、DFT到后端全流程参与SoC项目设计。
景芯SoC训练营的同学问,为何innovus读取做好的floorplan def文件报Error? 首先看log:
Reading floorplan file - ./data_in/DIGITAL_TOP.def (mem = 1595.0M).
#% Begin Load floorplan data ... (date=10/23 22:38:01, mem=1579.3M)
**ERROR: (IMPFP-710): File version unknown is too old.
以前EDI的时期,我们可以通过定义fp_file的方式来加载floorplan:
set vars(fp_file) "./data_in/DIGITAL_TOP.def"
但是现在innovus升级并放弃了fp_file的加载方式,当然也可以用老版本的EDI9.1及以前版本来加入fp_file,然后转存为新版本,这方式明显没有必要。正如下log提示所说,检查log是非常好的工程师习惯。
Input floorplan file is too old and is not supported in EDI 10.1 and newer.
You can use EDI 9.1 and before to read it in, then save again to create new version.
小编的直觉告诉我,先去看看同学保存的def文件是哪个def版本?
同学保存方式如下:
那么请问如何解决?请大家加入景芯训练营实践。
景芯SoC用了很多异步FIFO,关注异步RTL实现的同学,可以抓取异步FIFO出来看一下版图连线:
查看下所有异步FIFO cell的面积;
dbget [dbget top.insts.pstatus unplaced -p].area
查下所有异步FIFO的cell的名字:
dbget [dbget top.insts.pstatus unplaced -p].name
那么怎么抓出异步路径来观察版图走线呢?如何让report_timing呢?更多内容参见知识星球和SoC训练营。
以上就是今天分享的内容,如果您和小编一样渴求进步,想掌握芯片设计全流程,欢迎加入小编知识星球,疯狂成长,一起进步!早日成为芯片大佬!
欢迎加入SoC MCU全流程设计交流群,先加我微信,验证岗位后进群!
SoC MCU全流程设计交流群4
SoC MCU全流程设计交流群3
SoC MCU全流程设计交流群2
SoC MCU全流程设计交流群1
欢迎加入CMOS图像传感器+ISP交流群,先加我微信,验证岗位后进群!
CMOS图像传感器+ISP交流群2
CMOS图像传感器+ISP交流群1
更多推荐
所有评论(0)