自研芯片三國(guó)殺,頭部智駕新戰(zhàn)場(chǎng),蔚小理誰(shuí)強(qiáng)?
HiEV大蒜粒車研所 | 10-10
20359
作者 | 肖恩
編輯 | 德新
在8月小鵬MONA M03的發(fā)布會(huì)上,何小鵬宣布自研的圖靈芯片流片成功,這使其成為 繼蔚來(lái)之后第二家正式公布自研智駕芯片的主機(jī)廠。
早在去年的9月份,蔚來(lái)就對(duì)外公布了自研的智駕芯片——神璣NX9031,號(hào)稱1顆更比4顆強(qiáng),并在7月份的蔚來(lái)科技日上宣布流片成功。
理想內(nèi)部也在推進(jìn)自研芯片項(xiàng)目,代號(hào)「舒馬赫」,雖然項(xiàng)目開始的時(shí)間相對(duì)晚一些,但是預(yù)計(jì)也將于年內(nèi)流片。
除此之外,比亞迪、Momenta也有自研智駕芯片項(xiàng)目正在進(jìn)行。
芯片是個(gè)高投入、長(zhǎng)周期的行業(yè),研發(fā)周期最少需要2 - 3年。除了高昂的研發(fā)成本外,后續(xù)還要投入巨額的流片費(fèi)用,單次流片的成本至少需要幾千萬(wàn)元,如果要設(shè)計(jì)一顆5nm的芯片,最終的研發(fā)成本可能高達(dá)20 - 30億元。
除了高額的投入之外,還要面對(duì)技術(shù)上的風(fēng)險(xiǎn),流片失敗、良品率低、性能不達(dá)標(biāo)等都是第一次踏足芯片行業(yè)的公司可能會(huì)碰到的問(wèn)題。
盡管如此,國(guó)內(nèi)智駕行業(yè)的頭部公司卻都不約而同地走上了自研芯片的道路。
這篇文章,你將看到:
新勢(shì)力執(zhí)著自研芯片的原因;
特斯拉、英偉達(dá)設(shè)計(jì)大算力芯片的兩種不同路徑;
為什么一代FSD算力不大,卻能跑端到端大模型;
蔚來(lái)神璣一顆頂四顆,到底是多少算力?
1顆小鵬圖靈芯片,相當(dāng)于3顆OrinX。
01 新勢(shì)力為什么執(zhí)著自研智駕芯片?
最直接的原因是成本。
以市場(chǎng)上高階智駕車型普遍使用的英偉達(dá)Orin X為例,剛發(fā)售時(shí)單顆售價(jià)超過(guò)500美金,即使現(xiàn)在也需要400美金一顆,支持城區(qū)高階輔助駕駛的功能至少需要2顆Orin X,而像蔚來(lái)這樣全系標(biāo)配4顆Orin X的車型,僅僅采購(gòu)芯片的成本就超過(guò)了1萬(wàn)元。
一顆高階自研芯片的研發(fā)投入雖然超過(guò)20億元,如果生命周期的用量超過(guò)100萬(wàn)片,那么單片的成本可以降至2000元。
按照蔚來(lái)公布的信息,一顆自研的NX9031能夠替代4顆Orin X,即使一車使用2片,也能有上千元的成本節(jié)約,而隨著出貨量的提升,自研芯片的成本優(yōu)勢(shì)會(huì)進(jìn)一步放大。
因此對(duì)于蔚來(lái)和小鵬這樣高階智駕芯片需求量大的車企來(lái)說(shuō),自研芯片是一筆非常劃算的「生意」。
第二個(gè)重要的原因是性能。
特斯拉作為智駕行業(yè)的先驅(qū),也經(jīng)歷了智駕芯片從外采到自研的過(guò)程。
在最早的Model S上使用的是Mobileye的EyeQ芯片,由于Mobileye是業(yè)內(nèi)出名的「小黑盒」,特斯拉很快就轉(zhuǎn)向了英偉達(dá),而隨著算法的不斷進(jìn)化,英偉達(dá)的芯片已經(jīng)無(wú)法滿足特斯拉的要求,因此自研芯片就順理成章。
特斯拉第一代的FSD芯片于2019年量產(chǎn),單顆算力達(dá)到了72 TOPs。那時(shí)英偉達(dá)的Orin X還未上市,F(xiàn)SD芯片的性能秒殺市面上所有的智駕芯片。
從這時(shí)候開始,特斯拉的算法加速進(jìn)化,從Transformer到占用格柵網(wǎng)絡(luò),再到現(xiàn)在的端到端大模型,每一次升級(jí)都帶領(lǐng)智駕行業(yè)向前躍進(jìn)。
在算法上,國(guó)內(nèi)的智駕公司一直緊跟特斯拉的步伐。
進(jìn)入端到端的階段后,各家對(duì)算法也有著自己的理解,蔚來(lái)利用生成式AI設(shè)計(jì)了NWM世界模型,理想為了解決端到端大模型可解釋性差的問(wèn)題,將架構(gòu)升級(jí)為「端到端+VLM」,而小鵬則和特斯拉一樣堅(jiān)信純視覺(jué)才是智能駕駛的終局,發(fā)布了下一代AI鷹眼純視覺(jué)方案。
但是要最大限度的發(fā)揮算法的能力,必須要有和軟件深度融合的硬件,自研芯片則是最理想的方式。
還有一個(gè)原因是出于供應(yīng)鏈的考慮,2020年正是美國(guó)開始全面制裁華為的時(shí)候,經(jīng)過(guò)幾輪的制裁,華為無(wú)法生產(chǎn)高端芯片,手機(jī)業(yè)務(wù)受到重創(chuàng)。
彼時(shí)半導(dǎo)體市場(chǎng)還面臨缺芯的問(wèn)題,芯片的供應(yīng)非常不穩(wěn)定,經(jīng)歷過(guò)這段時(shí)間的主機(jī)廠都深有體會(huì),為了保證生產(chǎn)有時(shí)會(huì)需要數(shù)倍的價(jià)格來(lái)采購(gòu)芯片。
芯片是智駕的核心,從這時(shí)候開始以智駕為核心的主機(jī)廠意識(shí)到自研芯片的戰(zhàn)略意義,紛紛開始推進(jìn)自研的計(jì)劃。
除了上面幾個(gè)原因之外,中國(guó)芯片產(chǎn)業(yè)的成熟也是主機(jī)廠開始自研芯片的基礎(chǔ),特別是芯片設(shè)計(jì)行業(yè),華為海思幾乎以一己之力將中國(guó)高端芯片的設(shè)計(jì)能力提高到了世界領(lǐng)先的水平。
雖然受到美國(guó)的制裁后,海思的芯片之路遇到了很大的困難,但是卻為中國(guó)的芯片設(shè)計(jì)行業(yè)輸送了大量的人才,蔚來(lái)和小鵬的自研芯片項(xiàng)目的負(fù)責(zé)人均來(lái)自華為海思,可謂是中國(guó)芯片行業(yè)的黃埔軍校。
02 強(qiáng)大的芯片是「設(shè)計(jì)」出來(lái)的
在對(duì)比各家自研芯片的參數(shù)之前,我們需要了解一些智駕芯片的基礎(chǔ)知識(shí)。
芯片是半導(dǎo)體行業(yè)中一個(gè)非常廣義的概念,CPU、MCU、GPU、PMIC等等這些都屬于芯片中的一種,而我們通常所說(shuō)的智駕芯片則屬于SOC(system on chip),也就是系統(tǒng)級(jí)芯片。
它集成了CPU、GPU、NPU、ISP、和內(nèi)存等多個(gè)模塊,是一種集成度非常高的芯片。
圖片來(lái)源:特斯拉
以特斯拉的FSD芯片為例,內(nèi)部集成了一個(gè)12核的CPU、一個(gè)GPU、兩個(gè)NPU以及ISP和解碼器等模塊。
其中ISP和解碼器負(fù)責(zé)處理輸入的視頻數(shù)據(jù),而CPU、GPU和NPU則是SOC中負(fù)責(zé)計(jì)算任務(wù)的模塊,但是所處理的任務(wù)類型不同。
算力
在討論智駕芯片性能強(qiáng)弱的時(shí)候,我們習(xí)慣用算力單位TOPs來(lái)衡量,它的含義是 每秒執(zhí)行1萬(wàn)億次操作。
例如英偉達(dá)的OrinX,被公認(rèn)是目前市場(chǎng)上性能最強(qiáng)的智駕芯片,單顆芯片的最大算力達(dá)到了254 TOPs,而特斯拉的FSD芯片單顆算力只有72 TOPs,從這個(gè)數(shù)字上看,OrinX的算力確實(shí)很強(qiáng),那么是否意味著TOPs越大的智駕芯片,性能就越好呢?
評(píng)價(jià)一個(gè)芯片性能的時(shí)候有很多算力單位,比如DMIPs、TFLOPs、TOPs。
但我們習(xí)慣用TOPs來(lái)衡量智駕芯片的性能,這是因?yàn)楝F(xiàn)在自動(dòng)駕駛算法對(duì)算力消耗最大的部分是感知端的CV算法,CV算法的核心是卷積神經(jīng)網(wǎng)絡(luò)(CNN),它的本質(zhì)是累積累加運(yùn)算MAC(Multiply Accumulate),而TOPs可以很好地評(píng)價(jià)芯片在1s內(nèi)完成MAC操作的次數(shù)。
CPU
CPU也就是我們常說(shuō)的中央處理器,能處理各種不同類型的任務(wù)和指令,它的設(shè)計(jì)遵循馮·諾依曼架構(gòu),這個(gè)架構(gòu)主要由運(yùn)算器、控制器、存儲(chǔ)器、輸入設(shè)備、輸出設(shè)備等五個(gè)主要部分組成。
每個(gè)核心都可以獨(dú)立處理指令,但是CPU采用的是串行運(yùn)算方式,每個(gè)CPU核心一次只能執(zhí)行一個(gè)計(jì)算指令,完成后才能進(jìn)行下一個(gè)計(jì)算。
上圖是一個(gè)4核CPU的典型架構(gòu),每個(gè)核心都可以獨(dú)立處理指令,但是CPU采用的是串行運(yùn)算方式,每個(gè)CPU核心一次只能執(zhí)行一個(gè)計(jì)算指令,完成后才能進(jìn)行下一個(gè)計(jì)算。
它的特點(diǎn)是通用性和邏輯控制力好,能夠處理各種復(fù)雜的計(jì)算需求,但是缺點(diǎn)也很明顯,不擅長(zhǎng)處理計(jì)算量大的并行計(jì)算。
在CPU上我們經(jīng)常會(huì)聽到X86和ARM的概念,他們分別對(duì)應(yīng)了兩種CPU架構(gòu),X86采用的是CISC復(fù)雜指令集,性能強(qiáng)大但是功耗較高,而ARM采用的RISV精簡(jiǎn)指令集,追求的是性能和功耗的平衡。
因此,移動(dòng)端和車端的CPU一般都是采用ARM架構(gòu)。
最后聊一下CPU的算力單位DMIPs(Dhrystone Million Instructions Per Second)。
由于不同的指令集和架構(gòu)對(duì)CPU的性能都有影響,因此不能簡(jiǎn)單的用CPU的主頻來(lái)評(píng)價(jià),Dhrystone是一個(gè)基準(zhǔn)測(cè)試程序,通過(guò)測(cè)量CPU每秒能運(yùn)行多少次Dhrystone程序來(lái)評(píng)價(jià)不同CPU的性能,例如100DMIPs代表每秒能運(yùn)行1億次Dhrystone程序。
自動(dòng)駕駛中的傳感器融合、路徑規(guī)劃和決策等算法都需要強(qiáng)大的CPU性能支持。
GPU
CPU能處理復(fù)雜的計(jì)算任務(wù)但是不擅長(zhǎng)并行計(jì)算,為了解決這個(gè)問(wèn)題,GPU出現(xiàn)了,最開始是為了處理圖形任務(wù)而設(shè)計(jì)的,它擁有成百上千個(gè)計(jì)算單元,每個(gè)單元能獨(dú)立執(zhí)行指令,能夠并行處理大量的計(jì)算任務(wù)。
上圖是一個(gè)GPU的典型架構(gòu),和CPU相比它的邏輯控制單元和緩存都比較簡(jiǎn)單,大部分空間都留給了計(jì)算單元。
因此GPU適合處理大量并行計(jì)算任務(wù),但是不能處理復(fù)雜的指令,更適合處理邏輯簡(jiǎn)單、類型統(tǒng)一的任務(wù),例如圖形處理和渲染。
由于圖形處理和渲染大需要大量的浮點(diǎn)運(yùn)算,因此GPU的算力一般用TFLOPs來(lái)衡量。英偉達(dá)最新一代的顯卡RTX 4090的算力大約為48 TFLOPs,作為對(duì)比OrinX的算力是5.2 TFLOPs。
和圖形處理類似,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練也需要大量的并行計(jì)算,因此GPU的架構(gòu)也非常適合用于深度學(xué)習(xí)的計(jì)算。
OrinX的架構(gòu)就是以GPU為核心,可以實(shí)現(xiàn)int8精度下最大254TOPs的算力。
NPU
既然GPU可以很好地處理AI算法中的矩陣和卷積運(yùn)算,為什么還需要NPU呢?
GPU雖然性能強(qiáng)大,但是也有功耗高、成本昂貴等問(wèn)題, 而NPU是專為深度學(xué)習(xí)和AI算法設(shè)計(jì)的專用處理器,在運(yùn)行神經(jīng)網(wǎng)絡(luò)算法時(shí),NPU比GPU計(jì)算速度更快,功耗更低。
但是NPU的缺點(diǎn)也很明顯,它的通用性較差,能處理的計(jì)算任務(wù)類型有限,在軟件生態(tài)上也相對(duì)封閉。
而GPU已經(jīng)發(fā)展了很多年,有更為完善的軟件生態(tài),特別是英偉達(dá)的CUDA架構(gòu),有非常豐富的應(yīng)用和第三方的工具支持,開發(fā)人員可以非常方便地使用C/C++語(yǔ)言在這個(gè)架構(gòu)上編寫程序,運(yùn)行在英偉達(dá)支持CUDA的芯片上。
一個(gè)有趣的現(xiàn)象是,英偉達(dá)作為AI時(shí)代的領(lǐng)軍者,在SOC中并沒(méi)有使用NPU的架構(gòu),而是使用GPU作為AI計(jì)算的核心,但是蘋果和高通的SOC設(shè)計(jì)中都加入了單獨(dú)的NPU模塊。
因?yàn)橛ミ_(dá)的GPU在性能上足夠強(qiáng)大,不需要單獨(dú)增加NPU模塊來(lái)。
但是對(duì)于其他廠商來(lái)說(shuō),無(wú)法使用英偉達(dá)這樣性能強(qiáng)大的GPU內(nèi)核,因此單獨(dú)設(shè)計(jì)一個(gè)NPU模塊來(lái)處理AI算法則是更好的選擇。
ISP
ISP(Image Signal Processor),即圖像信號(hào)處理器,主要作用是對(duì)前端圖像傳感器輸出的信號(hào)做后期處理,主要功能有線性糾正、噪聲去除、壞點(diǎn)去除、內(nèi)插、白平衡、自動(dòng)曝光控制等。
ISP分為外置和內(nèi)置兩種,現(xiàn)在大部分自動(dòng)駕駛芯片都將ISP集成到了SOC內(nèi)部,攝像頭的原始圖像經(jīng)過(guò)ISP處理后,輸入給感知算法。
一般會(huì)用像素處理能力來(lái)評(píng)價(jià)一個(gè)ISP的性能。
例如OrinX內(nèi)置的ISP模塊處理像素的速度是1.85 Gpixel/s,pixel/s越高代表能處理的攝像頭像素越高,在不考慮圖像壓縮的情況下,3.2 Gpixel/s可以處理大約一億像素。
另一個(gè)非常重要但是容易被忽略的參數(shù)是位寬,它代表了每個(gè)像素包含的數(shù)據(jù)量,位寬越大單個(gè)像素里包含的數(shù)據(jù)量越大,可以表示的顏色也越多。
例如位寬為8bit時(shí),一個(gè)像素可以表示256種顏色,而24bit時(shí)則可以表示1600萬(wàn)種顏色。
內(nèi)存帶寬
最后聊一下內(nèi)存帶寬,這是我們?cè)谟懻撝悄荞{駛芯片性能時(shí)經(jīng)常忽略的一個(gè)參數(shù)。
神經(jīng)網(wǎng)絡(luò)算法的本質(zhì)是矩陣的乘積累加運(yùn)算,這個(gè)過(guò)程中需要頻繁的讀取數(shù)據(jù),使用的算法模型參數(shù)越多,在內(nèi)存中需要保存的數(shù)據(jù)量越大。
不論是智能駕駛還是人工智能,都在走向大模型的技術(shù)路線,對(duì)于存儲(chǔ)帶寬的要求也會(huì)越來(lái)越高。
自動(dòng)駕駛領(lǐng)域非常火熱的Transformer模型,它的參數(shù)量在10億左右,而GPT-4的參數(shù)規(guī)模則超過(guò)1.5萬(wàn)億。
我們?cè)谑謾C(jī)領(lǐng)域常見的內(nèi)存方案是LPDDR,這是一種用于移動(dòng)端的低功耗內(nèi)存技術(shù),目前主流的自動(dòng)駕駛芯片也是使用這個(gè)技術(shù),最新的標(biāo)準(zhǔn)是LPDDR5X,最高帶寬8533MT/s,這里的MT/s指的是每秒傳輸一百萬(wàn)次,實(shí)際能傳輸?shù)臄?shù)據(jù)量還取決于位寬。
除了LPDDR之外,還有兩種帶寬更高的技術(shù):GDDR和HBM。
HBM是一種使用了3D堆疊架構(gòu)和硅通孔技術(shù)的動(dòng)態(tài)隨機(jī)存儲(chǔ)技術(shù),主要用于高性能計(jì)算和AI領(lǐng)域,目前已發(fā)展到HBM3。
采用這個(gè)技術(shù)的 英偉達(dá)H100 NVL顯卡,最大帶寬能達(dá)到7800GB/s。
但是HBM的缺點(diǎn)就是太貴,汽車領(lǐng)域無(wú)法承受這么高的成本。
GDDR可以算是廉價(jià)版的HBM,主要用于顯卡領(lǐng)域,目前發(fā)展到GDDR6x,例如英偉達(dá)最新的RTX4090顯卡采用的就是GDDR6x,最大帶寬能達(dá)到1008GB/s。
GDDR的成本雖然遠(yuǎn)低于HBM,但是也要達(dá)到LPDDR的3倍以上。
在汽車行業(yè)有一家OEM就把GDDR技術(shù)用在了自動(dòng)駕駛的芯片上,特斯拉最新的FSD二代芯片支持GDDR6,為了支持大模型特斯拉也是下了血本。
03 英偉達(dá)、特斯拉,大算力芯片的設(shè)計(jì)
在智能駕駛技術(shù)爆發(fā)之前,市場(chǎng)上的智駕芯片都是小算力,最高支持到L2的ADAS功能,最經(jīng)典的芯片是Mobileye的EyeQ系列。
從英偉達(dá)進(jìn)入自動(dòng)駕駛領(lǐng)域開始,智駕芯片進(jìn)入大算力時(shí)代。
英偉達(dá)的OrinX和特斯拉的FSD芯片分別代表了大算力智駕芯片的兩種設(shè)計(jì)思路:
一個(gè)是在硬件上堆料來(lái)打破算力的天花板,大力出奇跡;
另一個(gè)是算法和硬件深度融合,最大效率的利用芯片的性能。
OrinX
雖然英偉達(dá)已經(jīng)發(fā)布了最大算力超過(guò)1000 TOPs的Thor,但是距離量產(chǎn)還有一段時(shí)間。
目前已量產(chǎn)的智駕芯片中,紙面算力最大的還是OrinX,先來(lái)看一下它的架構(gòu)。
CPU部分采用了12核的ARM Cortex-A78AE,這是ARM專為車載和移動(dòng)端設(shè)計(jì)的架構(gòu),算力為240 KDMIPS,同時(shí)基于Cortex-R52s提供了功能安全島。
GPU部分使用的英偉達(dá)的Ampere架構(gòu),由2個(gè)圖形處理集群(GPC,Graphic Processing Cluster)組成,每個(gè)GPC有8個(gè)流處理器(SM,Streaming Multiprocessors),每個(gè)SM擁有128個(gè)CUDA核心和4個(gè)Tensor核心,OrinX總計(jì)擁有2048個(gè)CUDA核心和64個(gè)Tensor核心,在FP32精度下的GPU算力為5.2 TFLOPs。
OrinX沒(méi)有專門的NPU,但是提供了兩個(gè)加速器PVA和DLA,PVA是計(jì)算機(jī)視覺(jué)算法的加速器,DLA則是專門針對(duì)深度神經(jīng)網(wǎng)絡(luò)中卷積計(jì)算的加速器。通過(guò)GPU和DLA,OrinX在int8精度下最大可以提供254 TOPs的算力。
ISP最大的像素處理能力是1.85 Gpixel/s,位寬沒(méi)有明確的數(shù)據(jù),可能是16 bit。
內(nèi)存部分采用的是256 bit的LPDDR5,最高帶寬6400 MT/s,對(duì)應(yīng)的內(nèi)存帶寬是204.8 GB/s。
從架構(gòu)上看,OrinX的CPU性能中規(guī)中矩,但是GPU性能強(qiáng)大,依靠英偉達(dá)強(qiáng)大的技術(shù)實(shí)力,不需要額外的NPU模塊,直接通過(guò)CUDA和Tensor核來(lái)滿足AI算法的需求,加上英偉達(dá)成熟的工具鏈和生態(tài),不愧為市場(chǎng)上占有率最高的大算力智駕芯片。
FSD芯片
特斯拉最新的HW4.0已經(jīng)搭載了FSD二代芯片,但是沒(méi)有公開具體的參數(shù)。
這里還是以第一代FSD芯片為例,來(lái)看看特斯拉自研芯片的思路,先上架構(gòu)圖。
CPU用的是ARM Coretex-A72,一共有12個(gè)核心,A72單核心的CPU算力為5.5 DMIPs/MHz,主頻是2.2 GHz,12個(gè)核心的總算力大約為146 KDMIPs。
GPU部分使用的是ARM Mali-G71,算力只有600 GFLOPs,但GPU不是FSD芯片主要的計(jì)算核心,影響不大。
FSD芯片最核心的部分是NPU,每個(gè)芯片上有兩個(gè)NPU,專為神經(jīng)網(wǎng)絡(luò)計(jì)算中的MAC設(shè)計(jì),每個(gè)NPU在int8精度下的最大算力為36 TOPs,單顆FSD芯片的最大算力為72 TOPs。
從數(shù)字上看并不是很大,與OrinX單顆254 TOPs看起來(lái)有差距,但是OrinX的這個(gè)數(shù)字是稀疏算力,而且是把CUDA和Tensor核心加在一起的綜合算力,實(shí)際上參與MAC計(jì)算的主要是Tensor核心,它的稠密算力只有54 TOPs。
這也是為什么第一代FSD芯片雖然算力數(shù)字不大,但是Transformer和端到端大模型依然能夠跑起來(lái)的原因。
從FSD芯片的設(shè)計(jì)可以看到自研的好處,專為神經(jīng)網(wǎng)絡(luò)算法而設(shè)計(jì)的NPU模塊,能夠最大限度的發(fā)揮芯片的性能,能效比拉滿。
地平線J6P
最后來(lái)看看國(guó)內(nèi)的后起之秀——地平線。
作為中國(guó)智駕芯片的一哥,地平線進(jìn)步的速度也非???。最新的征程6系列芯片包含了從低階到高階的多款產(chǎn)品,其中的旗艦產(chǎn)品J6P的算力更是達(dá)到了560 TOPs。
雖然地平線沒(méi)有公布詳細(xì)的架構(gòu),但是從一些數(shù)據(jù)可以看出這顆芯片擁有非常強(qiáng)大的性能。
CPU采用的是18核心的ARM Cortex-A78E,算力超過(guò)400DMIPs,接近OrinX的兩倍。GPU算力不高,只有200GFLOPs;同時(shí)內(nèi)置功能安全島,大概率使用的是ARM Cortex-R52內(nèi)核,實(shí)現(xiàn)ASIL-D等級(jí)。
NPU部分使用的是地平線自研的BPU架構(gòu),目前已經(jīng)發(fā)展到了第三代,地平線命名為納什。
這一代BPU最大的特點(diǎn)是針對(duì)Transformer、BEV等算法做了針對(duì)性的優(yōu)化,同時(shí)在架構(gòu)上使用了三級(jí)存儲(chǔ)架構(gòu),可以降低大規(guī)模參數(shù)下帶寬的瓶頸問(wèn)題,加上浮點(diǎn)向量加速單元和數(shù)據(jù)變換引擎等技術(shù),J6P在int8精度下的最大算力達(dá)到了560 TOPs。
存儲(chǔ)方面使用了LPDDR5,最高帶寬205GB/s,和OrinX保持一致。
J6P的晶體管數(shù)量達(dá)到了370億,相比之下英偉達(dá)OrinX是170億,而FSD芯片只有60億。
強(qiáng)大的CPU和NPU算力,加上對(duì)神經(jīng)網(wǎng)絡(luò)算法的特殊優(yōu)化,J6一發(fā)布就獲得了極大的關(guān)注,國(guó)內(nèi)主流的OEM都官宣將基于J6開發(fā)新一代自動(dòng)駕駛域控,J6的最終表現(xiàn)讓人期待。
04 誰(shuí)是自研最強(qiáng)芯片?
在去年的NIO DAY上,蔚來(lái)就率先公布了自研芯片神璣NX9031,并于今年7月份流片成功,隨后小鵬也在8月份宣布自研芯片圖靈流片成功,兩家都走的是大算力路線。
下面就從已知的參數(shù)上,來(lái)看看誰(shuí)才是自研的最強(qiáng)芯片。
蔚來(lái)神璣NX9031
發(fā)布會(huì)上斌哥稱這是全球第一顆5nm的智駕芯片,可見蔚來(lái)是下了血本。
現(xiàn)在有能力代工5nm芯片的只有臺(tái)積電和三星,而且資源緊張,代工費(fèi)不菲。晶體管數(shù)量超過(guò)500億,是OrinX的兩倍以上,加上5nm的先進(jìn)制程,芯片的性能表現(xiàn)令人期待。
CPU部分采用的大小核設(shè)計(jì),總共是32個(gè)核心,這里面包含三種核心,大核是ARM Cortex-A78AE,小核是A65AE,內(nèi)部集成了功能安全島,使用的是R52??偟腃PU算力達(dá)到了615K DMIPs。
GPU沒(méi)有公開數(shù)據(jù),發(fā)布會(huì)上也沒(méi)有做介紹,有可能是沒(méi)有單獨(dú)的GPU模塊,把圖形渲染的部分都交給座艙來(lái)完成。
內(nèi)存使用的是LPDDR5x,這是2021年最新的DDR標(biāo)準(zhǔn),最高帶寬8533Mbps,位寬按照256bit來(lái)計(jì)算的話,帶寬可以達(dá)到273GB/s。
NPU沒(méi)有公布具體的架構(gòu),預(yù)計(jì)有2個(gè)核心。
蔚來(lái)特別強(qiáng)調(diào)了對(duì)算法的優(yōu)化,Transformer類算法性能有6.5倍的提升,Lidar類算法性能有4倍的提升,BEV算法性能4.3倍提升,但是蔚來(lái)沒(méi)有提是和哪個(gè)芯片相比,大概率是以當(dāng)前OrinX的平臺(tái)性能為參考。
蔚來(lái)沒(méi)有公布具體的算力,但是發(fā)布會(huì)上 斌哥說(shuō)一顆神璣的性能相當(dāng)于四顆OrinX,有些人就認(rèn)為算力能超過(guò)1000 TOPs,這個(gè)顯然是錯(cuò)誤的。兩個(gè)芯片并聯(lián)的算力并不能直接相加,因?yàn)闀?huì)受到帶寬的限制。
Orin模組之間是通過(guò)以太網(wǎng)連接,4個(gè)OrinX并聯(lián)最多也就能增加20%的算力,所以當(dāng)前蔚來(lái)平臺(tái)的最大算力在300 TOPs左右。如果按照這個(gè)數(shù)字來(lái)看,斌哥所說(shuō)的一顆頂四顆就可以理解了,估計(jì)神璣的實(shí)際算力在500 TOPs左右。
發(fā)布會(huì)上斌哥特別強(qiáng)調(diào)了ISP的性能,位寬26bit,像素處理能力達(dá)到了6.5Gpixel/s,前面介紹ISP參數(shù)的時(shí)候提到過(guò),位寬24bit代表一個(gè)像素可以表示1600萬(wàn)種顏色,26bit則是6700萬(wàn)種顏色。
作為對(duì)比OrinX則是16bit左右,而像素處理能力OrinX也只有1.85Gpixel/s,可以說(shuō)神璣的ISP性能是非常強(qiáng)大,從發(fā)布會(huì)演示的視頻來(lái)看,在畫面細(xì)節(jié)和暗光表現(xiàn)上都有巨大的提升。
但是有個(gè)小問(wèn)題是發(fā)布會(huì)上展示的圖像是給人眼觀看的,并不是實(shí)際輸入給算法的色彩格式,神璣這顆強(qiáng)大的ISP對(duì)算法的實(shí)際提升還需要時(shí)間驗(yàn)證。
從這些性能參數(shù)可以看出蔚來(lái)自研芯片的思路,不惜成本采用了5nm的工藝,換來(lái)的是斷層領(lǐng)先的CPU和ISP性能,加上專為算法設(shè)計(jì)的NPU架構(gòu),最終可以實(shí)現(xiàn)1顆頂4顆OrinX的表現(xiàn)。
可以說(shuō)在Thor正式上車之前,神璣NX9031就是當(dāng)下最強(qiáng)的智駕芯片,第一次設(shè)計(jì)芯片就能達(dá)到這樣的水平,讓人嘆服。
小鵬圖靈
蔚來(lái)宣布自研芯片流片成功的一個(gè)月后,小鵬也正式公布了自己的自研芯片——圖靈,一顆專為AI大模型定制的芯片,能用于智能駕駛、飛行汽車和智能機(jī)器人等多個(gè)領(lǐng)域。
小鵬沒(méi)有公布非常詳細(xì)的參數(shù),我們可以從已知的幾個(gè)數(shù)據(jù)上大概推測(cè)出它的性能表現(xiàn)。
小鵬公布了總的核心數(shù)是40個(gè),這其中包含了CPU和功能安全島,考慮到這顆芯片還要用于其它場(chǎng)景,需要考慮芯片的通用性,因此大概率是包含了GPU模塊的。
CPU大核預(yù)計(jì)采用的是ARM Cortex-A78AE,核心數(shù)量在24個(gè)左右,會(huì)有2-4個(gè)Cortex-R52作為功能安全島,整體CPU算力會(huì)在500 kDMIPs左右。
GPU部分可能使用的是ARM MALI-G78AE,核心數(shù)量在12個(gè)左右,預(yù)計(jì)GPU算力在1000 GFLOPs左右。
NPU部分有2個(gè)核心。
小鵬在發(fā)布會(huì)上介紹圖靈芯片在本地最高可運(yùn)行300億個(gè)參數(shù)的大模型,結(jié)合小鵬未來(lái)的智駕路線,可以看出這顆芯片的NPU是專為端到端大模型而設(shè)計(jì)的。
雖然沒(méi)有公布具體的算力,但是何小鵬在發(fā)布會(huì)上也提到1顆圖靈芯片相當(dāng)于3顆OrinX芯片的算力,預(yù)計(jì)它的算力也能達(dá)到400 TOPs左右。
ISP部分比較特別,有2個(gè)獨(dú)立的ISP核心,一個(gè)負(fù)責(zé)AI算法的圖像處理,另一個(gè)負(fù)責(zé)圖像的合成,可能是考慮到其它應(yīng)用場(chǎng)景里不一定有汽車座艙芯片那樣強(qiáng)大的ISP模塊,所以單獨(dú)增加一個(gè)圖像處理的ISP核心,可以大大的提高芯片的通用性。
小鵬沒(méi)有公布具體的制程,但是提到了這顆芯片性價(jià)比非常高,因此大概率還是采用7nm的制程。
從這些參數(shù)上可以看出小鵬在自研芯片的設(shè)計(jì)路線上與蔚來(lái)有很大的不同。
首先是性能和價(jià)格的取舍,小鵬沒(méi)有追求高制程,而是采用性價(jià)比較高的7nm,而蔚來(lái)為了追求性能,不惜成本也要采用5nm制程;
其次是為大模型而定制的NPU模塊,從這里也能看出蔚來(lái)和小鵬在智駕路線上的不同。
蔚來(lái)的智駕路線里激光雷達(dá)還是重要的部分,因此神璣芯片對(duì)Lidar的算法做了特殊的優(yōu)化,而小鵬則是走純視覺(jué)路線,押注端到端大模型。
最后一點(diǎn)是非常高的通用性,圖靈芯片集成了GPU模塊和2個(gè)ISP核心,能應(yīng)用于多個(gè)類型的產(chǎn)品,是小鵬AI版圖中非常重要的一部分。
而蔚來(lái)的神璣芯片則專為智駕而設(shè)計(jì),舍棄了GPU模塊,把芯片上的空間留給了其它模塊。
從理論性能上來(lái)說(shuō)蔚來(lái)的神璣無(wú)疑是當(dāng)下自研的最強(qiáng)芯片,但是自研芯片是為算法而定制的,性能強(qiáng)大并不代表全部,最終還是要看系統(tǒng)的實(shí)際表現(xiàn)。
明年Q1上市的蔚來(lái)ET9將會(huì)搭載2顆神璣NX9031,小鵬的圖靈芯片也將于明年上車,地平線與J6P深度軟硬結(jié)合的智駕方案SuperDrive預(yù)計(jì)明年Q3量產(chǎn)。
還有傳聞中的理想、比亞迪、Momenta,自研芯片和軟硬一體將是智駕行業(yè)的下一個(gè)趨勢(shì),明年各個(gè)頭部大廠在智駕上的表現(xiàn)讓人期待。