在加速人工智能的競賽中,硅谷公司 Cerebras 采取了一個不同尋常的戰略:做大。
典型的計算機芯片只有指甲蓋那么大,Cerebras的芯片是餐盤大小。
深度學習是為語音助手、自動駕駛汽車和圍棋冠軍提供動力的一種人工智能技術,它依賴于分層排列的復雜“神經網絡”軟件。深度學習系統可以在一臺計算機上運行,但最大的系統分布在連接在一起的數千臺機器上,這些機器有時位于大型數據中心,比如由谷歌操作的數據中心。在一個大集群中,多達48個披薩盒大小的服務器滑進一個人高的機架;這些貨架成排排列著,裝滿了倉庫那么大的建筑物。這些系統中的神經網絡可以解決令人生畏的問題,但它們也面臨著明顯的挑戰。在一個集群中擴散的網絡就像一個分散在房間里并連接在一起的大腦。電子移動得很快,但即便如此,跨芯片通信還是很慢,并且消耗大量的能量。
舊金山風險投資公司Benchmark的普通合伙人埃里克·維什里亞(Eric Vishria)在2016年春天聽一家名為Cerebras Systems的新電腦芯片公司的演講時,第一次意識到這個問題。Benchmark以早期投資Twitter、優步(Uber)和ebay等公司而聞名——也就是說,投資的是軟件,而不是硬件。該公司每年會考察大約200個創業項目,并投資其中一個。“我們在玩這種吻一千只青蛙的游戲,” Vishria告訴我。演講一開始,他就決定把青蛙扔回去。“我就想,我為什么要同意這么做?”我們不會進行硬件投資,”他回憶當時的想法。“這太蠢了。”
Cerebras的聯合創始人安德魯·費爾德曼(Andrew Feldman)從幻燈片封面開始,到他的團隊幻燈片,引起了Vishria的注意:他的才華令人印象深刻。然后費爾德曼比較了兩種電腦芯片。首先,他研究了圖形處理單元或GPU——專為創建 3D 圖像而設計的芯片。由于各種原因,今天的機器學習系統依賴于這些圖形芯片。接下來,他研究了中央處理單元(簡稱CPU)——在典型計算機上完成大部分工作的通用芯片。“第三張幻燈片的主題是‘GPU’它實際上對深度學習來說很糟糕——只是碰巧比CPU好上一百倍。”Cerebras公司提出了一種新型芯片,這種芯片不是為圖像設計的,而是專門為人工智能設計的。
Vishria已經習慣聽那些計劃將深度學習應用于網絡安全、醫療成像、聊天機器人和其他應用的公司的推銷。在Cerebras演講之后,他與Benchmark資助的一些公司的工程師進行了交談,包括Zillow、Uber和Stitch Fix;他們告訴他,他們在人工智能方面遇到了困難,因為“訓練”神經網絡花費了太長時間。谷歌已經開始使用超快的“張量處理單元”,即為人工智能設計的特殊芯片TPU。Vishria知道一場淘金熱正在進行,必須有人來制造鎬頭和鐵鍬。
那一年,Benchmark和另一家風險投資公司Foundation Capital領投了一輪對Cerebras的2700萬美元的投資,該公司已經籌集了近5億美元。其他公司也在制造所謂的人工智能加速器;Cerebras的競爭對手groq、Graphcore和sambanova總共籌集了超過20億美元的資本。但Cerebras的方法是獨一無二的,該公司不是用通常的方法——在一塊大的硅片上印刷幾十個晶片,然后將它們從硅片上切下來,然后彼此連接,而是制造了一種巨大的“晶圓級”芯片。一個典型的計算機芯片只有指甲大小,Cerebras的大小和餐盤差不多,它是世界上最大的計算機芯片。
即使是競爭對手也覺得這一壯舉令人印象深刻。“這是全新的科學,”Graphcore的首席執行官兼聯合創始人奈杰爾·圖恩(Nigel Toon)告訴我。“這是一項令人難以置信的工程,是一項杰作。”與此同時,另一位與我交談過的工程師把它描述為一個科學項目——為了大而大。過去,公司曾試圖制造巨型芯片,但以失敗告終;Cerebras的計劃相當于打賭克服工程挑戰是可能的,而且是值得的。“老實講,對我來說,無知是一種優勢,” Vishria說。“我不知道,如果我知道做他們做的事情有多難,我就會有勇氣投資。”
計算機變得越來越快,這是一個很容易被認為是理所當然的事情。人們通常用摩爾定律來解釋這一現象:1965年,半導體先驅戈登摩爾在 1965 年確定的模式,根據該模式,芯片上的晶體管數量每年或每兩年翻一番。當然,摩爾定律并不是一個真正的定律,工程師們孜孜不倦地縮小晶體管,同時也改進每個芯片的“架構”,創造出更高效、更強大的設計。
芯片建筑師們一直想知道,單一的、大規模的計算機芯片是否可能比一堆較小的芯片更高效,就像一個資源集中、區塊密集的城市比郊區更高效一樣。這個想法在20世紀60年代首次嘗試,當時德州儀器有限地生產了幾英寸寬的芯片。但該公司的工程師遇到了良率的問題。在任何給定的硅片上,制造缺陷不可避免地危及一定數量的電路。如果晶圓片含有50個芯片,公司可以扔掉壞的,把其余好的賣掉。但是,如果每個成功的芯片都依賴于一個晶圓的工作電路,那么許多昂貴的晶圓將會被丟棄。德州儀器找到了解決辦法,但技術和需求都還沒有到位。
20世紀80年代,一位名叫吉恩·阿姆達爾(Gene Amdahl)的工程師又一次嘗試解決這個問題,他創立了一家名為Trilogy Systems的公司。它成為了硅谷有史以來最大的初創公司,獲得了大約2.5億美元的投資。為了解決成品率問題,Trilogy公司在芯片上印制了冗余組件。這種方法提高了產量,但降低了芯片的速度。與此同時,Trilogy在其他方面也舉步維艱。Amdahl 開著他的勞斯萊斯撞死了一名摩托車手,引發了法律糾紛;公司總裁患腦瘤去世;大雨延誤了工廠的建設,空調系統也生銹了,芯片上也積滿了灰塵。1984年,Trilogy 放棄了。Amdahl 的兒子告訴《泰晤士報》說:“當時根本沒有意識到這有多難。”
如果 Trilogy 的技術成功了,它現在可能會被用于深度學習。相反,GPU(用于視頻游戲的芯片)正在國家實驗室解決科學問題。將 GPU 重新用于 AI 取決于這樣一個事實,即神經網絡雖然非常復雜,但依賴于大量的乘法和加法。當網絡中的“神經元”相互激活時,它們會放大或減少彼此的信號,將它們乘以稱為連接權重的系數。一個高效的 AI 處理器將并行計算許多激活;它將它們組合成一系列的數字,稱為向量,或者是數字網格,稱為矩陣,或者是高維的塊,稱為張量。理想情況下,您想一下子將一個矩陣或張量乘以另一個矩陣或張量。GPU 旨在完成類似的工作:
“Trilogy的陰影如此之大,”費爾德曼最近告訴我,“人們停止思考,開始說,‘這是不可能的。’”包括英偉達在內的GPU公司抓住了這個機會,為深度學習定制了芯片。2015年,費爾德曼和一些計算機架構師開始討論更大芯片的想法,他們之前共同創立了一家計算機服務器制造商seamicro,以3.34億美元的價格將這家公司賣給了芯片制造商AMD。他們在一間從風投公司借來的辦公室里研究了這個問題四個月。當他們有了一個可行的解決方案的大綱后,他們與8家公司進行了交談;獲得Benchmark、Foundation Capital和Eclipse的投資,并開始招聘。
Cerebras的第一個任務是解決困擾大型芯片的制造難題。芯片最初是一個圓柱形的結晶硅錠,直徑約為一英尺,鋼錠被切成不到一毫米厚的圓晶片。然后,通過一種光刻的工藝把電路“印”到晶圓上。對紫外線敏感的化學物質被小心地沉積在表面,然后紫外線光束通過稱為光罩(掩膜版)的詳細模板投射,這些化學物質發生反應,形成電路。
通常情況下,通過掩膜版投射的光線覆蓋的區域將成為一個芯片。然后晶片移動,光線再次投射。在數十個或數百個芯片被打印出來后,它們會從晶圓上進行激光切割。“最簡單的方法是,你的媽媽拿出一個圓的曲奇面團,”費爾德曼說, “她有一個餅干模子,她會小心翼翼地把餅干刻出來。”根據物理和光學定律,做一個更大的餅干切割機是不可能的。因此, “我們發明了一種技術,這樣你就可以通過兩塊餅干之間的小面團進行交流。”
在Cerebras與制造芯片的公司臺積電合作開發的打印系統中,餅干的邊緣會重疊,這樣它們的電線就會連起來。結果是一個單一的“晶圓片大小”的晶片,銅色的方形,邊長21厘米。(最大的GPU直徑略小于3厘米。)Cerebras公司于2019年生產了其首個芯片 Wafer-Scale Engine 1。今年推出的WSE-2采用了更密集的電路,包含2.6萬億個晶體管,這些晶體管被集中到85萬個處理單元(或稱“核心”)中。(頂級的GPU只有幾千個核心,而大多數的CPU不到10個。)
Synopsys公司董事長兼聯席首席執行官Aart de Geus表示:“2.6萬億晶體管令人震驚。”Synopsys提供了一些軟件,Cerebras和其他芯片制造商用來制作和驗證他們的芯片設計。de Geus說,在設計芯片時,工程師首先要考慮兩個核心問題:“數據從哪里來?”在哪里處理?”當芯片還比較簡單的時候,設計師們可以在制圖桌上拿著鉛筆回答這些問題;在處理當今更加復雜的芯片時,輸入代碼來描述他們想要創建的架構,然后繼續使用可視化和編碼工具。de Geus說:“想想從屋頂看房子的感覺。“車庫靠近廚房嗎?”還是離臥室很近?你想讓它靠近廚房——否則,你將不得不帶著食品雜貨經過房子的每一個角落。”他解釋說,在設計了平面圖之后,“你可以用方程式來描述房間里發生的事情。”
芯片的設計復雜度令人難以置信。de Geus說:“這里有很多層,”電路縱橫交錯,層層疊疊,就像主要的高速公路立交橋一樣。對于“Cerebras”的工程師來說,在晶圓的規模上工作,復雜性被提高了。Synopsys的軟件以人工智能的形式提供幫助:模式匹配算法識別常見問題并提出解決方案;優化程序將房間推向更快、更有效的安排。如果太多的車道試圖擠在兩個街區的建筑之間,該軟件可以讓工程師扮演羅伯特·摩西(Robert Moses),移動街區。
最后,費爾德曼說,超大芯片設計有幾個優點。當核心在同一個芯片上時,它們的通信速度更快:計算機的大腦現在集中在一個頭骨中,而不是分散在一個房間里。大芯片處理內存的能力也更好。通常情況下,準備處理文件的小芯片必須首先從位于電路板上其他地方的共享內存芯片獲取文件;只有最常用的數據才會被緩存到離家更近的地方。在描述晶圓級芯片的效率時,費爾德曼做了一個類比:他讓我想象一群室友(核心)住在一個宿舍(芯片),他們想看足球比賽(做計算工作)。費爾德曼說,為了觀看比賽,室友們需要把啤酒儲存在冰箱里(數據存儲在內存中);Cerebras在每個房間都放了一個冰箱,這樣室友們就不用冒險去宿舍的公共廚房或Safeway了。這樣做的額外好處,即允許每個核心更快地處理不同的數據。“所以在我的宿舍里我可以有巴德,”費爾德曼說。“在你的宿舍里,你可以享用舒立茲。”
最后,Cerebras 必須克服產量問題。該公司的工程師使用 Trilogy 的技巧:冗余。但在這里,他們比他們的前輩有優勢。Trilogy 試圖制造具有許多不同組件的通用芯片,因此圍繞單個故障元件的布線可能需要連接到遠處的替代品。在 Cerebras 的芯片上,所有內核都是相同的。如果一塊餅干出問題了,它周圍的餅干也一樣好。
今年6月,在《自然》雜志上發表的一篇論文中,谷歌的開發人員報告說,他們第一次完全自動化了一個叫做“芯片布局規劃”的過程。一個典型的芯片可以包含數千個內存塊、數千萬個邏輯門和數萬公里的微型線路。他們使用的技術與DeepMind的同事用來教神經網絡贏得圍棋比賽的技術相同,他們訓練了一個人工智能來規劃張量處理單元,在安排這些元素的同時防止數據擁塞;當他們將人工智能的TPU與一組專家花了幾個月時間創造的TPU進行測試時,他們發現這臺電腦的設計只用了大約幾個小時就完成了,在對面積、電力和電線長度的有效利用方面,與人類不相上下,甚至超過了人類。谷歌目前正在使用該算法設計下一個TPU。
人工智能領域的人都在談論這個奇點——在這個點上,技術將開始以超出人類控制的速度自我改進。我問 de Geus,他的軟件是否幫助設計了他現在用來設計芯片的任何芯片。他說有,并給我看了他最近做的一個幻燈片; 最后以 MC Escher 的兩只手互相畫畫的插圖結束,de Geus 將其標記為“Silicon(硅)”和“Smarts(智慧)”。當我告訴費爾德曼我迫不及待地想看他用Cerebras芯片來設計Cerebras芯片時,他笑稱“這就像給雞喂雞塊。”
結果證明,設計和制造芯片只是挑戰的一半。大腦消耗大量的能量——人類的大腦占我們體重的2%,卻消耗了我們攝入的20%的熱量,而硅也是如此。一個典型的大型計算機芯片可能需要350瓦的功率,但Cerebras的巨型芯片需要15千瓦的功率——足夠運行一間小房子。費爾德曼說:“從來沒有人給芯片提供過這么大的能量。”“從來沒有人需要像這樣冷卻芯片。”
最后,由Cerebras公司圍繞其WSE-1芯片構建的CS-1計算機,有四分之三的部分致力于防止主板熔化。大多數計算機使用風扇將冷空氣吹過處理器,但CS-1使用水,導熱性更好;與管道相連的硅片頂部是一個水冷板,由定制的銅合金制成,加熱時不會膨脹太多,并拋光至完美,以免刮傷芯片。在大多數芯片上,數據和電力通過邊緣的電線流入,其方式大致與到達郊區住宅的方式相同;對于更城市化的晶圓引擎來說,它們需要垂直地從下面進入。工程師們必須發明一種新的連接材料,能夠承受超大芯片環境的高溫和壓力。“這花了我們一年多的時間,”Feldman說。
最終的結果是一個設計精美的盒子,正面是一個復雜的幾何網格,邊緣的剛性三角形鑲嵌在中心變成一種地質的,幾乎是生物的混亂,在那里它們與橙色的垂直條紋相交。這臺電腦看起來就像你在商店買的除濕機一樣;在數據中心的機架中,它占用的空間相當于十五個由GPU驅動的披薩盒。定制的機器學習軟件工程任務以最有效的方式分配給芯片,為了防止冷點分配工作,從而使晶片不會破裂。。
這個系統有多快?最接近全行業機器學習性能度量的是一組稱為MLPerf的基準測試,由一個名為MLCommons的工程聯盟組織。許多得分最高的系統都是由圖形公司英偉達(Nvidia)生產的使用GPU的系統。Cerebras還沒有參加比賽。費爾德曼說:“你絕對不想走到歌利亞面前,邀請他來一場劍戰。”“他們會分配比我們公司更多的人來調優基準。”在任何情況下,基準測試只是系統的一部分。一臺計算機的性能可能優于另一臺,但它也可能有更多的芯片,或使用更多的電力,或成本更高,或缺乏靈活性,或不能很好地擴展,或設置起來很麻煩。
費爾德曼認為,更好的表現來自于客戶滿意度。考慮到CS-1約200萬美元的價格,顧客群相對較小。據Cerebras稱,CS-1已經被一些世界級的實驗室使用,包括勞倫斯利弗莫爾國家實驗室、匹茲堡超級計算中心和愛丁堡大學的e.p.c.超級計算中心,也被制藥公司、工業公司和“軍事和情報客戶”使用。今年早些時候,制藥公司阿斯利康(AstraZeneca)的一名工程師在一篇博客文章中寫道,該公司使用CS-1訓練神經網絡,可以從研究論文中提取信息;這臺計算機在兩天內完成了“大型GPU”需要兩周的工作。美國國家能源技術實驗室(U.S. National Energy Technology Laboratory)報告稱,其CS-1系統解方程組的速度比其超級計算機快200多倍,而耗電量僅為超級計算機的“一小部分”。研究人員寫道:“據我們所知,這是有史以來第一個能夠在真實的流體動力學模型中實時模擬數百萬個細胞的系統。”他們的結論是,由于規模的低效率,他們的超級計算機不可能有一個版本大到足以擊敗CS-1。
勞倫斯·利弗莫爾運行著許多世界上最快的超級計算機。該實驗室已經將CS-1集成到其中一個裝置中,以幫助進行包括模擬核聚變在內的實驗。利弗莫爾計算機公司(Livermore Computing)的首席技術官布羅尼斯·德·蘇平斯基(Bronis de Supinski)告訴我,在最初的測試中,CS-1每個晶體管的神經網絡運行速度是一組GPU的五倍,而且網絡訓練速度更快。
葛蘭素史克 AI 團隊負責人 Kim Branson 表示,作為與伯克利生物化學家 Jennifer Doudna 合作的一部分,該公司已經使用 CS-1 完成了許多任務,包括分析 DNA 序列和預測突變結果。去年因其在crispr 方面的工作而獲得諾貝爾獎. 布蘭森發現,在 DNA 測序工作中,CS-1 的速度大約是他一直使用的 16 節點 GPU 集群的 80 倍。他還指出了其他優勢,其中一個是,作為一臺單一的機器,它更容易安裝。他回憶起自己第一次拜訪Cerebras位于加州森尼維爾的辦公室的情景。他的團隊喜歡使用“銀翼殺手”命名的會議室。當費爾德曼啟動CS-1時,屏幕上出現了“我們來玩個游戲吧?”——指的是1983年的電影《戰爭游戲》,這部電影講述的是一臺智能電腦威脅要發動一場核戰爭。他告訴我,他很期待今年CS-2的發布,它將擁有兩倍的晶體管和內存。
最近,摩爾定律開始放緩。隨著晶體管越來越小,它們開始觸及物理極限——很難構建比幾個原子更小的結構。芯片制造商開始拿摩爾第二定律開玩笑:芯片制造廠的成本似乎也在呈指數級增長。臺積電目前正計劃建造一座耗資超過100億美元的晶圓廠;為了用更小的晶體管制造芯片,該公司正在考慮建造一座成本可能高達250億美元的工廠。20年前,有25家公司可以制造尖端芯片。如今,這一領域已經縮小到臺積電、三星(Samsung)和英特爾(Intel)。
像WSE-1和WSE-2這樣的加速器芯片填補了這一空白。它們并不需要每平方毫米包含更多的晶體管,但它們優化了特定應用的排列。“設計芯片和設計汽車沒有什么不同,”Feldman說。你想要一輛運磚的小貨車嗎?一輛接送孩子的小貨車?周日開一輛跑車?“我們在芯片上放的都是人工智能的東西,” 目前,進展將通過專業化來實現。
風險投資家維什里亞(Vishria)用“工作量”來描述芯片行業的歷史。在他看來,到目前為止已經有四次了。粗略地說,在20世紀80年代,個人電腦需要通用芯片,英特爾成為了這個市場的領導者。然后,在20世紀90年代,電子游戲和CGI的發展推動了具有并行處理功能的強大的GPU的發展,英偉達最終占據了主導地位。互聯網和計算機網絡的興起要求更快的響應時間,博通贏得了巨大的勝利。在2000年,移動需要電力效率,我們有高通和ARM。維什里亞說:“我認為第五項工作量是深度學習,它將與前四項工作量一樣大。”據Synopsys說,“世界已經明白,人工智能和人工智能芯片現在是基礎設施。它是使人類在未來20年發生根本變化的核心。”
Cerebras 的晶片級方法只是一種可能性。業內人士描述了人工智能芯片設計的寒武紀大爆發。微處理器分析師林利·格溫納普(Linley Gwennap)表示,“人工智能帶走了所有的規則。”通用芯片的設計者必須考慮與舊軟件的兼容性。“對于人工智能來說,這就像是把所有這些都拋棄了,因為人工智能的一切都是幾年前的事了,”格溫納普說。超過200家初創公司正在設計人工智能芯片,據估計,到2025年,這個市場的規模將接近1000億美元。并非所有的芯片都是為數據中心設計的,其中一些將被安裝在助聽器、門鈴攝像頭或自動駕駛汽車上。(特斯拉和大眾都在設計自己的汽車。)
地球上幾乎每一種生命形式,從鷹到珊瑚到大腸桿菌,都填補了自己的生態位,并經過優化在特定的條件下茁壯成長。同樣,芯片將繼續進化和多樣化,以滿足特定的需求。Cerebras Wafer-Scale engine可能不會取代Nvidia的GPU,即使是在數據中心,不是每個人都需要200萬美元的超級大腦。這里有容納多種神經系統的空間,包括自然神經系統和人工神經系統。盡管如此,我們似乎已經達到了一個里程碑。
“大腦瓜”來了。