LLM若想高速推理,現(xiàn)如今,連GPU都無法滿足了?曾造出世界最大芯片公司Cerebras,剛剛發(fā)布了全球最快的AI推理架構——Cerebras Inference。運行Llama3.18B時,它能以1800token/s的速率吐出文字。不論是總結(jié)文檔,還是代碼生成等任務,響應幾乎一閃而過,快到讓你不敢相信自己的眼睛
......
本文由站長之家合作伙伴自媒體作者“新智元公眾號”授權發(fā)布于站長之家平臺,本平臺僅提供信息索引服務。由于內(nèi)容發(fā)布時間超過平臺更新維護時間,為了保證文章信息的及時性,內(nèi)容觀點的準確性,平臺將不提供完全的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請查看原文,獲取內(nèi)容詳情。
(舉報)