11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵?lái)騰訊云選購(gòu)吧!
【新智元導(dǎo)讀】24點(diǎn)游戲、幾何圖形、一步將死問(wèn)題,這些推理密集型任務(wù),難倒了一片大模型,怎么破?北大、UC伯克利、斯坦福研究者最近提出了一種全新的BoT方法,用思維模板大幅增強(qiáng)了推理性能。Llama3-8B在BoT的加持下,竟多次超越Llama3-70B!大語(yǔ)言模型不擅長(zhǎng)推理怎么辦?用思維緩沖區(qū)來(lái)解決!最近,北大、UC伯克利、斯坦福的研究人員提出了一種元緩沖區(qū)。他擔(dān)任/曾擔(dān)任中?
最近的研究表明,GPT-4在圖形推理任務(wù)上表現(xiàn)不佳,僅有33%的準(zhǔn)確率,引發(fā)了對(duì)大型語(yǔ)言模型圖形處理能力的關(guān)注。通過(guò)使用ConceptARC數(shù)據(jù)集,研究者對(duì)451名人類受試者進(jìn)行了圖形推理任務(wù)測(cè)試,結(jié)果顯示人類在這方面表現(xiàn)卓越,平均準(zhǔn)確率達(dá)到91%。這項(xiàng)研究突顯了目前大型語(yǔ)言模型在某些特定任務(wù)上的局限性,并提出了對(duì)研究方法的進(jìn)一步審視的需求。