幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > AI頭條  > 正文

xAI為Grok添加圖像理解功能 還能看懂梗圖的幽默

2024-10-29 10:44 · 來源: AIbase基地

馬斯克旗下xAI公司近日為其AI模型Grok增添了圖像理解功能,X平臺付費(fèi)用戶現(xiàn)可向AI助手上傳圖片并進(jìn)行相關(guān)提問。這項(xiàng)更新已經(jīng)由xAI員工和Grok官方發(fā)言人在X平臺正式確認(rèn)。

馬斯克在平臺上展示了Grok的新能力,稱其不僅能理解圖片內(nèi)容,還能解讀圖片中蘊(yùn)含的幽默元素。不過他也坦言,目前這項(xiàng)功能仍處于早期階段,團(tuán)隊(duì)將持續(xù)改進(jìn)完善。

QQ20241029-104045.png

值得注意的是,自今年8月面向高級用戶推出Grok-2模型以來,xAI一直在積極擴(kuò)展其功能范疇。通過與黑森林實(shí)驗(yàn)室(Black Forest Labs)的FLUX.1模型合作,Grok已具備圖像生成能力。此次新增的多模態(tài)理解功能,是對X平臺用戶體驗(yàn)和開發(fā)者API的進(jìn)一步完善。

image.png

對于用戶反饋的文檔處理需求,馬斯克表示這項(xiàng)功能也將很快實(shí)現(xiàn)。他強(qiáng)調(diào)xAI團(tuán)隊(duì)的開發(fā)效率顯著,"幾個月內(nèi)就完成了別人需要幾年才能完成的工作"。

作為X平臺提升用戶粘性的舉措之一,本月初還推出了名為"雷達(dá)"的新工具,為Premium+用戶提供實(shí)時趨勢觀察和對話分析服務(wù)。這些功能更新顯示出X平臺正在通過AI技術(shù)持續(xù)強(qiáng)化其產(chǎn)品競爭力。

備注:資訊來源AIbase基地

AiBase副業(yè)搞錢交流群

歡迎大家加入AiBase交流群, 掃碼進(jìn)入,暢談AI賺錢心得,共享最新行業(yè)動態(tài),發(fā)現(xiàn)潛在合作伙伴,迎接未來的賺錢機(jī)遇!。

AiBase副業(yè)搞錢交流群

  • 相關(guān)推薦
  • 大家在看
  • Grounding with Google Search:利用Google搜索提升AI模型的準(zhǔn)確性和信息新鮮度

    Gemini API和Google AI Studio現(xiàn)在提供與Google Search結(jié)合的Grounding功能,使開發(fā)者能夠獲得更準(zhǔn)確、更新的響應(yīng),這些響應(yīng)由Google搜索輔助的Gemini模型提供。此功能不僅可以提供更準(zhǔn)確的響應(yīng),還能返回支持鏈接和搜索建議,引導(dǎo)用戶找到與響應(yīng)相對應(yīng)的搜索結(jié)果。這一技術(shù)的應(yīng)用,可以減少AI應(yīng)用的虛構(gòu)信息,提供最新的信息,增強(qiáng)AI應(yīng)用的可信度,并且通過提供支持鏈接,增加發(fā)布者網(wǎng)站的流量。

  • Fish Agent V0.1 3B:高精度環(huán)境音頻信息捕捉與生成的語音轉(zhuǎn)語音模型

    Fish Agent V0.1 3B是一個開創(chuàng)性的語音轉(zhuǎn)語音模型,能夠以前所未有的精確度捕捉和生成環(huán)境音頻信息。該模型采用了無語義標(biāo)記架構(gòu),消除了傳統(tǒng)語義編碼器/解碼器的需求。此外,它還是一個尖端的文本到語音(TTS)模型,訓(xùn)練數(shù)據(jù)涵蓋了700,000小時的多語言音頻內(nèi)容。作為Qwen-2.5-3B-Instruct的繼續(xù)預(yù)訓(xùn)練版本,它在200B語音和文本標(biāo)記上進(jìn)行了訓(xùn)練。該模型支持包括英語、中文在內(nèi)的8種語言,每種語言的訓(xùn)練數(shù)據(jù)量不同,其中英語和中文各約300,000小時,其他語言各約20,000小時。

  • Wonder Animation:Autodesk推出的AI解決方案,將視頻轉(zhuǎn)換為3D場景的動畫制作工具。

    Wonder Animation是Autodesk旗下的一款創(chuàng)新產(chǎn)品,它利用尖端的視頻到3D場景技術(shù),將任何視頻序列轉(zhuǎn)換成3D動畫場景,加速動畫電影制作流程。這項(xiàng)技術(shù)能夠處理包含多個剪輯和不同鏡頭(廣角、中景、特寫)的影片和編輯序列,然后使用AI在3D空間中重建場景,并匹配每個攝像機(jī)與角色和環(huán)境的位置和動作關(guān)系。Wonder Animation的主要優(yōu)點(diǎn)在于它能夠?yàn)樗囆g(shù)家提供完全的創(chuàng)意控制權(quán),與市場上其他依賴自動化輸出的生成性AI工具不同,它賦予藝術(shù)家塑造自己愿景的能力。

  • cofounder:AI生成的應(yīng)用,全棧+生成式UI

    cofounder是一個全棧AI生成的應(yīng)用,它結(jié)合了后臺、數(shù)據(jù)庫和有狀態(tài)的web應(yīng)用。它基于應(yīng)用架構(gòu)的生成式UI,擁有AI引導(dǎo)的草圖設(shè)計(jì)和模塊化設(shè)計(jì)系統(tǒng)。這個項(xiàng)目還處于早期alpha階段,但已經(jīng)展現(xiàn)出強(qiáng)大的潛力,尤其是在快速原型設(shè)計(jì)和開發(fā)方面。它的目標(biāo)是提供一個完整的本地、基于瀏覽器的開發(fā)環(huán)境,支持多種框架,并且通過集成的AI插件提供生成式設(shè)計(jì)系統(tǒng)。

  • LaunchGun:AI驅(qū)動的分析平臺,優(yōu)化產(chǎn)品在Product Hunt上的發(fā)布。

    LaunchGun是一個AI驅(qū)動的分析平臺,旨在幫助獨(dú)立制作者通過數(shù)據(jù)驅(qū)動的洞察和聚類分析來優(yōu)化他們在Product Hunt上的發(fā)布。該平臺通過聚合和分析Product Hunt上的公共數(shù)據(jù),為用戶在產(chǎn)品發(fā)布領(lǐng)域提供宏觀視角。LaunchGun的主要優(yōu)點(diǎn)包括聚類基礎(chǔ)的產(chǎn)品分析、數(shù)據(jù)可視化、成功率跟蹤、性能指標(biāo)跟蹤和時間序列分析,幫助用戶識別趨勢和最佳發(fā)布時機(jī)。產(chǎn)品背景信息顯示,LaunchGun由一群對數(shù)據(jù)和產(chǎn)品發(fā)布充滿熱情的開發(fā)者創(chuàng)建,旨在通過最新的實(shí)時數(shù)據(jù)提供深入的分析和見解。

  • MeetingMind:AI會議記錄分析應(yīng)用

    MeetingMind是一個AI驅(qū)動的會議助理,幫助用戶輕松捕捉、分析和執(zhí)行會議洞察。該項(xiàng)目使用Langflow、Next.js和基于Groq的快速轉(zhuǎn)錄服務(wù)來分析會議并生成洞察。產(chǎn)品背景信息顯示,MeetingMind旨在提高會議效率,通過自動化提取會議中的關(guān)鍵信息,如任務(wù)、決策、問題等,減少人工記錄和后續(xù)整理的時間。產(chǎn)品的主要優(yōu)點(diǎn)包括AI轉(zhuǎn)錄、關(guān)鍵信息自動提取和易于使用的界面。目前,該產(chǎn)品在GitHub上開源,用戶可以免費(fèi)使用。

  • Kiwi Fitness:AI驅(qū)動的個性化健身訓(xùn)練APP

    Kiwi Fitness是一款結(jié)合AI技術(shù)和健身訓(xùn)練的應(yīng)用程序,它通過個性化的健身計(jì)劃和游戲化元素,幫助用戶提高體能和健康。產(chǎn)品背景信息顯示,Kiwi Fitness利用研究支持的訓(xùn)練方法和引人入勝的內(nèi)容,創(chuàng)建能夠有效提升力量、耐力、靈活性和整體健康的健身程序。此外,它還提供了一個社交網(wǎng)絡(luò),讓用戶可以分享健身成果,跟隨朋友的進(jìn)步,并在支持性的社區(qū)中慶祝成就。Kiwi Fitness的價格定位是免費(fèi)試用,用戶可以通過應(yīng)用商店下載體驗(yàn)。

  • MobileLLM:優(yōu)化的小型語言模型,適用于移動設(shè)備

    MobileLLM是一種針對移動設(shè)備優(yōu)化的小型語言模型,專注于設(shè)計(jì)少于十億參數(shù)的高質(zhì)量LLMs,以適應(yīng)移動部署的實(shí)用性。與傳統(tǒng)觀念不同,該研究強(qiáng)調(diào)了模型架構(gòu)在小型LLMs中的重要性。通過深度和薄型架構(gòu),結(jié)合嵌入共享和分組查詢注意力機(jī)制,MobileLLM在準(zhǔn)確性上取得了顯著提升,并提出了一種不增加模型大小且延遲開銷小的塊級權(quán)重共享方法。此外,MobileLLM模型家族在聊天基準(zhǔn)測試中顯示出與之前小型模型相比的顯著改進(jìn),并在API調(diào)用任務(wù)中接近LLaMA-v2 7B的正確性,突出了小型模型在普通設(shè)備用例中的能力。

  • Note This Down:AI智能轉(zhuǎn)錄手寫筆記應(yīng)用

    Note This Down是一款利用人工智能技術(shù)將手寫筆記數(shù)字化的應(yīng)用,它通過連接用戶的Notion賬戶,上傳手寫筆記的照片,自動將手寫文字轉(zhuǎn)換成電子文本,并保存到Notion的新頁面中。這款應(yīng)用的主要優(yōu)點(diǎn)包括高準(zhǔn)確率的轉(zhuǎn)錄、直接與Notion集成、無限上傳和轉(zhuǎn)錄、以及7天免費(fèi)試用。Note This Down的背景信息顯示,它旨在幫助那些喜歡手寫筆記但又需要數(shù)字組織便利的用戶。產(chǎn)品價格分為月付和年付兩種,月付16美元,年付79美元,均提供7天免費(fèi)試用。

  • KlipLab:AI名人語音生成器,創(chuàng)建逼真的配音和視頻。

    KlipLab是一個利用人工智能技術(shù)的平臺,允許用戶使用名人、公眾人物和虛構(gòu)角色的聲音來創(chuàng)建配音和唇形同步視頻。用戶只需選擇一個聲音,輸入文本,KlipLab就能生成一個唇形同步的視頻。這個技術(shù)的重要性在于它能夠?yàn)橐曨l內(nèi)容創(chuàng)作者提供一種快速、高效的方式來制作高質(zhì)量的視頻內(nèi)容,同時增加視頻的吸引力和互動性。KlipLab提供了多種聲音選擇,并且支持高清視頻輸出,適合社交媒體和內(nèi)容創(chuàng)作者使用。

  • Data Formulator:AI驅(qū)動的數(shù)據(jù)可視化工具

    Data Formulator 是微軟研究團(tuán)隊(duì)開發(fā)的一款A(yù)I驅(qū)動的數(shù)據(jù)可視化工具,它通過結(jié)合用戶界面交互和自然語言輸入,幫助用戶快速創(chuàng)建豐富的數(shù)據(jù)可視化圖表。該工具可以自動處理數(shù)據(jù)轉(zhuǎn)換,使用戶能夠?qū)W⒂趫D表設(shè)計(jì)。Data Formulator 支持通過Python安裝并本地運(yùn)行,也可以在GitHub Codespaces中快速啟動。它代表了數(shù)據(jù)分析和可視化領(lǐng)域的技術(shù)進(jìn)步,通過AI技術(shù)提高了數(shù)據(jù)可視化的效率和易用性。

  • Syrnyk:一個擁有食譜生成器的美食博客。

    Syrnyk是一個美食博客網(wǎng)站,它不僅提供各種美食食譜,還擁有自己的食譜生成器應(yīng)用。用戶可以通過這個平臺找到各種風(fēng)格的食譜,包括早餐、午餐、晚餐和甜點(diǎn)等,滿足不同用戶的烹飪需求。Syrnyk的食譜生成器可以幫助用戶根據(jù)口味和烹飪時間快速生成個性化食譜,創(chuàng)造自己的烹飪書。這個平臺以其豐富的食譜內(nèi)容和便捷的食譜生成功能,為用戶提供了一個有趣的烹飪體驗(yàn)。

  • Zefi AI:將用戶反饋轉(zhuǎn)化為價值

    Zefi AI是一個商業(yè)產(chǎn)品,專注于將用戶反饋集中化、分析并提取洞察,以指導(dǎo)更好的產(chǎn)品決策。它通過集成多種工具,提供一個統(tǒng)一的反饋概覽,幫助企業(yè)理解用戶反饋背后的原因和趨勢,從而推動業(yè)務(wù)增長。Zefi AI以其企業(yè)級安全性、自動化反饋收集和標(biāo)記、以及基于數(shù)據(jù)的產(chǎn)品決策支持而受到客戶信賴。

  • D-FINE:重新定義DETRs中的回歸任務(wù)為細(xì)粒度分布細(xì)化。

    D-FINE是一個強(qiáng)大的實(shí)時目標(biāo)檢測模型,它通過將DETRs中的邊界框回歸任務(wù)重新定義為細(xì)粒度分布細(xì)化(FDR),并引入全局最優(yōu)定位自蒸餾(GO-LSD),在不增加額外推理和訓(xùn)練成本的情況下,實(shí)現(xiàn)了出色的性能。該模型由中國科學(xué)院的研究人員開發(fā),旨在提高目標(biāo)檢測的精度和效率。

  • Font Guesser:字體識別游戲,挑戰(zhàn)你的字體知識

    Font Guesser是一個在線互動游戲,旨在通過趣味的方式測試和提升用戶對不同字體的識別能力。用戶需要根據(jù)展示的字體樣本猜測其類型,包括Display、Serif、Sans-Serif、Monospace、Handwriting和Decorative等。這個游戲不僅增加了用戶對字體的認(rèn)識,還能提升設(shè)計(jì)感和審美能力。產(chǎn)品背景信息顯示,該游戲由Nitin設(shè)計(jì)并制作,旨在以趣味的方式教育用戶識別和了解不同的字體。目前該游戲是免費(fèi)的,適合所有對字體設(shè)計(jì)感興趣的用戶。

  • Personas:個性化音樂創(chuàng)作平臺

    Suno是一個音樂創(chuàng)作平臺,通過其最新功能Personas,用戶可以捕捉并保存任何曲目的獨(dú)特氛圍,賦予其生命。Personas允許用戶保存歌曲的本質(zhì)——其人聲、風(fēng)格和氛圍,并在新的創(chuàng)作中重新想象它。這就像是給曲目一個獨(dú)特的身份,隨時準(zhǔn)備激發(fā)你的創(chuàng)造力。Personas讓用戶以音樂的本質(zhì)為基礎(chǔ),創(chuàng)造新的音樂聲音,這些聲音承載著他們最喜歡的曲目的靈魂。通過公開Personas,不僅是關(guān)于你的音樂——它是一個邀請他人加入和協(xié)作的邀請。

  • MLX-Auto-Subtitled-Video-Generator:基于 Apple MLX 框架的視頻字幕生成工具

    一款基于 Apple MLX 框架構(gòu)建的開源字幕生成工具,針對蘋果硅芯片 Mac 優(yōu)化,高效且成本效益高。

  • Blendbox:AI藝術(shù)創(chuàng)作平臺,讓創(chuàng)意不受限制。

    Blendbox是一個基于AI的藝術(shù)創(chuàng)作平臺,它通過提供非破壞性編輯、層級編輯和重組等功能,增強(qiáng)用戶的創(chuàng)造力。用戶可以輕松地對作品的各個層進(jìn)行編輯和調(diào)整,實(shí)現(xiàn)前所未有的創(chuàng)作自由度。Blendbox的背景信息顯示,它是由Blockade Labs開發(fā)的,旨在推動AI技術(shù)在藝術(shù)創(chuàng)作領(lǐng)域的應(yīng)用。產(chǎn)品定位于專業(yè)設(shè)計(jì)師和藝術(shù)創(chuàng)作者,價格方面提供試用,具體定價未在頁面中明確。

  • MimicTalk:快速生成個性化和富有表現(xiàn)力的3D會說話面部模型

    MimicTalk是一種基于神經(jīng)輻射場(NeRF)的個性化三維說話面部生成技術(shù),它能夠在幾分鐘內(nèi)模仿特定身份的靜態(tài)外觀和動態(tài)說話風(fēng)格。這項(xiàng)技術(shù)的主要優(yōu)點(diǎn)包括高效率、高質(zhì)量的視頻生成以及對目標(biāo)人物說話風(fēng)格的精確模仿。MimicTalk通過一個通用的3D面部生成模型作為基礎(chǔ),并通過靜態(tài)-動態(tài)混合適應(yīng)流程來學(xué)習(xí)個性化的靜態(tài)外觀和面部動態(tài),同時提出了一種上下文風(fēng)格化的音頻到運(yùn)動(ICS-A2M)模型,以生成與目標(biāo)人物說話風(fēng)格相匹配的面部運(yùn)動。MimicTalk的技術(shù)背景是基于深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域的最新進(jìn)展,特別是在人臉合成和動畫生成方面。目前,該技術(shù)是免費(fèi)提供給研究和開發(fā)社區(qū)的。

  • Agent S::一個開放的代理框架,讓計(jì)算機(jī)像人類一樣使用計(jì)算機(jī)。

    Agent S是一個開放的代理框架,旨在通過圖形用戶界面(GUI)實(shí)現(xiàn)與計(jì)算機(jī)的自主交互,通過自動化復(fù)雜多步驟任務(wù)來轉(zhuǎn)變?nèi)藱C(jī)交互。它引入了經(jīng)驗(yàn)增強(qiáng)的分層規(guī)劃方法,利用在線網(wǎng)絡(luò)知識和敘事記憶,從過去的交互中提取高級經(jīng)驗(yàn),將復(fù)雜任務(wù)分解為可管理的子任務(wù),并使用情景記憶進(jìn)行逐步指導(dǎo),Agent S不斷優(yōu)化其行動并從經(jīng)驗(yàn)中學(xué)習(xí),實(shí)現(xiàn)適應(yīng)性強(qiáng)且有效的任務(wù)規(guī)劃。Agent S在OSWorld基準(zhǔn)測試中的表現(xiàn)超過了基線9.37%的成功率(相對提高了83.6%),并在WindowsAgentArena基準(zhǔn)測試中展示了廣泛的通用性。

今日大家都在搜的詞:

熱文

  • 3 天
  • 7天