走向世界！全球語音、聲學(xué)頂會(huì) ICASSP 放榜，網(wǎng)易易盾論文中啦！

2023-06-08 11:32 · 稿源：站長之家用戶

每個(gè)科幻迷都向往著在未來能像和老朋友對話一樣，用寥寥數(shù)語發(fā)動(dòng)星際飛船，征服星辰大海；或者擁有鋼鐵俠的人工智能管家賈維斯，幾句對話就能造出一套納米戰(zhàn)甲。其實(shí)這個(gè)畫面離我們并不遠(yuǎn)——就像 iPhone 中的 Siri 一樣同我們觸手可及。它的背后是自動(dòng)語言識別技術(shù)（Automatic Speech Recognition)。這項(xiàng)關(guān)鍵技術(shù)能將語音轉(zhuǎn)換為計(jì)算機(jī)可識別的文字或命令，實(shí)現(xiàn)便捷、有效、智能的人機(jī)交互體驗(yàn)。

而隨著深度學(xué)習(xí)等 AI 技術(shù)的發(fā)展，語音識別技術(shù)已經(jīng)取得了巨大的進(jìn)步——不僅識別準(zhǔn)確度大大提高，而且能夠更好地處理口音、噪聲和背景音等問題。但隨著技術(shù)在生活和業(yè)務(wù)中的不斷應(yīng)用，仍會(huì)遇到一些瓶頸，畢竟從理論研究到實(shí)際應(yīng)用，從論文到產(chǎn)品，需要考慮太多的現(xiàn)實(shí)因素。如何讓語音識別更好地輔助內(nèi)容審核？如何讓識別動(dòng)作本身也能像人腦一樣，根據(jù)對語境的理解，以更低的成本給出更準(zhǔn)確的答案？網(wǎng)易智企旗下易盾 AI Lab 給出了新方法。

易盾又出黑科技，智企邁向全世界！

近日，全球語音、聲學(xué)頂級會(huì)議 ICASSP 2023 公布了論文入選名單，網(wǎng)易智企旗下易盾 AI Lab 提交的論文成功被錄用。今年是第 48 屆 ICASSP 大會(huì)，也是疫情后的第一屆線下大會(huì)，雖然大會(huì)官方還未公布最后錄用了多少篇論文，但論文投遞的數(shù)量相較往年上升了 50%，達(dá)到了驚人的 6，000+。

面對如此激烈的競爭，網(wǎng)易智企易盾 AI Lab 團(tuán)隊(duì)?wèi){借一篇語音識別方向的論文《Improving CTC-based ASR Models with Gated Interplayer Collaboration（基于 CTC 的模型改進(jìn)，實(shí)現(xiàn)更強(qiáng)的模型結(jié)構(gòu)）》脫穎而出，成功拿到了前往希臘羅德島線下參會(huì)的門票。

“GIC”，助力語音識別更進(jìn)一步

語音識別本質(zhì)上是語音序列到文字序列的轉(zhuǎn)化，而要完成這樣的轉(zhuǎn)化，一般會(huì)用到三類模型，CTC、Attention-based 和 RNN-Transducer，它們在完成任務(wù)的時(shí)候采用了不同的路徑：

CTC：基于神經(jīng)網(wǎng)絡(luò)模型，在訓(xùn)練過程中通過反向傳播來更新模型參數(shù)以最小化損失函數(shù)。該算法引入了“空白符”來表示無意義字符或者間隔符號。CTC 適合處理輸入輸出長度相差較大的數(shù)據(jù)，如語音識別中將聲學(xué)特征映射為文本；

Attention-based：注意力機(jī)制，也是基于神經(jīng)網(wǎng)絡(luò)模型，并且使用一種稱為“注意力”的技術(shù)來對輸入進(jìn)行加權(quán)匯聚。在每個(gè)時(shí)間步驟上，該模型會(huì)根據(jù)當(dāng)前狀態(tài)和所有輸入計(jì)算出一個(gè)分布式權(quán)重向量，并將其應(yīng)用于所有輸入以產(chǎn)生一個(gè)加權(quán)平均值作為輸出。這種方式可以使得模型更好地關(guān)注與當(dāng)前預(yù)測相關(guān)的部分信息；

RNN-Transducer：轉(zhuǎn)錄器，這個(gè)算法結(jié)合了編碼器-解碼器框架和自回歸建模思想，在生成目標(biāo)序列時(shí)同時(shí)考慮源語言句子和已生成部分目標(biāo)語言句子之間的交互作用。與其他兩種方法不同，RNN-Transducer 沒有明確區(qū)分編碼器和解碼器階段，并且直接從源語言到目標(biāo)語言進(jìn)行轉(zhuǎn)換，因此可以同時(shí)考慮源語言句子和已生成部分目標(biāo)語言句子之間的交互作用。

相比后兩者，雖然?CTC?具有天然的非自回歸解碼性質(zhì)，解碼速度相對快很多，但依然有著性能劣勢：

1. CTC 算法設(shè)置了條件獨(dú)立性假設(shè)，即 CTC 假設(shè)每個(gè)時(shí)間步的輸出之間是獨(dú)立的。這對語音識別任務(wù)來說并不合理，假如說“ji rou”這個(gè)發(fā)音，在不同的上下文中預(yù)測的文字內(nèi)容應(yīng)該不一樣的。如果上文是“我喜歡吃”，接下來“雞”的概率應(yīng)該更高，同理如果上文是“他手臂有”，接下來“肌”的概率應(yīng)該更高。如果通過 CTC 訓(xùn)練，很容易就會(huì)在忽略上文的前提下，輸出“我喜歡吃肌肉”這樣好笑的文本；

2.從建模的視角來看，Attention-based 模型和 RNN-Transducer 模型根據(jù)輸入和之前時(shí)間步的輸出預(yù)測當(dāng)前時(shí)間步的輸出，而 CTC 模型僅僅利用輸入來預(yù)測當(dāng)下的輸出，在 CTC 模型的建模過程中，文本信息僅僅是作為一種監(jiān)督信號回傳給網(wǎng)絡(luò)，并沒有作為網(wǎng)絡(luò)的輸入顯式促進(jìn)模型的預(yù)測。

我們希望能在保留 CTC 解碼效率的同時(shí)，盡可能地解決以上兩點(diǎn)劣勢。于是，我們想從 CTC 模型本身出發(fā)，設(shè)計(jì)輕量級的模塊給基于 CTC 的模型引入文本信息，使得模型能夠整合聲學(xué)和文本信息，學(xué)習(xí)到文本序列上下文之間的相互作用，從而緩解 CTC 算法的條件獨(dú)立性假設(shè)。但過程中，我們碰到了兩個(gè)問題：如何在CTC模型（Encoder +CTC 結(jié)構(gòu)）里注入文本信息？如何自適應(yīng)地融合文本特征和聲學(xué)特征？

為了實(shí)現(xiàn)上述目標(biāo)，我們設(shè)計(jì)了 Gated Interlayer Collaboration（簡寫為GIC）機(jī)制。GIC 模塊主要包含一個(gè)嵌入層（embedding layer）和一個(gè)門控單元（gate unit）。其中，嵌入層用于生成每一音頻輸入幀的文本信息，門控單元用于自適應(yīng)地融合文本信息和聲學(xué)信息。

具體地，我們的方法基于多任務(wù)學(xué)習(xí)（Multi-task Learning）框架，利用編碼器模塊（Encoder）中間層的輸出計(jì)算輔助 CTC loss，整個(gè)網(wǎng)絡(luò)的目標(biāo)函數(shù)是最后一層的 CTC loss 和中間層輔助 CTC loss 的加權(quán)和。GIC 將網(wǎng)絡(luò)中間層的預(yù)測，即 Softmax 輸出的概率分布作為每一幀的軟標(biāo)簽，點(diǎn)乘嵌入層矩陣之和作為每一幀的文本表征。最后，生成的文本表征和聲學(xué)表征通過一個(gè)門控單元自適應(yīng)地融合，成為一個(gè)新特征輸入到下一層。此時(shí)的新特征融合了文本特征和聲學(xué)特征，使得下一層的 Encoder 模塊可以學(xué)習(xí)到聲學(xué)序列上下文信息和文本序列上下文信息。整個(gè)模型的框架如下圖所示：

在 Conformer 和 Transformer 這兩個(gè)模型上的實(shí)驗(yàn)表明：

1. GIC?同時(shí)支持漢語和英語的場景識別，同時(shí)準(zhǔn)確度均取得了顯著的性能提升；

2. GIC 模型性能超過了同參數(shù)規(guī)模的 Attention-based 和 RNN-transducer 模型，并且具有非自回歸解碼的優(yōu)勢，帶來數(shù)倍的解碼速度提升；

3. 相對原始的 CTC 模型，GIC 在多個(gè)開源數(shù)據(jù)集有遠(yuǎn)超 10% 的相對性能提升。

Conformer 模型下的結(jié)論

Transformer 模型下的結(jié)論

GIC 為 CTC 模型的性能帶來了很大的提升。相對原始的 CTC 模型，GIC 模塊大約帶來 2M 的額外參數(shù)，其中，計(jì)算中間層輔助 CTC loss 所用的線性層與最后一層是共享的，不會(huì)帶來額外的參數(shù)。多個(gè)中間層共享嵌入層，帶來 256*5000 約等于 1.3M 的參數(shù)。除此之外，多個(gè)門控單元的參數(shù)是 256*256*2*k，合計(jì)約 0.6M 的額外參數(shù)量。

領(lǐng)先技術(shù)造就先進(jìn)業(yè)務(wù)

論文中的 GIC 已經(jīng)應(yīng)用在了網(wǎng)易易盾的內(nèi)容審核業(yè)務(wù)中。

作為網(wǎng)易智企旗下一站式數(shù)字內(nèi)容風(fēng)控品牌，易盾長期專注于數(shù)字內(nèi)容安全風(fēng)控和反垃圾信息的技術(shù)研發(fā)和創(chuàng)新。其中，針對以聲音作為載體的數(shù)字內(nèi)容，易盾提供了多種音頻內(nèi)容審核引擎，包括歌曲、廣播、電視節(jié)目、直播等各種類型的音頻內(nèi)容，及時(shí)檢測和過濾含有敏感、違規(guī)、低俗，廣告內(nèi)容的語音，從而減少不良內(nèi)容的社會(huì)影響，營造良好的網(wǎng)絡(luò)環(huán)境。

針對有具體語義內(nèi)容的音頻，易盾通過語音識別技術(shù)將音頻文件中的語音內(nèi)容轉(zhuǎn)寫為文字內(nèi)容，再利用檢測模塊分析和處理文本，從而實(shí)現(xiàn)對音頻內(nèi)容的自動(dòng)化審核和過濾。因此，語音識別的準(zhǔn)確率與音頻內(nèi)容的審核效率和準(zhǔn)確性是息息相關(guān)的，會(huì)直接影響到客戶開展業(yè)務(wù)的安全與穩(wěn)定。

論文中的 GIC 在內(nèi)容審核中的應(yīng)用取得了顯著的效果提升。在實(shí)際的應(yīng)用過程中，需要調(diào)試的超參數(shù)有兩個(gè)，分別是多任務(wù)學(xué)習(xí)系數(shù) lambda 和中間層層數(shù) k。在 18 層編碼器結(jié)構(gòu)中我們發(fā)現(xiàn) k=5，lambda=0.5 有較好的實(shí)驗(yàn)效果。接著，我們會(huì)從這個(gè)設(shè)置開始嘗試，不斷微調(diào)以確定最優(yōu)的超參數(shù)。

幕后英雄：網(wǎng)易智企易盾 AI Lab

這不是易盾 AI Lab 團(tuán)隊(duì)第一次獲得這樣規(guī)格的榮譽(yù)。

作為網(wǎng)易智企下設(shè)的始終走在人工智能研究前沿的技術(shù)團(tuán)隊(duì)，易盾 AI Lab 致力于圍繞精細(xì)化、輕量化、敏捷化打造全面嚴(yán)謹(jǐn)、安全可信的 AI 技術(shù)能力，不斷提升數(shù)字內(nèi)容風(fēng)控服務(wù)水平。在這之前，團(tuán)隊(duì)曾獲得多項(xiàng) AI 算法競賽冠軍及重要獎(jiǎng)勵(lì)榮譽(yù)：

2019 年第一屆中國人工智能大賽旗幟識別賽道最高檔 A 級證書

2020 年第二屆中國人工智能大賽視頻深度偽造檢測賽道最高檔 A 級證書

2021 年第三屆中國人工智能大賽視頻深度偽造檢測和音頻深度偽造檢測賽道兩項(xiàng)最高檔 A 級證書

2021 年中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟“創(chuàng)新之星”、“創(chuàng)新人物”

2021 年第十六屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議（NCMMSC2021）“長短視頻多語種多模態(tài)識別競賽”—漢語長短視頻直播語音關(guān)鍵詞（VKW）雙賽道冠軍

2021 年獲得浙江省政府頒發(fā)的科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)

2022 年 ICPR 多模態(tài)字幕識別比賽（Multimodal Subtitle Recognition，簡稱 MSR 競賽，國內(nèi)首個(gè)多模態(tài)字幕識別大賽）賽道三“融合視覺和音頻的多模態(tài)字幕識別系統(tǒng)”冠軍

未來已來，AI 的 iPhone 時(shí)刻已至。今天，易盾成功登上了語音學(xué)的學(xué)術(shù)殿堂；未來，技術(shù)將成就業(yè)務(wù)的方方面面，而網(wǎng)易易盾將始終伴您左右。

（推廣）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)，對本頁面內(nèi)容所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任，相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，可及時(shí)向站長之家提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明（點(diǎn)擊查看反饋聯(lián)系地址）。本網(wǎng)站在收到上述法律文件后，將會(huì)依法依規(guī)核實(shí)信息，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

相關(guān)推薦
大家在看

關(guān)鍵詞：

【騰訊云】11.11云上盛惠！云服務(wù)器首年1.8折起，買1年送3個(gè)月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務(wù)器首年1.8折起，買1年送3個(gè)月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享?？靵眚v訊云選購吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購
去看看

爆款產(chǎn)品組合購低至1元

騰訊云x NVIDIA加速計(jì)劃
去看看

騰訊云x NVIDIA加速計(jì)劃最高獲贈(zèng)10萬元扶持基金

2核2G云服務(wù)器
去看看

2核2G云服務(wù)器 112元/1年

查看更多相關(guān)信息>>

騰訊云 12-20

廣告
品牌全球化首秀，NF ACOUS寧梵聲學(xué)亮相2024上海樂器展

10月13日，中國國際樂器展覽會(huì)2024完美落幕。眾星璀璨、大佬云集，看看有沒有你心中的SuperStar？值得一提的是，在場的攝影師也抓拍到了部分前來打卡的大咖，快來看看有沒有你心中的SuperStar吧！

?中國上海樂器展 ?寧梵聲學(xué) ?入耳式監(jiān)聽耳機(jī)
中國品牌走向世界！淮海斬獲2024年度美國 MUSE國際金獎(jiǎng)

享譽(yù)全球的美國繆斯設(shè)計(jì)獎(jiǎng)公布了2024年度評選結(jié)果，淮海旗下休閑車產(chǎn)品“巧迪M7”憑借其卓越的創(chuàng)新設(shè)計(jì)與精湛的工藝水準(zhǔn)一舉摘得了“2024美國Muse設(shè)計(jì)金獎(jiǎng)”!據(jù)了解，美國繆斯設(shè)計(jì)獎(jiǎng)由美國國際設(shè)計(jì)獎(jiǎng)項(xiàng)主辦，是全球創(chuàng)意設(shè)計(jì)領(lǐng)域極具影響力的國際獎(jiǎng)項(xiàng)之一，素有“設(shè)計(jì)界奧斯卡”之稱?；春４朔霉鸸冢粌H是對品牌實(shí)力的高度認(rèn)可，更是中國品牌在國際舞臺上的又一次重大突破，標(biāo)志著淮海正以嶄新的姿態(tài)和強(qiáng)大的實(shí)力，向世界展示著中國制造的魅力與潛力。我們也期待淮海能夠繼續(xù)引領(lǐng)中國電動(dòng)新能源行業(yè)的發(fā)展潮流，為中國品牌走向世界貢獻(xiàn)更多的智慧和力量。

?美國繆斯設(shè)計(jì)獎(jiǎng) ?巧迪M7 ?淮海電動(dòng)車
趣丸科技聯(lián)合港中大（深圳）開源語音大模型MaskGCT，刷新全球多項(xiàng)SOTA

10月24日，趣丸科技宣布與香港中文大學(xué)聯(lián)合研發(fā)的語音大模型“MaskGCT”正式在Amphion系統(tǒng)中開源，面向全球用戶開放使用。區(qū)別于傳統(tǒng)TTS模型，該模型采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式，在聲音克隆、跨語種合成、語音控制等任務(wù)中展現(xiàn)出卓越效果。以“趣丸千音”為代表的產(chǎn)品的出現(xiàn)，將加速國產(chǎn)短劇“走出去”，進(jìn)一步推動(dòng)中華文化在全球不同語境下的傳播。

?趣丸科技 ?MaskGCT ?語音大模型
Swisse斯維詩以全球優(yōu)質(zhì)原料，引領(lǐng)健康品質(zhì)生活

在當(dāng)今全球健康產(chǎn)業(yè)高端化、細(xì)分化的新趨勢下，提升健康素養(yǎng)水平已成為全世界人民共同追求的目標(biāo)。作為健合集團(tuán)旗下源自澳洲的自然營養(yǎng)健康品牌，Swisse斯維詩始終秉持著“讓全世界人們更健康、更快樂”的使命和愿景，致力于甄選全球優(yōu)質(zhì)原料，為全球消費(fèi)者提供科學(xué)、安全、高品質(zhì)的營養(yǎng)健康產(chǎn)品。Swisse斯維詩將繼續(xù)立足于全球消費(fèi)者需求與科學(xué)研究，不斷探索營養(yǎng)和健康領(lǐng)域的尖端研究與技術(shù)，為全球健康事業(yè)發(fā)展持續(xù)輸送養(yǎng)分，引領(lǐng)健康新風(fēng)尚。

?健康產(chǎn)業(yè) ?營養(yǎng)健康 ?Swisse斯維詩
全球電視市場復(fù)蘇：TCL以強(qiáng)勁增長穩(wěn)居全球前二地位！

隨著經(jīng)濟(jì)政策的持續(xù)寬松以及消費(fèi)者信心的逐步恢復(fù)，人們對于享受高品質(zhì)家庭娛樂體驗(yàn)的需求愈發(fā)迫切。尤其在今年雙十一“以舊換新”的政策刺激下，家電市場特別是電視品類備受矚目，據(jù)行業(yè)機(jī)構(gòu)奧維云網(wǎng)預(yù)測，今年雙十一國內(nèi)彩電行業(yè)預(yù)計(jì)零售量規(guī)模將達(dá)到502萬臺，對比去年同期增長5.5%，預(yù)示著高端大屏等品質(zhì)型產(chǎn)品將持續(xù)走俏市場。在數(shù)字化和智能化浪潮的推動(dòng)下，TCL必將繼續(xù)引領(lǐng)行業(yè)發(fā)展，為全球用戶帶來更多驚喜。

?經(jīng)濟(jì)政策 ?消費(fèi)者信心 ?家電市場
Passion在開封夜騎里具象化了：場面熱血十足

鄭州大學(xué)生集體夜騎開封的事件引發(fā)了廣泛關(guān)注，作為回應(yīng)，開封的大學(xué)生們也自發(fā)組織了夜騎活動(dòng)。11月3日，一名開封大學(xué)生小付發(fā)布視頻，記錄了她和幾名同學(xué)通過鄭開大道從開封騎行到鄭州的過程。當(dāng)?shù)爻枪芎徒痪块T也在夜騎期間加強(qiáng)了對騎行大學(xué)生的引導(dǎo)和安全提醒。

?鄭州大學(xué)生夜騎 ?開封夜騎活動(dòng) ?大學(xué)生騎行文化
無網(wǎng)也能通信！vivo X200 Pro全球首發(fā)公里級無網(wǎng)通信技術(shù)

vivoX200Pro今晚正式發(fā)布，全球首發(fā)公里級無網(wǎng)通信。vivo與聯(lián)發(fā)科共同研發(fā)并全球首發(fā)了公里級無網(wǎng)通信技術(shù)，在無網(wǎng)無信號的環(huán)境下，通過藍(lán)牙連接實(shí)現(xiàn)點(diǎn)對點(diǎn)、遠(yuǎn)距離的通信方式。這款技術(shù)能救急：災(zāi)害緊急救援支持極端天氣、地震、泥石流等救援場景，一鍵快速向周邊設(shè)備發(fā)送求救廣播，傳遞個(gè)人被困位置和身體狀況；救援人員可與被困者建立連接并語音對講，通過求救者地圖位置標(biāo)識快速實(shí)施救援。

?vivo ?X200 ?Pro
從中國到全球的呼吸革命，章燕博士內(nèi)卷破局，實(shí)現(xiàn)貝昂智能中國品牌的全球化突圍

貝昂的全球擴(kuò)張并非一帆風(fēng)順，但它對每個(gè)挑戰(zhàn)都推出了創(chuàng)新的解決方案。“如果你的產(chǎn)品技術(shù)跟別人沒有壁壘，你一個(gè)外來品牌憑什么跟本土品牌競爭”——章燕在2024年《財(cái)富》中國最具影響力的商界女性榜單中，章燕博士是今年未來榜中的新面孔：“非典型硅谷科學(xué)家轉(zhuǎn)型科技公司創(chuàng)始人”，這位優(yōu)雅的女性用她10年的智慧與堅(jiān)持，帶領(lǐng)企業(yè)另辟蹊徑彎道超車，完成96個(gè)國家和地區(qū)的全球化戰(zhàn)略目標(biāo)，深度詮釋了新時(shí)代商界女性領(lǐng)導(dǎo)者的魅力與魄力。其實(shí)不論在生活還是在工作中，我們會(huì)不斷遇到不同人生階段的獨(dú)一無二的挑戰(zhàn)，但是破局的關(guān)鍵不在于千軍萬馬過獨(dú)木橋在于如何在大浪淘沙中找到屬于你自己的獨(dú)特差異化路線，認(rèn)識自己，成為自己，超越自己，才是新時(shí)代創(chuàng)業(yè)女性應(yīng)該追求的標(biāo)桿。

?貝昂全球擴(kuò)張 ?章燕商界女性 ?科技創(chuàng)新解決方案
從中國到全球的呼吸革命，章燕博士內(nèi)卷破局，實(shí)現(xiàn)貝昂智能中國品牌的全球化突圍

“如果你的產(chǎn)品技術(shù)跟別人沒有壁壘，你一個(gè)外來品牌憑什么跟本土品牌競爭”——章燕在2024年《財(cái)富》中國最具影響力的商界女性榜單中，章燕博士是今年未來榜中的新面孔：“非典型硅谷科學(xué)家轉(zhuǎn)型科技公司創(chuàng)始人”，這位優(yōu)雅的女性用她10年的智慧與堅(jiān)持，帶領(lǐng)企業(yè)另辟蹊徑彎道超車，完成96個(gè)國家和地區(qū)的全球化戰(zhàn)略目標(biāo)，深度詮釋了新時(shí)代商界女性領(lǐng)導(dǎo)者的魅力與魄力?，F(xiàn)任蘇州貝昂智能科技股份有限公司的聯(lián)合創(chuàng)始人兼海外事業(yè)部負(fù)責(zé)人，美國加州大學(xué)電子工程博士畢業(yè)，放棄硅谷工程師高薪，毅然回國創(chuàng)業(yè)，從逆境中崛起，以差異化破浪前行。其實(shí)不論在生活還是在工作中，我們會(huì)不斷遇到不同人生階段的獨(dú)一無二的挑戰(zhàn)，但是破局的關(guān)鍵不在于千軍萬馬過獨(dú)木橋在于如何在大浪淘沙中找到屬于你自己的獨(dú)特差異化路線，認(rèn)識自己，成為自己，超越自己，才是新時(shí)代創(chuàng)業(yè)女性應(yīng)該追求的標(biāo)桿。

?商業(yè)女性 ?科技創(chuàng)新 ?全球化戰(zhàn)略
徠卡全球CEO訪問明月鏡片，雙方開啟戰(zhàn)略合作全新階段

10月15日，徠卡全球CEOMatthiasHarsch先生、徠卡視光全球董事總經(jīng)理JoergBauer先生一行訪問明月鏡片上海總部，為明月鏡片與徠卡戰(zhàn)略合作開啟全新階段。明月鏡片董事長謝公晚、明月鏡片總裁謝公興、明月鏡片常務(wù)副總裁曾哲接待歡迎，雙方進(jìn)行深度交流。圖｜明月鏡片董事長謝公晚向徠卡全球CEOMatthiasHarsch贈(zèng)送明月與中國航天定制款模型相信以明月鏡片多年來在鏡片行業(yè)的卓越?

?徠卡 ?明月鏡片 ?戰(zhàn)略合作

Editor Usage:監(jiān)控和管理您的Cursor編輯器使用情況

Editor Usage 是一款為macOS設(shè)計(jì)的菜單欄應(yīng)用程序，旨在幫助用戶監(jiān)控和管理他們的Cursor編輯器使用情況。該應(yīng)用程序能夠追蹤高級、普通和特殊請求的使用情況，并在接近使用限制時(shí)提供警告。它允許用戶從菜單欄快速查看剩余的請求次數(shù)，從而確保用戶始終了解他們的使用情況，并避免因超出限制而受到影響。這款應(yīng)用的主要優(yōu)點(diǎn)包括詳細(xì)的使用監(jiān)控、可定制的警告設(shè)置以及快速便捷的訪問方式。它適合需要管理多個(gè)項(xiàng)目或希望實(shí)時(shí)監(jiān)控請求使用情況的用戶。

監(jiān)控管理編輯器

Yepic Studio:在線視頻制作平臺，提供AI虛擬形象和視頻制作服務(wù)。

Yepic Studio是一個(gè)在線視頻制作平臺，它通過使用人工智能技術(shù)，允許用戶創(chuàng)建和編輯視頻內(nèi)容，包括制作會(huì)說話的照片視頻、專業(yè)視頻以及AI虛擬形象。該平臺的主要優(yōu)點(diǎn)在于能夠快速生成高質(zhì)量的視頻內(nèi)容，同時(shí)提供個(gè)性化的AI虛擬形象，滿足不同商業(yè)需求。產(chǎn)品背景信息顯示，Yepic Studio旨在為內(nèi)容創(chuàng)作者和企業(yè)提供一個(gè)簡單易用的在線視頻制作工具，以提高內(nèi)容生產(chǎn)的效率和質(zhì)量。關(guān)于價(jià)格，頁面顯示用戶為'Guest'且'Credits'為0，暗示可能有免費(fèi)試用或基礎(chǔ)免費(fèi)服務(wù)，具體定價(jià)需進(jìn)一步查看。

視頻編輯 AI虛擬形象在線視頻制作

Jumper:是一個(gè)強(qiáng)大的AI視頻搜索工具，幫助編輯者快速找到視頻素材。

Jumper是一個(gè)專為視頻編輯者設(shè)計(jì)的AI搜索工具，它能夠讓用戶在眨眼間搜索自己的視頻素材。Jumper集成到了用戶的非線性編輯器（NLE）中，無需離開編輯工作流程即可找到所需素材。Jumper支持多語言搜索，能夠快速定位特定詞匯或短語在視頻中的位置，支持多機(jī)位和同步剪輯，并且完全在設(shè)備上運(yùn)行，保護(hù)用戶隱私，無需上傳素材至云端。Jumper的主要優(yōu)點(diǎn)包括快速搜索、完全離線工作、保護(hù)隱私和兼容性強(qiáng)。產(chǎn)品背景信息顯示，Jumper由Witchcraft Software AB開發(fā)，旨在通過AI技術(shù)提高視頻編輯的效率和創(chuàng)造力。

AI 視頻編輯搜索

CogVideoX1.5-5B-SAT:開源視頻生成模型，支持10秒視頻和更高分辨率。

CogVideoX1.5-5B-SAT是由清華大學(xué)知識工程與數(shù)據(jù)挖掘團(tuán)隊(duì)開發(fā)的開源視頻生成模型，是CogVideoX模型的升級版。該模型支持生成10秒視頻，并支持更高分辨率的視頻生成。模型包含Transformer、VAE和Text Encoder等模塊，能夠根據(jù)文本描述生成視頻內(nèi)容。CogVideoX1.5-5B-SAT模型以其強(qiáng)大的視頻生成能力和高分辨率支持，為視頻內(nèi)容創(chuàng)作者提供了一個(gè)強(qiáng)大的工具，尤其在教育、娛樂和商業(yè)領(lǐng)域有著廣泛的應(yīng)用前景。

視頻生成文本到視頻高分辨率

Ask The Post AI:華盛頓郵報(bào)的AI問答產(chǎn)品

Ask The Post AI是華盛頓郵報(bào)推出的一款基于人工智能的產(chǎn)品，它允許讀者就自2016年以來發(fā)布的所有報(bào)道提出問題。該產(chǎn)品利用生成式AI技術(shù)和對話格式，依托華盛頓郵報(bào)長期以來基于事實(shí)、深入報(bào)道的新聞傳統(tǒng)，以新的方式取悅并通知讀者。Ask The Post AI通過機(jī)器學(xué)習(xí)團(tuán)隊(duì)對Climate Answers工具的數(shù)據(jù)進(jìn)行提煉，優(yōu)化了如何檢索和匹配自2016年以來新聞室發(fā)布的所有報(bào)道中與用戶查詢相關(guān)的相關(guān)文章。

AI 問答新聞

Mistral Moderation API:AI內(nèi)容審核服務(wù)，保護(hù)下游部署安全。

Mistral Moderation API是Mistral AI推出的內(nèi)容審核服務(wù)，旨在幫助用戶檢測和過濾不受歡迎的文本內(nèi)容。該API是Le Chat中使用的審核服務(wù)的同一技術(shù)，現(xiàn)在對外開放，以便用戶可以根據(jù)特定的應(yīng)用和安全標(biāo)準(zhǔn)定制和使用這一工具。該模型是一個(gè)基于LLM（大型語言模型）的分類器，能夠?qū)⑽谋据斎敕诸惖?個(gè)預(yù)定義的類別中。Mistral AI的這一API支持原生多語言，特別針對阿拉伯語、中文、英語、法語、德語、意大利語、日語、韓語、葡萄牙語、俄語和西班牙語進(jìn)行了訓(xùn)練。該API的主要優(yōu)點(diǎn)包括提高審核的可擴(kuò)展性和魯棒性，以及通過技術(shù)文檔提供的詳細(xì)政策定義和啟動(dòng)指南，幫助用戶有效實(shí)施系統(tǒng)級的安全防護(hù)。

內(nèi)容審核 AI 多語言支持

Medio AI:AI編輯工具，助力企業(yè)視頻營銷本地化。

Medio AI是一個(gè)為企業(yè)提供AI編輯工具的平臺，專注于視頻翻譯和視頻配音，幫助企業(yè)無畏全球擴(kuò)張，實(shí)現(xiàn)視頻營銷的本地化。產(chǎn)品背景信息顯示，Medio AI旨在幫助企業(yè)探索更多海外市場，通過AI技術(shù)提升視頻編輯效率，增強(qiáng)產(chǎn)品在國際市場上的競爭力。產(chǎn)品的主要優(yōu)點(diǎn)包括無需下載、在線使用、一鍵去除視頻水印、產(chǎn)品翻譯、視頻配音等。價(jià)格方面，Medio AI提供免費(fèi)試用，并根據(jù)不同的功能需求提供不同的付費(fèi)版本。

AI編輯視頻營銷本地化

PodExtra AI:釋放播客的力量，用AI提升播客收聽體驗(yàn)

PodExtra AI是一款先進(jìn)的AI工具，專為播客收聽和知識獲取設(shè)計(jì)。它通過生成播客內(nèi)容的摘要、思維導(dǎo)圖、大綱、亮點(diǎn)和要點(diǎn)，幫助用戶快速把握播客的核心內(nèi)容。產(chǎn)品背景信息顯示，播客愛好者平均每周消費(fèi)超過8集，全球有超過400萬的節(jié)目可供選擇。PodExtra AI通過AI技術(shù)，使得用戶能夠快速瀏覽內(nèi)容，節(jié)省時(shí)間，提高效率。產(chǎn)品定位于幫助用戶從海量播客內(nèi)容中快速獲取有價(jià)值的信息，特別適合時(shí)間緊張但希望從播客中獲取知識的人群。

播客 AI 知識管理

語鯨:，智能語言處理平臺

語鯨是一個(gè)專注于語言處理的平臺，它利用先進(jìn)的自然語言處理技術(shù)，為用戶提供文本分析、翻譯、校對等服務(wù)。產(chǎn)品背景信息顯示，語鯨旨在幫助用戶提高寫作效率和質(zhì)量，特別是在多語言環(huán)境中。語鯨的價(jià)格定位尚未明確，但考慮到其提供的服務(wù)，可能會(huì)有免費(fèi)試用和付費(fèi)版本。

自然語言處理文本分析翻譯

CR-Mentor:AI驅(qū)動(dòng)的代碼審查導(dǎo)師，提升代碼質(zhì)量和審查效率。

CR-Mentor AI CodeReview Mentor是一個(gè)基于人工智能的代碼審查工具，它通過積累的最佳實(shí)踐知識庫和大型語言模型（LLM）分析，為主流編程語言提供智能代碼審查。該產(chǎn)品支持自定義的代碼審查標(biāo)準(zhǔn)，能夠?yàn)閱蝹€(gè)文件代碼變更提供專業(yè)評分和改進(jìn)建議，并通過LLM生成全面的審查報(bào)告，包括代碼走查、變更描述和時(shí)序圖。它與GitHub工作流程深度集成，實(shí)現(xiàn)自動(dòng)化代碼審查，支持多語言反饋，幫助整個(gè)團(tuán)隊(duì)提升代碼質(zhì)量和審查效率。

代碼審查人工智能 GitHub集成

Srcbook:開源、自托管、AI驅(qū)動(dòng)的應(yīng)用構(gòu)建器。

Srcbook是一個(gè)開源、自托管的AI驅(qū)動(dòng)應(yīng)用構(gòu)建器，它允許用戶快速構(gòu)建和部署各種應(yīng)用程序。產(chǎn)品背景信息顯示，Srcbook旨在提供一個(gè)平臺，讓開發(fā)者和非技術(shù)用戶都能夠輕松地構(gòu)建應(yīng)用程序，從而提高生產(chǎn)力和創(chuàng)新能力。它支持多種應(yīng)用場景，如項(xiàng)目管理工具、音樂發(fā)現(xiàn)頁面、技術(shù)文檔網(wǎng)站等。Srcbook的主要優(yōu)點(diǎn)包括開源性、靈活性和易用性，用戶可以根據(jù)自己的需求定制和擴(kuò)展功能。

開源自托管 AI

ReCapture:用戶視頻的生成性視頻攝像機(jī)控制

ReCapture是一種從單一用戶提供的視頻生成新視頻和新穎攝像機(jī)軌跡的方法。該技術(shù)允許我們從完全不同的角度重新生成源視頻，并帶有電影級別的攝像機(jī)運(yùn)動(dòng)。ReCapture通過使用多視圖擴(kuò)散模型或基于深度的點(diǎn)云渲染生成帶有新攝像機(jī)軌跡的嘈雜錨視頻，然后通過我們提出的掩蔽視頻微調(diào)技術(shù)將錨視頻重新生成為干凈且時(shí)間上一致的重新角度視頻。這種技術(shù)的重要性在于它能夠利用視頻模型的強(qiáng)大先驗(yàn)，將近似的視頻重新生成為時(shí)間上一致且美觀的視頻。

視頻生成攝像機(jī)控制多視圖擴(kuò)散模型

AI Tattoo Generator.net:快速創(chuàng)建個(gè)性化紋身設(shè)計(jì)

AI Tattoo Generator是一個(gè)利用人工智能技術(shù)幫助用戶快速創(chuàng)建個(gè)性化紋身設(shè)計(jì)的在線平臺。該平臺使用先進(jìn)的機(jī)器學(xué)習(xí)算法，根據(jù)用戶輸入生成具有各種風(fēng)格的現(xiàn)實(shí)感紋身概念圖，確保用戶的想法以視覺上引人入勝的方式呈現(xiàn)。它不僅能夠提供即時(shí)的設(shè)計(jì)結(jié)果，還能讓用戶根據(jù)自己的偏好進(jìn)一步定制和細(xì)化設(shè)計(jì)，滿足個(gè)性化需求。

AI設(shè)計(jì) 紋身個(gè)性化

Unfaked:AI生成的逼真圖片庫

Unfaked是一個(gè)提供由人工智能生成的逼真圖片的網(wǎng)站，這些圖片幾乎可以以假亂真。用戶可以免費(fèi)下載并自由使用這些圖片。每周都會(huì)更新更多的圖片。這個(gè)平臺的重要性在于它為設(shè)計(jì)師、內(nèi)容創(chuàng)作者和營銷人員提供了一個(gè)免費(fèi)的資源庫，他們可以在這里找到高質(zhì)量的圖片資源，而無需擔(dān)心版權(quán)問題。

AI生成免費(fèi)圖片版權(quán)免費(fèi)

ComfyUI-GIMM-VFI:基于GIMM-VFI的ComfyUI幀插值工具

ComfyUI-GIMM-VFI是一個(gè)基于GIMM-VFI算法的幀插值工具，使用戶能夠在圖像和視頻處理中實(shí)現(xiàn)高質(zhì)量的幀插值效果。該技術(shù)通過在連續(xù)幀之間插入新的幀來提高視頻的幀率，從而使得動(dòng)作看起來更加流暢。這對于視頻游戲、電影后期制作和其他需要高幀率視頻的應(yīng)用場景尤為重要。產(chǎn)品背景信息顯示，它是基于Python開發(fā)的，并且依賴于CuPy庫，特別適用于需要進(jìn)行高性能計(jì)算的場景。

幀插值視頻處理圖像處理

5ire:簡單易用，釋放AI的強(qiáng)大力量

5ire是一個(gè)以簡潔和用戶友好為核心的AI產(chǎn)品，旨在讓即使是初學(xué)者也能輕松利用大型語言模型。它支持多種文檔格式的解析和向量化，具備本地知識庫、使用分析、提示庫、書簽和快速關(guān)鍵詞搜索等功能。作為一個(gè)開源項(xiàng)目，5ire提供免費(fèi)下載，并且提供了按需付費(fèi)的大型語言模型API服務(wù)。

AI 大型語言模型開源

AI Hear:一款在您電腦本地運(yùn)行的私有軟件，提供多語種實(shí)時(shí)翻譯。

AI Hear是一款在電腦本地運(yùn)行的私有軟件，它通過一鍵開啟多語種實(shí)時(shí)翻譯功能，幫助用戶管理音頻、譯文和時(shí)間軸。產(chǎn)品不收集數(shù)據(jù)，保護(hù)用戶隱私。它適用于多種場景，如線上會(huì)議、網(wǎng)課播客、游戲直播等，并且完全本地運(yùn)行，相比市面上的實(shí)時(shí)翻譯產(chǎn)品更具性價(jià)比。

實(shí)時(shí)翻譯音頻管理隱私保護(hù)

SD Image:使用最新的Stable Diffusion 3.5模型生成高質(zhì)量圖像。

SD Image的Stable Diffusion 3.5 Image Generator是一個(gè)在線圖像生成器，它利用最新的Stable Diffusion 3.5模型，包括Medium, Large, Large Turbo，來生成高質(zhì)量的圖像。這項(xiàng)技術(shù)的重要性在于它能夠通過文本提示（prompt）快速生成圖像，為設(shè)計(jì)師、藝術(shù)家和創(chuàng)意工作者提供靈感和便利。產(chǎn)品背景信息顯示，SD Image是一個(gè)在線平臺，用戶可以通過它找到靈感、生成圖像、探索不同的prompt和模型。目前，該產(chǎn)品提供免費(fèi)試用，適合需要快速生成圖像的用戶。

圖像生成 AI藝術(shù) 創(chuàng)意工具

AI Homeworkify:下一代AI作業(yè)助手，免費(fèi)獲取作業(yè)答案

AI Homeworkify是一個(gè)基于人工智能的在線問答平臺，旨在幫助學(xué)生通過提供詳細(xì)的答案和解題步驟來學(xué)習(xí)和理解各種學(xué)術(shù)問題。該平臺不涉及版權(quán)侵犯，注重教育平等，提供免費(fèi)、即時(shí)的作業(yè)幫助，支持多種學(xué)科和語言。AI Homeworkify的主要優(yōu)點(diǎn)包括完全免費(fèi)、無需注冊、即時(shí)答案、全天候服務(wù)、多設(shè)備兼容、隱私保護(hù)和逐步解決方案。產(chǎn)品背景信息顯示，AI Homeworkify致力于通過技術(shù)手段減少教育不平等，為全球?qū)W生提供免費(fèi)的優(yōu)質(zhì)學(xué)習(xí)輔助服務(wù)。

AI 教育作業(yè)幫助

AI Voice Lab:在線將文字轉(zhuǎn)換為逼真的語音

AI Voice Lab免費(fèi) AI 文字轉(zhuǎn)語音神器是一個(gè)利用最新的類GPT AI語音模型技術(shù)，提供超級逼真的配音結(jié)果，支持20+種語言和100+種聲音，每天提供免費(fèi)使用次數(shù)，適用于視頻、音頻制作等多種場景，提高內(nèi)容吸引力。

AI語音文字轉(zhuǎn)語音配音

今日大家都在搜的詞：

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

走向世界！全球語音、聲學(xué)頂會(huì) ICASSP 放榜，網(wǎng)易易盾論文中啦！

今日大家都在搜的詞：

熱文

站長商機(jī)

走向世界！全球語音、聲學(xué)頂會(huì) ICASSP 放榜，網(wǎng)易易盾論文中啦！