幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁(yè) > 動(dòng)態(tài) > 關(guān)鍵詞  > 原創(chuàng)網(wǎng)站最新資訊  > 正文

百度工程師披露百度原創(chuàng)識(shí)別“起源”算法細(xì)節(jié)

2013-05-17 14:18 · 稿源:站長(zhǎng)之家

站長(zhǎng)之家(chinaz.com)5月17日消息:昨日,百度搜索團(tuán)隊(duì)工程師LEE發(fā)布文章表示,百度已經(jīng)抽調(diào)大量人員組成原創(chuàng)項(xiàng)目組,致力構(gòu)建原創(chuàng)環(huán)境,推動(dòng)中文互聯(lián)網(wǎng)的前進(jìn)。同時(shí),百度披露了原創(chuàng)識(shí)別系統(tǒng)-“起源”算法的部分細(xì)節(jié)。

據(jù)百度工程師LEE稱,百度原創(chuàng)識(shí)別系統(tǒng),在百度大數(shù)據(jù)的云計(jì)算平臺(tái)上開展,能夠快速實(shí)現(xiàn)對(duì)全部中文互聯(lián)網(wǎng)網(wǎng)頁(yè)的重復(fù)聚合和鏈接指向關(guān)系分析。首先,通過(guò)內(nèi)容相似程度來(lái)聚合采集和原創(chuàng),將相似網(wǎng)頁(yè)聚合在一起作為原創(chuàng)識(shí)別的候選集合;其次,對(duì)原創(chuàng)候選集合,通過(guò)作者、發(fā)布時(shí)間、鏈接指向、用戶評(píng)論、作者和站點(diǎn)的歷史原創(chuàng)情況、轉(zhuǎn)發(fā)軌跡等上百種因素來(lái)識(shí)別判斷出原創(chuàng)網(wǎng)頁(yè);最后,通過(guò)價(jià)值分析系統(tǒng)判斷該原創(chuàng)內(nèi)容的價(jià)值高低進(jìn)而適當(dāng)?shù)闹笇?dǎo)最終排序。

同時(shí)LEE表示,通過(guò)實(shí)驗(yàn)以及真實(shí)線上數(shù)據(jù),百度原創(chuàng)識(shí)別“起源”算法已經(jīng)取得了一定的進(jìn)展,在新聞、資訊等領(lǐng)域解決了絕大部分問(wèn)題。

百度站長(zhǎng)平臺(tái)LEE發(fā)布的全文內(nèi)容如下:談?wù)勗瓌?chuàng)項(xiàng)目那點(diǎn)事

一、搜索引擎為什么要重視原創(chuàng)

1.1采集泛濫化

來(lái)自百度的一項(xiàng)調(diào)查顯示,超過(guò)80%的新聞和資訊等都在被人工轉(zhuǎn)載或機(jī)器采集,從傳統(tǒng)媒體的報(bào)紙到娛樂網(wǎng)站花邊消息、從游戲攻略到產(chǎn)品評(píng)測(cè),甚至高校圖書館發(fā)的催還通知都有站點(diǎn)在做機(jī)器采集。可以說(shuō),優(yōu)質(zhì)原創(chuàng)內(nèi)容是被包圍在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艱難又具有挑戰(zhàn)性的事情。

1.2提高搜索用戶體驗(yàn)

數(shù)字化降低了傳播成本,工具化降低了采集成本,機(jī)器采集行為混淆內(nèi)容來(lái)源降低內(nèi)容質(zhì)量。采集過(guò)程中,出于無(wú)意或有意,導(dǎo)致采集網(wǎng)頁(yè)內(nèi)容殘缺不全,格式錯(cuò)亂或附加垃圾等問(wèn)題層出不窮,這已經(jīng)嚴(yán)重影響了搜索結(jié)果的質(zhì)量和用戶體驗(yàn)。搜索引擎重視原創(chuàng)的根本原因是為了提高用戶體驗(yàn),這里講的原創(chuàng)為優(yōu)質(zhì)原創(chuàng)內(nèi)容。

1.3鼓勵(lì)原創(chuàng)作者和文章

轉(zhuǎn)載和采集,分流了優(yōu)質(zhì)原創(chuàng)站點(diǎn)的流量,不再具屬原創(chuàng)作者的名稱,會(huì)直接影響到優(yōu)質(zhì)原創(chuàng)站長(zhǎng)和作者的收益。長(zhǎng)期看會(huì)影響原創(chuàng)者的積極性,不利于創(chuàng)新,不利于新的優(yōu)質(zhì)內(nèi)容產(chǎn)生。鼓勵(lì)優(yōu)質(zhì)原創(chuàng),鼓勵(lì)創(chuàng)新,給予原創(chuàng)站點(diǎn)和作者合理的流量,從而促進(jìn)互聯(lián)網(wǎng)內(nèi)容的繁榮,理應(yīng)是搜索引擎的一個(gè)重要任務(wù)。

二、采集很狡詐,識(shí)別原創(chuàng)很艱難

2.1采集冒充原創(chuàng),篡改關(guān)鍵信息

當(dāng)前,大量的網(wǎng)站批量采集原創(chuàng)內(nèi)容后,用人工或機(jī)器的方法,篡改作者、發(fā)布時(shí)間和來(lái)源等關(guān)鍵信息,冒充原創(chuàng)。此類冒充原創(chuàng)是需要搜索引擎識(shí)別出來(lái)予以適當(dāng)調(diào)整的。

2.2內(nèi)容生成器,制造偽原創(chuàng)

利用自動(dòng)文章生成器等工具,“獨(dú)創(chuàng)”一篇文章,然后安一個(gè)吸引眼球的title,現(xiàn)在的成本也低得很,而且一定具有獨(dú)創(chuàng)性。然而,原創(chuàng)是要具有社會(huì)共識(shí)價(jià)值的,而不是胡亂制造一篇根本不通的垃圾就能算做有價(jià)值的優(yōu)質(zhì)原創(chuàng)內(nèi)容。內(nèi)容雖然獨(dú)特,但是不具社會(huì)共識(shí)價(jià)值,此類偽原創(chuàng)是搜索引擎需要重點(diǎn)識(shí)別出來(lái)并予以打擊的。

2.3網(wǎng)頁(yè)差異化,結(jié)構(gòu)化信息提取困難

不同的站點(diǎn)結(jié)構(gòu)化差異比較大,html標(biāo)簽的含義和分布也不同,因此提取關(guān)鍵信息如標(biāo)題、作者和時(shí)間的難易程度差別也比較大。做到既提得全,又提得準(zhǔn),還要最及時(shí),在當(dāng)前的中文互聯(lián)網(wǎng)規(guī)模下實(shí)屬不易,這部分將需要搜索引擎與站長(zhǎng)配合好才會(huì)更順暢的運(yùn)行,站長(zhǎng)們?nèi)绻酶逦慕Y(jié)構(gòu)告知搜索引擎網(wǎng)頁(yè)的布局,將使搜索引擎高效地提取原創(chuàng)相關(guān)的信息。

三、百度識(shí)別原創(chuàng)之路如何走?

3.1成立原創(chuàng)項(xiàng)目組,打持久戰(zhàn)

面對(duì)挑戰(zhàn),為了提高搜索引擎用戶體驗(yàn)、為了使優(yōu)質(zhì)原創(chuàng)者原創(chuàng)網(wǎng)站得到應(yīng)有的收益、為了推動(dòng)中文互聯(lián)網(wǎng)的前進(jìn),我們抽調(diào)大量人員組成原創(chuàng)項(xiàng)目組:技術(shù)、產(chǎn)品、運(yùn)營(yíng)、法務(wù)等等,這不是臨時(shí)組織不是1個(gè)月2個(gè)月的項(xiàng)目,我們做好了打持久戰(zhàn)的準(zhǔn)備。

3.2原創(chuàng)識(shí)別“起源”算法

互聯(lián)網(wǎng)動(dòng)輒上百億、上千億的網(wǎng)頁(yè),從中挖掘原創(chuàng)內(nèi)容,可以說(shuō)是大海撈針,千頭萬(wàn)緒。我們的原創(chuàng)識(shí)別系統(tǒng),在百度大數(shù)據(jù)的云計(jì)算平臺(tái)上開展,能夠快速實(shí)現(xiàn)對(duì)全部中文互聯(lián)網(wǎng)網(wǎng)頁(yè)的重復(fù)聚合和鏈接指向關(guān)系分析。首先,通過(guò)內(nèi)容相似程度來(lái)聚合采集和原創(chuàng),將相似網(wǎng)頁(yè)聚合在一起作為原創(chuàng)識(shí)別的候選集合;其次,對(duì)原創(chuàng)候選集合,通過(guò)作者、發(fā)布時(shí)間、鏈接指向、用戶評(píng)論、作者和站點(diǎn)的歷史原創(chuàng)情況、轉(zhuǎn)發(fā)軌跡等上百種因素來(lái)識(shí)別判斷出原創(chuàng)網(wǎng)頁(yè);最后,通過(guò)價(jià)值分析系統(tǒng)判斷該原創(chuàng)內(nèi)容的價(jià)值高低進(jìn)而適當(dāng)?shù)闹笇?dǎo)最終排序。

目前,通過(guò)我們的實(shí)驗(yàn)以及真實(shí)線上數(shù)據(jù),“起源”算法已經(jīng)取得了一定的進(jìn)展,在新聞、資訊等領(lǐng)域解決了絕大部分問(wèn)題。當(dāng)然,其他領(lǐng)域還有更多的原創(chuàng)問(wèn)題等待“起源”去解決,我們堅(jiān)定的走著。

3.3原創(chuàng)星火計(jì)劃

我們一直致力于原創(chuàng)內(nèi)容的識(shí)別和排序算法調(diào)整,但在當(dāng)前互聯(lián)網(wǎng)環(huán)境下,快速識(shí)別原創(chuàng)解決原創(chuàng)問(wèn)題確實(shí)面臨著很大的挑戰(zhàn),計(jì)算數(shù)據(jù)規(guī)模龐大,面對(duì)的采集方式層出不窮,不同站點(diǎn)的建站方式和模版差異巨大,內(nèi)容提取復(fù)雜等等問(wèn)題。這些因素都會(huì)影響原創(chuàng)算法識(shí)別,甚至導(dǎo)致判斷出錯(cuò)。這時(shí)候就需要百度和站長(zhǎng)共同努力來(lái)維護(hù)互聯(lián)網(wǎng)的生態(tài)環(huán)境,站長(zhǎng)推薦原創(chuàng)內(nèi)容,搜索引擎通過(guò)一定的判斷后優(yōu)待原創(chuàng)內(nèi)容,共同推進(jìn)生態(tài)的改善,鼓勵(lì)原創(chuàng),這就是“原創(chuàng)星火計(jì)劃”,旨在快速解決當(dāng)前面臨的嚴(yán)重問(wèn)題。另外,站長(zhǎng)對(duì)原創(chuàng)內(nèi)容的推薦,將應(yīng)用于“起源”算法,進(jìn)而幫助百度發(fā)現(xiàn)算法的不足,不斷改進(jìn),用更加智能的識(shí)別算法自動(dòng)識(shí)別原創(chuàng)內(nèi)容。

目前,原創(chuàng)星火計(jì)劃也取得了初步的效果,一期對(duì)部分重點(diǎn)原創(chuàng)新聞?wù)军c(diǎn)的原創(chuàng)內(nèi)容在百度搜索結(jié)果中給予了原創(chuàng)標(biāo)記、作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原創(chuàng)是生態(tài)問(wèn)題,需要長(zhǎng)期的改善,我們將持續(xù)投入,與站長(zhǎng)攜手推動(dòng)互聯(lián)網(wǎng)生態(tài)的進(jìn)步;原創(chuàng)是環(huán)境問(wèn)題,需要大家來(lái)共同維護(hù),站長(zhǎng)們多做原創(chuàng),多推薦原創(chuàng),百度將持續(xù)努力改進(jìn)排序算法,鼓勵(lì)原創(chuàng)內(nèi)容,為原創(chuàng)作者、原創(chuàng)站點(diǎn)提供合理的排序和流量。

舉報(bào)

  • 相關(guān)推薦
  • 百度高管:極越ASD和地圖導(dǎo)航由百度兜底 不會(huì)停止服務(wù)

    百度IDG運(yùn)營(yíng)管理負(fù)責(zé)人李濤在公司內(nèi)網(wǎng)發(fā)文,針對(duì)極越汽車的后續(xù)服務(wù)問(wèn)題進(jìn)行了詳細(xì)說(shuō)明。他明確指出,極越ASD和地圖導(dǎo)航服務(wù)將由百度負(fù)責(zé),確保服務(wù)不會(huì)中斷。李濤還附上了極越官方賬號(hào)近期發(fā)布的推送內(nèi)容,詳細(xì)介紹了用戶關(guān)心問(wèn)題的最新進(jìn)展。

  • 先別抱怨百度AI不行,蘋果自己的已經(jīng)先翻車了

    要說(shuō)當(dāng)下最重視AI的手機(jī)廠商,或許不是率先將大模型接入的華為,也不是宣稱要“開啟AI手機(jī)新時(shí)代”的OPPO,以及要做“AI時(shí)代的樹莓派”的魅族是姍姍來(lái)遲的蘋果。心急吃不到熱豆腐,在他們的AppleIntelligence尚未全量上線之時(shí),似乎遇到了一點(diǎn)麻煩。不過(guò)考慮到蘋果自身在AI領(lǐng)域的建樹,或許他們其實(shí)只有一條路可以走。

  • 從“百度伴飛”看AI時(shí)代營(yíng)銷的演進(jìn)方向

    估計(jì)不會(huì)等很久,你在和ChatGPT聊天的時(shí)候,就會(huì)看到廣告了。12月3日,英國(guó)《金融時(shí)報(bào)》報(bào)道,炙手可熱的大模型公司OpenAI計(jì)劃在ChatGPT中推出廣告,OpenAICFOSarahFriar在接受采訪時(shí)稱,公司在仔細(xì)考慮在何時(shí)啟動(dòng)廣告計(jì)劃。對(duì)于廣告人言,唯一要做的就是:擁抱新的廣告時(shí)代。

  • 極越車主致信百度和吉利:六項(xiàng)損失、五點(diǎn)訴求

    快科技12月17日消息,極越汽車閃崩一事雖然過(guò)去了將近一周,但依舊有非常多的后續(xù)亟待處理,其中將近1.3萬(wàn)名車主的相關(guān)權(quán)益仍是重中之重。今日下午,部分極越汽車車主在自建的公眾號(hào)極越無(wú)聲-我們發(fā)聲”上發(fā)布了《致極越汽車及其股東百度控股與吉利控股的公開信》信函,陳述自己遭遇的六項(xiàng)損失,同時(shí)也提出了五點(diǎn)訴求,以下為全文。尊敬的極越汽車及股東代表:我們是極越汽車的廣大車主,曾因信任貴品牌的高端智能科技與服務(wù)承諾,選擇了極越汽車。然而,近期隨著公司經(jīng)營(yíng)困難的傳聞?dòng)萦遥覀兊暮戏?quán)益正逐漸受到損害,作為車主群體

  • 小紅書搜索量猛增,百度慌不慌?

    遇事不決先“翻”小紅書,正成為眾多用戶的常態(tài)。有報(bào)道數(shù)據(jù)顯示小紅書日均搜索量來(lái)到了6億次附近,超過(guò)了百度的一半;據(jù)小紅書此前官方數(shù)據(jù)顯示,有超過(guò)70%的小紅書月活用戶使用搜索,用戶每天平均搜索量高達(dá)6次。但可以看到,小紅書仍在求變,新的算法部門會(huì)為整個(gè)社區(qū)生態(tài)及商業(yè)化帶來(lái)怎樣的影響有待后續(xù)繼續(xù)觀察。

  • 極越CEO:未提車的車主將退定金 吉利管售后、百度管智駕

    快科技12月12日消息,極越汽車大規(guī)模裁員,業(yè)務(wù)停擺一事,迎來(lái)最新進(jìn)展。據(jù)報(bào)道,極越、百度高層、部分員工于今日16點(diǎn)召開線上會(huì)議,就極越汽車員工的社保、賠償金問(wèn)題進(jìn)行談判。有博主分享了會(huì)議現(xiàn)場(chǎng)視頻,極越汽車CEO夏一平稱,對(duì)于員工車主和未提車的車主,極越方面將會(huì)退還定金。后續(xù)極越保障售后服務(wù)方面,將由吉利汽車接管,智駕保障方為百度,將會(huì)繼續(xù)維護(hù)更新智駕。對(duì)已提車的現(xiàn)有車主而言,售后維保、智駕維護(hù)分別由吉利、百度接管,算是一個(gè)不錯(cuò)的解決方案。而未提車的車主,會(huì)被退還定金,對(duì)支持極越汽車的車主來(lái)說(shuō),也是一個(gè)?

  • 百度“AI放大招”走進(jìn)中傳,數(shù)字人李白成科普新亮點(diǎn)

    由百度公司主辦的“AI放‘大’招——人類高質(zhì)量AI開發(fā)者速成季”活動(dòng)走進(jìn)了中國(guó)傳媒大學(xué),為該校師生帶來(lái)了一場(chǎng)別開生面的“AI新奇一課”。此次活動(dòng)不僅通過(guò)科普講座與互動(dòng)路演的方式,向?qū)W生們介紹了大模型的最新技術(shù)與應(yīng)用場(chǎng)景,更以中傳師生基于百度文心大模型開發(fā)的數(shù)字人少年李白為亮點(diǎn),激發(fā)了學(xué)生們對(duì)“AIX”跨界創(chuàng)意的濃厚興趣。百度將繼續(xù)與產(chǎn)學(xué)研各界密切合作,深化產(chǎn)教融合,為社會(huì)培養(yǎng)更多優(yōu)秀的大模型人才,共同推動(dòng)人工智能技術(shù)的創(chuàng)新與發(fā)展。

  • 百度回應(yīng)進(jìn)軍短?。寒?dāng)前內(nèi)容生態(tài)的一個(gè)重點(diǎn)發(fā)展方向

    百度在線網(wǎng)絡(luò)技術(shù)有限公司近期申請(qǐng)注冊(cè)了“百度短劇”商標(biāo),涉及國(guó)際分類包括網(wǎng)站服務(wù)、科學(xué)儀器和教育娛樂,目前這些商標(biāo)狀態(tài)均處于等待實(shí)質(zhì)審查階段。百度此舉標(biāo)志著公司正式進(jìn)軍短劇市場(chǎng),這是當(dāng)前內(nèi)容生態(tài)的一個(gè)重點(diǎn)發(fā)展方向。百度的回應(yīng)和行動(dòng)顯示了公司對(duì)短劇市場(chǎng)的信心和對(duì)未來(lái)發(fā)展?jié)摿Φ目春?,預(yù)示著短劇將成為內(nèi)容生態(tài)中的一個(gè)重要增長(zhǎng)點(diǎn)。

  • 百度和吉利內(nèi)部已開始轉(zhuǎn)賬流程 為極越員工繳納11月社保

    快科技12月12日消息,據(jù)報(bào)道,晚間,極越員工代表、極越CEO夏一平,以及吉利和百度兩大股東召開閉門會(huì)。報(bào)道稱,經(jīng)多輪溝通,百度和吉利內(nèi)部正在走轉(zhuǎn)賬流程,為員工繳納拖欠的11月社保。截至目前,夏一平還在上海辦公室,吉利和百度股東方成立應(yīng)急小組遠(yuǎn)程參與,員工關(guān)注的12月工資和社保、N 1離職賠償?shù)葐?wèn)題,還在協(xié)商中。而今日下午時(shí),夏一平還在線上會(huì)議中透露,對(duì)于目前未提車的車主,極越方面將會(huì)退還定金。后續(xù)極越保障售后服務(wù)方面,將由吉利汽車接管,智駕保障方為百度,將會(huì)繼續(xù)維護(hù)更新智駕。同時(shí),夏一平向員工強(qiáng)調(diào):自己仍在

  • 百度吉利發(fā)布聯(lián)合聲明!計(jì)劃無(wú)法執(zhí)行 經(jīng)營(yíng)面臨挑戰(zhàn)

    就在剛剛,吉利控股與百度控股剛剛發(fā)布了關(guān)于極越汽車的聯(lián)合聲明。聲明中指出,集度汽車有限公司是由百度控股與吉利控股共同投資設(shè)立的造車新勢(shì)力初創(chuàng)公司,旨在探索汽車智能化轉(zhuǎn)型的創(chuàng)新路徑。包括第一時(shí)間解決員工社保繳納和離職員工善后問(wèn)題,維護(hù)用戶車輛的正常使用、售后和維修保養(yǎng),以及推進(jìn)其他事宜的合理合法解決。

熱文

  • 3 天
  • 7天