《PHP制作簡單的內(nèi)容采集器實例教程》文章已經(jīng)歸檔,站長之家不再展示相關(guān)內(nèi)容,下文是站長之家的自動化寫作機器人,通過算法提取的文章重點內(nèi)容。這只AI還很年輕,歡迎聯(lián)系我們幫它成長:
采集器,通常又叫小偷程序,主要是用來抓取別人網(wǎng)頁內(nèi)容的。關(guān)于采集器的制作,其實并不難,就是遠(yuǎn)程打開要采集的網(wǎng)頁,然后用正則表達(dá)式將需要的內(nèi)容匹配出來,只要稍微有點正則表達(dá)式的基礎(chǔ),都能做出自己的采集器來的。 前幾天做了個小說連載的程序,因為怕更新麻煩,順帶就寫了個采集器,采集八路中文網(wǎng)的,功能比較簡單,不能自定義規(guī)則,不過大概思路都在里面了,自定義規(guī)則可以自己來擴展。 用php來做采集器主要用到兩個函數(shù):file_get_contents()和preg_match_all(),前一個是遠(yuǎn)程讀取網(wǎng)頁內(nèi)容的,不過只在php5以上的版本才能用,后一個是正則函數(shù),用來提取需要的內(nèi)容的。 下面就一步一步來講功能實現(xiàn)。 因為是采集小說,所以首先要將書名、作者、類型這三個提取出來,別的信息可根據(jù)需要提取。這里以《回到明朝當(dāng)王爺》為目標(biāo),先打開書目頁,...
......
本文由站長之家用戶“php118.com”投稿,本平臺僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時間超過平臺更新維護(hù)時間,為了保證文章信息的及時性,內(nèi)容觀點的準(zhǔn)確性,平臺將不提供完整的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請聯(lián)系作者獲取原文。
(舉報)