去年秋天,我接了個內部知識庫的項目。目標很清晰:把團隊過去三年在Medium上寫的所有技術博客,全部接進一個支持自然語言問答的檢索系統。我第一個念頭就是——寫爬蟲。BeautifulSoup解析HTML,繞開導航欄、拍手欄、評論區,再把正文撈出來。結果第一篇文章就花了我一個下午,抓到的正文開頭還夾著“推薦閱讀”的橫幅。我看著調試窗口里那一串混亂的div標簽,心想這事不該這么麻煩。
后來朋友扔給我一個API地址,說“試試這個,專門干這件事的”。我將信將疑地發了一個GET請求,傳了個文章ID過去。返回的不是HTML,而是干干凈凈的純文本,連一個
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.