尝试用 Manus 帮我爬一下 boss 直聘上「用户研究」岗位的信息,然后自己做一些数据分析。
Manus 尝试了挺多,消耗 909 积分,最终因为 boss 的反爬机制,没有成功。
1. 他先是直接在浏览器里搜索,获取到了十几个岗位的信息,但这个显然是不够的。我让他用 Python 爬虫来搞。
2. 在跟我确认了要爬多少条信息,用什么框架,如果需要登录是否能提供账号信息等,他开始写基于 scrap 的 Python 脚本
~他分析了 boss 加载岗位数据的方式,分析数据接口的地址和参数
~然后提示我要登录:给了两个选择,可以手动登录,他获取 cookie ,也可以我提供账号密码
~我接管了他的浏览器,手动登录
~即使使用了 cookie ,仍然遭遇了高强度反爬拦截,他开始尝试更全面地模拟浏览器的请求头,依然不成功
3. 换方案,开始切换到 playwright 进行浏览器自动化采集,仍然被拦截
4. 然后他就建议我手动搞了。
我准备再问问大模型,这些方案是不是一个最佳实践,再用 cursor 搞一搞代码。