自动化获取公众号文章?太难了

2020-10-13

今天主要研究了一下公众号开发,想看看有没有什么法子能获取公众号里的文章,想实现后端某功能的自动化获取。最终发现有接口(batchget_material)可以获取公众号的图文素材,但包含了未发布的内容,也没字段可以用于区分。该接口的调用也挺麻烦的,首先需要先获取一个 AppSecret,之后通过 Secret 获取 access_token,才可以访问该接口。对了,这个 Token 还是 2 小时有效时间的喔!是不是很惊喜?

继续看了一下文档,貌似没有其他接口可以直接获取已推送内容以及其访问链接,非常尴尬。😅 我便想到了爬虫法,有没有什么页面可以直接抓取?直接拿公众号那里的开刀,发现在浏览器上无法直接打开,提示“请使用微信客户端打开”。我试了下修改 Header 和 UA,均无效果。

上外网搜了一下,看到一个开源项目的解决方法也是抓取。但是他抓取的并不是微信的网页,而是“搜狗微信搜索”的结果。还有一种办法是利用微信的 AJAX 接口,但是这种方式需要登录。这种东西谁知道什么时候会不会因为机器人“违规使用”导致封号呢?

如果使用素材接口的方式,那个 URL 不知道是否算作“内部预览链接”,会不会和推文里的链接存在差异?要是用那个爬虫,感觉时效性也不靠谱。最终权衡了一下,还是选择放弃了。不得不说微信这块的设定真的很烂,你不允许我抓取别人的公众号,那我抓我自己的总可以吧!你说是不是?

配乐 中雨 一般
概览页 时间轴
奇趣音乐盒 技术源于 Kico Player
Emmm,这里是歌词君