公告:1)网站程序升级:Q2A升级到1.8.6,Wordpress升级到5.7.2
2)修复了头像加载慢与提交问题反应慢等问题
2021-06-16

欢迎来到 Mathematica 问答社区

提问时请贴上文本代码

语法高亮:在编辑器中点击

被禁止的话题:广告破解

请阅读:《提问的智慧》

备用域名:mma.ooo

支持LaTex数学公式
行内公式标识符:\$ 或“$\backslash ($”+“$\backslash )$”,
行间公式标识符:\$\$ 或 “$\backslash [$”+“$\backslash ]$”

社区建议QQ群:365716997

分类

0 投票
1.1k 浏览
11版增加了cookie的支持,但不会使,请问怎么爬这种需要帐号和密码的网站?比如qq空间,当然,qq空间是有提供api的,但是我希望不通过api的方法来弄,因为毕竟大多数网站并没有api
用户: Lozmlve*永 (1.2k 分)
修改于 用户:Lozmlve*永
像这类页面中有大量动态加载内容的网站,得分析它的每个动态加载模块(因为URLRead之类的函数并不处理JS脚本)。
爬数据的话,就要先找到使用哪个请求,然后才是Cookie的问题。
所以还是建议使用它们官方提供的API。
好像这种要帐号密码的都是会动态更新的

2 个回答

+1 投票
 
已采纳

还是再解释一下吧,举一个极端的例子。
比如,某个网站的源码可能像下面这样简单,其中<body></body>为空,实际内容全部由“abc.js”动态加载。
对于这种情况,就只能去分析JS脚本了(如果JS没有注释,分析起来就比较费劲了),找到你想抓数据的模块所对应的请求地址。
如果需要登录,还要找到登录地址和登录参数(大网站的登录过程往往很复杂),然后,可以通过Mma登录并保存Cookies。
之后就可以用URLRead/URLFetch之类的函数读取数据了。

<html>
    <head>
        <scrip src="abc.js"></scrip>
    </head>
    <body></body>
</html>

可以看看腾讯和百度之类的大网站,他们的HTML源码中根本就没有登录表单提交地址,都写在JS中了,JS不但没有注释,而且还非常大,像百度,仅登录的JS脚本,压缩后还有17多万字符。
所以,才建议你使用他们提供的API。

Facebook,Google+之类的社交网站不但提供了比较完善的API,而且在Mma中直接就集成了,自己都不用去找他们的说明文档就可以简单的使用。


腾讯和百度也提供了大量的API:

腾讯API列表:http://wiki.open.qq.com/wiki/API%E5%88%97%E8%A1%A8

百度API是按功能分类的,比如百度地图,百度翻译…… 一般都归到百度开发者中心了

用户: 野鹤 (5.1k 分)
采纳于 用户:Lozmlve*永
挺有道理的,多谢了~~  :)
想请教一下,这些API的接口在mma里面怎么使用,有说明文档或者例子吗
直接使用URLRead或URLFetch就行。
至于Cookie,可以先在浏览器中登录,然后用Mma取回相应的Cookies,然后URLRead之类的函数时附上这些Cookies就可以了。不过还是使用API更规范。
0 投票
读一下腾讯开放平台的关于QQ空间的API,然后跟其他编程语言一样,该怎么处理请求参数就怎么来。
用户: cymatics (21 分)
哦哦,非常感谢,我忘了说了,API的方法我倒是会,但是想不用API,因为API办法不通用,毕竟很多网站并不会提供API
...