还是再解释一下吧,举一个极端的例子。
比如,某个网站的源码可能像下面这样简单,其中<body></body>为空,实际内容全部由“abc.js”动态加载。
对于这种情况,就只能去分析JS脚本了(如果JS没有注释,分析起来就比较费劲了),找到你想抓数据的模块所对应的请求地址。
如果需要登录,还要找到登录地址和登录参数(大网站的登录过程往往很复杂),然后,可以通过Mma登录并保存Cookies。
之后就可以用URLRead/URLFetch之类的函数读取数据了。
<html>
<head>
<scrip src="abc.js"></scrip>
</head>
<body></body>
</html>
可以看看腾讯和百度之类的大网站,他们的HTML源码中根本就没有登录表单提交地址,都写在JS中了,JS不但没有注释,而且还非常大,像百度,仅登录的JS脚本,压缩后还有17多万字符。
所以,才建议你使用他们提供的API。
Facebook,Google+之类的社交网站不但提供了比较完善的API,而且在Mma中直接就集成了,自己都不用去找他们的说明文档就可以简单的使用。
腾讯和百度也提供了大量的API:
腾讯API列表:http://wiki.open.qq.com/wiki/API%E5%88%97%E8%A1%A8
百度API是按功能分类的,比如百度地图,百度翻译…… 一般都归到百度开发者中心了