php下curl模拟百度蜘蛛进行采集

起因:

        自己公司的商城,社区O2O需要采集一些评论,目标是美团,大众点评网的用户评论。

        思路就是先找到网站的分页地址,分析参数,访问url获取内容,匹配内容入库。这里主要分享过大众点评防止采集的curl伪造代码。

        

- 阅读全文 -

php中curl的详细解说

cURL可以使用URL的语法模拟浏览器来传输数据,

因为它是模拟浏览器,因此它同样支持多种协议,

FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP等协议都可以很好的支持,包括一些:

HTTPS认证,HTTP POST方法,HTTP PUT方法,FTP上传,keyberos认证,HTTP上传,代理服务器,cookies,用户名/密码认证,

下载文件断点续传,上传文件断点续传,http代理服务器管道,甚至它还支持IPv6,scoket5代理服务器,通过http代理服务器上传文件

到FTP服务器等等。

这就是我们为什么要使用cURL的原因!

使用cURL完成简单的请求主要分为以下四步:

1.初始化,创建一个新cURL资源

2.设置URL和相应的选项

3.抓取URL并把它传递给浏览器

4.关闭cURL资源,并且释放系统资源

我们来采集一个页面,通常情况下,我们会使用file_get_contents()函数来获取:

像这样:

- 阅读全文 -