源码网商城,靠谱的源码在线交易网站 我的订单 购物车 帮助

源码网商城

Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例

  • 时间:2021-11-14 06:47 编辑: 来源: 阅读:
  • 扫一扫,手机访问
摘要:Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例
[u]复制代码[/u] 代码如下:
#全局配置 limit_req_zone $anti_spider zone=anti_spider:10m rate=15r/m; #某个server中  limit_req zone=anti_spider burst=30 nodelay;  if ($http_user_agent ~* "xxspider|xxbot") {  set $anti_spider $http_user_agent; }
超过设置的限定频率,就会给spider一个503。 上述配置详细解释请自行google下,具体的spider/bot名称请自定义。 附:nginx中禁止屏蔽网络爬虫
[u]复制代码[/u] 代码如下:
server {          listen       80;          server_name  www.xxx.com;            #charset koi8-r;            #access_log  logs/host.access.log  main;            #location / {          #    root   html;          #    index  index.html index.htm;          #}      if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") {                  return 403;          }        location ~ ^/(.*)$ {                  proxy_pass http://localhost:8080;          proxy_redirect          off;          proxy_set_header        Host $host;          proxy_set_header        X-Real-IP $remote_addr;          proxy_set_header       X-Forwarded-For   $proxy_add_x_forwarded_for;          client_max_body_size    10m;          client_body_buffer_size 128k;          proxy_connect_timeout   90;          proxy_send_timeout      90;          proxy_read_timeout      90;          proxy_buffer_size       4k;          proxy_buffers           4 32k;          proxy_busy_buffers_size 64k;          proxy_temp_file_write_size 64k;      }                #error_page  404              /404.html;            # redirect server error pages to the static page /50x.html          #          error_page   500 502 503 504  /50x.html;          location = /50x.html {              root   html;          }            # proxy the PHP scripts to Apache listening on 127.0.0.1:80          #          #location ~ \.php$ {          #    proxy_pass   http://127.0.0.1;          #}            # pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000          #          #location ~ \.php$ {          #    root           html;          #    fastcgi_pass   127.0.0.1:9000;          #    fastcgi_index  index.php;          #    fastcgi_param  SCRIPT_FILENAME  /scripts$fastcgi_script_name;          #    include        fastcgi_params;          #}            # deny access to .htaccess files, if Apache's document root          # concurs with nginx's one          #          #location ~ /\.ht {          #    deny  all;          #}      } 
可以用 curl 测试一下
[u]复制代码[/u] 代码如下:
curl -I -A "qihoobot" www.xxx.com
  • 全部评论(0)
联系客服
客服电话:
400-000-3129
微信版

扫一扫进微信版
返回顶部