我在Ubuntu服务器12.04上运行Nginx 1.1.19,我在Googlebot上遇到了麻烦,请参见robots.txt文件。我使用了本文中的示例,但没有成功。为了测试服务,我访问了网站管理员工具,点击“完整性〉作为Googlebot搜索”......只是我收到了“未找到”的消息,“页面不可用”和“robots.txt文件不可访问”....
我还要确认配置是在nginx.conf
文件上执行还是在/etc/nginx/sites-enabled
中的“default”文件上执行,因为在以后的版本中,我注意到这可能会有所不同。
root /usr/share/nginx/www;
index index.php;
# Reescreve as URLs.
location / {
try_files $uri $uri/ /index.php;
}
3条答案
按热度按时间wfypjpf41#
我设法通过添加命令“rewrite”the policy server来解决我的问题,代码如下。之后,我返回Google Webmasters,用Googlebot重新搜索,结果成功了。借此机会,在这里留下我的代码,它将端口80重定向到443前缀,将非www重定向到www。
cotxawn72#
如果您管理的环境类似于生产环境,并且希望阻止爬虫程序索引流量,那么习惯上可以在您网站的根目录下添加robots.txt文件来禁止所有爬虫程序,而不是创建一个两行的纯文本文件,您可以只使用nginx来实现这一点:
根据环境的不同将其添加到您的配置管理中,或者手动添加,并且不再担心Google是否会开始向全世界广播您的开发站点。
https://alan.ivey.dev/posts/2017/robots.txt-disallow-all-with-nginx/
cvxl0en23#
看看我的答案。
至于是将它添加到主
nginx.conf
文件还是/etc/nginx/sites-available
文件,这取决于您,您希望它分别是全局的还是特定于站点的。