假设我们有一个网站speedywap.com当我在浏览器中打开网站,然后我复制页面到剪贴板,当我粘贴到我的记事本(窗口)只有文本仍然。所有的代码被删除,除了文本,在链接等(即显示在屏幕上)。我想用php做一些类似的事情,因为我正在尝试创建一个关键字密度分析器,所以我想要的东西,能够只是保持文本从网页上显示在屏幕上。我的服务器运行apache,php,centos和mysql
9fkzdhlc1#
<?php $content = file_get_contents('http://speedywap.com'); echo $content; ?>
您可以使用strip_tags从它中剥离标签,然后只剩下文本。
iszxjhcz2#
function curl($url){ $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); return curl_exec($ch); curl_close ($ch); } $html = curl('http://speedywap.com');
cURL比fgc快很多倍。你可以使用strip_tags,但这并不能保证什么,唯一的方法是手动解析页面,使用str_replace,preg_replace等。下面是使用strip_tags得到的结果:http://pokit.etf.ba/get/47a07bd62ea42dd3d447f060c01ccfb5.png
wh6knrhe3#
一个非常简单的开始,你可以使用以下代码:
<?php echo strip_tags(file_get_contents('http://speedywap.com')); ?>
tmb3ates4#
开发您的代码-〉http://www.barattalo.it/2010/03/01/php-curl-bot-to-update-facebook-status/
0g0grzrc5#
如果你想更有趣的话,可以使用file_get_contents或者curl。
<?php $content = file_get_contents('http://speedywap.com'); echo $content; // or analyze, or whatever
bqjvbblv6#
您可以使用file_get_contents('http://www.speedywap.com/');来获取页面源代码,然后使用一些过滤器/正则表达式来获取所需的文本。
file_get_contents('http://www.speedywap.com/');
wz8daaqr7#
您也可以使用strip_tags:http://php.net/manual/en/function.strip-tags.php
strip_tags
vjhs03f78#
strip_tags不会删除或替换HTML空间( )、£、–等内容,就像你说的,浏览器复制(Ctrl + A,Ctrl + C)并粘贴到记事本中。你必须编写特定的代码来替换每一个,如:
£
–
str_replace('& nbsp;',' ',$mytext); str_replace('& ndash;','-',$mytext);
我需要将用户在TinyMCE(允许格式化文本)中创建的内容转换为纯文本,以供客户端使用。如果有一个超越strip_tags的PHP命令来做这件事,那就太好了,但我找不到。
TinyMCE
rekjcdws9#
尝试从网页复制html
<?php $html = file_get_contents('http://speedywap.com'); echo $html; ?>
尝试此操作以获取网页副本
<?php $html = file_get_contents('http://speedywap.com'); echo str_replace( '<head>', '<head><base href="http://speedywap.com" target="_blank">', $html ); ?>
9条答案
按热度按时间9fkzdhlc1#
您可以使用strip_tags从它中剥离标签,然后只剩下文本。
iszxjhcz2#
cURL比fgc快很多倍。你可以使用strip_tags,但这并不能保证什么,唯一的方法是手动解析页面,使用str_replace,preg_replace等。
下面是使用strip_tags得到的结果:http://pokit.etf.ba/get/47a07bd62ea42dd3d447f060c01ccfb5.png
wh6knrhe3#
一个非常简单的开始,你可以使用以下代码:
tmb3ates4#
开发您的代码-〉http://www.barattalo.it/2010/03/01/php-curl-bot-to-update-facebook-status/
0g0grzrc5#
如果你想更有趣的话,可以使用file_get_contents或者curl。
bqjvbblv6#
您可以使用
file_get_contents('http://www.speedywap.com/');
来获取页面源代码,然后使用一些过滤器/正则表达式来获取所需的文本。wz8daaqr7#
您也可以使用
strip_tags
:http://php.net/manual/en/function.strip-tags.phpvjhs03f78#
strip_tags
不会删除或替换HTML空间(
)、£
、–
等内容,就像你说的,浏览器复制(Ctrl + A,Ctrl + C)并粘贴到记事本中。你必须编写特定的代码来替换每一个,如:我需要将用户在
TinyMCE
(允许格式化文本)中创建的内容转换为纯文本,以供客户端使用。如果有一个超越strip_tags
的PHP命令来做这件事,那就太好了,但我找不到。rekjcdws9#
尝试从网页复制html
尝试此操作以获取网页副本