php 从网页拷贝文本

p1tboqfb  于 2022-11-28  发布在  PHP
关注(0)|答案(9)|浏览(150)

假设我们有一个网站speedywap.com
当我在浏览器中打开网站,然后我复制页面到剪贴板,当我粘贴到我的记事本(窗口)只有文本仍然。所有的代码被删除,除了文本,在链接等(即显示在屏幕上)。
我想用php做一些类似的事情,因为我正在尝试创建一个关键字密度分析器,所以我想要的东西,能够只是保持文本从网页上显示在屏幕上。
我的服务器运行apache,php,centos和mysql

9fkzdhlc

9fkzdhlc1#

<?php
$content = file_get_contents('http://speedywap.com');
echo $content;
?>

您可以使用strip_tags从它中剥离标签,然后只剩下文本。

iszxjhcz

iszxjhcz2#

function curl($url){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL,$url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    return curl_exec($ch);
    curl_close ($ch);
}

$html = curl('http://speedywap.com');

cURL比fgc快很多倍。你可以使用strip_tags,但这并不能保证什么,唯一的方法是手动解析页面,使用str_replace,preg_replace等。
下面是使用strip_tags得到的结果:http://pokit.etf.ba/get/47a07bd62ea42dd3d447f060c01ccfb5.png

wh6knrhe

wh6knrhe3#

一个非常简单的开始,你可以使用以下代码:

<?php

echo strip_tags(file_get_contents('http://speedywap.com'));

?>
tmb3ates

tmb3ates4#

开发您的代码-〉http://www.barattalo.it/2010/03/01/php-curl-bot-to-update-facebook-status/

0g0grzrc

0g0grzrc5#

如果你想更有趣的话,可以使用file_get_contents或者curl。

<?php
$content = file_get_contents('http://speedywap.com');
echo $content; // or analyze, or whatever
bqjvbblv

bqjvbblv6#

您可以使用file_get_contents('http://www.speedywap.com/');来获取页面源代码,然后使用一些过滤器/正则表达式来获取所需的文本。

vjhs03f7

vjhs03f78#

strip_tags不会删除或替换HTML空间(&nbsp;)、&pound;&ndash;等内容,就像你说的,浏览器复制(Ctrl + A,Ctrl + C)并粘贴到记事本中。你必须编写特定的代码来替换每一个,如:

str_replace('& nbsp;',' ',$mytext); 
str_replace('& ndash;','-',$mytext);

我需要将用户在TinyMCE(允许格式化文本)中创建的内容转换为纯文本,以供客户端使用。如果有一个超越strip_tags的PHP命令来做这件事,那就太好了,但我找不到。

rekjcdws

rekjcdws9#

尝试从网页复制html

<?php
$html = file_get_contents('http://speedywap.com');
echo $html;
?>

尝试此操作以获取网页副本

<?php
$html = file_get_contents('http://speedywap.com');
echo str_replace(
    '<head>', 
    '<head><base href="http://speedywap.com" target="_blank">',
     $html
 );
?>

相关问题