php 处理未定义数组键的最快方法

kr98yfug 于 2023-11-16 发布在 PHP

关注(0)|答案(8)|浏览(144)

在一个非常紧密的循环中，我需要访问一个包含数百万个元素的数组中的数万个值。键可以是未定义的：在这种情况下，它应该是法律的返回NULL而没有任何错误消息：

数组键存在：返回元素的值。
数组键不存在：返回null。

我知道多种解决方案：

if (isset($lookup_table[$key])) {
    return $lookup_table[$key];
} else {
    return;
}

字符串
或

@return $lookup_table[$key];

型
或

error_reporting(0);
$return = $lookup_table[$key];
error_reporting(E_ALL);
return $return;

型
所有解决方案都远非最佳：

第一个需要在B-TREE中进行两次查找：一次用于检查存在性，另一次用于检索值。这有效地使运行时间加倍。
第二个使用错误抑制操作符，因此在该线路上创建了大量开销。
第三个调用错误处理程序（将检查error_reporting设置，然后不显示任何内容），从而创建开销。

我是否错过了一种避免错误处理的方法，但却可以使用单个Btree查找？

回答一些问题：

数组缓存复杂计算的结果-复杂到真实的时间。在数十亿可能的值中，只有数百万个产生有效的结果。数组看起来像1234567 => 23457，1234999 => 74361，.这被保存到几兆字节的PHP文件中，和include_once-d。初始加载时间无关紧要。
如果没有找到键，这仅仅意味着这个特定的值将不会返回有效的结果。麻烦的是每秒50 k+完成此操作。

php

来源：https://stackoverflow.com/questions/16675753/fastest-way-to-handle-undefined-array-key

8条答案

按热度按时间

7eumitmz1#

更新

从PHP 7开始，你可以用null coalesce operator来完成这个任务：

return $table[$key] ?? null;

字符串

旧答案

首先，数组不是B树，它是一个哈希表;一个桶数组（通过哈希函数索引），每个桶都有一个实际值的链表（在哈希冲突的情况下）。这意味着查找时间取决于哈希函数在桶中“传播”值的程度，即哈希冲突的数量是一个重要因素。
从技术上讲，这句话是最正确的：

return array_key_exists($key, $table) ? $table[$key] : null;

型
这引入了一个函数调用，因此比优化后的isset()慢了 * 很多 *。慢了多少？~ 2 e3倍。
接下来是使用引用来避免第二次查找：

$tmp = &$lookup_table[$key];

return isset($tmp) ? $tmp : null;

型
不幸的是，如果$lookup_table数组中的元素不存在，那么这会修改$lookup_table数组中的元素，因为PHP总是将引用设置为有效。
这就剩下下面的方法了，它很像你自己的方法：

return isset($lookup_table[$key]) ? $lookup_table[$key] : null;

型
除了没有引用的副作用之外，它在运行时也更快，即使执行两次查找。
您可以考虑将数组划分为更小的部分，作为减少长查找时间的一种方法。

赞(0）回复(0）举报 2023-11-16

njthzxwz2#

我用下面的代码做了一些基准测试：

set_time_limit(100);

$count = 2500000;
$search_index_end = $count * 1.5;
$search_index_start = $count * .5;

$array = array();
for ($i = 0; $i < $count; $i++)
    $array[md5($i)] = $i;

$start = microtime(true);
for ($i = $search_index_start; $i < $search_index_end; $i++) {
    $key = md5($i);
    $test = isset($array[$key]) ? $array[$key] : null;
}
$end = microtime(true);
echo ($end - $start) . " seconds<br/>";

$start = microtime(true);
for ($i = $search_index_start; $i < $search_index_end; $i++) {
    $key = md5($i);
    $test = array_key_exists($key, $array) ? $array[$key] : null;
}
$end = microtime(true);
echo ($end - $start) . " seconds<br/>";

$start = microtime(true);
for ($i = $search_index_start; $i < $search_index_end; $i++) {
    $key = md5($i);
    $test = @$array[$key];
}
$end = microtime(true);
echo ($end - $start) . " seconds<br/>";

$error_reporting = error_reporting();
error_reporting(0);
$start = microtime(true);
for ($i = $search_index_start; $i < $search_index_end; $i++) {
    $key = md5($i);
    $test = $array[$key];
}
$end = microtime(true);
echo ($end - $start) . " seconds<br/>";
error_reporting($error_reporting);

$start = microtime(true);
for ($i = $search_index_start; $i < $search_index_end; $i++) {
    $key = md5($i);
    $tmp = &$array[$key];
    $test = isset($tmp) ? $tmp : null;
}
$end = microtime(true);
echo ($end - $start) . " seconds<br/>";

字符串
我发现运行速度最快的测试是使用isset($array[$key]) ? $array[$key] : null的测试，紧随其后的是仅禁用错误报告的解决方案。

赞(0）回复(0）举报 2023-11-16

pcrecxhr3#

这个工作对我来说

{{ isset($array['key']) ? $array['key']: 'Default' }}

字符串
但这也太快了

{{ $array['key'] or 'Default' }}

型

赞(0）回复(0）举报 2023-11-16

jdgnovmf4#

对此有两种典型的方法。
1.为未定义的键定义默认值。
1.检查未定义的键。
下面是如何执行第一个和尽可能少的代码。

$data = array_merge(array($key=>false),$data);
return $data[$key];

字符串
下面是如何执行第二个。

return isset($data[$key]) ? $data[$key] : false;

型

赞(0）回复(0）举报 2023-11-16

tcomlyy65#

这只是一个突然的想法，需要测试，但你有没有尝试使用array_intersect_key()来获取现有的值，并使用array_merge来填充其余的值？它将消除访问数据的循环的需要。类似于这样的：

$searched_keys = array ('key1' => null, 'key2' => null); // the list of the keys to find

$exiting_values = array_intersect_key($lookup_table, $searched_keys);
$all_values = array_merge($searched_keys, $exiting_keys);

字符串
请注意，我没有尝试它的性能明智的。

赞(0）回复(0）举报 2023-11-16

iyr7buue6#

@ operator和error_reporting方法都比使用isset慢。使用这两种方法，它修改了PHP的错误报告设置，但PHP的错误处理程序仍然会被调用。错误处理程序将检查error_reporting设置并退出而不报告任何内容，但这仍然需要时间。

赞(0）回复(0）举报 2023-11-16

ioekq8ef7#

我更喜欢使用isset函数，而不是逃避错误。我做了一个函数来检查键是否存在，如果不存在则返回默认值，在嵌套数组的情况下，你只需要按顺序添加其他键：
嵌套数组查找：

/**
 * Lookup array value.
 *
 * @param array $array
 * @param array $keys
 * @param $defaultValue
 */
public static function array_key_lookup($array, $keys, $defaultValue)
{
    $value = $array;
    foreach ($keys as $key) {
        if (isset($value[$key])) {
            $value = $value[$key];
        } else {
            $value = $defaultValue;
            break;
        }
    }

    return $value;
}

字符串
使用示例：

$array = [
    'key1' => 'value1',
    'key2' => 'value2',
    'key3' => [
        'key3a' => 'value3a',
        'key3b' => 'value3b'
    ]
];

array_key_lookup($array, ['key3', 'key3a'], 'default')
'value3a'

array_key_lookup($array, ['key2', 'key2a'], 'default')
'default'

array_key_lookup($array, ['key2'], 'default')
'value2'

array_key_lookup($array, ['key5'], 'default')
'default'

型
逃避错误：

$value = @$array[$key1][$key2] ?: $defaultValue;

型

赞(0）回复(0）举报 2023-11-16

tct7dpnv8#

首先，通过保存一个新数组来重新组织数据以提高性能，其中数据按键排序，但新数组包含一个常规的数字索引。
这一部分将是耗时的，但只做一次。

// first sort the array by it's keys
 ksort($data);

 // second create a new array with numeric index
 $tmp = new array();
 foreach($data as $key=>$value)
 {
    $tmp[] = array('key'=>$key,'value'=>$value);
 }
 // now save and use this data instead
 save_to_file($tmp);

字符串
一旦这样做了，它应该很快找到使用Binary Search的关键。以后你可以使用这样的函数。

function findKey($key, $data, $start, $end)
  { 
    if($end < $start) 
    { 
        return null; 
    } 

    $mid = (int)(($end - $start) / 2) + $start; 

    if($data[$mid]['key'] > $key) 
    { 
        return findKey($key, $data, $start, $mid - 1); 
    } 
    else if($data[$mid]['key'] < $key) 
    { 
        return findKey($key, $data, $mid + 1, $end); 
    } 

    return $data[$mid]['value'];
 }

型
要搜索一个键，你可以这样做。

$result = findKey($key, $data, 0, count($data));
 if($result === null)
 {
      // key not found.
 }

型
如果count($data)一直在执行，那么可以将其缓存到存储数组数据的文件中。
我怀疑这种方法在性能上会比对$data重复的常规线性搜索快得多。我不能保证它更快。只有八叉树会更快，但是构建八叉树的时间可能会抵消搜索性能（我以前经历过）。这取决于你必须在数据中进行多少搜索。

赞(0）回复(0）举报 2023-11-16

我来回答

php 处理未定义数组键的最快方法

回答一些问题：

8条答案

更新

旧答案

相关问题

热门标签

最新问答