php 使用preg_replace()将字母数字字符串从camelCase转换为snake_case

eiee3dmh  于 2023-03-11  发布在  PHP
关注(0)|答案(4)|浏览(147)

我现在有一个方法可以将camel case字符串转换为snake case字符串,但它被分解为三个preg_replace()调用:

public function camelToUnderscore($string, $us = "-")
{
    // insert hyphen between any letter and the beginning of a numeric chain
    $string = preg_replace('/([a-z]+)([0-9]+)/i', '$1'.$us.'$2', $string);
    // insert hyphen between any lower-to-upper-case letter chain
    $string = preg_replace('/([a-z]+)([A-Z]+)/', '$1'.$us.'$2', $string);
    // insert hyphen between the end of a numeric chain and the beginning of an alpha chain
    $string = preg_replace('/([0-9]+)([a-z]+)/i', '$1'.$us.'$2', $string);

    // Lowercase
    $string = strtolower($string);

    return $string;
}

我编写了测试来验证它的准确性,它可以在以下输入数组(array('input' => 'output'))中正常工作:

$test_values = [
    'foo'       => 'foo',
    'fooBar'    => 'foo-bar',
    'foo123'    => 'foo-123',
    '123Foo'    => '123-foo',
    'fooBar123' => 'foo-bar-123',
    'foo123Bar' => 'foo-123-bar',
    '123FooBar' => '123-foo-bar',
];

我想知道是否有一种方法可以将我的preg_replace()调用减少到一行,这将给予我同样的结果。
注意:Referring to this post,我的研究已经向我展示了一个preg_replace()正则表达式,它几乎可以得到我想要的结果,除了它不能在foo123的例子中将其转换为foo-123

eit6fx6z

eit6fx6z1#

您可以使用lookarounds在单个正则表达式中完成所有这些操作:

function camelToUnderscore($string, $us = "-") {
    return strtolower(preg_replace(
        '/(?<=\d)(?=[A-Za-z])|(?<=[A-Za-z])(?=\d)|(?<=[a-z])(?=[A-Z])/', $us, $string));
}

RegEx Demo
Code Demo

注册表描述:

(?<=\d)(?=[A-Za-z])  # if previous position has a digit and next has a letter
|                    # OR
(?<=[A-Za-z])(?=\d)  # if previous position has a letter and next has a digit
|                    # OR
(?<=[a-z])(?=[A-Z])  # if previous position has a lowercase and next has a uppercase letter
35g0bw71

35g0bw712#

以下是我根据之前标记的重复帖子得出的两点意见。这里的公认解决方案非常棒。我只是想尝试用分享的内容来解决它:

function camelToUnderscore($string, $us = "-") {
    return strtolower(preg_replace('/(?<!^)[A-Z]+|(?<!^|\d)[\d]+/', $us.'$0', $string));
}

示例:

Array
(
    [0] => foo
    [1] => fooBar
    [2] => foo123
    [3] => 123Foo
    [4] => fooBar123
    [5] => foo123Bar
    [6] => 123FooBar
)

foreach ($arr as $item) {
    echo camelToUnderscore($item);
    echo "\r\n";
}

输出:

foo
foo-bar
foo-123
123-foo
foo-bar-123
foo-123-bar
123-foo-bar

说明:

(?<!^)[A-Z]+      // Match one or more Capital letter not at start of the string
|                 // OR
(?<!^|\d)[\d]+    // Match one or more digit not at start of the string

$us.'$0'          // Substitute the matching pattern(s)

online regex
这个问题已经解决了,所以我不会说我希望它有帮助,但也许有人会发现这有用。

编辑

此正则表达式存在一些限制:

foo123bar => foo-123bar
fooBARFoo => foo-barfoo

感谢@urban指出这一点。下面是他在这个问题上发布的三个解决方案的测试链接:
three solutions demo

k4emjkb1

k4emjkb13#

来自同事:
$string = preg_replace(array($pattern1, $pattern2), $us.'$1', $string);可能有效
我的解决方案:

public function camelToUnderscore($string, $us = "-")
{
    $patterns = [
        '/([a-z]+)([0-9]+)/i',
        '/([a-z]+)([A-Z]+)/',
        '/([0-9]+)([a-z]+)/i'
    ];
    $string = preg_replace($patterns, '$1'.$us.'$2', $string);

    // Lowercase
    $string = strtolower($string);

    return $string;
}
dbf7pr2w

dbf7pr2w4#

您不需要承受大量的查找或多组模式来定位单词或连续数字之间的位置的低效性。
使用贪婪匹配来查找所需的序列,然后用\K重置全字符串匹配,然后检查该位置是否是字符串的结尾。所有符合条件的字符都应该接收分隔符。这种贪婪模式的速度在于它消耗一个或多个序列,并且从不回头。
我将在答案中省略strtolower()调用,因为它只是挑战的干扰。
代码:(Demo

preg_replace(
    '/(?:\d++|[A-Za-z]?[a-z]++)\K(?!$)/',
    '-',
    $tests
)

字/数间处理:
| 用户|台阶|模式|置换|
| - ------|- ------|- ------|- ------|
| 阿努巴瓦|660|/(?<=\d)(?=[A-Za-z])|(?<=[A-Za-z])(?=\d)|(?<=[a-z])(?=[A-Z])|'-'|
| 米克马库萨|337|/(?:\d++|[A-Za-z]?[a-z]++)\K(?!$)/|'-'|
严格的CamelCase处理:
| 用户|台阶|模式|置换|
| - ------|- ------|- ------|- ------|
| 爵士乐|321|/(?<!^)[A-Z]+|(?<!^|\d)[\d]+/|'-$0'|
| 米克马库萨|250|/(?>\d+|[A-Z][a-z]*|[a-z]+)(?!$)/|'$0-'|
| 米克马库萨|244|/(?:\d++|[a-z]++)\K(?!$)/|x1米11米1x|
我对“马特”的答案打了折扣,因为它在每根弦上都有三次完整的传球--就效率而言,它甚至不在同一个球场上。

相关问题