作者:妈妈说称号长的人很牛也 | 来源:互联网 | 2023-05-18 17:01
背景
我有一个数组,我通过使用preg_split(‘/(?<= 0d0a)(?!$)/')基于每次出现0d0a来分割字符串.
例如:
$string = "78781110d0a78782220d0a";
将分为:
Array ( [0] => 78781110d0a [1] => 78782220d0a )
有效的数组元素必须以7878开头并以0d0a结尾.
问题
但有时,字符串中还有一个额外的0d0a,它会分成一个额外的无效数组元素,即不以7878开头.
以此字符串为例:
$string = "78781110d0a2220d0a78783330d0a";
这分为:
Array ( [0] => 78781110d0a [1] => 2220d0a [2] => 78783330d0a )
但实际应该是:
Array ( [0] => 78781110d0a2220d0a [1] => 78783330d0a)
我的解决方案
我编写了以下(杂乱)代码来解决这个问题:
$data = Array('78781110d0a','2220d0a','78783330d0a');
$i = 0; //count for $data array;
$j = 0; //count for $dataFixed array;
$dataFixed = $data;
foreach($data as $packet) {
if (substr($packet,0,4) != "7878") { //if packet doesn't start with 7878, do some fixing
if ($i != 0) { //its the first packet, can't help it!
$j++;
if ((substr(strtolower($packet), -4, 4) == "0d0a")) { //if the packet doesn't end with 0d0a, its 'mostly' not valid, so discard it
$dataFixed[$i-$j] = $dataFixed[$i-$j] . $packet;
}
unset($dataFixed[$i-$j+1]);
$dataFixed = array_values($dataFixed);
}
}
$i++;
}
描述
我首先将数组复制到另一个数组$dataFixed.在$data数组的foreach循环中,我检查它是否以7878开头.如果没有,我将它与$data中的前一个数组连接.然后我取消设置$dataFixed中的当前数组并使用array_values重置数组元素.
但我对这个解决方案并不是很有信心.有更好,更有效的方法吗?
UPDATE
如果输入字符串不像它应该的那样以0d0a结尾怎么办?它将坚持前一个数组元素..
例如:在字符串78781110d0a2220d0a78783330d0a0000中,0000应该被分隔为另一个数组元素.
解决方法:
使用另一个positive lookahead(?= 7878)来形成:
preg_split('/(?<=0d0a)(?=7878)/',$string)
注意:我删除了(?!$),因为根据您的示例数据,我不确定是什么用的.
例如,这段代码:
$string = "78781110d0a2220d0a78783330d0a";
$array = preg_split('/(?<=0d0a)(?=7878)(?!$)/',$string);
print_r($array);
结果是:
数组([0] => 78781110d0a2220d0a [1] => 78783330d0a)
更新:
根据您在输入字符串末尾添加可能的随机字符的修订问题,您可以添加三行来创建完整的程序:
$string = "78781110d0a2220d0a787830d0a330d0a0000";
$array = preg_split('/(?<=0d0a)(?=7878)/',$string);
$temp = preg_split('/(7878.*0d0a)/',$array[count($array)-1],null,PREG_SPLIT_NO_EMPTY|PREG_SPLIT_DELIM_CAPTURE);
$array[count($array)-1] = $temp[0];
if(count($temp)>1) { $array[] = $temp[1]; }
print_r($array);
我们基本上进行初始拆分,然后按照预期的数据格式拆分结果数组的最后一个元素,使用PREG_SPLIT_DELIM_CAPTURE保持分隔符. PREG_SPLIT_NO_EMPTY确保如果输入字符串不以随机字符结尾,我们将不会获得空数组元素.
更新2:
根据您在下面的评论,您似乎暗示任何所需匹配项之间可能存在随机字符,并且您希望保留这些随机字符,您可以这样做:
$string = "0078781110d0a2220d0a2220d0a0000787830d0a330d0a000078781110d0a2220d0a0000787830d0a330d0a0000";
$split1 = preg_split('/(7878.*?0d0a)/',$string,null,PREG_SPLIT_NO_EMPTY|PREG_SPLIT_DELIM_CAPTURE);
$result = array();
foreach($split1 as $e){
$split2 = preg_split('/(.*0d0a)/',$e,null,PREG_SPLIT_NO_EMPTY|PREG_SPLIT_DELIM_CAPTURE);
foreach($split2 as $el){
// test if $el doesn't start with 7878 and ends with 0d0a
if(strpos($el,'7878') !== 0 && substr($el,-4) == '0d0a'){
//if(preg_match('/^(?!7878).*0d0a$/',$el) === 1){
$result[ count($result)-1 ] = $result[ count($result)-1 ] . $el;
} else {
$result[] = $el;
}
}
}
print_r($result);
这里采用的策略与上述不同.首先,我们使用nongreedy regex.*?来根据与所需数据匹配的分隔符拆分输入字符串.此时我们有一些字符串包含所需值的结尾和最后的一些垃圾,所以我们再次根据最后一次出现的“0d0a”和贪婪的正则表达式进行拆分.* 0d0a.然后,我们将任何不以“7878”开头但以“0d0a”结尾的结果值附加到前一个值,因为这应该修复分裂的第一和第二半,因为它包含一个额外的“0d0a”.
我为最内层的if语句提供了两种方法,一种使用正则表达式.在我的测试中,正则表达式稍慢一点,所以我留下了一个注释掉的.
我可能仍然没有满足您的全部要求,因此您必须告诉我它是否有效并且可能提供您的完整数据集.