"href\s*=\s*(?:""(?<1>[^""]*)""|(?<1>\S+))"
中间有多个未转义的引号,搜索了一下,应该是这样的
href\s*=\s*(?:\"(?<1>[^\"]*)\"|(?<1>\S+))
href 匹配 href
\s* 匹配 = 之前的所有空格
= 匹配 = 符号
\s* 匹配 = 之后的所有空格
(?: 匹配以下东西
\"(?<1>[^\"]*)\" 匹配以 " 开头,以 " 结尾,中间为不含 " 符号的字符串,并编号为 1
| 或
(?<1>\S+) 匹配一串不含空格的字符串,编号为 1
)
放到一块儿就是获取页面内的标签(如 a 标签)的 href 属性,把属性值编号为 1
|