正则匹配页面所有A标签

 Pala   2018-01-30 17:07   32 人阅读   条评论

工作需要需要爬去百度百科,需要提取页面中所有A标签的网址。方法如下:

匹配页面所有A标签正则: 

 <a.+?href=\"(.+?)\".*>(.+)</a>

换行版本

<a[^>]+?href=\"([^\"]+)\"[^>]*>([^<]+)</a>

增强版本:

可以匹配href后面跟 单引号,双引号或者不跟符号的情况:

<a[^>]+?href=["']?([^"']+)["']?[^>]*>([^<]+)</a>

匹配指定路径版本

<a[^>]+?href=["']/item/?([^"']+)["']?[^>]*>([^<]+)</a>


本文地址:http://chenxm.cc/post/530.html
版权声明:本文为原创文章,版权归 Pala 所有,欢迎分享本文,转载请保留出处!