是这样的,要采集一个网站的手机号码,链接是这样的Tools/GetTel.ashx?id=101 访问这个URL会输出一个手机号码,每个ID都不一样,但是输出的页面没有任何html代码,只有一串手机号。请问我改如何修改采集的规则呀。还有我想问下火车头采集如何在内容里加上原地...
是这样的,要采集一个网站的手机号码,链接是这样的Tools/GetTel.ashx?id=101
访问这个URL会输出一个手机号码,每个ID都不一样,但是输出的页面没有任何html代码,只有一串手机号。请问我改如何修改采集的规则呀。还有我想问下火车头采集如何在内容里加上原地址?展开usawizard提示该问答中所提及的号码未经验证,请注意甄别。我有更好的答案
可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。
手机的第一个单位都是1,那你就以1为开头,空格为结尾,以这个为规则,等你采集出来保存到excel文件里,批量替换下,比如一个手机号为,那么生成的文件应该是3955554444,然后你39批量替换成139,59批量替换成159,手机号码开头几位就那几个,替换完就行了。源地址会在生成的excel里,你把url那一列和内容那一列合并不就行了。
正则表达式吧,(?content[sS]*?),这个表达式在火车头里的意思是匹配任意的字符串,如果那个页面只有手机号而无任何标签代码的话,那就直接用这个就行了。
