百度搜索推广技术审核策略

面对海量物料，百度搜索推广的准入门槛和内容审核政策，需要强大的技术能力作为支撑。百度搜索推广平台背后有专门的技术团队，负责建立技术审核标准、监控违法违规行为、落实技术审核策略，通过整合内外技术资源、挖掘风险事件、扩展违禁物料的数量和规模等方式，构建百度搜索推广产品的风险控制屏障。目前，对客户信息、物料以及URL的风险识别主要是通过大规模机器学习实现的，包括应用自然语言处理、深度学习与规则引擎等技术来识别疑似违规物料与客户信息、资质。在工程架构上，采用流式计算实时处理客户推广物料与URL的审核；采用spark、hadoop等大数据处理平台进行全量客户信息、物料的巡检。

一、客户准入阶段的技术审核

1、官方数据对接

对于可以通过官方渠道核实真实性的资质文件，如营业执照、组织机构代码证、ICP备案证明等，百度会通过与官方数据库对接的形式核验客户提交的信息是否真实。

为提高效率，百度会通过ORC文字识别技术，抓取客户提交的资质文件的照片、扫描件中的关键信息，与官方数据库信息进行比对。通过这种方式，能快速核对客户是否真实拥有相关资质。

2、URL地址连通性审查

对于客户在后台提交的URL地址，百度会通过技术手段对URL地址是否能够连通进行审查。目前连通性检查主要会从体验层面检查网页是否能够打开，从安全层面检查网页是否有非法跳转的行为。

3、对冒用资质的技术筛查

由于百度对部分行业设置了较高的准入门槛，经常会有一些不具备相应资质的客户，采用冒用他人资质、PS证明文件等方式企图蒙混过关。更有甚者，一些违法“客户”为了利用百度搜索推广平台从事非法活动，以及逃避后续的法律制裁，会盗用他人资质、身份证件信息来进行注册。

为打击上述违规违法行为，百度除了使用“对公账户打款验证”等方式核实客户资质的真实性，还引入图像识别、机器学习等技术，通过比对图片的光照、纹理、背景等信息点，来判断资质是否属于伪造。

二、对客户推广物料的技术审核

1、物料生成后的技术过滤

对于客户添加的关键词、撰写的创意、设置的URL地址等物料，客户在系统完成编辑后，必须通过百度技术系统的违法违规物料过滤后才能正式上线推广。未通过技术过滤的推广内容不会生效。目前，百度搜索推广平台每天新审核广告量达到35亿条（此条数包括不同关键词与广告创意的匹配结果，下同），拒绝量达到2000万条。

2、高危风险物料重点识别

所有与淫秽、色情、暴力、恐怖、赌博、走私、造假、盗版、欺诈、作弊、侵害隐私、非法经营等违法行为相关的推广内容都在严格禁止之列。百度搜索推广平台通过自然语言处理、深度学习、大数据处理等技术，针对赌博、低俗、欺诈等高危行业建立专项识别策略，一旦发现客户有高危违规行为，百度将对此类违规账户做封禁处理。

3、违法违规行为巡查制度

客户的物料即使已经生效，也并不意味着就可以高枕无忧。百度的技术物料巡查系统会全天候对生效物料进行巡查，一旦发现有违法违规物料，将立即召回或做下线处理。目前，百度搜索推广平台每日巡查广告量近百亿条，拒绝量达到400万条。

4、资质、物料一致性审查

根据百度搜索推广准入政策，各类行业均有严格的准入门槛，百度搜索推广平台对客户资质、物料与经营范围一致性的审核非常严格。一些违规“客户”无法满足相关资质要求，会退而求其次，伪装成其它要求较低行业的客户，首先混入百度搜索推广平台，然后再推广违规内容。针对此种情况，百度在物料技术过滤和巡查过程中，会通过技术手段，对资质和物料内容的一致性进行审查。举例来说如果家电维修行业客户的推广物料中包含医疗相关内容，则会被认定为违规。

5、违规物料变体的技术筛查

经过十余年的积累，目前百度搜索推广技术过滤系统内的违规物料内容体量非常庞大，但仍有一些违规客户通过提交变体词等形式试图躲避技术措施的筛查。为治理此种违法违规行为，百度的技术系统会同时对违禁物料（以“白癜风”为例）变体词进行筛查，包括识别插入型变体（白|癜风）、音字混合变体（Bai癜风）、同音字变体（白癜疯）、形似字变体（白癜岚）、异编码变体（白癜風）等。一旦发现此类变体，与原有违禁词做同样处理。

三、百度搜索推广的技术回避

在上述技术审核策略之外，百度搜索推广平台还会基于用户体验等因素做一些技术上的回避，以保障产品体验，维护用户权益。

1、用户体验回避

百度搜索引擎中的某些搜索量极大的词汇，如天气、娱乐明星姓名或热点事件，网民搜索时可能不具有任何商业或消费意图，为保障良好的用户体验，百度搜索推广平台目前不允许客户选用此类与其推广行业不相关的关键词进行推广。用热搜词搭配质量低下的搜索推广链接，更是百度搜索推广平台严格禁止的。

百度搜索推广平台会通过技术手段识别客户的推广意图，一旦客户提交与其真实推广行业不一致的物料，百度将视情况对违规物料做下线处理，甚至可能对账户做封禁处理。

2、防止误导回避

客户在推广物料中假借权威机构形象宣传，会误导网民决策。百度会对涉及政府部门和权威媒体的物料重点审核，其中重点核查的政府部门包括教育部、卫计委、新闻出版广电总局、铁路总公司、各地教育局、各地卫生局、药监局、药监所等，重点核查的权威媒体包括中央电视台及《焦点访谈》等重点栏目。百度通过自然语言理解的技术来发现潜在推荐语义表述及相关机构名称，从而识别客户推广物料中的该类风险。

3、推广物料禁止URL直接下载

如果客户的推广链接点击后直接指向互联网应用下载地址，会给网民带来不好的用户体验，百度搜索推广平台不欢迎此类推广形式。百度会通过URL跳转、URL格式合规性、URL主域一致性等多种识别手段，在商户提交物料阶段，物料上线后巡查阶段多个纬度上进行控制。

4、官网保护

百度对一些知名的金融机构、银行、电商等主动进行官网保护，一方面防止不法商户仿冒这些官网进行推广欺诈，给网民造成损失，另一方面避免商户对正规官网的品牌侵权。百度对要保护的官网进行文本、图片、网页结构关键信息抽取，生成网站的多个纬度特征签名，建立被保护官网的信息库，禁止其他无关客户使用某“官网”、“官方网站”等物料进行推广。随着该官网信息库的扩大，越来越多的官网会受到百度的主动保护。企业若有需要，也可以主动申请百度给予其官网保护，申请地址是 http://trust.baidu.com/vstar/official/intro?type=gw。

5、推广物料的文字合规性

在推广链接的撰写方面，百度搜索推广平台也有一套合规性标准，目的在于提升网民的用户体验，同时避免撰写上的不符对网民认知造成误导。比如，【推荐】二字在推广链接的句首是不合规的，因为这样有可能让网民误认为是百度做出的推荐，再比如推广链接中有重复的词汇、有下划线这类特殊字符、有误写的词语等，均会给网民的搜索体验带来不好的影响。在解决推广物料合规性问题上，百度采用了规则加模型的方式，对于一些简单的可以抽象为规则的撰写直接制定规则进行防范，而对于规则难以覆盖到的地方，则通过机器学习的方法训练模型进行识别解决。