股票财经直播行情分析网-阿牛直播

股票直播视频行情分析

学习炒股票、牛股预测、短线炒股技巧、股票学习视频教程、最新股市消息、股票行情分析

字节跳动的搜索爬虫为何如此野蛮凶猛?

要闻 来源:要闻 2019-11-08 15:13:44
人气

当看到字节跳动要做全网搜索的新闻时,王东一点都不感到惊讶。因为早在头条搜索正式上线半个多月前,王东所在公司的网站就饱受一个名为“bytespider”爬虫的侵扰。

http://file2.aniu.tv/2019/11/08/b6ce5170ecf059786feabc3ccbb30b40.jpg

王东在一家第三方信息评估平台做SEO(搜索引擎优化),今年7月份,他突然发现公司的网站经常性打不开,网页加载极其缓慢,有时甚至直接瘫痪。经过一系列排查后,王东在服务器日志上发现了bytespider爬虫的痕迹。

王东发现该爬虫抓取的频率每天达几百万次,高则上千万次,服务器带宽负载飙至100%,而且该爬虫在抓取时完全不遵守网站的robots协议。顺着该爬虫的IP地址查询,王东和团队证实,该爬虫就是字节跳动的搜索爬虫。

苦主并非只有王东,他在CSDN、V2EX等技术论坛了解到,遭受该爬虫暴力抓取的还有很多人,很多用户直接表示“太频繁”“不杀不行”“直接封杀”。魏立超在一家互联网社区平台工作,同样遭受bytespider的暴力抓取,他也曾尝试过在网络上求助。10月24日,类似的事情经过微博大V的曝光,一时引起互联网技术圈子的热议。

但令魏立超感到心寒的是,网上却流传着一种“弱者活该”的说法——“能被头条搜索引擎抓取应该觉得荣幸才是,说明你们内容有价值”,“今日头条是在免费给你们做性能测试,如果你们网站随便被搜索引擎抓死,那技术可以下岗了”。

因为不堪其扰,给公司带来重大损失,无奈之下,像王东、魏立超这样的网站主们都只好封禁了该爬虫IP所有频段。

对此,字节跳动回应记者称,“网络报道不实,目前头条搜索设有反馈机制,网站因为爬虫受到影响,可以直接通过邮件反馈处理。”

从字节跳动开始做搜索之后,网络上就一直有网站主们抱怨其爬虫抓取过于暴力的声音,到今年10月末,小网站主的抱怨达到高峰,至今余波未平。

野蛮爬虫

爬虫是网络爬虫的一种简称,它是一种按照一定规则自动地抓取万维网信息的程序或脚本,定时并按照一定的频率把互联网上的内容爬下来,汇总存储到自己的服务器上,以方便用户搜索。

通常来讲,在互联网技术圈,数据抓取是一件很正常的事情。通过爬虫抓取网站内容是搜索引擎进行数据积累的必要前提。此外,一些数据分析、数据采集的功能也依赖爬虫技术实现。但爬虫抓取也有一些江湖规则或君子协定,比如robots协议。robots协议由网站主自行设置,网站会规定爬虫引擎哪些内容数据可以抓取,哪些禁止抓取,尤其是涉及到用户数据等隐私信息的。

但是王东发现bytespider的特征是不遵守robots协议,且抓取频次太高。从技术社区了解到,爬虫就是对服务器的内容进行访问的过程,任何访问都会占用服务器的响应资源,一旦瞬间访问压力超过程度,就会对网站的稳定性造成影响。为了维护整个互联网生态,爬虫的所有者会通过一定的策略来控制爬虫访问的速度和总量。

所以,有技术人员认为,“应该是字节跳动本身在控制爬虫抓取的频次上出了问题。”

其实,对于像王东这样做SEO的人来说,其主要工作目标就是希望自己家网站能在主流搜索引擎的搜索结果中排在前面的位置。“对于像百度、搜狗、360等搜索引擎的规范抓取和收录我是非常欢迎的,但是bytespider却直接让网站瘫痪了,这也导致网站流量在那段时间也掉了不少。”

令王东们头疼的是,字节跳动的搜索引擎既没给他们带来多少新流量,反倒还给公司带来很多损失,并且影响了正常的用户访问。

王东们想知道,为什么字节跳动没能控制好爬虫的抓取频次?

行业资深人士分析认为大致有两种可能。一种可能是字节跳动为了短期快速扩充自身搜索规模而主观进行的恶意抓取;另一种可能是目前字节跳动的搜索爬虫策略不够完善,客观结果上导致的抓取过量。

“考虑到在今日头条刚开始发展的时候,他们抓取内容的时候完全无视版权和内容方的抗议,也不排除是主观行为,但我觉得字节跳动现在已经是很大的企业,应该不至于主观这么干。”上述行业资深人士如此推断。

也有另一位互联网行业资深人士认为,“这事儿没那么复杂,就是具体干活儿的团队太糙,项目着急上线,根本来不及做动态调整的逻辑算法,主观作恶的可能性较小。”

但不管主观出发点如何,字节跳动为了快速发展搜索而派出爬虫四处暴力抓取,并不遵守既定规则,已经给中小网站主们造成了客观的损失和困扰。

对于网络上流传的“弱者活该”的说法。技术人员显然不认同,他认为,“把问题推给小网站自身抗风险能力不强太偏颇了,这种规模的爬虫抓取频次不在小网站正常的考量范围内,大的站点对于搜索引擎爬虫的过激抓取肯定会有很好的应对策略,毕竟有那么多做技术的,但很多小的站点很可能没有专门的技术人员,只是租用了服务器,采用了一些开源的建站方案,不具备应对能力也很正常。”

而有小网站主抱怨字节跳动的爬虫“一上午对网站发出46万次请求”,上述技术人员认为:“以个人的经验来说,这个请求频次肯定是过高了,至于是不是恶意的不能确定。网站都瘫痪了,肯定是不幸了。”

内容战争

今年8月10日,字节跳动正式上线了网页版通用搜索,爬虫抓取是搜索引擎效果实现中的重要一环。

对于每进入一个新领域,字节跳动都有一套惯用的打法,要么直接花钱收购该领域的公司,要么把该领域的专业人才挖过来。比如在2017年11月收购中国企业打造的海外音乐短视频平台musical.ly,增强自己的短视频业务;在2019年5月,收购教育培训平台清北网校,增强自己的在线教育业务,等等。

事实上,字节跳动早就布局搜索领域。早在2014年,在百度负责搜索框架的百度网页搜索部技术副总监杨震原就被张一鸣挖入今日头条,在头条曾主导广告和推荐两大核心系统升级。此外,原百度搜索部主任架构师朱文佳、原百度美国深度学习实验室少帅科学家李磊等百度重要人才均被张一鸣挖入今日头条。今年3月,字节跳动挖来了前360搜索产品负责人,开启搜索商业化。

此外,为了拓展搜索内容,字节跳动也在通过收购来完善自己的内容库,比如全资收购互动百科。截止到8月27日,互动百科已经在董事、经理、监事;投资人;法定代表人三个方面进行了全面变更,原来的创始团队全部退出,目前已经被字节跳动全资控股。

虽然在人才和技术上早有准备,但是对于搜索业务而言,搜索引擎这个生态的建立不是一朝一夕可以完成的,百度、搜狗已经经历了多年的发展积累。而搜索的内容库是搜索技术施展拳脚的前提,否则搜索引擎就是无源之水。为了获取尽可能多的内容,可能是字节跳动采取暴力抓取的原因之一。

甚至,为了抓取到更多内容,往往就“越界”,字节跳动还因此惹上了官司。今年4月,百度就曾因搜索一纸诉状将字节跳动告至北京市海淀区人民法院。百度方面称,今日头条大量窃取百度“TOP1”搜索产品结果,百度要求字节跳动立即停止侵权,赔偿相关经济损失及合理支出共计人民币9000万元,并连续30天在其APP及网站首页道歉。除民事起诉外,百度也同时向法院提交了行为禁止保全申请书。

百度为媒体提供的公开案例中显示,在字节跳动旗下今日头条APP中搜索“1立方厘米水等于多少升”问题时,其首条展示的搜索结果中被嵌入了“抄自百度”的字眼,而该字眼则是百度为防止TOP1搜索结果被抄袭预先打下的防伪标记。

有趣的是,同一天字节跳动方面也发表声明表示,百度未经抖音授权,在其开发运营的“简单搜索”APP的热榜板块设置了抖音专栏,从抖音窃取视频,百度又通过技术手段将抖音的水印抹去。抖音要求百度立即停止侵权,赔偿9000万元,并在百度首页连续道歉30天。

因为字节跳动与百度在商业模式和业务逻辑的相近,双方均是通过流量换取广告商业营收,在过去的数年中,百度被视为最有可能被字节跳动颠覆的公司。

双方的战争一触即发。为了迎战,百度方面,马东敏亲自负责的百度战略投资部在今年开始频繁出击,先后投资了有赞、凯叔讲故事、七猫小说、知乎、果壳等众多内容服务类项目,背后的战略意图便在于丰富内容信息流。以知乎为例,知乎全站问答将以智能小程序的形式接入百度APP中。以搜索起家的百度宣布将着力打造“搜索+信息流”两大流量引擎和“百家号+智能小程序”两大生态,构筑起壁垒。

一位互联网TMT领域投资人告诉记者,“百度的清醒和出击让字节跳动在内容获取上变得越来越困难。此外,字节跳动的四处出击,也引起了其他互联网巨头的重视,腾讯就要求抖音禁播王者荣耀等腾讯系游戏的视频。行业里的一些内容社区等等都把字节跳动视作竞争对手,并不会轻易为其开放内容。”

面对对手们加筑的越来越高的内容壁垒,字节跳动对内容的焦虑似乎更强烈,直接反映在了搜索爬虫凌厉的抓取上。

其实,从某种程度上,如今像王东等网站主们的遭遇,也正如2015年左右今日头条APP兴起之时,各大内容版权方们的遭遇。当时,今日头条为了获取内容,拓展信息分发市场,甚至没有先获取内容版权方转载和分发的许可,就大量抓取内容版权方的内容,因此,多次因版权问题被告至法庭,引发了无数的版权纠纷。

当字节跳动切入全网搜索时,在内容抓取上,历史似乎重演。

不能停止的增长

在如今的互联网江湖,不仅百度,其他任何巨头都不敢小觑字节跳动和张一鸣。

从2012年成立至今的7年间,张一鸣率领今日头条在移动端图文信息市场立足后,又成功推出抖音短视频应用,截至2019年7月,抖音的DAU(日活跃用户)已经达到3.2亿。依托今日头条、抖音两个流量池,字节跳动不断把触角延伸至社交、游戏、电商、教育等各个领域,旗下所有产品在全球范围内的DAU已达到7亿,月活超过15亿。字节跳动正在各个领域冲击着原有的互联网巨头的城池。

7年间,字节跳动的员工数也已经突破5万。在过往的媒体报道中,字节跳动被形容为一个APP工厂,通过技术、获客、商业化变现这三大核心部门构成的流水线,不断将成功的产品经验在各个领域复制,再进行AB测试,快速迭代。

在字节跳动快速扩张的过程中,因为手段颇为凌厉,让外界一度议论纷纷。

在给外界压力的同时,激进的打法也在内部产生了影响,“字节跳动内部快速迭代,高速增长目标的企业文化也难免会给员工带来高压力,而高压力则可能导致操之过急或者动作变形,即便张一鸣并不想这么做。”一位接近字节跳动的人士告诉记者。

该人士继续解释,“2019年字节跳动的营收目标是至少1000亿,压力非常大。今日头条主APP的增长基本停滞了,今日头条正在艰难度过1.2亿DAU的增长瓶颈期,抖音及其海外版Tik Tok成为重要的增长引擎。但海外市场并不像中国一样,多语言,多文化背景,监管政策多样复杂,充满不确定性。”

11月4日消息,路透社援引不具名知情人士报道称,美国政府已经就字节跳动对该国社交媒体应用musical.ly的收购启动了国家安全调查。美国外国投资委员会(CFIUS)已经开始审查此次收购,该委员会负责审查外国收购的交易是否构成潜在的国家安全风险。与此同时,Facebook正对其加大警惕,并将之列为竞争对手。

此外,据《晚点LatePost》报道,在字节跳动内部举行的6~7月CEO面对面会上,张一鸣说,“如果没有搜索场景的拓展和优质内容,今日头条的增长空间可能只剩下4000万DAU。”

为了维持字节跳动的增长势头,搜索引擎作为一种被验证过的、成熟健康的商业模式,成为今日头条拓展商业增长的重要业务之一。国内的搜索市场上主要有百度、360搜索、搜狗搜索三大玩家,其中根据StatCounter Global Stats的统计数据,截止到2019年7月份,百度占据了中国搜索引擎全平台市场的76.42%份额。字节跳动打造的全网搜索,会在多大程度上影响搜索市场的份额变化,还是个未知数。

搜索和智能推荐都是获取信息的方式,对用户来说,搜索的成本高,但内容精度也高;推荐的成本低,内容精度也相对不高。为了满足用户准确获取信息以及广告主精准投放的需求,获取更多用户和商业变现机会,两种模式正在加速融合。

“搜索+信息流两者结合是目前看来比较好的方式,目前百度和字节跳动都从不同的起点出发赶往这个终点。但从搜索到信息流,和从信息流到搜索,这两者的难度不太一样,后者更难一些,搜索太复杂了。”一位行业资深人士告诉记者。

虽然搜索引擎成败的影响因素众多,但很显然,现在字节跳动搜索爬虫的频繁爬取和不遵守行业规则,已经给很多网站主们都造成了不太好的印象。目前,字节跳动的搜索爬虫bytespider还躺在魏立超的黑名单中,短期内并不会解封。他希望字节跳动能够遵循市场规律和准则做事,一起保护好网站内容的生态。

但面对字节跳动可能带来的潜在流量诱惑,也并非人人都立场坚定。王东就告诉记者,“封字节跳动的IP是万不得已,什么时候解封,只能看搜索引擎市场份额变化。”

警示:文中如涉及个股仅作案例之用,不构成任何推荐!据此操作,风险自负!
点击输入您的评论(文明发言、理性评论,勿发恶意评论,禁止人身攻击)   请勿发任何形式的广告、勿私自建群、发布群号、QQ号或其他联系方式! 请勿向他人索要联系方式。请所有用户小心非官方QQ号,谨防上当受骗!


精品说说更多

猜你喜欢

实盘数据 点掌实盘说明

  • 重组100
  • 成长100
  • 蓝筹100
组合收益
上证指数
深证成指
沪深300
中证500
创业板
  • 一周
  • 一月
  • 三月
  • 六月
  • 一年
  • 创建以来
  • 对标涨跌:
版权所有: 上海点掌文化传媒股份有限公司 (2012-2021)
互联网ICP备案 沪ICP备13044908号-1 广播电视节目制作经营许可证(沪)字第0428号 沪ICP证:沪B2-20150089 互联网直播服务企业备案号:201708210015
沪公网安备 31010702001519号 违法和不良信息举报热线:021-31268885 网站安全值班QQ:800800981 举报邮箱:

您还未绑定手机号

请绑定手机号码,进行实名认证。

立即绑定

请填写验证码,如看不清楚,可点击验证码图片刷新

确认
X

您修改的价格将提交至后台审核审核时间为1个工作日,请耐心等待

确定 取消
X

互联网跟帖评论服务管理规定

第一条 为规范互联网跟帖评论服务,维护国家安全和公共利益,保护公民、法人和其他组织的合法权益,根据《中华人民共和国网络安全法》《国务院关于授权国家互联网信息办公室负责互联网信息内容管理工作的通知》,制定本规定。

第二条 在中华人民共和国境内提供跟帖评论服务,应当遵守本规定。

本规定所称跟帖评论服务,是指互联网站、应用程序、互动传播平台以及其他具有新闻舆论属性和社会动员功能的传播平台,以发帖、回复、留言、“弹幕”等方式,为用户提供发表文字、符号、表情、图片、音视频等信息的服务。

第三条 国家互联网信息办公室负责全国跟帖评论服务的监督管理执法工作。地方互联网信息办公室依据职责负责本行政区域的跟帖评论服务的监督管理执法工作。

各级互联网信息办公室应当建立健全日常检查和定期检查相结合的监督管理制度,依法规范各类传播平台的跟帖评论服务行为。

第四条 跟帖评论服务提供者提供互联网新闻信息服务相关的跟帖评论新产品、新应用、新功能的,应当报国家或者省、自治区、直辖市互联网信息办公室进行安全评估。

第五条 跟帖评论服务提供者应当严格落实主体责任,依法履行以下义务:

(一)按照“后台实名、前台自愿”原则,对注册用户进行真实身份信息认证,不得向未认证真实身份信息的用户提供跟帖评论服务。

(二)建立健全用户信息保护制度,收集、使用用户个人信息应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。

(三)对新闻信息提供跟帖评论服务的,应当建立先审后发制度。

(四)提供“弹幕”方式跟帖评论服务的,应当在同一平台和页面同时提供与之对应的静态版信息内容。

(五)建立健全跟帖评论审核管理、实时巡查、应急处置等信息安全管理制度,及时发现和处置违法信息,并向有关主管部门报告。

(六)开发跟帖评论信息安全保护和管理技术,创新跟帖评论管理方式,研发使用反垃圾信息管理系统,提升垃圾信息处置能力;及时发现跟帖评论服务存在的安全缺陷、漏洞等风险,采取补救措施,并向有关主管部门报告。

(七)配备与服务规模相适应的审核编辑队伍,提高审核编辑人员专业素养。

(八)配合有关主管部门依法开展监督检查工作,提供必要的技术、资料和数据支持。

第六条 跟帖评论服务提供者应当与注册用户签订服务协议,明确跟帖评论的服务与管理细则,履行互联网相关法律法规告知义务,有针对性地开展文明上网教育。跟帖评论服务使用者应当严格自律,承诺遵守法律法规、尊重公序良俗,不得发布法律法规和国家有关规定禁止的信息内容。

第七条 跟帖评论服务提供者及其从业人员不得为谋取不正当利益或基于错误价值取向,采取有选择地删除、推荐跟帖评论等方式干预舆论。跟帖评论服务提供者和用户不得利用软件、雇佣商业机构及人员等方式散布信息,干扰跟帖评论正常秩序,误导公众舆论

第八条 跟帖评论服务提供者对发布违反法律法规和国家有关规定的信息内容的,应当及时采取警示、拒绝发布、删除信息、限制功能、暂停更新直至关闭账号等措施,并保存相关记录。

第九条 跟帖评论服务提供者应当建立用户分级管理制度,对用户的跟帖评论行为开展信用评估,根据信用等级确定服务范围及功能,对严重失信的用户应列入黑名单,停止对列入黑名单的用户提供服务,并禁止其通过重新注册等方式使用跟帖评论服务。国家和省、自治区、直辖市互联网信息办公室应当建立跟帖评论服务提供者的信用档案和失信黑名单管理制度,并定期对跟帖评论服务提供者进行信用评估。

第十条 跟帖评论服务提供者应当建立健全违法信息公众投诉举报制度,设置便捷投诉举报入口,及时受理和处置公众投诉举报。国家和地方互联网信息办公室依据职责,对举报受理落实情况进行监督检查。

第十一条 跟帖评论服务提供者信息安全管理责任落实不到位,存在较大安全风险或者发生安全事件的,国家和省、自治区、直辖市互联网信息办公室应当及时约谈;跟帖管理服务提供者应当按照要求采取措施,进行整改,消除隐患。

第十二条 互联网跟帖评论服务提供者违反本规定的,由有关部门依照相关法律法规处理。

第十三条 本规定自2017年10月1日起施行。

请前往个人中心进行实名认证

立即前往

注册

请选择打赏数
  • 10牛
  • 30牛
  • 50牛
  • 其它
砖家也不容易,有你打赏更精彩

该文章您还未购买,确定要打赏吗?

付100牛即可查看有谁在踩

您还未绑定手机号

请输入手机号码,获取验证码进行手机绑定。

获取验证码

您的个人信息将严格保密,请放心填写

赠人玫瑰 手有余香
感谢您的鼓励,点赞之余再留个言吧!
换一组 换一组