百度已收录超一万亿张网页,相当于5000个国家图书馆的信息量总和

百度副总裁向海龙在2014年百度联盟峰会上表示,百度已收录超一万亿张网页,相当于5000个国家图书馆的信息量总和。

全球信息量呈几何式跃升,从2005年的130EB(1EB=10亿GB)到2015年的8000+EB,10年增长66倍。来自可穿戴设备、LBS、语音、网络图片、视频等数据类型越来越丰富。

baidushouluyiwanyi

向海龙指出,百度已收录全世界超过一万亿张网页,这相当于5000个国家图书馆的信息量总和。百度还承担着每天百亿次的访问请求,可离线完成1000亿网页的处理与分析。并且,时效性网页从更新到索引只需要几十秒,真正做到在大数据量级下的低延迟和秒级响应。

创新产品的背后是百度的计算能力。其中,超大规模的存储技术和分布式计算技术是重要的基础。百度拥有数十万台服务器、EB级别的超大数据存储和管理规模,数据处理达到100GB/s的毫秒级响应速度,并达到100PB/天的数据计算能力。

向海龙介绍说,百度对广告特征的挖掘达到千亿级别。如以银河系的恒星来计数,这相当于两个银河系的行星数量。百度每天有PB级的样本量来训练模型,相当于10万个地球总人口的样本。最后达到分钟级的数据时效,以及上千倍高纬度特征的搜寻效率。

向海龙还介绍了极速搜索的特点,称就是“快”比普通搜索减少80%处理时间。“人眨一次眼睛时间是0.2秒,博尔特的起跑时间是0.16秒,子弹穿过木板的时间是0.05秒,而百度极速搜索的响应时间仅仅为0.04秒。”

上一篇:
下一篇:

X