• AI芯片淘金热: 一场耐力持久的追逐赛

    2018-11-26 11:44:31

    1848年8月19日,《纽约先驱报》刊登了一则重磅音讯,加州(加利福尼亚)发现了黄金!音讯传开,大批的人力投身于美国西部,引发了席卷全美的淘金热潮,给加州这块瘠薄的土地,带

      1848年8月19日,《纽约先驱报》刊登了一则重磅音讯,加州(加利福尼亚)发现了黄金!音讯传开,大批的人力投身于美国西部,引发了席卷全美的淘金热潮,给加州这块瘠薄的土地,带来了财富与昌盛。当下的AI范畴,正阅历着这样一场淘金热。资本家们毫不小气,投入了数以亿计的资金,融入的玩家巨细树立,既有把握先进东西的科技巨子,也有正竭尽全力炼金的企业家,更多的是独握一门炼金术的独角兽。

       一起,由于这片处女地足够大,不论你是芯片制造商,仍是算法供给商,抑或是云核算效劳供给商,都可以获取自己的利益。可是终究决议这场淘金热可以走得多远、影响多耐久,AI芯片企业把握了实践的话语权。近来,商场研讨公司Compass Intelligence发布了最新研讨陈述,全球AI芯片企业排名表中,英伟达(Nvidia)、英特尔(Intel)排列榜首、第二名,中国企业华为、寒武纪、地平线,排列12、22、24位。尽管都在同一条赛道上奔驰,可是企业偏重有所不同。巨子操纵云端AI芯片AI芯片,可以说是深度学习的专用芯片,具有在很高的内涵并行度、很多的浮点核算才能以及矩阵预算的才能,算法、算力、数据,是它三个中心的元素。在相同的精度下,与传统的通用CPU比较,它的处理速度更快、所需的效劳器更少、功耗更低。一个简略的显性比如是,AI芯片下的处理才能每秒可以到达 5700 张图片,而现在所用的 CPU 则每秒仅能辨认 140 张图片。AI芯片的鼓起要回溯到2013年,人们意外发现, 本来用于游戏的GPU在深度学习中发挥巨大的效果。这一发现,使得GPU身世的英伟达瞬间占有了AI芯片的制高点,根据深度学习发布了多款芯片。人工智能芯片范畴,可以分为面向云端数据中心的芯片和面向终端的嵌入式人工智能芯片两大类别。而英伟达的GPU现已成为在云端效劳器的霸主,有陈述显现,世界上现在约有3000多家AI草创公司,大部分都选用了英伟达供给的硬件渠道。在端方面,英伟达推出了16nm的AI芯片XAVIER、自动驾驭渠道DRIVE PX,而且开源了DLA深度学习加速器项目。凭借着巨大的优势,英伟达的股价现已从2016年头的30美元,飙升至现在的255美元,飞升了八倍之多。从保存的视点来说,英伟达的潜在对手是英特尔。在云端商场,英特尔是老牌玩家,英伟达是新入局者。不过,英特尔发力较晚,经过接连收买完成了生态布局,云端收买Altera之后推出了根据FPGA的专用深度学习加速卡,收买Nervana为AI优化的Knight Mill至强处理器。自动驾驭方面,与Mobileye和BMW结成了自动驾驭联盟,并在移动端收买了Movidius。后续发力,业界人士适当看好英特尔。实践上,真实挑起与英伟达在云端芯片比赛的重担是谷歌。自从决议研制AI芯片,也就是TPU(Tensor Processing Unit)后,谷歌一向悄然无声。直到上一年4月,谷歌一篇论文的发布,犹如一枚深水炸弹,让业界吃了一惊。随后TPU的发布更是让英伟达“慌了”。第三方渠道RiseML(riseml.com)做了一次比照评测。试验结果表明,在自定义的LSTM模型上,TPU更快。TPU(21402 examples/s)比P100(1658 examples/s)快16.9倍,比V100(2778 examples/s)快7.7倍。RiseML给出的结论是:一旦TPU可以包容更多的用户运用,就可以成为英伟达GPU真实的替代者。需求留意的是,柯洁对战的AlphaGo Master运用的就是榜首代TPU,单机工作,且物理效劳器只是布置了4个TPU就打败了柯洁。较为惋惜的是,谷歌的TPU仅供自家运用,不对外出售,只是敞开云端供我们运用。草创团队更倾向终端侧发力英伟达首席科学家兼NVIDIA Research高档副总裁Bill Dally博士表明,尽管AI范畴我们好像都在同一起跑线上,可是细分之后较为明晰可鉴的是,面向云端数据中心的芯片被巨子们操纵,因商场偏老练,企业堆集深沉,很难被逾越,所以各大草创公司创业方向挑选的是面向终端的嵌入式人工智能芯片,如物联网、智能驾驭、机器人等等,这是他们的时机地点。这也是为什么地平线自2015年建立以来,打破的是面向终端的嵌入式人工智能芯片薄弱环节——在确保功能、可编程的前提下,芯片坚持较低的功耗与本钱。地平线表明,他们研制历时2年,才推出面向智能驾驭的征途处理器和面向智能摄像头的旭日处理器。三项中心数据上,地平线做到了可每秒完成30帧1080P高清视频流的实时处理;每帧支撑200个并行方针的检测、辨认和盯梢;典型功耗仅1.5W,每帧处理时延小于30ms。地平线选用的是自主规划研制的BPU芯片架构,是一款典型的异构多指令多数据的体系,架构中心处理器是完好的体系,存储器架构规划进行了特别优化,能使数据自在传递,进行多种核算,让不同部件一起工作起来,极大进步了器材利用率,进步AI运算的功率。 12下一页>