云廷投资 | 数据、算力和一场“非对称战争”

发表时间: 2023-03-27 18:00:00

作者: 韦翔元、NewBing

浏览:

随着AI行业时代性机遇的到来,数据和算力芯片等问题成为亟待解决的重要关卡.未来,如何通过设计和执行更高质量的数据体系以相对有限的算力资源来构建对话式AI大模型,将成为未来AI行业竞争最活跃的方向之一。

ChatGPT在互联网流量和商业化方面所取得的巨大的成功,让其他互联网企业感受到了竞争的压力,并纷纷表态要做中国的GPT大模型。AI行业的时代性机遇到来的同时,数据和算力芯片等问题也成为亟待解决的重要关卡。



绕不过的数据


AI大模型呈现成人工智能还是人工智障,取决于训练时采用的数据、标注体系和算法,在对话式大模型中训练数据的地位尤其重要,使用英文数据底座和一开始就用中文数据训练会对Prompt的反馈有很大不同。从头开始搜集中文数据训练大模型,会是一件难而正确的事情,但是就算使用现成的数据底座也得进行修正和调整,同样也需要搜集大量“新鲜的”中文数据进行标注和训练。


即将组建的国家数据局使数据行业的监管体系得到完善,毫无疑问数据的地位在未来将更加重要,合法合规地获取数据将是数据基础制度体系建设的重点。国内复现GPT爬取网络数据用于训练的做法可能在未来会面临监管问题。




除了爬数据和直接用预训练模型之外,还有一种途径就是使用标注好的数据集,目前国内的Magic Data和国外的Hugging Face、奥鹏Appen等均有相关的对话式数据集产品。从AI研发的角度来看,采用数据集训练有助于减少算力资源消耗、降低隐私合规风险和提高训练质量,毕竟不是所有的AI从业人员都有能力设计和执行高质量的标注体系。从整个互联网数据来看,根据Gartner预测现有存量的数据将于2~3年内被消耗完毕,此后AI训练对于模拟合成数据的需求将大幅增加。因此提前布局和积累自有产权的数据集可以在未来竞争中获得先发优势。



卡脖子的算力芯片


当前中国的芯片进口依赖程度仍然很高。根据海关总署数据,2022年中国进口的芯片总量为5384亿个,同期下降了15.3%。按价值计算,中国集成电路进口额为4156亿美元,与2021年相比下降3.9%。这表明中国正在为进口支付更高的单价。2021年中国芯片进口增长16.9%,2020年增长22.1%。


目前中低端的算力芯片市场国产替代已经初具规模,但高端算力芯片仍然面临卡脖子问题。以ChatGPT为例,据说使用了上万个英伟达A100芯片作为算力基础设施,而中国特供版A800性能大约是其一半。最近英伟达又宣布将推出面向AI行业的H100 NVL芯片,使大语言模型的处理成本将降低一个数量级。这场全球性的AI大战不可避免地加速了算力军备竞赛。对于国内企业来说,通过短时间堆叠算力和工时来仿制ChatGPT成为了非常不经济的事情,头部企业对此也做出了表态。


在这场“非对称战争”中,国内AI从业者也在探索除了大模型之路以外的道路,例如打造垂直领域的类ChatGPT模型,模型参数在10B~100B之间,解决行业内特定场景问题。



总体而言,国产类ChatGPT产品的市场空间很大,最大的竞争者微软由于外资背景和数据敏感性,其产品进入国内市场可能受到一定阻力,而各行各业对于AIGC存在刚需,留出来的市场份额有待国内玩家占领。从基础维度来看,在有限的算力资源条件下要构建相对可用的对话式AI大模型,通过设计和执行更高质量的数据体系来弥补训练时长的不足是一个可行方案。

云廷投资 | 数据、算力和一场“非对称战争”
随着AI行业时代性机遇的到来,数据和算力芯片等问题成为亟待解决的重要关卡.未来,如何通过设计和执行更高质量的数据体系以相对有限的算力资源来构建对话式AI大模型,将成为未来AI行业竞争最活跃的方向之一。
长按图片保存/分享

扫码关注微信

扫码关注微博

版权所有 © 上海云廷投资管理有限公司    

  沪公网安备31011402007133号  |  沪ICP备13034849号

添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了