发表时间: 2023-07-25 13:15:17
作者: 韦翔元
浏览:
上周,微软和Meta联手发布了开源、可直接商用的AI大模型LLaMA2,引起行业格局的变化。LLaMA2的前身LLaMA作为开源社区内最强大的AI大模型,因为不支持商用而错失去年的AI风口。LLaMA2作为GPT-3.5的对标竞品,性能非常接近且具有进一步提升的空间,其宽松的商用许可条款有助于初创企业探索AI行业应用落地。微软、高通、英特尔等巨头已推进相关产品合作,一个强大的开源AI生态正在形成,加速AI技术服务千行百业。
01
性能接近GPT-3.5,仍有提升空间
目前Meta开源的LLaMA2预训练模型分为7B、13B和70B三种参数版本,同时推出了聊天专用的LLaMA2-Chat精调模型,分别支持自然语言生成和辅助式聊天等任务。大模型使用了2万亿tokens数据进行训练,文本长度达4906tokens, Chat精调模型使用了100万人类标注数据,所有训练数据中八成以上为英语数据。算力消耗方面,四个版本(含未开源的34B版本)的大模型共消耗了80GB A100的330万个GPU小时,其中70B版本消耗了172万小时。
根据Meta公布的论文,LLaMA2除代码能力(HumanEval)稍逊于GPT-3.5外,其余各项指标非常接近。其中值得注意的是,大模型预训练数据达到2T时,loss收敛仍然呈现下降趋势,意味着还可以容纳更多数据,其性能存在提升空间。
根据Jason Wei等人的研究,大模型在参数规模超过一定数量级后才会涌现智能,从而具备精准输出的服务能力,拐点之后训练效益可实现指数级增长,让大模型具备复杂任务处理能力。
02
巨头合作+开源生态,打造破局组合拳
Meta通过与微软、高通、英特尔等巨头合作,拥有了向开发者赋能和商业变现的能力,而开源社区建设大大降低了二次开发和使用成本,辅以宽松的商业许可条款助力大模型迅速普及。
微软方面的合作主要集中在平台层面。Azure已经支持在其云平台上部署开源的LLaMA2大模型,大模型与 Azure AI 的结合使开发人员能够利用 Azure AI 的强大工具进行模型训练、微调、推理,特别是支持 AI 安全的功能。同时,Windows 系统中将加入 LLaMA2 模型,有助于推动 Windows 成为开发人员根据客户需求构建人工智能体验的最佳场所,并释放他们使用 WSL、Windows 终端和 VS Code 等世界级工具进行构建的能力。
高通方面合作则突出终端执行的特点。根据官网信息,高通骁龙芯片可以在不联网的情况下运行基于 LLaMA2 模型的应用和服务,支持智能手机、PC、VR/AR头显和汽车等终端运行LLaMA2一类的生成式AI模型,这一能力将支持开发者节省云成本,并为用户提供更加私密、可靠和个性化的体验。
开源社区建设举措显示出AI商业化、普及化的强大潜力。LLaMA2商用的主要限制条款为:月活7亿以上须认证、不得用于改进其他大模型、不建议非英文使用,对于开源社区和初创企业较为友好。LLaMA2在发布后几天内出现了数百个各具特色的DIY版本,这一趋势有助于大幅降低其使用门槛,助力AI全面普及。
03
技术和算力基础齐备,加速行业应用兑现
今年7月,工信部领导表示我国五年来IDC机架数量CAGR超过30%,算力总规模仅次于美国,国内算力核心产业规模达到1.8万亿元,算力每投入1元,将带动3~4元的GDP经济增长。当前算力基础设施已初具规模,先进的开源大模型有利于中小科技企业探索行业应用落地,在保证安全的前提下推动形成良性循环的市场,而非投入大量资源重复造轮子。AI大模型的平民化、普及化只是一个开端,其智能化能力真正服务于千行百业,解放和发展生产力才是最终目的。
郑重声明:本文仅代表作者观点,不代表云廷投资立场。本文不对您构成任何投资与决策建议,据此操作,风险自担。