而今年5月发布的豆包通用大模型,据字节跳动对外公布的数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。
更强的内容识别能力:不仅可以识别出图像中的物体类别★★◆★◆■、形状等基本要素,还能理解物体之间的关系、空间布局以及场景的整体含义。
在行业回归理性的今天,越来越多的AI企业意识到卷参数量、卷Token数◆★★、卷集群规模★■★◆、卷价格,其实都意义不大,大模型的商业化落地才是最需要关注的问题■■■。
作为AI起步较晚的选手,字节在去年1月才成立大模型研发团队,8月才发布★★◆◆◆“云雀”大模型和对外测试AI对话产品“豆包”★■。
lto C:即面向个人消费者,包括免费和付费订阅模式★◆◆★★■。免费模式如腾讯元宝■◆★、百度的文心一言(3.5版本);付费订阅模式如百度的文心一言(4.0版本)、OpenAI的ChatGPT(4.0版本)■★◆■◆■;
据了解■■■◆◆,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端◆★■◆,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。而最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍★★◆■■,学习教育等场景也有大幅增长。
据量子位智库数据显示,截至11月底★■,豆包2024年的累计用户规模已超过1◆■.6亿;11月平均每天有80万新用户下载豆包,单日活跃用户近900万◆◆,仅次于OpenAI的ChatGPT■◆★★,位列全球第二■◆■、国内第一◆★■◆★◆。
lto B:即面向企业◆■★◆■★,包括API调用授权★■★★■◆、SaaS模式★■★■■■。API调用授权模式中,企业客户可在自己的应用程序或服务中集成AI功能★■◆★★,通常基于调用次数或数据量来计费,如阿里通义千问◆◆★■、智谱AI◆■■;SaaS模式中,大模型企业为客户提供软件服务◆★◆★■★,客户无需安装和维护软件,如Google Cloud AI。在实际应用中,大模型企业通常混合使用多种商业模式。
总之,现如今AI领域的竞争核心,已经从大模型的“有无之战◆★■■★”变成了◆■★■■◆“应用之战”★■◆◆。在这个阶段里◆◆,比拼的不再是宏观概念◆★★◆,而是落地能力和商业化的进展。
情绪智能:基于最新的AI模型如GPT-4o和Gemini 1.5 Pro,未来AI陪伴将通过流式语音识别、多模态AI和情感计算等技术极大地提升互动体验。这意味着多模态大模型将赋予机器情感价值★■,并通过深度分析用户的情感和行为,满足用户的多元化陪伴诉求。
自去年3月起■■■,众多大厂及创新型企业纷纷亮出自研大模型产品:阿里通义千问1.0、腾讯混元、360智脑■★★◆■、华为盘古、科大讯飞星火、商汤日日新◆◆■、百川大模型以及智谱AI的GLM等,均诞生于这一年。
不到一年半的时间★■◆◆★,字节是如何做到在AI大模型市场后来居上◆★◆?多模态大模型又发展到了哪一步?未来大模型技术在应用侧的新趋势会是什么?
此外◆◆,火山引擎除了推出视觉理解模型之外■◆★■★■,还发布、升级了多个其他模型。比如,豆包通用模型pro已全面对齐GPT-4o;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品◆■★★★;文生图模型2.1版本接入即梦AI和豆包App..★★■◆■◆..■★★◆.★★◆.
当下,花钱投流买量是AI产品启动一个最直接快捷的方式k8凯发推荐官网下载。而在各家的投放渠道中★◆,基本都离不开字节的巨量引擎(字节跳动旗下广告投放平台,涵盖今日头条、抖音■★★、西瓜视频等营销资源)◆★■■◆◆。
影音创作:当大模型由单模态生成转向多模态生成★■★■,AIGC应用降低了专业创作门槛,这将改变影音传媒行业的生产模式,塑造全新内容生产范式,实现创作效率提升◆★◆■★、创作空间拓展及作品质量提升的目标。
比如,在旅游场景中,帮助游客看外文菜单、讲解照片中建筑的背景知识;在教育场景中,为学生优化作文★■★◆■◆、科普知识★◆◆;在办公场景下◆◆■■,除了识别内容■★◆◆★,模型还能帮助用户分析图表中的数据关系,处理代码逻辑■◆■◆★。
例如,今年5月开始■◆◆★,生数科技Vidu★★◆★◆◆、快手可灵、字节即梦★★、智谱清影、商汤Vimi等都相继发布文生视频模型;9月■★,MiniMax正式发布视频模型video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布MiracleVision大模型完成视频生成能力的升级★◆■★★◆;到了11月◆■■,腾讯混元大模型正式上线视频生成能力,月之暗面旗下Kimi则被爆出正在内测AI视频生成功能“Kimi创作空间”...◆■★.★■★■★◆..多模态的“多”正在成为新的发展方向◆★◆。
更细腻的视觉描述能力:可以基于图像信息★■★■★★,更细腻地描述图像呈现的内容■■★◆★◆,还能进行多种文体的创作。
而当下◆◆★■★■,AI 市场关注的重心正逐渐从★■★◆★“大模型”转变到“大模型+”■★。除了常规的 AI 文本对话类应用★★◆◆,多模态的“多”正在成为新的方向★◆。
这一操作迫使阿里云的三款通义千问主力模型再次降价,最高降幅达90%。百度智能云更是直接宣布★★◆◆,文心大模型的两款主力模型ENIRE Speed■★★■◆★、ENIRE Lite全面免费。
工业智造:未来多模态大模型有望与当前普遍使用的专用小模型互补融合,深度赋能工业制造的各个环节■■★◆★,并随着场景数据的整合和积累,进一步升级感知和理解能力,以满足生产制造中的个性化需求,从而推动工业产业变革。
更强的理解和推理能力:不仅能更好地识别内容,还能根据所识别的文字和图像信息进行复杂的逻辑计算。
这样饱和式的研发,一方面能让豆包大模型依托诸多AI应用加速迭代,另一方面则是期待AI硬件终端能拓宽豆包大模型使用场景★■■◆■,进而实现整个“豆包+”产业链闭环。
火山引擎总裁谭待也在采访中表示,推出视觉理解模型相当于解锁了一个很大的场景,同过去只有文字对话形式的AI相比,聊天功能与深度推理的、图像视觉理解等能力的融合◆★■■★,能让模型有能力处理好真实世界大量综合性的信息★◆◆,辅助人类完成一系列复杂工作。
这使得背靠字节的豆包将流量池的优势发挥到了极致。在抖音上■■,字节几乎屏蔽了除豆包以外所有AI应用的投放,只留给自家的豆包k8凯发推荐官网下载◆★■。尽管重金投流能否换来超级应用无法确定,但至少目前给豆包带来了肉眼可见的用户增长◆◆★■◆◆。
可以看出,尽管相比于市场同类产品,豆包系列大模型发布的时间并不算早,但一直保持着较快速度的更新,并且将最新能力通过即梦AI、豆包App等应用,迅速开放给了普通用户使用。
据App Growing统计k8凯发推荐官网下载,截至11月15日★■◆◆,Kimi、豆包、星野等国内十款大模型产品,合计已投放超625万条广告◆■■◆,投放金额达15亿元。其中■◆★■,Kimi和豆包是投放最疯狂的两个产品◆■★■,分别投放了5.4亿元和4亿元。
而在此之前的5月份,字节跳动发布的豆包大模型,其主力模型在企业市场的定价为0.0008元/千Tokens,0.8厘能处理1500多个汉字,比行业便宜99.3%,让大模型从以分计价到以厘计价★◆★★■。
在2024年12月18日举办的火山引擎 Force 大会上,字节跳动正式发布发布豆包·视觉理解模型★■■■★。同时公布其售价为千tokens输入0.003元■■,相当于一元钱就可处理284张720P的图片。
在2024世界人工智能大会上,百度创始人李彦宏在演讲中提到,“2023年国内出现了百模大战,其实造成了社会资源的巨大浪费■■★,尤其是算力的浪费。”的确,无论是技术上的研发成本,还是应用上的运行成本,大模型的成长每一步都少不了真金白银的支持。
可以说◆◆★◆,丰富的内部生态、持续的资源投入◆■■、庞大的优质数据和应用场景,且都全面接入AI并相互打通,这才是豆包能成为行业“卷王”的秘诀★★◆★◆。
继 GPT-4 在语言方向的里程碑式突破之后,业界普遍认为■■★◆★“视觉◆◆★”是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息■◆★★,未来的大模型也应该充分利用更多种类的感官■★,以此探索实现 AGI 的路径。
自 OpenAI 推出 Sora,让“一句话生成视频”变成可能;谷歌发布 Gemini ,可以泛化并无缝地理解、操作和组合不同类型的信息,国内主要公司就开始陆续跟进★★◆■★、布局视频、音乐、语音等多模态 AI 应用。
从聊天助手、视频工具■■◆■,到娱乐应用■★★★■、办公领域,字节陆续推出了十几个 AI 应用,覆盖了几乎所有主要 AI 产品方向■◆★◆。字节今年10月还推出了能与豆包语音对话的 Ola Friend 耳机,近期还在研发 AI 眼镜。
当下多模态大模型竞争火热★■◆,将带动诸多行业重塑生产环节,势必会在以下几个领域引发新一轮的升级与角逐:
随着国内大模型持续迭代与升级,叠加国内GPU供应问题逐步缓解、政策牵引等■■,国内大模型训推算力需求有望逐步释放,这不仅将为大模型的落地应用进一步提速★◆,也将给AI时代带来新的行业机遇。