近日,国家数据局为大模型核心计量单位Token定下官方中文名“词元”。词元是大模型处理信息的最小信息单元。今年3月,我国日均词元调用量已突破140万亿,较2024年初增长超千倍。
怎么理解词元?词元定价逻辑是什么?它与人工智能产业的关系如何?记者采访企业负责人和业内专家,探寻“词元经济”爆火背后的产业新信号。
调用量暴增,技术迭代降低门槛
百度千帆平台产品负责人张婷举例说,词元是通用的“最大公约数”,能让模型用统一方式处理所有语言和符号。南京硅基智能科技有限公司创始人司马华鹏解释说,计算机只能处理数字,不认识字和句子,必须通过分词把语言转换成数字序列,词元的粒度是工程验证的“最优解”。
江苏省人工智能学会专家、出门问问创新科技有限公司ToB事业群总经理孙鹏飞表示,今年3月词元调用量爆发的直接原因,是“小龙虾”智能体的走红。它让AI从“工程师的工具”变成“全民可用的生产力”,而每一个智能体的交互、每一次任务的执行,背后都是海量词元的消耗。“‘小龙虾’等智能体单周词元消耗量,就相当于去年四季度全平台周均的60%,带动词元需求非线性增长。”张婷补充道。
中国计算机学会理事、南京理工大学计算机科学与工程学院副院长肖亮认为,一套以词元为核心的新型商业逻辑正在加速演进,人工智能正加速从实验室走向千行百业、走进千家万户,成为实实在在的生产力工具。
应用场景多元,普通企业加速“拥抱”
百亿级,是出门问问目前的日词元调用量规模;数亿词元,能让一款AI玩具的软件系统开发周期从半年压缩至两个月;一块钱,能让AI写出约1000篇800字作文……这些数字背后,是词元在各领域的深度融合,也折射出不同用户群体的需求差异。
司马华鹏介绍,没有词元,数字人就只是不会动、不会说的静态模型,正是词元的持续流转,让数字人拥有了“思考”和“表达”的能力,也让其广泛应用于金融、电商、政务等多个领域。
普通企业如何加速拥抱这轮“词元经济”?肖亮表示:“不需要去研发大模型,而是要把自己变成‘高质量词元的供给方’或‘词元效能的放大器’。”他表示,企业的内部数据转化成的“私有词元”,是高价值稀缺资源,若能将细分领域经验打包成“领域词元API”卖给同行,还能开辟新的商业赛道。
可计量可交易,未来将像水电一样普及
“词元本身具备可计量、可定价、可交易属性,使其能够成为连接技术供给与商业需求的结算单位,成为AI时代的‘算力货币’。”张婷表示,这背后是AI商业化逻辑的重构,按词元计费的新型模式,正颠覆传统互联网流量变现模式。
从词元视角出发,打造智能经济新形态,我国具备先天优势。肖亮表示,中国14亿庞大人口和上下五千年文化底蕴,本身就拥有世界最大的数据资源。同时,我国算法创新持续突破,国产大模型通过底层架构优化,与全球顶尖技术的代差逐渐缩小,能以更少的词元完成复杂任务;基础设施也具备领先优势,建成了全球门类最全、规模最大的能源体系,电力成本不断降低,有效降低了词元调用成本。
司马华鹏表示,硅基智能将持续深耕词元技术研发,推动词元技术普惠化,降低企业使用门槛,“我们希望通过技术创新,释放词元的核心价值,实现‘碳基生命享受生活,硅基生命为您干活’的美好场景。”
值得注意的是,面对词元热潮,我们既要理性看待其价值,也要防范相关风险。业内专家提醒,具有唯一编码与确权的词元,可作为数字身份凭证,并非投资品,要防范以“词元投资”“高收益回报”等为噱头的各类骗局;使用词元相关服务时,要优先选择正规平台,强化信息安全意识;企业使用AI时,要避免无效词元消耗,学会用结构化提示词、区分模型类型,同时注意涉密信息安全,实现词元的高效、安全利用。
(新华日报记者 张宣)