中国经济网版权所有
中国经济网新媒体矩阵
网络广播视听节目许可证(0107190)(京ICP040090)
◎本报记者 杜鹏 当直播持续6个小时左右,大部分电商主播都出现疲劳迹象时,百度直播间的主播“罗永浩”和他的搭档“朱小木”仍然能够情绪化地回答观众的问题,偶尔还能讲一些“笑话”来吸引观众下单。这两位主播并非真人,而是百度利用脚本驱动的多模型协同数字人技术打造的数字人主播。在2025年世界互联网大会乌镇峰会上,百度自主研发的脚本驱动多模态协作高保真数字人技术获得世界互联网大会领先技术奖。随着人工智能技术的快速发展和人工智能的加速演进将大规模模型转变为多模态模型,数字人类成为融合大规模语言模型和多模态技术的创新应用。电商直播是实现数字人的绝佳场景。数字人技术让营销人员无需投入大量人力物力进行直播,并且可以降低租用场地、获取设备、培训人员等成本。同时,数字人可以进行24小时直播,进一步增加产品的曝光时间和销售机会,提高经济效益。然而,人类这一代的传统数字技术往往面临语音、语言、视觉多模态分离的问题,表现为线条生硬、语音语调和线条情感匹配不佳、表情和手势单一等。百度首席技术官王海峰表示,针对用户痛点在数字人应用方面,百度创新性地开发了脚本驱动的多模态协作的高保真数字人技术。剧本的基础是对话。台词生成不仅仅是内容输出,还要适应主播的性格和语言风格,保证语言表达的个性化和一致性。在多主播场景下,还需要实现语义逻辑、语调节奏、风格情感的整体协调。同时,提高台词内容深度,引入内容策划、知识增强和事实核查机制,降低人工智能错觉的风险。基于台词,大模型可以直接生成数字化真人直播剧本。剧本有“视觉标签”和“声音标签”,可以告诉系统角色根据台词应该采取什么动作。强互动是电商直播的一大特色AST 场景。在观众互动过程中,语音合成的自然程度是决定用户沉浸感的关键因素。观众希望听到的是主播充满情感、振奋人心的声音,而不是死板、机械的朗读。王海峰表示,针对这一要求,百度提出了“受控文本合成”的解决方案。大型文本控制合成模型不仅具有高弹性的语音合成能力,还可以结合直播台词和主播的个人特点,将这些文本内容转化为自然且富有感染力的声音,让数字人不仅能发出声音,还能准确传达轻蔑、骄傲、压力等微妙情绪。数字主播在直播过程中除了与用户互动之外,还需要与产品、空间进行物理和逻辑的互动。怎么做呢?人类这一代的高阶、超现实数字技术可以产生历史性的对视频、脚本、语言等数据进行分析和理解,音频、骨骼驱动信息等多模态信号,并在此基础上生成表现力强的片段、复杂的“人-物-场交互片段”以及大规模片段和表情片段。系统可以长时间均匀调度这些片段,确保声音、嘴型、表情和动作始终保持高度一致和同步。如今,数字人正逐渐从实验室走向各种应用场合,商业化进程明显加快。研究发现,随着深度思考、多模态交互等基础能力的进步,越来越多的数字人将出现在屏幕上,进入人们的生活。同时,业内专家提醒,《直播电子商务监督管理办法(征求意见稿)》提出,如果含有网络直播内容的图片、视频,利用人工智能等技术生成的内容从事直播营销活动的,直播间经营者应当在直播页面显着位置进行标识,并持续提醒消费者,人物图像、视频是由人工智能等技术生成的,与自然人的姓名或者图像明确区分。中国科学院信息工程研究所高级工程师韩继忠表示,人们在拥抱数字人技术的同时,也需要划清界限,避免利用高保真技术歪曲事实进行欺诈或虚假宣传。技术的发展必须与道德约束齐头并进,以确保创新持续走在正确的轨道上。