讯飞星火多模态交互大模型发布,支持一键调用语音、视觉与数字人功能
卡饭网 11 月 15 日消息,讯飞开放平台宣布讯飞星火多模态交互大模型已正式上线。该模型不仅支持语音交互,还扩展至音视频流的实时多模交互,具备“多模态、超拟人和个性化”的特点。用户可一键调用语音、视觉和数字人交互功能。
该模型引入了超拟人数字人技术,数字人的动作与语音内容精确同步,快速生成表情和动作,使AI形象更为生动。通过整合文本、语音和表情,实现跨模态语义一致性,增强情感表达的真实性和连贯性。
讯飞星火支持超拟人极速交互,采用端到端神经网络建模,实现语音到语音的快速响应,同时能感知情绪变化,并根据指令调整声音节奏、大小和角色设定。
此外,该模型还具备多模态视觉交互能力,能够理解和识别复杂场景及物流状态等信息,通过语音、手势、行为和情绪的综合判断,提供精准回复。用户可与数字人进行语音和视频通话,数字人的表情与对话内容匹配,同时支持识别摄像头中的内容。