全球首款京东全栈开源JoyAI-VL-Interaction:实现大模子边看边说功能
时间:2026-06-23 09:49:46
小编:china
阅读:
6月22日消息,京东正式开源了JoyAI-VL-Interaction实时视频视觉语言交互模型,这是全球首个全栈开源的视觉交互模型及整套部署系统。
上线即原生适配vLLM-Omni,彻底改变传统多模态模型一问一答”的交互模式,实现AI持续观看实时画面、自主判断、主动响应的流式交互能力。
传统图文/视频大模型均为被动问答模式,需用户主动提问才会分析画面,难以适配实时监控、动态实景场景;该模型实现三重革新:
主动自主判断:持续读取摄像头、监控、直播等实时视频流,自主识别关键事件并主动提醒,无事件时自动保持静默,无需人工触发指令,例如监控识别火情、老人摔倒可即时预警。
低延迟实时响应:面向正在发生的画面流式处理,而非等完整视频上传后复盘,满足安防、实时翻译、直播讲解等对时效性要求高的场景。
前台观测 后台分工协作:遇到复杂推理、代码生成、工具调用等重任务时,可委托后台Agent处理,前台模型不间断持续观测画面,任务完成后无缝接续交互。
不同于多数仅开放模型权重的项目,本次开源包含模型权重、专属交互数据集、完整训练方案、全套可部署工程框架,支持灵活替换语音模块、可视化界面、第三方Agent与业务接口。
兼容摄像头、监控流、直播流多路视频输入,自带长期记忆、语音收发、vLLM快速部署能力,可快速搭建各类实景AI工具:居家老人儿童看护、安防自动预警、直播实时解说、电商导购、智能眼镜无障碍辅助、工业操作指导等。

在覆盖监控预警、实时计数、实时翻译、直播解说等58组真人盲测案例中,对比豆包视频交互助手,整体胜率77.6%;对比Gemini视频交互助手,整体胜率87.9%;安防预警场景对两款竞品达成100%胜率。
这源于交互模型相较传统一问一答”的回合制模型的天然优势:自主交互性长在模型内部,而非依赖外部触发。
-
全球首款京东全栈开源JoyAI-VL-Interaction:实现大模子边看边说功能6月22日消息,京东正式开源了JoyAI-VL-Interaction实时视频视觉语言交互模型,这是全球首个全栈开源的视觉交互模型及整套部署系统。上线即时间:2026-06-23 -
扑克牌13道玩法大全:全面解析扑克牌的多种玩法与策略扑克牌作为一种经典的纸牌游戏,因其简单的规则和丰富的变化,广受玩家的喜爱。而“扑克牌13道”作为一种流行的扑克玩法,更是吸引了众多扑时间:2026-06-23 - 实习生失误致6.5万劳力士丢失 公司两天未核对判赔1.3万6月22日消息,近日,上海市黄浦区人民法院审结了一起因实习人员遗失贵重名表而引发的追偿纠纷案件。案件追溯至2024年6月,大学生朱某入职上时间:2026-06-23
- 男人不开空调一天肾脏受损,医生警告:风险不可忽视6月22日消息,据报道,近日,福建福州的一名男子在一间无空调、通风较差的密闭室内工作一天后,出现了以下症状: 大汗淋漓 双腿不时时间:2026-06-23
- 罗永浩批评iPhone设计为二流 苹果新CEO重视设计优先级6月22日消息,科技博主Mark Gurman在最新一期节目中透露,在库克执掌时期,随着Jony Ive等核心人物的相继离开,苹果设计团队在公司内部的时间:2026-06-23
热门阅读
-
哥哥抚慰腮腺炎弟弟 得知传染秒变脸
阅读:130
-
华为FreeClip 2推送鸿蒙OS 6晋级,支撑星闪音频 抗搅扰才能提拔
阅读:92
-
95岁广东白叟扮演一字马火了 自己谈长命诀要,1天喝2瓶可乐
阅读:72
-
刘文祥塌房紫薯精改吃大理寺米线 网友,筹办整理升咖
阅读:65
-
这才是东北春季最霸气的开场,百万只大雁春季迁移
阅读:63








