当前位置 > 首页 >>资讯 >>科技 >>视觉语言大模型的自主执行:极视角自研视觉语言大模型如何赋能机器感知
视觉语言大模型的自主执行:极视角自研视觉语言大模型如何赋能机器感知
2026年,人工智能大模型与智能体正从实验室走向产业现场。巡检机器人、智能安防系统、工业自动化设备等终端被期待能够自主感知环境、理解自然语言指令并精准执行任务。
然而,在实际落地中,大模型智能体应用普遍面临视觉能力瓶颈——无法准确理解复杂背景下的目标、难以根据模糊描述定位对象、无法对画面内容进行推理问答,导致决策失误与任务中断。
当前大量产业智能体所依赖的传统计算机视觉模型,其识别能力局限于预定义的有限类别。一旦遇到训练集中未出现的目标,系统便无法响应。同时,真实产业指令往往包含空间关系与属性描述,例如“那个在第二个路口左转的红色行人”,传统模型难以解析此类自然语言。即便完成目标检测,智能体也缺乏对画面内容的深度理解能力,无法回答“传送带上是否有物品堆积”等推理类问题,从而制约下游决策的可靠性。
在计算机视觉领域深耕逾十年的极视角,自主研发出了星际视觉语言大模型4B版本。据了解,该模型从底层能力设计上针对智能体需求具有八大能力,重点聚焦开放词汇目标检测(OVD)、指代表达理解(REC)与视觉问答(VQA)等关键能力维度。

✅ 开放词汇检测(OVD)
该模型支持开放词汇目标检测。智能体无需预定义类别列表,输入任意词汇指令,如“损坏的护栏”“违规停放的叉车”,模型即可识别对应目标并输出边界框坐标,覆盖从生活到产业的“万物识别”需求。
指代表达理解(REC)
模型具备指代表达理解能力,能够解析包含空间关系、属性特征和行为描述的自然语言指令。例如,对于“那个在第二个路口左转的红色行人”,模型可快速锁定画面中符合条件的目标并输出坐标。这使得操作员可以用日常语言与智能体交互,无需繁琐的坐标编程。
视觉问答(VQA)
模型集成了视觉问答能力,可基于当前画面输出结构化信息。智能体能够回答诸如“画面中一共有多少辆车?它们的颜色分别是什么?”“是否有人员进入危险区域?”等问题,所得的数量、属性、状态等信息可直接用于决策模块。
上述能力已在多种产业智能体场景中得到验证。据悉,该模型输出的结构化信息(目标框、属性标签、数量统计、空间关系)可直接驱动下游决策或控制指令。

极视角星际视觉语言大模型4B版本兼顾了小体积与大能力,支持边缘端部署,可在单卡服务器上流畅运行。这一特性满足了智能体对低延迟、数据本地化的需求。
同时,基于10亿以上真实业务数据集的训练,以及细粒度对齐、负样本采样等专项技术,该模型实现了低幻觉和高精度识别。
综合行业趋势来看,随着边缘算力提升和模型轻量化趋势加速,视觉语言模型将成为每个智能体的标准感知组件。极视角星际视觉语言大模型4B版本以“小、准、稳”的特点,已在智慧城市、智慧交通、智慧水务、智慧能源、智能制造等领域获得应用。
相关文章更多资讯 >>
- ·双11为用户创新!央视直播海尔领先的原创科技11-01
- ·华为又将在医疗AI领域有大动作02-05
- ·深度观察|不同发展阶段的品牌,如何在「货架场」找到自己的专属打法?11-01
- ·春晚宇树四分半:全球人形机器人一哥的功夫梦02-27
- ·百度Apollo开放平台10.0正式发布12-10
- ·云工场科技连续四年入选“中国边缘计算企业20强”,引领行业趋势04-16
- ·华为畅享90系列热销中!鸿蒙版微信最新支持ClawBot,进入创新体验打造新阶段04-09
- ·聚力科技创新 共筑保险未来 — 华泰人寿研发中心正式揭幕启用04-19
- ·星耀外滩,科技潮向|盖乐世星耀嘉年华盛大开启04-19
- ·行业逆周期中营收率先企稳,舍得酒业一季度营收14.81亿元,净利润超去年全年04-19
行业要闻更多>>
- ·践行“成才报国”校训,用爱心铺就残疾人就业路!
- ·深耕体验,联结全球——Hape 2026年第一季度多维市场布局成效显著
- ·i云保更名为“云保”:全栈自研重塑保险技术底座,开启智能化服务新生态
- ·大国粮安 与沃同行 | 潍柴雷沃智慧农业2026三夏服务再出征
- ·搜狐2026年Q1总收入为1.41亿美元
- ·海尔冰箱在巴西发布Horizon、Casa等多款高端系列新品
- ·场景应用大赛火热开赛!云深处智能巡检挑战赛全场瞩目
- ·“熊力·聚星计划”总决赛收官:10强选手对决,短剧界新星进组《星语心愿》
- ·正力新能航空级标准电池配套大众ID·ERA 9X 赋能德系旗舰新能源SUV亮相苏超
- ·视界之上,致敬每一份力量|科达视讯V10发布会成功举办
消费要闻更多>>
- ·椿萱茂津沪双城养老雅聚 网红长辈椿萱茂·虹湾绽放银龄风采
- ·重塑高端价值标杆 问界 M8 凭超高保值率领跑插混市场
- ·XPPen发布首款专业剪辑控制台Pilot Pro,重塑剪辑高效工作流
- ·品质加冕!迈从 Ace 68 磁轴键盘荣获沸腾质量金奖
- ·深耕中国、放眼全球:华住集团加速中国服务出海
- ·系统研究大湾区视听媒体人文传播创新实践 《湾区文化传播发展研究报告》出版发行
- ·重复到对手绝望:撬动咨询《开撬·智能季》解码战略定力的重要性
- ·“小菜园”里种出“大活力”
- ·通快激光切割新方案:热成形零件成本下降20% 切割气体成本削减75%
- ·炎夏备考不用慌,TCL小蓝翼·全域风Pro AI健康舒适空调为考生送清凉
金融要闻
- 生知医疗完成数千万元A轮融资 恩然创投领投赋能外科手术创新生态圈
- 海源资本领投适宇科技完成近亿元A轮融资 博原资本超额追加布局热管理赛道
- 奕信通完成近2亿元B轮及B+轮融资 中车资本独家战略投资助力全球化布局
- 浦东创投、张江科投和IDG资本共同领投 晶核生物完成近4亿元B轮融资
- 维梧资本领投辐联科技完成超10亿元融资 核药赛道迎来全面整合领跑者
- 时迈药业递表港交所 TCE疗法新锐冲刺港股18A板块
- 博瑞医药递表港交所 A股老牌药企开启“A+H”双平台新征程
- 金晟新能源港股上市申请获受理 锂电回收龙头冲刺资本市场
- 大金重工通过港交所聆讯 “A+H”布局加速全球海工龙头腾飞
- 从校园奔赴山海:云南共享国际旅游集团以“慢生活”哲学定义毕业旅行新标杆
证券要闻
资讯要闻
理财要闻
- 啄木鸟家庭维修如何用“数智大脑”重新定义家庭维修速度
- 强赋能、重支持!集团及QD瓷砖高层深入华南市场调研指导
- 泄露验证码遭盗刷,平安信用卡息费减免务必保护个人敏感信息
- 传承科举文脉 守护学子梦想 得力状元文化盛典在滕王阁启幕
- 大疆Osmo Pocket 4P戛纳首秀:17级动态范围,让口袋云台迈入电影机时代
- 易鑫2026一季报:海外融资总额达6200万美元,经销商网络约千家
- 预订狂飙的背后:全新一代问界M9系列重构高端豪华SUV消费逻辑
- 以研促学 以技赋能 青春建功二次创业
- 《2026AI+银发经济产业应用图谱》项目专家研讨会在沪举行
- 施耐德电气工业新生态伙伴峰会成功举办,携手共创工业数智化新未来

