【环球网科技综合报道】8月25日,记者从阿里云方面获悉,阿里云推出大规模视觉语言模型Qwen-VL,一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。
据了解,Qwen-VL是支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
多模态是通用人工智能的重要技术演进方向之一。业界普遍认为,从单一感官的、仅支持文本输入的语言模型,到“五官全开”的,支持文本、图像、音频等多种信息输入的多模态模型,蕴含着大模型智能跃升的巨大可能。
Copyright © 2001-2026 湖北荆楚网络科技股份有限公司 All Rights Reserved
互联网新闻信息许可证 4212025003 -
增值电信业务经营许可证 鄂B2-20231273 -
广播电视节目制作经营许可证(鄂)字第00011号
信息网络传播视听节目许可证 1706144 -
互联网出版许可证 (鄂)字3号 -
营业执照
鄂ICP备 13000573号-1
鄂公网安备 42010602000206号
版权为 荆楚网 www.cnhubei.com 所有 未经同意不得复制或镜像