Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
作者:暴走手游网时间:2025-01-27 11:14:10
本站 1 月 26 日消息,Hugging Face 发布了两款全新多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型(Video Language Model)。
据悉,相应模型主要基于 Hugging Face团队去年训练的 80B参数模型蒸馏而成,号称在性能和资源需求之间实现了平衡,官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”,可以直接部署在transformer MLX和ONNX平台上。
具体技术层面,SmolVLM-256M / 500M 两款模型均采用SigLIP作为图片编码器,使用 SmolLM2作为文本编码器。其中 SmolVLM-256M是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到1GB的GPU显存便可在单张图片上完成推理。
而 SmolVLM-500M针对需要更高性能的场景而设计,Hugging Face称相关模型非常适合部署在企业运营环境中,该模型推理单张图片仅需1.23GB的GPU显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。
本站注意到,两款模型均采用Apache 2.0开源授权,研究团队提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公开便于开发者下载和使用,具体页面可(点此访问)。
相关文章
-
通用汽车 2024 年 Q4 业绩超预期同比增长 11%,中国市场扭亏为盈
本站 1 月 28 日消息,通用汽车今日发布 2024 年第四季度业绩,四季度调整后每股收益 1 92 美元,上年同期 1 24 美元,预估 1 83 美元。通用汽车四季度净营收 477 0 亿美元(
-
批评《刺客信条:影》的视频被删七次,育碧再惹争议
本站 1 月 28 日消息,育碧公司备受期待的新作《刺客信条:影》(Assassin s Creed Shadows)在经历了一系列争议后,终于迎来了一些积极的声音。尤其是最近的游戏预览反响良好,育碧
-
仿生机器人新突破:液压流体电池驱动的“水母”与“蠕虫”问世
本站 1 月 28 日消息,康奈尔大学的研究人员于本周一展示了一种新型的仿生机器人技术,这些机器人采用了一种基于液压流体的氧化还原液流电池(RFB)作为动力源。这种电池不仅能够为机器人提供动力,还模仿
-
特斯拉加入对欧盟诉讼行列,反对加征中国电动汽车关税
感谢本站网友 Hi_World、软媒用户1942143、HH_KK 的线索投递! 本站 1 月 28 日消息,特斯拉加入对欧盟诉讼行列,就欧盟对中国电动汽
-
2025 年电影票房突破 30 亿,春节档 4 部新片预售票房破 2 亿历史最多
感谢本站网友 Hi_World 的线索投递! 本站 1 月 28 日消息,据猫眼专业版数据,2025 年 1 月 28 日 18 时 38 分,2025
-
希腊拟立法:骑摩托车不戴头盔,将被加油站拒售汽油
本站 1 月 28 日消息,摩托车骑行带来的刺激感令人着迷,但其风险也远高于驾驶汽车,这使得头盔法规在许多国家成为保障安全的标配。然而,仍有部分骑手选择无视这些规则,不仅面临罚款,更是在拿自身安全冒险