VLM 场景感知理解
不仅仅是文本 OCR。Mask 能够利用 VLM(视觉语言模型)理解图像上下文,精确翻译漫画拟声词、图表趋势甚至手写草图。
用遮罩翻译文字,用 VLM 理解世界。专为 macOS 打造,隐私计算与端侧运行的完美结合。
适用于外文游戏、漫画生肉、学术 PPT 与手写笔记。
ドカン!!
このプロトタイプ、来週までに仕上げる。
轰!
这个原型,下周前必须完成。
框选你关心的区域,翻译结果在原位完美融合显示,丝毫不打断您的内容阅读节奏。
基于苹果系统级原生 API 与先进的大型视觉模型驱动。
不仅仅是文本 OCR。Mask 能够利用 VLM(视觉语言模型)理解图像上下文,精确翻译漫画拟声词、图表趋势甚至手写草图。
采用 Apple Vision 框架,图像截取与文字提取全部在您的设备本地完成。除非主动启用云端模型,图像绝不离开您的 Mac。
内置支持 OpenAI, Claude, Gemini, Qwen, DeepSeek。更可连接本地 Ollama 实例,真正实现零成本、完全离线的翻译体验。
传统 OCR 只会生硬地提取字母。Mask 的 VLM 能够真正“看懂”眼前的一切。
| 场景类型 | 传统 OCR 翻译工具 | Mask(VLM 增强翻译) |
|---|---|---|
| 带有草图的手写会议笔记 | 只能识别零散的个别单词,翻译结果如乱码般生硬 | 理解为您在绘制“应用架构图”,给出连贯的设计思路翻译 |
| 日漫中夸张的艺术拟声词 | 完全无法识别特殊字体结构,或提取错误导致崩溃 | 根据画面动作判断出“ドカン”,并智能翻译为“轰隆!” |
| 满是数据的学术图表 | 割裂地翻译坐标轴上的几个短词,完全脱离上下文 | 自动提炼数据的变化趋势,并用极具可读性的自然语言为您总结 |
实时翻译游戏系统界面、物品描述与核心剧情对话,无需 Alt-Tab 切换,享受极致沉浸感。
精准框选漫画对话框。保留原汁原味绝美画风的同时,用母语进行流畅顺滑的剧情补完。
轻松应对外文 PPT 与专业文献,不漏过任何繁杂的配图注释,提升您的研究效率。
快速将海外团队成员随手画的长篇大论和粗略排版图数字翻译为您的母语。
您屏幕上的内容是您的核心机密。我们誓死捍卫这一点。
调用原生 SCKit 高效截取
100% 离线完成文字特征提取
贴合物体表面生成渲染效果