
1968年,在旧金山,计算机科学家道格拉斯·恩格尔巴特,于一场发布会拿出一个小盒子,那个发布会后来被称为「演示之母(The Mother of All Demos)」,小盒子是木制的,带着两个金属轮子,他向世界介绍了一个新 species:鼠标。
那是人类头一遭公开地,用手上握持的鼠标去牽引屏幕里的数字光柺 在往后的几十年当中 这根小小的箭头几乎是无处不见 它穿越办公软件 穿越游戏 interface 穿越浏览器窗口 穿越无数张电子表格 成为人类步入数字世界之际 最为熟稔的 也是堪称最静默的向导。

然而,在这半个多世纪之中,计算机的算力,发生了几乎改头换面的变化,其形态,同样产生了几乎改头换面的改变,应用场景,也有了几乎改头换面的情形,可是,鼠标光标的本质,几乎没有变过:它清楚自己停于屏幕上的哪一个坐标位置,清楚 X 和 Y,然而,却不清楚你所指向的究竟是一行代码,还是一张发票,亦或是一张风景照。
面对眼前持续闪烁的像素,这件事情其所具备能够施行的依旧是颇为质朴的:进行点击操作,开展拖拽动作,等候随后的下一次点击行为。
今天,Google 要用 Gemini 重新发明鼠标光标。
在刚刚结束的 Android Show 上开云app在线入口,开云真人官方下载,Google 差不多将围绕 Android、AI 以及硬件生态的规划摆在了明面处。当中,有一项称谓是「魔法指针(Magic Pointer)」的新功能,给年代久远的鼠标光标安上了“眼睛”与“大脑”。
不言自明的是 Google 的意图,未来的 AI 交互不应依靠冗长的提示词,仅仅如同在现实生活里那般,指向屏幕说一句:「把这个,挪到那里。」如此一来问题便产生了,当鼠标光标最终学会「看懂」屏幕,它到底会将人机交互引领至何方呢?

这根睁开眼睛的 AI 箭头,到底能干嘛?
想要明白这项技术所具有的意义,那就务必要先瞧清楚当下AI工具最为别扭的那个方面,也就是交互成本。
在过去的那些年份当中,大语言模型所具备的能力呈现出一路飞速飙升的态势,不过其使用的门槛却始终处于高高在上难以降低的状况。为了能够使得AI可以精准地理解原本的意图,用户无可奈何地逼迫自己开始去学习一整套繁杂的「提示词工程」,涵盖设定角色这一环节 ,还得补充背景方面的内容 ,并且限定输出格式。仅仅是为了达成一个相对简单的需求,写出几百字篇幅的小作文简直就是如同平常吃饭一样稀松平常的事情。
不仅是这样,典型的人工智能工具一般运行于单独的网页或者应用窗口内,频繁地打断用户的工作流程。比如说,当你正在阅读一份五十页的可移植文档格式文件时,想要人工智能总结一张图表,通常要历经:进行截图,之后保存,接着打开浏览器,再进入人工智能网页,随后上传图片,最后输入提示词。

谷歌把这种繁杂的跨应用操作称作「AI 绕路(AI detours)」,这种跳转不但效率不高,还易于切断人们工作之际注意力的聚精会神状态,也就是所谓的「心流」。
于是,Google所提出的首个交互原则,便是「维持心流」。于他们所展示的实验性AI光标原型里,AI的能力并非限定于某一特定的App或者网页,而是依附在鼠标光标之上,随时处于待命状态。
触发的方式同样要尽可能地加以克制:并不需要去记忆任何的快捷键,仅仅只需要轻轻地「晃一下」鼠标,AI的界面就会依据当前悬停的内容自动地浮现出来,给出非常具有语境的操作建议。要是选中了图,它就会询问是不是「对比」;当悬停在段落之上的时候,它就会主动地给出润色的方案。

全过程不存在任何可供学习的指令,全然依照直觉前行。来瞧几个极为直观的场景:
第一,看图说话的终极形态。
当你正处于浏览一张呈现着卡通风格的城市风景照片的状态时,传统的鼠标仅仅能够通过点击图片来达成放大的操作。然而在当下这个阶段,你只需要将具备 AI 功能的光标悬浮停留在照片背景之中的某一栋建筑之上,接着朝着配有麦克风的设备说出这样一句话:「给我实施移动图片的元素到这个位置的行为。」。

用不着说明「这儿」究竟指代谁,也无需去描绘建筑模样。AI 光标能够径直领会你所指向的像素,辨认出相应元素,而后顺利移动。
往昔之时,鼠标仅仅能够告知系统,何处是其点击之处。如今当下,它已然着手向系统说起,其所指明的究竟是什么。
第二,少写提示词,多用自然指代。
假设你于网页之上瞅见一份极为繁杂的烘焙菜谱,此时,你既无需经由复制粘贴来处理,也不必去写下诸如「请把以下菜谱之中的全部食材分量都乘以二」这般书面化的表述。你所要做的仅仅是利用光标高亮那段文字,接着顺口讲出一句:「将『这些』的分量翻倍。」。

唰的一下,AI 直接在原地给你改写了一份新菜谱。
第三,将像素转化为可交互实体。
在计算机的眼中,屏幕不过是几百万个会发光的像素点而已。但是,AI光标具备把死板的像素也就是Pixels转化成活的实体也就是Entities的能力。
譬如,你正瞅着一段旅行Vlog,视频之中闪过一家显得超棒的餐厅。你摁下暂停,将光标指向那儿,原本毫无生气的视频画面刹那间变成了一个真切的、能够交互的地点,旁边紧接着弹出了这家餐厅的订座链接。

再比如说,你顺便一拍,拍到了一张写满了鬼画符般字迹的便利贴,把鼠标指向它,那墨迹一下子就化作一个能够打勾的任务清单。察觉到了没?以往,是你去寻觅人工智能;现今,是人工智能沿着你的鼠标路径,温顺地来到了你的指尖位置。
杀死 AI 提示词,回归人类直觉
仔细想想,人类最强大的沟通工具其实是代词。
当你跟同事于屏幕前对设计稿加以修改之际,你肯定不会字正腔圆地讲:「需把屏幕左上角坐标为(X:120, Y:350)之处的蓝色矩形朝右边挪动50个像素。」你只会对着屏幕指示说:
「把这个,往右挪一点,弄淡一点。」
「那个餐厅看起来不错,怎么去?」
「这段代码里的这个报错是什么意思?」
于日常日子当中,我们对「这个」以及「那个」有着极度深切的依赖性。手势与极简的口语相互搭配起来,才算是人类最为高效的沟通密码所在。深入探究其原因的话,我们身处同个物理空间里,共享着同一套视觉领域的上下文内容。

谷歌,敏锐地捕捉到了此点,进而将其提炼成了一项产品原则:去接纳「这」以及「那」所蕴含的力量(Embrace the power of This and That)。
相较于强制人们去研习复杂的提示词框架,不如反着来,将那表达观念意图既繁琐又劳累的事从我等这儿剔除出去,令机器去顺应那些人之最慵懒、最出于本能的用手指画、用脚比划的行为方式。
利好的消息呈现为,这样的一套交互方式已然开启了落地的进程。在Chrome浏览器当中的Gemini自今日起始,率先予以支持;由Google全新推出的笔记本电脑产品线Googlebook,将「Magic Pointer」直接于操作系统层面进行了内置,对所有应用实现全面覆盖。
将鼠标放置一边,专注于其野心的 Googlebook 是这样被 Google 定义的,它被看作是完善与 Android 手机配套状态这一个产品线的存在,至于鼠标则再与其没有关联,不被包含在内。

有着类似苹果的iPhone镜像功能的一种技术手段,能让用户把Android应用毫无阻碍地、天衣无缝地投射到Googlebook那张桌面之上,且能够以此原生比例去进行运行,同时在此文件管理器的环境之中能跨设备自由自在地穿梭往来,从而将手机、平板以及笔记本之间的生态壁垒彻底地给摔打出裂缝来。不但如此,Gemini依照你来进行需求上的满足,在桌面之上能够生成属于你的、专门定制的动态Widget那玩意儿(比如说旅客的实时航班显示卡片之类的东西)。
在硬件设计方面,Googlebook的所有机型,都会于机身上集成一条名为「Glowbar」的发光条,如此一来开云真人app官网登录app,开云真人app在线登录,你只需一眼,便能分辨出它和传统Chromebook以及Windows笔记本之间的差异。

宏碁(Acer)、华硕(Asus)、戴尔(Dell)、惠普(HP)以及联想(Lenovo)会制造首批Googlebook,而且预计今年秋天会上市。
具备一定趣味性的是,三星在这份名单当中处于缺席状态。近期所传出的消息表明,三星极有可能正在着手筹备一款搭载着Google全新系统的Galaxy笔记本,关于其下一场Unpacked发布会,有传言称确定在7月22日举行。
说到位于下面层次的那种驱动核心,虽然Google没有直接说出具体的名称,可是在整篇内容里不断加强突出的「是那种为智能而诞生的现代操作系统」,还有Android跟ChromeOS之间的深度相互融合,各种各样的这些迹象全部都指向了早就有传闻的那个「Aluminum」系统。
这表明,AI 已然开始处于操作系统层面的基础设施。并且,当 AI 切实化身成为你的鼠标光标时,它就获取到了介入所有事物的权限,即看到的即为所呈现的,所指向的即为能够操控的。
AI 人机交互,迎来十字路口
回首 1968 年,那个惊艳全球的初代鼠标,其功能简单得让人难以忍受:仅仅是追踪位置。在这五十多年中间,鼠标增添了滚轮、添加了侧键,乃至还加了风扇以及配重块,然而它的灵魂依旧宛如一张白纸:它精确地标示着坐标,可始终都没办法明白坐标背后所蕴含的意义。
Google的AI光标达成了交互历程中少见的演进,它不但清楚你所处的位置,还清楚那是何物。
过去一年间,数量众多拿到融资的创业公司,纷纷用尽手段争抢加入,一心想要打造出下一个所谓的「AI 时代超级入口」。大家都在不顾一切地比拼对话框的拟真程度,还在比拼 Agent 的复杂工作流程。然而 Google 此次凭借行动,实实在在地给整个行业好好地上了一堂课:
最好的科技究竟是什么呢?答案是那种犹如春雨般悄然滋润,却不声不响的存在。聊天框也就是 Chatbox 向来都绝非 AI 的终极形态呀这个 Chatbox 只是处在一种过渡阶段时所做出的妥协之举罢了。最好的 AI 应当向后台退去,转变成一种附着于你日常各种举动动作之上的基础支撑设施,而并非仅仅只是某个需要专门单独去打开使用的应用程序呀。

从呈现黑底白字的命令行即CLI,转变至图形界面的鼠标点击也就是GUI,进而发展到移动时代的触屏滑动称作NUI。在过去的几年当中,大语言模型致使我们在一段时期内倒退回了依靠打字来进行交流的阶段,使得无数人染上了Prompt焦虑症。
然而在今天之后,我们清楚了开云真人app,开云真人app地址,那仅仅就是黎明来临之前的一段并非笔直的路。实际上真正能够发挥良好作用的人工智能,终究得掌握恰似人类那般进行思考的方式:领会你投出的每一个眼神所传达的含义,理解你说出的每一句“把这个,放置到那儿去”所表达的意图。
58 年前,道格拉斯·恩格尔巴特握住了那个简陋的木制鼠标,当时,展现出一副画面,他的终极梦想是去将人类的智慧得以增强,这便是当时出现的情形,最终呈现出了这样的状态。
五十多年后,当人工智能附着于这个古老的指针之上,机器终于开始切实地“看懂”这个世界。属于提示词工程师的时代终究会走向终结,人机交互的最终闭环,也会在一声声含混不清的“这个、那个”当中,朝着前方迈出具有历史意义的一大步。
标签: 鼠标 AI交互 GoogleGemini MagicPointer 人机交互
还木有评论哦,快来抢沙发吧~