北京网梯科技发展有限公司

首页 > 新闻动态 > 详情

最新发布！《时代》杂志揭晓「年度最佳发明」，这些AI 产品正在颠覆我们的生活！

2023-10-31

“

《时代》杂志评选出2023年度最佳发明，其中14个人工智能工具备受关注，包括OpenAI的GPT-4、Runway Gen-2和Alitheon FeaturePrint等。这些工具涵盖了创意内容生成、野生动物保护和可访问性等领域，展示了人工智能在塑造未来方面的巨大潜力。这些工具将重塑行业和我们的日常生活，为我们提供新的解决方案。

开箱即用的照片编辑

Adobe Photoshop 生成扩展和生成填充

Adobe 将强大的 AI 功能构建到世界上最受欢迎的图像编辑器 Photoshop 中，为数百万人提供了强大的 AI 功能。在 Adobe 的 AI 图像生成器 Firefly 的支持下，Photoshop 现在包含生成扩展和生成填充功能。

前者允许您无缝地填充照片边界之外的想象内容。后者让您只需输入一些简单的文本即可在现有图像中添加或删除某些内容。两者都不需要技术专业知识。Adobe 数字媒体高级副总裁阿什利·斯蒂尔 (Ashley Still) 表示，这些选项使“客户能够以想象的速度将他们的愿景变为现实”。

改变游戏规则的人工智能

OpenAI GPT-4

自 3 月份发布以来已有八个月了，OpenAI 的 GPT-4 仍然是支持公众访问的聊天机器人的最强大的人工智能模型。虽然其前身 ChatGPT 的成绩仅比参加律师考试的 10% 的学生好，但 GPT-4 的成绩却超过了 90% 的学生。它擅长语言推理，可以将复杂的概念分解成简单的语言，甚至可以解释为什么一个笑话很有趣。

9 月，OpenAI 开始推出通过语音与模型交互以及使用图像作为输入的功能。该更新 GPT-4V 已经过 Be My Eyes 的测试，Be My Eyes 是一家为视障人士构建工具的组织，可以用自然语言口头描述图片的内容。

富有创意的电影剪辑

Runway Gen-2

六月，Runway——一家由谷歌支持的初创公司，其视觉效果工具被用来帮助制作奥斯卡奖得主《Everything Everywhere All At Once》中令人费解的图形——推出了 Gen-2 模型。新版本允许任何人仅根据文本提示、图像或其他视频生成完整的视频。

Runway 联合创始人兼首席执行官 Cristóbal Valenzuela 将新技术与 200 年前相机的发明进行了比较。“人工智能是一种新型摄像机，”他说，“AI 是一种新的摄像头，它将永远地重塑讲故事的方式，引领我们走向完全靠生成的电影长片。”

AI“真探”

Alitheon FeaturePrint：伪造物识别

解决价值数万亿美元的假冒商品问题的方法可能很简单，只需将手机的摄像头对准手表或手提包，然后让智能软件确定其真伪。FeaturePrint 是一种光学人工智能技术，它的“眼尖”能够“看到”物品的微小表面细节，然后将该信息转换成一个独特的数字身份。

然后，只需单击一个按钮，它就可以告诉您某件商品是假货还是正品。Alitheon 首席执行官 Roei Ganzarski 表示：“无需贴纸、标签或标记。” Argor-Heraeus 就是其中一位客户，该公司为国家银行生产金条。

天空之眼

Dedrone 城市无人机监测系统

无人机既具有破坏性，又具有益处。Dedrone 的城市无人机监测系统会在地理区域周围投掷虚拟防护罩，如果无人机进入指定空域，则会在几秒钟内向执法部门发出警告。Dedrone 跟踪来自无人机的专有信号组合，包括射频、ADS-B 数据（也用于飞机）和 RemoteID 信标，以识别入侵位置。

翻译大师

Meta SeamlessM4T

Meta 将其 SeamlessM4T AI 模型与《银河系漫游指南》中的通用语言翻译器 Babel Fish 进行了比较。该公司的软件能够理解近 100 种语言的语音或文本，并且可以以各种格式在它们之间进行实时翻译——语音到语音、文本到文本、语音到文本，或文本转语音。

据 Meta 称，该系统除了可以处理比前辈更多的语言之外，还更加高效且不易出错，甚至可以破译同一个句子中混合在一起的多种语言。Meta 将该模型开源，这意味着世界各地的研究人员都可以使用其代码。

惊人的模仿

So-VITS-SVC

今年早些时候，一位名为 Ghostwriter 的匿名创作者推出了一首名为“Heart on My Sleeve”的歌曲，引起了轰动，其中人工智能生成的声音令人信服，听起来像 Drake 和 Weeknd。

这些声音是使用名为 So-VITS-SVC 的开源软件创建的，该软件允许技术人员根据歌手的声音训练神经网络，然后使用人工智能创建的声音制作任何歌曲。与此同时，使用该软件的用户友好网站如雨后春笋般涌现。

扑灭野火

AlertCalifornia 和 Cal Fire AI 野火探测器

在野火蔓延之前对其进行检测是目前困扰世界大部分地区的一项挑战。加州大学圣地亚哥分校的公共安全项目 AlertCalifornia 正在利用人工智能来提供帮助。该项目与加州消防局合作，训练人工智能根据全州森林中 1,050 多个摄像头组成的网络检测烟雾和其他早期火灾迹象。

当系统发现异常情况时，它会通过短信向当地消防部门发出警报。在最初的两个月里，该系统在接到 911 电话之前就正确识别了 77 起火灾。“这个系统最成功的故事是那些你从未听说过的火灾，”AlertCalifornia 联合首席调查员 Falco Kuester 说。

音乐创作，变得简单

Stable Audio

利用生成式 AI 的力量，Stability AI 创建的 Stable Audio 可以通过一些简单的文本提示生成几乎任何你想要的声音或歌曲。

该模型是根据库存数据集进行训练的音频网站（来源合法），包含超过 800,000 个音频文件，总计 20,000 小时，可用于专业和业余项目。

守护濒危动物

TrailGuard AI 轨迹卫士人工智能

在印度和非洲的部分地区，偷猎仍然是大象和大型猫科动物面临的最大灭绝威胁，即使在保护区也是如此。TrailGuard AI 是由美国环保组织 Resolve 创建的系统，采用英特尔技术的微型摄像头来监控濒临灭绝的物种并发现偷猎者。该系统借助手机或远程无线电信号，可以在短短 30 秒内将图像传输到当地部门的手机上。

TrailGuard 的定制人工智能模型经过训练后不仅可以检测人类，还可以检测任何感兴趣的物种，从老虎到鬣狗。该技术在东非的测试阶段逮捕了 30 多名偷猎者，大规模测试目前正在老虎密集的印度中部进行。

画出你的想象力

OpenAI Dall-E 3

当 OpenAI 于 11 月向全世界发布 ChatGPT 时，它从根本上改变了人工智能的格局。该公司希望 DALL-E 3能够产生同样的影响。

OpenAI 的 Aditya Ramesh（DALL-E 3 的发明者）表示，以前的图像生成器需要学习一种新的技术语言，包括附加带有减号和数字的字符串，以获得最佳结果。DALL-E 3 则不然，它折叠到 ChatGPT 中，以便用户可以输入对话命令并获取与其描述相匹配的图像。

有声读物

古登堡计划开放有声读物收藏

古登堡计划是最古老的数字图书馆，始于 1971 年，旨在让电子书更易于访问。但首席执行官格雷格·纽比 (Greg Newby) 表示，它“在创作或分发方面都表现不佳”。

因此，微软和麻省理工学院联手打造了开放有声读物合集，利用文本转语音技术将 5,000 本书转变成免费的、综合叙述的有声读物，现在可以在 Spotify 上购买。为该项目提供支持的软件也免费发布。

分解节拍

AudioShake 音频震动

当全球最大的摇滚乐队之一在最近谈合作，在广告中使用其 1970 年代的热门歌曲时，其成员欣喜若狂。但是有一个问题：广告只需要演奏部分，但乐队只有最终混音版。

因此，摇滚乐队的团队联系了 AudioShake，该公司的人工智能程序可以隔离预先录制的音频元素，将其分解为各个组成部分。“我们使音频具有交互性和可编辑性，并能够推动这些真正实用的用途，帮助艺术家赚钱，”联合创始人兼首席执行官杰西卡·鲍威尔说。

重新思考智能手机

Humane Ai Pin

创办 Humane的两位前苹果高管设想了一个没有屏幕的未来，而 Ai Pin 是他们迈出的第一步。一旦轻巧的 Humane Ai Pin 通过磁性吸附到您的衣服上，它就成为您的人工智能个人助理。该设备结合使用专有软件和 OpenAI 的 GPT，让您可以完成各种操作，从提出复杂的问题到拨打电话和发送短信，所有这些都只需您的声音即可完成。

同时，内置摄像头可以识别事物并提供上下文信息，例如食物的卡路里估算。每当 Pin 的摄像头、麦克风或输入传感器处于活动状态时，一个名为“信任灯”的突出隐私指示灯就会亮起，以确保周围的每个人都知道它何时正在收听或录音。如果您需要视觉效果，微型投影仪可以将它们直接投射到您伸出的手掌上。该图钉计划于 11 月 9 日推出。

发现更多可能性

在 2023 年，AI 无疑是全球聚焦领域之一，但除此以外，世界还有许多充满智慧和趣味的发明在为我们发掘生活的无限可能性。

Sphere：突破想象的奇幻空间

当耗资 23 亿美元打造的球型场馆在 7 月 4 日首次被点亮时，开发了这个空间的 MSG Ventures CEO David Dibble 惊呼：“它就像是科幻小说里出来的一样。人们都从车里走出来，抬头看着它。”

这个全球最大的球型建筑，占地面积约 8.1 万平米，外墙面积达 5.4 万平米，由 120 万个可编程的 LED 面板组成，也是全球最大的 LED 屏幕。

在室内，它配备了先进的曲面屏幕和音乐会级别的音箱系统。现在，这一切都被用于传奇乐队 U2 的驻场演唱会。

它不仅吸引了全球的目光，也占据了《时代》年度发明特刊的封面。

惠普企业“前沿”超级计算机

“前沿（Frontier）”是惠普为美国橡树岭实验室打造的超级计算机，也是世界上第一台百亿亿次级计算机，算力高达每秒 1.1 百亿亿次。

它目前被应用于黑洞研究和气候模拟等各个重要领域。惠普这个项目的负责人 Nic Dubé 称：“这不仅是一个奇迹。这在统计学上简直就是不可能。”

Music: Not Impossible 感受音乐

如果你在音乐节上看到这个“背包”，可别以为人们在做力量训练。

这个名为 Music: Not Impossible 的可穿戴设备，可将音乐和声音“翻译”成节拍，并帮助听障用户通过皮肤更精确地感受到音乐。该公司 CEO Daniel Belquer 解释：“对于听力障碍者来说，为的不只是音乐，还有社交。参与到比自身更大的活动中，融入人群中 —— 这是健康的人想当然的事情。”

Zeen：丝滑前行