免费到无可争议 钛媒体发布五款神器

avatar shenyifan 2024-02-25 10:50 303次浏览 评论已关闭

今日,钛媒体 AGI 梳理了免费 AI ” 神器 ” 系列第四弹,共五款,其中很多产品又拓宽了我们 AI 的想象力视频界 ” 神笔马良 ” —— Boximator直接控制计算机的大模型—— ScreenAgent。

文本转声神器—— ElevenLabs 人工智能音效模型谷歌 Gemini 1.5 最强竞对—— LargeWorldModel与人类相当的阅读能力—— Readagent

1、视频界 ” 神笔马良 ” ——字节 Boximator 模型产品信息:Boximator 它是一种由字节跳动开发的文生视频模型,可以通过文本精确控制视频中人物或物体的生成产品功能:用户只需输入描述具体动作的文本,Boximator 可以生成相应动作的视频片段。

目前很多文生视频大模型都做不到例如,同时在 Pika 1.0、Gen-2、Boximator 上输入文本 ” 一个英俊的男人用右手从口袋里拿出一朵玫瑰,看着它 在三个大模型最终生成的视频中,只有 Boximator 做到了男人掏花看花的动作,其他两个都没有。

只有 Boximator 视频的生成(最左)实现了男人掏花看花的动作,其他两个都没有为实现对视频中人物或物体动作的精确控制,Boximator 引入 ” 硬盒 ” 和 ” 软盒 ” 用户可以使用这些盒子来严格定义对象在未来帧中的位置、形状或运动路径。

不过,Boximator 相关技术似乎还不成熟2 月 20 日,字节跳动相关人士表示,Boximator 它是视频生成领域控制对象运动的技术方法研究项目目前,它不能作为一个完美的产品着陆与国外领先的视频生成模型在屏幕质量、保真率和视频持续时间方面仍有很大差距。

据报道,字节跳动从 2023 年开始布局 AI,并于去年 11 专注于月成立 AI 创新业务的新部门 Flow目前字节 Flow 该部门已经推出了三款 AI 对话产品包括豆包、纽扣和 Cici其中,豆袋是聊天机器人产品,可以完成问答、文本生成、语言翻译等任务,也可以根据用户需求和上下文自适应问答,提供个性化服务;按钮是一站式的 AI Bot 开发平台,无论用户是否有编程基础,都可以在按钮平台上快速构建 AI 各种模型问答 Bot,简单的问答可以解决,并处理复杂逻辑的对话。

高管方面,前 TikTok 现任字节跳动产品和战略副总裁朱军已担任产品负责人 Flow 此外,还有一些内部核心产品人员被转移到 Flow体验地址:boximator.github.io/2、谷歌 Gemini 1.5 最强竞对—— LargeWorldModel。

产品信息:LargeWorldModel(LWM)由大型多模态自回归模型组成 UC 开发伯克利大学它使用它 RingAttention 训练包含长视频和长文本的大型数据集,从而理解和生成语言、图像和视频。

产品功能:LWM 支持处理多模态信息 100 万 token 准确找到目标文本,一口气看完 1 经过一小时的视频,准确地回答了视频内容的细节,突破了当前语言模型处理复杂的长格式任务的不足此外,LWM 它还支持生成图像和视频,被外界视为谷歌 Gemini 1.5 最强竞对。

LargeWorldModel 产品介绍界面体验地址:github.com/LargeWorldModel/LWM3.   直接控制计算机的大模型——ScreenAgent产品信息:ScreenAgent 是由吉林大学人工智能学院开发、视觉语言大模型驱动的计算机控制代理。

产品功能:ScreenAgent 在没有辅助定位标签的情况下,可以帮助用户通过 VLM Agent 控制计算机鼠标和键盘,实现大模型直接控制计算机的功能ScreenAgent 根据用户的文本描述,可以找到并播放指定的视频。

例如,ScreenAgent 可以根据用户的文本描述找到并播放指定的视频,也可以根据用户的要求调整视频播放速度ScreenAgent 它还可以帮助用户打开 Windows 使用系统的事件查看器, office 例如,根据用户文本描述删除指定的办公软件 PPT 内容。

体验地址:github.com/niuzaisheng/ScreenAgent4、文本转声神器——ElevenLabs 人工智能音效模型产品信息:最近,ElevenLabs 宣布将推出人工智能音效模型,可以帮助用户通过文本生成音效,填补当前的音效 AI 缺乏背景音效的视频生成空白。

产品功能:在 ElevenLabs 在发布的预告视频中,这种人工智能音效模型是 Sora 视频画面增加了不同的音效,如人群中舞龙的噪音、高速列车运行的轰鸣声、行人的脚步声等目前,ElevenLabs 发布了一段视频,但模型的具体细节尚未公布,只设置了一个注册页面,用户可以提前注册等待模型的开放试用。

注册地址:form.typeform.com/to/gg0xzzz4typeform-source=t.co5、超强的阅读能力 Agent 模型—— Readagent产品信息:Readagent 是由 Google 一种模仿人类阅读方式的阅读代理(Agent)模型。

它通过学习人类在阅读长文本时忘记具体信息但保留关键信息来提高处理和理解长文本的效率产品功能:在处理长文本时,Readagent 文本中的主要信息将被转化为主要信息 ” 要点记忆 ” 存储,当需要回答具体细节时,Readagent 它将迅速定位到相应的位置 ” 要点 ” 寻找答案,从而出色地完成长文本的阅读理解任务。

此外,Readagent 它还可以帮助用户在复杂的网站上找到所需的信息

以上就是今天所分享的内容了,深易凡软件库每天给大家带来更高效的企业服务软件,其中包括红包软件有微信,钉钉,支付宝,陌陌,QQ,千合严选,西梅甄选,nsgo,青柠易购,旺惠优品,优品盲盒,名扬优选,美彩优选,华潮易购,奈斯特惠,和启优选,良优品,果海臻选,米兰优选,火星严选,惠美优选,淘利购,世纪购,潮动力,萤火通讯,好选悦品,智云互享,知信,致美臻选,万盛超市,微信多开,微信分身,U仔,小苹果,旭禾优品,淘讯盲盒等现如今热门社交软件,其中功能有红包软件,红包辅助,埋雷辅助,单透,埋雷软件,牛牛辅助,透视,牛牛外挂,尾数控制,机器人等一些红包强项外挂辅助软件功能免费下载使用。

发表评论
请先登录后再评论~