Meta 发布 Megabyte AI 模型抗衡 Transformer：解决后者已知问题、速度提升 4 成-世界印刷网

【资料图】

IT之家 5 月 30 日消息，近日 Meta 团队开发了一款名为 Megabyte 的 AI 模型以抗衡 Transformer，据称 Megabyte 解决了 Transformer 模型所面临的问题，并且在速度上提升了 40%。

▲ 图源 Arxiv

目前 Transformer 在自然语言处理等领域非常流行，但由于其序列数据的处理方式是逐步进行的，无法并行化处理，因此训练速度较慢；难以处理长序列，因为其在反向传播过程中，梯度很容易消失或爆炸；此外，由于需要在每一步保留历史信息，内存消耗较大。

而 Megabyte 模型将输入和输出序列划分为 patch，而不是单个的 token。这种架构使得对大多数任务而言字节级别的预测相对容易，例如根据前几个字符预测完成的单词等。这意味着在大型网络中可以精简字符以提升效率，并且内部预测可以使用更小的模型进行。Megabyte 模型的这种方法解决了当今 AI 模型所面临的训练速度、可靠性及硬件占用比挑战。

▲ 图源 Arxiv

此外，在计算效率方面，相比于等大的 Transformer 和 Linear Transformer，Megabyte 模型在固定模型大小和序列长度范围内使用更少的 token。因此相对于 Transformer，Megabyte 模型可以在相同的计算成本下训练内容更丰富、体积更大、性能更好的模型。

目前 Meta 团队放出了 Megabyte 模型的论文，IT之家小伙伴可以前往查阅。

关键词：

推荐阅读

Meta 发布 Megabyte AI 模型抗衡 Transformer：解决后者已知问题、速度提升 4 成

推荐阅读

Meta 发布 Megabyte AI 模型抗衡 Transformer：解决后者已知问题、速度提升 4 成

游戏ETF大涨6.14%，国防ETF盘中创近一年新低；5月新批主动权益基金仅7只全球视讯

速读：一次故障两则“罚单”，东方财富证券再收警示函，董事长曾公开回应

全球动态:被丈夫砍杀柯基威胁女子回应彩礼争议，发文爆料丈夫只拿工资不上班

【环球速看料】特斯拉前员工泄露100GB数据？含刹车故障投诉及马斯克私人信息，公司或被罚247亿元

vivo手机找回登录入口_vivo帐号登录找回手机

自动发短信机器_自动发短信

财政部原副部长朱光耀：只有合作才能推动世界前进

当前热门：市场深V反弹，阶段行情或已启动！

工信部：1-4月份规模以上电子信息制造业实现营收4.31万亿元，同比下降4.7%

世界消息！英梨梨声优大西沙织因身体抱恙暂时减少工作

热点评！熟栗子去皮法（熟栗子去皮小窍门）

广州灵活就业社保2023年缴费价格表，具体标准如下

封阳台怎么选材料封阳台用什么材料好呢

紧急召回！涉多个品牌

世界播报:2023义乌市初中招生计划+招生时间(最新消息)

目标“百亿”的世龙实业遭立案调查，维权预征集现已开始

木森婚礼被罚69万_木森婚礼

深圳惠州游戏动漫设计专业去哪学比较好

【读财报】19家民营银行财报透视：网商银行、华瑞银行、新网银行不良率居前三|当前关注

西北农林科技大学怎么样就业前景_西北农林科技大学怎么样

天通股份：已掌握铌酸锂晶体材料制备的关键核心技术技术自主可控

环球热文：今日原油交易提醒：美原油交投于72.79美元油价涨幅或受限

中评观察：香港各界频访内地积极联结

每日焦点！“教授航天员”桂海潮来自云南小城，高中校友：小县城不只有“做题家”，也能出航天员

挂脖耳机怎么拆开图解法_耳机怎么拆开图解法

环球快报:客服喊你“退会员”是骗局！调查发现：企业会员卡问题多多

焦点热门:翻译：法网2023之德约：速胜对手，收获开门红，向23座大满贯挺进

每日焦点！米果念什么_米果念什么字

收评｜创业板指跌超1%创年内新低脑科学、电力股集体走强全球快报

资讯

头条

快讯

热点

设备

纸箱