暂无文章发布记录
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征
LARYBench (Latent Action Representation Yielding Benchmark),一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征可以从大规模人类视频数据中涌现。
阅读原文
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
能不能让 AI 直接学会声音本身的规律,跳过中间环节?为破解这一技术瓶颈,美团 LongCat 团队正式发布 LongCat-AudioDiT。在该模型中,彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(Text-to-Speech, TTS),从根源阻断数据转换的级联误差。
阅读原文
LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要“算得对”,更要“证得严”
在常规的数学解题中,模型只需要“答对最终数值”即可,但数学定理证明不同,它要求极度严苛的逻辑链条,任何一句自然语言的模棱两可,都可能导致整个证明的崩塌。那么,如何让 AI 从“猜答案”走向“严谨证明”,成为复杂推理具有挑战的课题。为了解答这个问题,我们开源了专门用于数学形式化与定理证明的模型 —— LongCat-Flash-Prover。
阅读原文
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
LongCat-Next 是我们在通往物理世界 AI 道路上的一次探索。今天,我们把研究思路的核心——LongCat-Next 模型和它的离散分词器全部开源,希望更多开发者能基于它,构建真正能感知、理解并作用于真实世界的 AI。
阅读原文
美团 BI 在指标平台和分析引擎上的探索和实践
美团数据平台构建了以指标平台为核心的新一代 BI 架构,通过自动语义和增强计算两种核心能力的建设,部分解决了传统 BI 平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。
阅读原文