2024 AI 模型发布时间线

12月

  • DeepSeek V3 - DeepSeekAI
    DeepSeek开源DeepSeek V3,DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。

  • QVQ-72B-Preview - Alibaba
    阿里巴巴推出QVQ-72B-Preview,这是一种旨在推进视觉推理的开源实验研究模型。

  • O3 - OpenAI
    OpenAI宣布O3。o3 在复杂任务(包括编码、数学和科学)上表现出明显优于 o1 的性能。OpenAI 报告称,o3 在 GPQA 钻石基准测试中取得了 87.7% 的分数,该基准测试包含未在网上公开的专家级科学问题。

  • O3 Mini - OpenAI
    OpenAI预计在2025年1月推出O3 Mini。

  • Kling 1.6 - 快手
    可灵1.6 模型新增提示词工具。灵感词库:文生视频和图生视频功能新增灵感词库,涵盖镜头、景别、光影等多维度推荐词,可以帮助你快速完成创意描述,提升创作效率和质量。

  • Gemini-2.0-Flash-Thinking - Google
    谷歌推出Gemini-2.0-Flash-Thinking。

  • ModernBERT - AnswerAI & LightOn
    AnswerAI和LightOn开源ModernBERT,这是一系列最先进的纯编码器模型,代表了对老一代编码器的全面改进,具有 8192 序列长度、更好的下游性能和更快的处理速度。

  • Llama 3.3 70B - Meta
    Meta发布Llama 3.3 70B,在用于纯文本应用程序时,相对于 Llama 3.1 70B 和 Llama 3.2 90B 提供增强的性能。此外,对于某些应用,Llama 3.3 70B 的性能接近 Llama 3.1 405B。

  • Granite 3.1 - IBM
    IBM开源Granite 3.1,这是开放、高性能、企业优化的Granite 系列语言模型的最新更新。这套改进、添加和新功能主要侧重于增强基本企业用例(例如工具使用、检索增强生成(RAG)和可扩展代理人工智能工作流程)中的性能、准确性和责任感。

  • Falcon 3 - TII
    TII发布Falcon 3系列模型,该模型也可以在包括笔记本电脑在内的轻型基础设施上运行。

  • Apollo - Meta AI & 斯坦福大学
    Meta AI 和斯坦福大学的研究人员开发了 Apollo ,这是一系列以视频为中心的 LMM,旨在突破视频理解的界限。

  • Veo 2 - Google
    谷歌发布用于视频生成的Veo 2。Veo 2 可创建各种主题和风格的令人难以置信的高质量视频。在由人类评估者进行的头对头比较中,Veo 2 与领先模型相比取得了最先进的结果。

  • Pika Labs 2.0 - Pika Labs
    Pika Labs发布2.0版本,其中一项主要新功能“Scene Ingredients”允许用户将自己的图像添加到 AI 生成的视频中。

  • Command R7B - Cohere
    Cohere发布Command R7B,面向企业的R 系列大型语言模型 (LLMs) 中最小、最快和最终的模型。 Command R7B 在其开放权重模型类别中为用户重要的实际任务提供最先进的性能。该模型专为需要优化其用例的速度、性价比和计算资源的开发人员和企业而设计。

  • Live Video Mode - OpenAI
    OpenAI为GPT4o推出实时视频模式。

  • Phi4 - Microsoft
    微软开源Phi4,它是 Phi 系列中最新的小语言模型,它以小尺寸(14B 参数)提供高质量结果。

  • Gemini 2.0 Flash - Google
    谷歌推出处于测试版的Gemini 2.0 Flash。2.0 Flash 在关键基准测试中的表现甚至优于 1.5 Pro,速度是 1.5 Pro 的两倍。 2.0 Flash 还带来了新的功能。除了支持图像、视频和音频等多模式输入之外,2.0 Flash 现在还支持多模式输出,例如与文本混合的本机生成的图像和可操纵的文本转语音 (TTS) 多语言音频。

  • Gemini-Exp-1206 - Google
    谷歌推出Gemini-Exp-1206,它在编码、数学、推理和指令遵循等复杂任务上的性能显着提高。

  • O1 - OpenAI
    OpenAI发布O1。OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89%,在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并且在物理、生物学基准上超过了人类博士级别的准确度和化学问题(GPQA)。

  • PaliGemma 2 - Google
    谷歌推出PaliGemma 2,PaliGemma 2 以高性能 Gemma 2 型号为基础,增加了视觉能力,并且比以往更容易进行微调以获得卓越的性能。借助 PaliGemma 2,这些模型可以看到、理解视觉输入并与之交互,从而开辟了一个充满新可能性的世界。

  • NOVA - Amazon
    亚马逊推出NOVA模型。Amazon Nova 理解模型接受文本、图像或视频输入以生成文本输出。亚马逊创意内容生成模型接受文本和图像输入以生成图像或视频输出。

  • Aurora - xAI
    xAI集成Aurora用于图像生成。Aurora 是一个自回归专家混合网络,它擅长逼真的渲染和精确遵循文本指令。除了文本之外,该模型还原生支持多模式输入,使其能够从用户提供的图像中获取灵感或直接编辑用户提供的图像。

  • QwQ 32B Preview - Alibaba
    阿里巴巴发布 QwQ 32B 预览版,是一个具有 320 亿个参数的开源实验研究模型,展示了令人印象深刻的分析能力。

11月

  • SmolLM 2 - Hugging Face
    Hugging Face 开源 SmolLM 2,适用于设备上应用的最先进的紧凑型LLMs。

  • OLMo 2 - Allen AI
    OLMo 2 是一系列完全开放的语言模型,从头到尾都使用开放且可访问的训练数据、开源训练代码、可重复的训练配方、透明的评估、中间检查点等进行开发。

  • SmolVLM - Hugging Face
    Hugging Face 开源 SmolVLM。SmolVLM 体积小、速度快、内存效率高且完全开源。所有模型检查点、VLM 数据集、训练方案和工具均在 Apache 2.0 许可证下发布。

  • Tulu 3 - Allen AI
    Tülu 3 是领先的指令遵循模型系列,提供完全开源的数据、代码和配方,旨在作为现代训练后技术的综合指南。

  • gemini-exp-1114 & gemini-exp-1121 - Google
    谷歌推出 gemini-exp-1114 和 gemini-exp-1121。这是一种通过 AI Studio 提供的新实验性 AI 模型。

  • Suno v4 - Suno
    Suno 升级到 v4 版本,v4 提供更清晰的音频、更清晰的歌词和更动态的歌曲结构。

  • DeepSeek-R1-Lite-Preview - DeepSeekAI
    DeepSeek 推出 DeepSeek-R1-Lite-Preview,旨在出色地完成需要逻辑推理、数学推理和实时解决问题的任务。

  • Pixtral Large - Mistral AI
    Mistral AI 推出 Pixtral Large,这是一款基于 Mistral Large 2 构建的 124B 开放权重多模态模型。

  • Mistral Large 2411 - Mistral AI
    Mistral-Large-Instruct-2411 是一种具有 123B 参数的高级密集大型语言模型 ( LLM ),具有最先进的推理、知识和编码功能,通过更好的长上下文、函数调用和扩展Mistral-Large-Instruct-2407系统提示。

  • Qwen2.5 Coder 32B - Alibaba
    阿里巴巴开源 Qwen2.5 Coder 32B,代码能力与GPT-4o相当。它展示了强大而全面的编码能力,同时还展示了扎实的通用和数学技能。

  • Visual PDF Analysis - Anthropic
    Anthropic 在 Claude 中引入可视化 PDF 分析功能。

10月

  • Search GPT - OpenAI
    OpenAI 推出了 Search GPT,可通过相关网络资源的链接获得快速、及时的答案。

  • Recraft v3 - Recraft
    Recraft v3 在图像生成领域树立了新的质量标准,其性能优于 Hugging Face 行业领先的文本到图像基准人工分析所证明的所有竞争对手模型。

  • Pika Effects - Pika
    Pika 推出了带有 Pika Effects 的视频模型 1.5。

  • Aya Expanse - Cohere
    Aya Expanse是一种最先进的模型,具有高度先进的功能,可以跨语言连接世界。

  • Fluid - Google DeepMind & MIT
    Google DeepMind 和 MIT 推出了 Fluid。这是一种用于文本到图像生成的新自回归模型,当扩展到 105 亿个参数时,可以达到最佳结果。

  • Stable Diffusion 3.5 - Stability AI
    Stability AI 发布了Stable Diffusion 3.5 ,这是我们迄今为止最强大的模型。这个开放版本包括多个可定制的变体。

  • Claude 3.5 Sonnet New - Anthropic
    Anthropic 推出了 Claude 3.5 Sonnet New。升级后的Claude 3.5 Sonnet比其前身进行了全面改进,尤其是在编码方面取得了显着的进步。

  • Claude 3.5 Haiku - Anthropic
    Anthropic 宣布了 Claude 3.5 Haiku。Claude 3.5 Haiku 在许多评估中与其之前最大的模型 Claude 3 Opus 的性能相匹配,速度与上一代 Haiku 相似。

  • Janus - DeepSeekAI
    DeepSeekAI 发布了 Janus(开放权重)。

  • Meta Spirit LM - Meta
    Meta 发布了 Meta Spirit LM,交错口语和书面语言模型。

  • Ministral - Mistral AI
    Mistral AI 推出了 Ministral,世界上最好的边缘模型。

  • Firefly Video - Adobe
    Adobe 宣布了 Firefly Video,仅使用文本提示或图像即可快速生成视频剪辑。

  • Aria - Rhymes AI
    Rhymes AI 发布了 Aria,这是世界上第一个开源、多模式原生专家混合 (MoE) 模型。

  • Movie Gen - Meta
    Movie Gen通过文本输入转换现有视频,从而能够对样式、过渡、细粒度编辑等进行精确的视频编辑。

  • Flux 1.1 Pro - Black Forest Labs
    Flux 1.1 Pro 在早期 Flux 1.0 Pro 型号的基础上进行了改进,生成速度提高了六倍,同时还增强了图像质量。

9月

  • GPT4o Advanced Voice Mode - OpenAI
    GPT4o 高级语音模式发布。

  • Qwen 2.5 - 阿里云 (Alibaba Cloud)
    Qwen2.5 是由阿里云 Qwen 团队开发的大型语言模型系列。- QwenLM/Qwen2.5 语言模型。

  • Granite Code - IBM
    Granite Code 是一系列仅解码器的代码模型,专为代码生成任务(例如代码生成、代码解释、代码修复等)而设计。

  • KLING 1.5 - 快手
    KLING AI,基于最先进的生成式 AI 方法创建富有想象力的图像和视频的工具。

  • OLMoE - Molmo / Allen AI
    OLMoE是一种完全开放的、最先进的语言模型,利用稀疏混合专家 (MoE)。

  • Pixtral12B - Mistral AI
    Pixtral 经过训练可以理解自然图像和文档,在 MMMU 推理基准测试中达到 52.5%,超过了许多大型模型。该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出色。Pixtral 能够以自然分辨率和宽高比摄取图像,让用户可以灵活地使用标记数量来处理图像。

  • o1 preview & o1 mini - OpenAI
    OpenAI o1-mini是一种经济高效的推理模型。o1-mini 在 STEM 方面表现出色,尤其是数学和编码——在 AIME 和 Codeforces 等评估基准上的表现几乎与OpenAI o1相当。

  • Llama 3.2 - Meta
    Llama 3.2 多语言大型语言模型 (LLM) 集合是一组经过预训练和指令调整的生成模型,大小为 1B 和 3B(文本输入/文本输出)。Llama 3.2 指令调整的纯文本模型针对多语言对话用例进行了优化,包括代理检索和摘要任务。

  • Gemini Pro 1.5 002 - Google
    Gemini 1.5 Pro 是一款专为在各种文本、代码和多模式任务中实现一般性能而设计的模型。它支持长上下文窗口、多模式功能,并在 MMLU 和 MATH 等基准测试中提供改进的性能。该模型分别将输入和输出成本降低了约 64% 和 52%。它是作为更新的 Gemini 模型的一部分与 Gemini 1.5 Flash 一起发布的。这些模型提供更快的输出、更低的延迟和更高的速率限制,使其在各种用例中更高效。

  • Moshi - Kyutai
    Moshi AI 是由法国初创公司 Kyutai 开发的高级语音 AI 模型。Moshi 是一个语音文本基础模型和全双工口语对话框架。

  • NotebookLM - Google
    NotebookLM 利用 AI 的强大功能进行快速总结和记笔记,是您强大的虚拟研究助手

  • Mistral Small - Mistral AI
    Mistral-Small 是一种平衡、高效的语言模型 (llm),可在各种任务中提供高性能,具有更低的延迟和广泛的应用潜力。

  • Yi Coder - 零一万物 (01 AI)
    Yi-Coder 是一系列开源代码大型语言模型(LLM),可使用少于 100 亿个参数提供最先进的编码性能。

8月

  • Hermes 3 - NOUS RESEARCH
    Hermes 3 是由 NOUS RESEARCH 创建的模型,通过微调 Llama 3.1 8B、70B 和 405B,并在主要由合成生成响应的数据集上进行训练。该模型在推理和创造力方面解锁了更深层的能力,与 Llama 3.1 相比具有相当甚至更优越的性能。

  • Phi 3.5 - Microsoft
    Phi-3 模型是目前功能最强大、性价比最高的小型语言模型 (SLM),在各种语言、推理、编码和数学基准测试中,其表现优于同等规模和下一个规模的模型。此版本扩大了客户的高质量模型选择范围,为他们编写和构建生成式 AI 应用程序提供了更多实用选择。

  • Gemini 1.5 Flash8B - Google
    Gemini 1.5 Flash-8B 是 1.5 Flash 的更小、更快的版本。Flash-8B 在许多基准测试中几乎与 5 月份推出的 1.5 Flash 模型的性能相当。它在聊天、转录和长上下文语言翻译等任务上表现尤其出色。

  • Ideogram 2.0 - Ideogram
    Ideogram 2.0是文本转图像模型,具有业界领先的生成逼真图像、图形设计、排版等功能。

  • Dream Machine 1.5 - Luma
    Dream Machine 1.5 现已推出,现在具有更高质量的文本到视频、更智能地理解您的提示、自定义文本渲染和改进的图像到视频!

  • Falcon Mamba - TII
    Falcon Mamba 7B 使用精心挑选的数据混合对 5.8 万亿个 token 进行训练。作为纯 Mamba 模型,Falcon Mamba 7B 超越了基于 Transformer 的领先开放权重模型,例如 Mistral 7B、Llama3.1 8B 和 Falcon2 11B。

  • Grok 2 - XAI
    我们很高兴地宣布推出 xAI API,让开发者能够无限制地访问我们最先进的语言模型。 (Grok 2 模型)

  • Imagen 3 - Google
    使用 Imagen 3 生成图片,与之前的模型相比,生成的图片细节更丰富、光线更丰富,干扰性伪影更少

  • GPT-4o-2024-08-06 - OpenAI (Azure OpenAI)
    GPT-4o-2024-08-06 是 OpenAI 推出的最新 AI 模型,通过 Azure OpenAI 服务提供 API 接口,具备 JSON 结构化输出功能,提升了开发者的生产力和应用的多样性。

  • FLUX Tools - Black Forest Labs
    Black Forest Labs 提供的 FLUX 工具集,包括 FLUX Fill、FLUX Redux、FLUX Depth 和 FLUX Canny,用于图像编辑和创作。

7月

  • Midjourney v6.1 - Midjourney
    Midjourney新版本v6.1上线,人像逼真细节再升级

  • Gemma 2 2B - Google
    谷歌宣布,Gemma 2系列新增小模型Gemma 2B(20亿参数)。在大模型竞技场LMSYS Chatbot Arena 中,Gemma 2B得分高于GPT-3.5-Turbo。

  • Udio v1.5 - Uncharted Labs
    Uncharted Labs 近日发布旗下AI 音乐生成应用Udio 的1.5版本,引入了大量音频改进和一些新功能

  • SearchGPT - OpenAI
    SearchGPT是由OpenAI开发的原型搜索引擎, 并由GPT-4系列模型提供驱动。

  • Llama 3.1 - Meta
    Llama 3.1 是由 Meta 发布的一个大型语言模型,能够处理和生成多种语言的文本

  • AlphaProof & AlphaGeometry 2 - Google DeepMind
    谷歌DeepMind公布专用于数学推理的模型AlphaProof,以及专注于几何的模型更新版本AlphaGeometry 2

  • Mistral Large 2 - Mistral AI
    Mistral 发布 Large 2 旗舰 AI 模型:支持 80 多种编程语言,增强代码生成、数学和推理能力

  • GPT-4o mini - OpenAI
    GPT-4o mini 是由 OpenAI 发布的一个轻量级多模态语言模型,能够处理文本、图像等多种输入类型,并生成相应的输出

  • Codestral Mamba - Mistral AI
    Mistral AI 旗下开源代码模型 Codestral Mamba,采用Apache 2.0 许可证发布

6月

  • Gemma 2 - Google
    Gemma 2 是 Google 最新发布的开源大型语言模型,设计精巧且功能强大

  • Yi 1.5 - 零一万物 (01 AI)
    01 AI 发布 Yi 1.5

  • Claude Sonnet 3.5 - Anthropic
    Anthropic 发布 Claude Sonnet 3.5

  • Florence 2 - Microsoft
    Microsoft 发布 Florence 2

  • DeepSeekCoderV2 - DeepSeekAI
    DeepSeekAI 发布 DeepSeekCoderV2

  • Gen3 Alpha - Runway
    Runway 推出用于视频生成的 Gen3 Alpha

  • Stable Diffusion 3 (Medium) - Stability AI
    Stability AI 发布了中等版本的 Stable Diffusion 3。

  • Apple Intelligence - Apple
    Apple 宣布为其设备提供 Apple Intelligence

5月

  • Falcon 2 - TII
    超越Llama 3的性能怪兽:Falcon 2开源大模型,商用AI的新标杆

  • Codestral - Mistral AI
    Mistral新模型Codestral Mamba 速度更快、文本处理长度是GPT-4o两倍 (实际Codestral 是另一个模型,此处根据上下文可能笔误,应指 Mistral Large 2 或其他Mistral模型)

  • Suno v3.5 - Suno
    Suno 发布 V3.5 模型,所有人可免费制作 4 分钟歌曲

  • AI Overviews - Google
    谷歌宣布推出用于搜索摘要的人工智能概览功能AI Overviews (原内容缺少模型名称,补充 Google AI Overviews 功能名)

  • Mistral-7B-Instruct-v0.3 - Mistral AI
    扩展了词汇量至 32768,并支持了 v3 Tokenizer 以及功能调用功能,为用户提供了更为强大的使用体验。 (模型名应为 Mistral 7B Instruct v0.3)

  • Chameleon - Meta
    由Meta公司开发的一款机器学习模型,它为非商业研究用途提供支持,包括研究、开发、教育、处理或分析等

  • Copilot+ - Microsoft
    Copilot+ PC能实现每秒超过40万亿次操作,全天候电池续航,以及访问最先进的AI模型 (Copilot+ 并非模型名称,此处指微软推出的支持 Copilot+ 功能的PC硬件)

  • Gemini 1.5 - Google
    Gemini 1.5实现了突破性的百万级token语境长度,支持更复杂的推理和跨模态理解

  • GPT-4o - OpenAI
    OpenAI 发布全新生成式 AI 模型 GPT-4o:语音对话更流畅

4月

  • OpenELM - Apple
    苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型

  • Reka AI - Reka AI
    Reka AI 推出了多模态语言模型,具备图像、视频和音频的强大上下文理解能力 (Reka AI 也可指代公司名,此处作为模型/平台名称)

  • Firefly 3 - Adobe
    Adobe 3 模型更新!可垫图生成 创成式填充强得离谱 (Firefly 3 可能是指 Adobe Firefly 3 模型)

  • Phi-3-mini - Microsoft
    微软发布phi-3:可手机运行、性能媲美ChatGPT (Phi-3-mini 为 Phi-3 系列的 Mini 版本)

  • LLaMA 3 - Meta
    Meta正式发布Llama3,已达GPT4 级别 (LLaMA 应为 Llama)

  • Mixtral 8x22B - Mistral AI
    Mistral 发布 Mixtral 8x22B

  • Grok-1.5V - X
    X 公司发布支持图像识别功能的 Grok-1.5V (Grok-1.5V 为 Grok 1.5 的 Vision 版本)

  • Stable Audio 2.0 - Stability AI
    Stability AI 发布 AI音频工具Stable Audio 2.0

3月

  • Grok-1.5 - X.ai
    X.ai宣布推出了Grok-1.5 (Grok-1.5 为 Grok 1.5 的文本版本)

  • Suno v3 - Suno AI
    Suno AI 发布用于音乐创作的Suno v3。

  • Claude 3 - Anthropic
    Anthropic 宣布推出 Claude 3,性能优于 GPT-4。(请注意,此处图标链接可能需要更新为 Anthropic 官方图标

  • Command R+ - Cohere
    Command R+ 08 2024 是 Cohere 最新的大型语言模型,针对对话式交互和长上下文任务进行了优化。它旨在实现极高的性能,使公司能够从概念验证阶段进入生产阶段。

2月

  • CodeGemma - Google
    Google 宣布推出用于代码生成(开放权重)的 CodeGemma。

  • Sora - OpenAI
    OpenAI宣布Sora 用于视频生成(未公开发布)。

  • SWE-Lancer - OpenAI
    SWE-Lancer 是一个由 OpenAI 开发的基准测试,包含来自 Upwork 的超过 1400 个自由职业软件工程任务,总价值为 100 万美元的实际报酬。它涵盖了独立工程任务(从 50 美元的错误修复到 32000 美元的功能实现)以及管理任务,模型需要在技术实现方案之间做出选择。独立任务通过经验丰富的软件工程师三重验证的端到端测试进行评分,管理决策则与原始雇佣的工程经理的选择进行对比评估。该基准测试旨在通过将模型性能映射到货币价值,促进对 AI 模型开发经济影响的进一步研究,并开源了统一的 Docker 镜像和公共评估分割 SWE-Lancer Diamond。(请注意,此处 SWE-Lancer 更偏向于基准测试而非模型发布,但根据原始文档保留在此处

  • Gemini Pro 1.5 - Google
    Google 宣布推出具有多模式功能的 Gemini Pro 1.5。

  • Gemini Pro - Google
    Google 将 Bard 升级到 Gemini Pro 型号 (Gemini Pro 是模型名称,Bard 是应用平台名称)

  • Stable Diffusion 3 - Stability AI
    Stable Diffusion 3 改进了图像生成功能

  • WeatherNext - Google DeepMind
    WeatherNext 是由 Google DeepMind 开发的一种基于人工智能的天气预测模型。该技术利用 AI 模型处理大量天气数据,能够快速且准确地预测天气变化。它在应对极端天气事件方面具有重要意义,能够帮助改善灾害响应、提升电网可靠性以及保障全球粮食安全。通过与科学家和预报员共享这些模型,WeatherNext 旨在加速相关研究和工作,最终惠及全球数十亿人。(请注意,此处WeatherNext 更偏向于AI应用而非纯粹的模型发布,但根据原始文档保留在此处