这是2024年AI发展总结的系列章节中的第一篇季度报告文章,后面还有2、3、4季度文章,可以关注我,近期持续发布。
这几篇季度内容主要包括八个大段落:本季度AI领域新闻数据、消费级AI工具的应用、关键技术的突破、科技巨头动向、创业公司动向、中国AI的崛起与特色、开源生态的发展、应用方向的预测
AI发展季度总结报告的声明:
大家好,这里是2024年年度第一季度的AI领域发展总结报告。这份报告基于本人在2025年初对2024年的四季度(1月至12月)的AI行业公开新闻的搜集和整理,并利用AI工具进行基于我的数据和AI提示词指令进行分析和总结,力求为大家呈现这段时间内AI领域的关键动态和发展趋势。
一、数据来源与局限性: 本报告的数据主要来源于中文互联网上的公开AI领域新闻报道及行业动态信息。尽管本人已尽力确保信息的全面性和准确性,但鉴于新闻信息来源的局限性(主要为中文互联网)和个人精力的有限,加之人工智能技术的飞速发展和迭代,报告中难免存在一些信息遗漏或偏差,可能在收录国内外公司、机构等信息方面可能有所不足。
此外,由于本报告由人类搜集资料+AI工具辅助生成,虽然经过了本人的审核与校对,但受限于当前AI技术的发展水平,报告中的分析和解读也可能存在一定的主观性和局限性,甚至不排除出现AI对新闻事件、数据理解上的“AI幻觉”的可能性。
二、关于“对比”和“国内AI”的说明: 由于数据搜集主要来源于中文互联网,新闻中难免会出现国内公司/机构与国外产品的对比,以及诸如“超越xxx”等用词。虽然在当下时间点回顾,这些措辞可能略显夸张,但考虑到AI领域竞争的激烈和技术快速迭代的特点,以及各方急于寻求突破的急迫心情,一些对比也是可以理解的。本报告对这些新闻的选择标准是,主要看其报道的基本事实是否符合,而不是其使用的对比性用语。此外,鉴于数据来源和中文语境,本报告在关注国外AI发展的同时,也更多地关注了国内的AI动态,并适时提出了表扬或指出了不足。虽然本人在对AI的提示词中要求AI保持客观公正,但在最终的报告中,可能仍然会存在一些基于当时中文报道文本下的、带有倾向性的、看似不那么中立的描述,敬请各位读者理解。
三、目的与用途: 本报告的主要目的是分享信息,记录和回顾2024年4个季度AI领域的重要事件和发展脉络。报告内容仅供大家参考和了解行业动态,不构成任何形式的投资建议或其他专业意见。
四、版权与转载: 本报告内容版权归本人所有,欢迎大家转载和分享,但请注明出处,以尊重本人及AI的劳动成果。
五、补充与更正: 尽管已经尽力完善,但错误和疏漏在所难免。如果各位读者在阅读过程中发现报告中存在任何事实性错误、信息遗漏、数据过时或您认为AI解读有偏差的地方,恳请您不吝赐教,在评论区指出。本人将认真核实并及时更正,不断完善报告内容。您的每一条宝贵意见,都将帮助我们更好地理解和记录AI领域的发展历程。
2024年第一季度1-3月全球AI发展深度回顾:AI风起云涌,万象更新
引言:
2024年第一季度,人工智能领域风起云涌,创新浪潮席卷全球。从年初的CES展会,到贯穿整个季度的AI大模型迭代与应用爆发,再到季末各种创新工具和平台的涌现,AI技术以前所未有的速度进化、渗透,深刻地影响着各行各业,也改变着人们的生活方式。
这一季度,我们见证了OpenAI、Google、Meta等国际巨头的持续创新,也看到了百度、阿里、腾讯、科大讯飞等中国企业的奋起直追。技术突破与应用落地并驾齐驱,开源生态与商业化探索齐头并进,全球AI发展呈现出百花齐放、万象更新的蓬勃景象。
一、逐月梳理:全球AI发展的时间脉络
2024年1月:开年即冲刺,底层技术与应用创新齐头并进
- 1月2日:
- 清华 & 哈佛团队 推出 LangSplat,这是一个基于 3DGS 的 3D 语言场方法,能够更准确地描述 3D 场景,并且比 LERF 快 199 倍,并引入了 SAM 和 CLIP。
- 清华大学、大连理工大学、北京邮电大学 联合推出 “体验式协同学习(Experiential Co-Learning)” 框架,让 AI 总结历史经验,大幅提高学习能力。
- 三星 发布 Bespoke Jet Bot Combo 扫拖机器人,具备升级版 AI 功能与蒸气洗净技术,搭载进阶 AI 物体辨识系统。
- 美图公司 自研 AI 视觉大模型 MiracleVision(奇想智能) 通过备案,将面向公众开放。
- 微软 将移动端 Edge 浏览器 名称变更,加入 “AI” 字样,改为 “微软 Edge:AI 浏览器”。
- 1月3日:
- deepin 深度操作系统 推出 “看图 AI 插件”,支持设备端 “图像上色”、“转换风格” 等 8 大功能,在 “风格转换” 方面使用 DCT-Net 模型,在 “图片分辨率提升” 方面基于 Real-ESRGAN 算法。
- 商汤 发布 元萝卜光翼灯,达到国 AA 级标准,并支持 AI 光随书动功能。
- 1月4日:
- David Kroodsma、美国国家地理、彭博社慈善基金会 利用卫星测绘数据及 AI 技术建立世界首款 “全球船舶足迹地图”,号称能够准确记录人类在海洋中的各种动向。
- 苹果 的 Siri 融入生成式 AI 取得进展,将带来更自然的对话和个性化体验。
- 钉钉 全量上线 钉钉个人版,内置 AI 写真 / 法律助手等工具。
- 科大讯飞、统信 UOS 达成战略合作,推出 浏览器和邮箱助手。
- 微软 宣布 Win 11 文件管理器 有望迎来 Copilot 助力。
- 微软 宣布 Win11 PC 键盘 将新增 Copilot 键,可一键直达 AI 助手。
- 阿里云 的 通义千问 APP 推出图片生成舞蹈功能 “通义舞王”,用户只需上传一张照片,即可生成多种舞蹈视频,包括科目三、鬼步舞等。该功能利用阿里最新研发的 Animate Anyone 算法。
- 小冰公司 宣布获得大模型备案,小米、OPPO 等 “召唤小冰” 功能将切换服务。
- 1月5日:
- 斯坦福大学 科研团队基于 OpenAI 的 CLIP 神经网络,推出预测图像地理位置 (PIGEON) 项目,可以分析街景图片,猜测图片所在地,准确率高达 92%。
- 谷歌 旗下 DeepMind 公司起草了 “机器人宪法”,确保 AI 机器人不会伤害人类。
- 网易有道 推出 子曰教育大模型 2.0、小 P 老师、虚拟人口语私教 Hi Echo 2.0 和 有道翻译 的全新功能——有道速读 2.0,并宣布将 “QAnything” 正式开源。
- OpenAI 计划下周推出 GPT 商店,可销售 / 共享定制聊天机器人,开发者将 “根据有多少人使用你的 GPT” 来产生收入。
- 1月8日:
- 杀毒软件公司 McAfee 推出 “Project Mockingbird”,用于检测、阻止 AI 生成的语音诈骗行为,官方声称该项目的成功率超过 90%。
- 微软 的 Windows Copilot 现可截图提问。
- 1月9日:
- 作为一个开源框架,LangChain 提供了构建基于大模型的 AI 应用所需的模块和工具,使得任何人都可以基于 GPT-4 等大模型构建自己的创意应用。
- 大众汽车 宣布将 ChatGPT 引入车载助手,将在配备最新一代信息娱乐系统的特定车型中启用。
- Meta 公布 audio2photoreal AI 框架,该框架能够生成一系列逼真的 NPC 人物模型,并借助现有配音文件自动为人物模型 “对口型” “摆动作”。
- 百川智能 发布角色大模型 Baichuan-NPC,并推出了 “角色创建平台+搜索增强知识库” 的定制化方案。
- 1月10日:
- 韩国 VTouch 公司在 CES 2024 推出一款 WHSP Ring 指环,可以让用户实现低声与 AI 助手对话。
- 统信软件 的应用商店上架 UOS AI,兼容云侧端侧大模型,支持国内主流 CPU 芯片。
- 荣耀 揭晓了其自研端侧 70 亿参数平台级 AI 大模型 “魔法大模型”,将由荣耀 Magic 6 手机首发。
- 微软、太平洋西北国家实验室(PNNL) 合作,借助 AI 力量识别出新材料,应用在电池中,最多可以减少 70% 的锂金属使用量。
- 1月11日:
- 美国初创公司 Rabbit 推出的口袋 AI 设备 Rabbit R1,首批 1 万台在一天内售罄。
- 在今年 CES 2024 上,日本一家初创公司推出了给狗狗听的 AI 音乐。
- 上海AI实验室、香港中文大学数据科学院、深圳大数据研究院 联合开源了一个名为 Amphion 的音频、音乐和语音生成工具包。
- 沃尔玛 宣布将在 2024 年进一步改善数字购物体验,将生成式 AI 构建到其搜索功能中。
- OpenAI 正式推出 GPT 商店,汇聚超过 300 万个自定义版本的 ChatGPT,并发布 ChatGPT Team,收费标准为 25 美元/月。
- 1月12日:
- 施华洛世奇 Optik 发布 AX Visio 望远镜,售价为 4799 美元。据悉,这款 10 x 32 望远镜拥有 10 倍放大倍率,续航最长 15 小时,内置 NPU 神经处理芯片,号称能够辨认出 9000 种鸟类。
- Tele-AI(中国电信人工智能研究院) 宣布开源 TeleChat-7B 大模型,并开放 1T 数据集,采用 1.5 万亿 Tokens 中英文语料进行训练。
- 施华洛世奇 发布 Optik AX Visio 望远镜,内置 NPU 神经处理芯片,号称能够辨认出 9000 种鸟类,并能够实时标注鸟类种类及信息。
- 1月15日:
- 日本相机厂商 尼康 开发了一套能够提前预警奶牛分娩的 AI 系统。
- 谷歌研究院 建立了一项 “BIG-Bench Mistake” 数据集,并利用相关数据集对市面上流行的语言模型的 “出错概率” 及 “纠错能力” 进行了一系列评估研究。
- 1月16日:
- Adobe Premiere Pro 引入了全新的 AI 驱动音频编辑功能。
- 微软 的 AI 图像生成器 Image Creator 移除 “Bing” 前缀,改名为 “Designer 中的 Image Creator” 或简单的 “Image Creator”。
- 山姆会员商店 展示了一项利用 AI 识别买家购物车内容从而进行 “小票验证” 的技术,目前相关技术已经应用在北美 10 家山姆会员商店中。
- 南加州大学、哈佛大学 等机构的研究团队提出了一种全新的基于提示学习的方法 DreamDistribution,可学习个性化参照,无限生成多样图片。
- 1月17日:
- 商汤科技、上海 AI 实验室、香港中文大学、复旦大学 联合发布新一代大语言模型 书生・浦语 2.0(InternLM2),在 2.6 万亿 token 的语料上训练得到,200K 上下文,一次可读 30 万汉字。
- 1月18日:
- 联想 的 AI 助手 “小乐同学” 预计 3 个月后上线,支持自然语言交互,可一键唤醒、翻译文档、制作 PPT 等。
- 1月19日:
- Meta 宣布改组旗下 AI 部门,并着手训练自家下一代大语言模型 Llama 3。
- 微软 的 Image Creator 生成图片未来可存储至 OneDrive 云盘。
- 微软 推出独立 AI 工具 “阅读教练(Reading Coach)”,辅助提高学习者阅读能力。
- 1月20日:
- Midjourney 发布 Midjourney V6 版本更新,画质逼真,人像图片令人惊叹。
- Jan AI 发布,100% 本地运行、100% 开放源代码,是一个跨平台、本地优先和 AI 原生框架。
- 1月21日:
- 鳍源科技 发布全新自研水下AI技术——AI潜水员追踪功能,结合鳍源自研的AI水下图像过滤算法,通过鳍源自主研发的水下视觉识别技术,识别画面中潜水员运动姿态,实时自动运算分析,实现精准的水下视觉锁定和追踪。
- 1月22日:
- Stability AI 发布 Stable LM 2 1.6B 小语言模型,体积更小、性能更高效,在大多数基准测试中均优于其他参数低于 20 亿个的小语言模型。
- 百度文心大模型 落地 吉利银河 L6 车型,支持 AI 对话功能。
- 1月23日:
- 谷歌 开发了一款 ASPIRE 训练框架,为 AI 模型引入了 “可信度” 机制。
- 微软 Copilot 上线 ChatGPT GPT 功能,免费邀请部分用户体验。
- 阿里云 宣布,由中国一汽联合阿里云通义千问打造的大模型应用 GPT-BI 率先落地,可接收自然语言查询,结合企业数据自动生成分析图表,目前可达到近 90% 的准确率。
- 1月24日:
- 谷歌 发布 “艺术自拍 2”,用 AI 将自拍照 P 进不同艺术作品。
- 蚂蚁集团 成立 AI 创新研发与应用部门 NextEvo,由前谷歌 AI 工程师徐鹏掌舵。
- 1月25日:
- 百度智能云 与 中国三星 达成合作,Galaxy AI 集成文心大模型,带来 “即圈即搜” 等功能,可提供端侧赋能的通话、翻译功能,以及借助生成式AI带来的智能摘要、排版等功能。
- 夸克 上线大模型新产品 “AI PPT”,可一键生成提纲、创作 PPT。
- 1月26日:
- 腾讯文档 AI 开启公测,面向全网用户陆续开放体验,支持全品类文档生成、跨品类信息处理等。
- OpenAI 为 ChatGPT 更新了 “多语言功能” Alpha 版,用户可以将界面修改为简体中文。
- 1月27日:
- OpenAI 更新 GPT-4 Turbo 预览模型,下调 GPT-3.5 Turbo 模型 API 调用价格 50%,优化现有模型性能,并发布全新嵌入性模型。
- 印度企业家创办的 AI 初创公司 Krutrim 获得 5000 万美元融资,公司估值达到 10 亿美元。
- 联想至像 首发 AI 语音控制打印机,为即将上市的新款机型以及已经发布的 WIFI 功能的打印机都开放升级语音功能。
- 1月29日:
- 百川智能 发布超千亿参数的大语言模型 Baichuan 3,在 CMMLU、GAOKAO 和 AGI-Eval 等评测中,号称在中文任务上超越了 GPT-4。
- 谷歌研究院 推出 Lumiere “文生视频” 模型,主打采用自家最新开发的 “Space-Time U-Net” 基础架构。
- 1月30日:
- 中国台湾地区医院开发了一款基于英特尔软硬件的 AI 咽喉癌检测App。
- AMD 推出 XDNA Linux 驱动,扩展 Ryzen AI 至更多系统平台。
- 一个名为 3DHM 框架 的技术方案出现,旨在解决单张照片驱动人物模仿视频的难题。
- 北京通用人工智能研究院 研发了通用人工智能小女孩 “通通”,并于近日首次公开展出。
- 科大讯飞 正式发布 讯飞星火认知大模型 V3.5 版本,是首个基于全国产化算力平台 “飞星一号” 训练的全民开放大模型,并称整体能力接近 GPT-4。
- 科大讯飞 发布内置星火大模型 V3.5 的新一代 星火智慧黑板。
- 科大讯飞 表示,星火认知大模型 V3.5 的语言理解和数学能力已经超过 GPT-4 Turbo,代码能力达到 GPT-4 Turbo 的 96%,多模态理解达到 GPT-4V 的 91%。
- 科大讯飞 推出 星火开源大模型,基于去年 5 月的星火 1.0 版本(13B)改进而来。
- 三星 宣布 Galaxy S24 系列 旗舰手机首发搭载 Galaxy AI,并将于今年上半年下放到 2023 年的旧机型中。
- 1月31日:
- OpenAI 回应 ChatGPT 泄露私密对话 事件,称是用户账号被盗所导致。
- 中国工商银行、科大讯飞、华为、阿里云 等联合发布业内首个 代码大模型标准,适用于企业在代码大模型的研发、评估和验收等过程中。
1月总结:
1月份,全球AI领域呈现出蓬勃发展的态势,技术创新和应用落地并驾齐驱。OpenAI 的 GPT 商店正式上线,谷歌 的 Lumiere 模型在文生视频领域取得突破,Midjourney V6 版本则带来了更逼真的图像生成效果。与此同时,AI 技术进一步渗透到各个领域,从 三星 的 AI 扫地机器人,到 尼康 的 AI 奶牛分娩预警系统,再到 山姆会员店 的 AI 小票验证技术,都展示了 AI 技术的广泛应用前景。
国内方面,阿里云 的通义千问 APP 推出了 “通义舞王” 功能,科大讯飞 发布了星火认知大模型 V3.5 版本,百度文心大模型 落地吉利汽车,商汤科技 等联合发布了书生・浦语 2.0。
2024年2月:应用爆发,开源风起
- 2月1日:
发布评论