4 款超实用 AI 开源项目盘点:从格式转换到具身智能,覆盖开发与办公全场景!

AI 开源生态持续爆发,各类轻量化、高实用的项目层出不穷,覆盖办公提效、机器人研发、代码开发、桌面自动化等多个核心场景。本次为大家精选 4 款近期超受关注的 AI 开源项目,既有北理工打造的格式转换神器,也有小米的具身智能大模型,还有自研代码智能体和本地 AI 桌面助手,全部免费可用,开发者和办公人士可直接上手!

一、Edit Banana:北理工出品,图片 / PDF 图表秒变可编辑格式

由北京理工大学开发的Edit Banana(编辑香蕉),是一款专为科研、办公打造的通用内容重编辑器,核心解决图片、PDF 中统计图表、流程图无法编辑的痛点,由 SAM3 和多模态大模型驱动,实现静态内容到可操作资产的转化。

核心特性

  1. 高保真深度重建:区别于普通 OCR 工具,基于计算机视觉模型对图表的逻辑关系、形状组件和文本进行深度解析,保留原始细节和逻辑,生成的元素可独立选中、修改,而非简单的背景图;

  2. 多格式输出:支持将上传的图片、PDF 转换为 DrawIO(XML)、PPTX 等主流可编辑格式,科研流程图、技术架构图均可一键转换;

  3. 可视化操作:提供 Web 在线界面,上传文件后可在嵌入的编辑器中实时修改,无需额外安装软件;

  4. 商用友好:基于 Apache2.0 协议开源,支持商业使用和二次开发,仅需保留版权声明。

适用场景

科研论文图表重绘、办公 PPT 素材提取、技术文档流程图修改,尤其适合需要对现有图片 / PDF 图表进行二次编辑的场景,大幅节省重新绘制的时间。

开源地址https://github.com/bit-datalab/edit-banana

在线体验https://edit-banana.anxin6.cn/

二、Xiaomi-Robotics-0:小米开源 47 亿参数具身智能大模型,实现实时推理

小米机器人团队 2026 年 2 月正式开源的Xiaomi-Robotics-0,是一款先进的视觉 - 语言 - 动作(VLA)具身智能大模型,专为机器人高性能推理和实时执行设计,解决了传统大模型在机器人领域的推理延迟问题,为具身智能研发提供了强大的开源底座。

核心特性

  1. 47 亿参数,强泛化能力:在大规模跨体态机器人轨迹和视觉 - 语言数据上预训练,能应对复杂且未见过的任务,避免底层视觉语言模型的灾难性遗忘;

  2. 实时执行,低延迟:通过异步执行优化、连续动作块时间步对齐等技术,最大限度减少推理延迟,实现真实机器人上的流畅、无缝实时执行;

  3. 消费级 GPU 适配:针对消费级 GPU 做专门优化,无需高端算力即可部署,且与 Hugging Face transformers 生态完全兼容,开发门槛低;

  4. 全流程开源支持:已发布技术报告、LIBERO/CALVIN/SimplerEnv 数据集的预训练和微调权重,同时上线推理代码和评估脚本,开箱即用。

技术亮点

模型由预训练视觉语言模型(VLM)和扩散变换器组成,通过预训练 + 后训练两阶段方案,既保留视觉语言理解能力,又实现动作生成的实时性,在仿真基准测试中达到 SOTA 性能,真实机器人双足精细操作任务中成功率和吞吐量表现优异。

开源地址https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

三、MyCodeAgent:从 0 搭建 Claude Code 级代码智能体,吃透 Agent 工程化开发

MyCodeAgent是开发者基于 Datawhale《从零开始构建智能体》教程打造的代码智能体项目,目标是实现类似 Claude Code 的代码开发能力,核心价值在于通过系统化工程化改造,解决 Agent 开发中的工具失控、协议脆弱、上下文膨胀等核心问题,为开发者提供可落地的 Agent 开发参考。

核心特性

  1. 完整的代码 Agent 工作流:支持代码需求分析、同类竞品联网搜索、UI/UX 技能调用、代码生成与落地,可完成从需求到实际 HTML 文件的全流程开发;

  2. 多工具集成与子代理能力:集成 MCP 搜索、TodoWrite 任务规划、Skill 技能调用等工具,支持启动 subagent 子代理完成任务总结、数据分析等子工作;

  3. 工程化约束设计:通过工具原子化、协议结构化、上下文治理、状态可观测四大核心手段,将大模型的不确定自由行为约束在可控范围内,把不可靠的 “聪明” 转化为稳定的生产力;

  4. 基于 GLM-4.7 开发:适配智谱 GLM-4.7 大模型,可直接基于现有骨架进行二次开发,快速实现自定义代码 Agent。

开发价值

该项目并非单纯的成品工具,更像是一份 Agent 工程化开发的实战案例,清晰展示了从基础骨架搭建到问题修复、能力升级的全流程,让开发者理解 Agent 开发的核心并非追求模型无限自由,而是通过工程设计驾驭模型能力。

开源地址https://github.com/YYHDBL/MyCodeAgent

四、Accomplish:本地部署的 AI 桌面助手,自动化办公 + 隐私保护双兼顾

Accomplish是一款主打本地运行、隐私优先的开源 AI 桌面助手,将 AI 能力深度集成到桌面环境,实现文件管理、文档处理、浏览器自动化等办公任务的全流程自动化,是 AI Agent 在桌面端落地的典型代表,目前在 GitHub 已收获 6.9k + 星标。

核心特性

  1. 本地运行,隐私可控:所有数据处理在本地机器完成,支持使用自有 API 密钥(OpenAI/Anthropic/Google/xAI)或通过 Ollama 运行本地大模型,避免私人数据上传云端;

  2. 多场景自动化

    • 文件管理:按内容或自定义规则自动分类、重命名、移动、清理文件;

    • 文档处理:撰写草稿、总结长文档、重写报告 / 会议记录,支持与 Notion/Google Drive/Dropbox 联动;

    • 浏览器自动化:执行网页调研、表格填写、数据爬取等工作流,可保存重复流程为 Skill 随时调用;

  3. 办公提效专属功能:从散乱文件和笔记中提取信息,自动生成周报、会议准备资料,支持专业邮件撰写、文档翻译、批量处理等高频办公需求;

  4. 跨平台支持:基于 MIT 协议开源,支持 macOS 等主流系统,界面简洁,操作门槛低,非技术人员也能快速上手。

适用人群

需要处理大量重复办公任务的职场人士、希望实现桌面操作自动化的开发者、注重数据隐私且需要 AI 提效的个人用户,完美替代部分付费办公自动化工具。

开源地址https://github.com/accomplish-ai/accomplish

总结:四款项目各有侧重,覆盖不同需求场景

本次盘点的 4 款 AI 开源项目覆盖办公提效、机器人研发、Agent 开发、桌面自动化四大核心领域,且各有明确的定位和价值:

  • Edit Banana:聚焦格式转换,解决科研 / 办公中的图表编辑痛点,工具属性强,零门槛使用;

  • Xiaomi-Robotics-0:深耕具身智能,为机器人研发提供高性能、低延迟的 VLA 大模型,技术门槛较高,适合机器人领域开发者;

  • MyCodeAgent:主打Agent 工程化开发,以实战案例展示代码智能体的搭建过程,适合想要学习 Agent 开发的开发者;

  • Accomplish:专注桌面端 AI 自动化,本地运行 + 多任务自动化,兼顾提效与隐私,适合所有办公人群。

以上项目均为开源且支持二次开发,开发者可根据自身需求下载使用、定制优化,普通用户可直接利用成品工具实现效率提升,充分享受 AI 开源生态的技术红利。

小米开源机器人模型可以啊

小米这个机器人模型有点意思啊

这波开源项目确实挺实用的

小米这个机器人模型很实用啊

edit banana看着挺实用啊

小米那个机器人模型挺实用的