多模态智能交互小车

校园场景AI原型开发

打造一款融合计算机视觉与自然语言处理的智能小车，核心目标是通过轻量化AI技术实现"环境感知-身份识别-情感交互"的跨场景应用，验证智能移动载体在校园实验室辅助、简单导览等场景的可行性，为具身智能产品落地提供技术原型参考。

我的角色与职责 (AI产品经理视角)

需求梳理与技术选型

• 调研校园场景痛点，确定三大核心功能
• 选定MindSpore框架和华为云ModelArts
• 统筹3人团队（算法/硬件/交互）
• 明确各模块交付节点

迭代管理与验收

• 用原型工具设计交互流程
• 组织2轮用户测试优化功能优先级
• 通过周会推进模块衔接
• 制定量化指标和验收标准

挑战与解决方案

边缘设备算力不足

敏捷试错

问题

三维点云重建和情感分析模块占用算力过高，小车响应延迟超500ms

解决方案

用敏捷思路拆分优先级，先跑通单模块独立运行，再通过MindSpore模型压缩（体积减40%）+动态调度（按需启动模块），将延迟压至200ms内

复杂光线影响识别准确率

落地攻坚

问题

实验室背光、室外强光场景下人脸识别误差大，准确率低至78%

解决方案

快速收集2000+多光线样本，用ModelArts训练适配子模型，通过A/B测试验证效果，最终全场景准确率达98.3%

成果与影响

98.7%

人脸识别准确率

支持戴口罩识别

≤5mm

三维点云重建误差

高精度环境建模

89%

情感分析准确率

语音/文本情绪判定

40%

设备记录效率提升

实验室管理员反馈

用户反馈

实验室管理员

"设备记录效率提升40%"

测试学生

"语音交互流畅，响应符合预期"

技术栈与工具

算法框架

MindSpore华为云ModelArtsPythonOpen3DNLTK

硬件设备

Jetson NanoRGB-D摄像头麦克风模块Arduino

开发工具

FigmaJiraGit

学习与反思

成长收获

深刻体会"技术落地需平衡算力与需求"，初期追求全功能导致卡顿，通过MVP+快速迭代才找到平衡点

迭代方向

后续可引入ROS优化硬件控制，扩展传感器提升环境感知维度

方法验证

验证了"用户测试+量化指标"对技术项目的重要性，可复用于具身智能产品开发