本文背景

由于技术部部长的职务需求,我去旁听了考拉工作室成员有关基于大语言模型的机械臂项目的会议,进行了一些整理,尝试理解“如何启动一个新项目”。

会议记录

项目主题

基于大语言模型制作的智能机械臂,可以通过语音识别用户需求,并做出抓取和移动物品等一系列操作。

与会人员

  • 考拉学姐,考拉工作室总监
  • J学姐,大四,对该项目先前有一定了解
  • L学长,cs
  • H同学,大一,电气
  • 我自己,旁听

项目背景

时下大语言模型(LLM)热度很高,网络上出现许多将大语言模型运用于机械臂的视频。

会议内容

可行性分析

通过寻找网络资源,可以得到许多开源的大语言模型和库函数,方便我们编写代码。

深度讨论

安排高年级同学分析项目需求,低年级同学负责在理解的基础上进行补充讨论。

  1. 功能需求:
    • 语音识别
    • gpt接口调用
    • 控制机械臂实现功能
  2. 工作需求:
    • 制作视觉识别模块
    • 编写算法,提取识别到图像的坐标
    • 输入各个电机的转角度数等参数

在实际讨论中,出现了如下几个问题:

  1. 如何将电脑上的储存指令的文本通过协议传输到机械臂
  2. 路径规划存在问题,是否需要编写函数算好转角度数
  3. 大语言模型准确率存在问题,但是因为没有工业化需求,所以这个不重要

项目落实

考拉学姐进行一定补充后,大纲基本完成。我们开始尝试初步将项目落实到每一个具体模块。需要考虑到的内容包括:

  1. 各模块连接方式
  2. 各模块具体内容

在这个讨论过程中,还需要解决实际工作中的一些问题:

  1. 程序问题:gpt对自然语言识别能力薄弱,需要自己编写代码打包一套指令集让gpt调用;gpt o不能稳定实现多模态图像识别,不推荐使用;
  2. 硬件问题:要准备迷你机、数据线、摄像头、麦克风、固定板等,迷你机经费问题亟待讨论;
  3. 分工问题:给每个成员合适的分工,规定任务内容和ddl,确认下一次碰头的时间。

个人体悟

坦诚地说,一个多月之前,我不仅没有加入考拉技术部,也没有参与过任何一场大型比赛,甚至没有接触过这样货真价实的机械设计。短短两天之内,为了学明白“部长要干什么”,我接受了太多闻所未闻的知识。日后,大概从下个学期起,我也要不得不频繁地组织会议与启动项目。

一个会议的大致内容详见上文的小标题,此处不多赘述。具体地说,在一个会议中,我作为一个实质上的领导者,一方面要有足够的知识储备,即便不参与这一项目的实际工作,也要对其原理足够理解——在这次会议中,我听得并不算艰难,但是很难保证日后的每一场会议都会如今日般容易理解,因此在期末考后自己需要在短时间内进行一些技术积累了;另一方面,需要有关于项目清晰的思路,把上述步骤牢记于心,不至于冷场卡壳,需要在必要的时候活跃氛围,调动组员思绪,这一点也需要足够的实践来积累经验。

实质上,会议内容就是浓缩了做项目的流程,把项目的每一个模块、每一个步骤细化再细化,对其可行性做一个最基本的保障。

另外,就竞赛方面,这两天我也学到了一些以前不知道的知识,这里不多详述,只总结成如下几点:

  1. 不必闭门造车,可以通过网络搜索、咨询同学来获取需要的资源,如库函数、大语言模型等;
  2. 由于stm32初始化的麻烦,实际比赛中树莓派更常用;
  3. 经费方面,最好开500元以内的发票,不然报销很麻烦。