首页 新闻 教育 校园 文学 互联网 商业 科技 旅游 健康 生活 电商 文娱 汽车

揭秘听见世界APP:人工智能公益助盲,复旦眸思大模型打破视觉界限

2024-02-17 11:16   来源: 新华教育网

      随着科技的不断发展,人工智能不仅在商业领域取得了巨大成功,也在公益事业中展现了强大的潜力。一部名为《听见世界》的公益短片在社交媒体上引起了关注,它不仅让观众感受到深刻的情感共鸣,还展示了复旦眸思大模型如何借助AI科技为视障者打破视觉界限的努力。

      目前,听见世界APP已经上线,盲人朋友可以在安卓商店进行应用下载。为揭开听见世界项目的神秘面纱,我们对复旦眸思公益助盲项目团队进行了专访。


      源起:复旦眸思大模型,助力产品打破视觉界限

      “在多模态大模型开发过程中,我们一直在探讨利用多模态大模型能具体做些什么。我们在眸思多模态大模型构建过程中使用了数亿张图片进行训练,其中有大量的自然场景,在测试过程中,我们发现它可以非常好地对自然环境,甚至是可以对非常罕见的自然场景进行准确描述,”中工互联首席科学家、复旦大学计算机学院教授张奇讲道:“我们觉得这就像是机器长了眼睛。由此,我们很快想到将图像转换为语音,可以为盲人朋友在行走、寻找物品等场景下提供巨大的帮助。”

图:听见世界项目研发团队部分成员


      显而易见,复旦眸思大模型成为了听见世界APP运行的基石。

      张奇教授表示:眸思大模型提出了全新的多视觉专家混合架构。它将擅长图文匹配、光学字符识别(OCR)和图像分割等多种经典视觉任务的专家巧妙地融为一体。在各类场景中,眸思大模型展现出良好的性能和逻辑推理能力。

      中工互联(北京)科技集团有限公司创始人、董事长智振讲道:“眸思大模型是复旦大学NLP实验室的最新力作,代表国内科研机构最先进的技术水平。听见世界APP的表现非常惊艳。长远来看,随着人工智能技术的进步和未来脑机接口技术的突破,可能盲人朋友真就能‘看到’世界了。要实现这一长远的目标,需要全世界科技工作者共同的努力。”

图:中工互联董事长智振


      推进:项目研发团队,产学研用强强联合

      复旦大学自然语言处理实验室与复旦大学视觉与学习实验室在开发复旦眸思多模态大模型时就同步进行了听见世界项目的开发工作。该项目由复旦大学桂韬、纪焘、张奇、黄萱菁、邱锡鹏、吴祖煊、姜育刚等主导,樊晓然、江常皓、李烁、金森杰等近20名博士和硕士研究生共同参与了产品研发。

图:张奇教授

      “中工互联在整个项目的研发过程中给予了全方位的支持,”张奇教授讲道:“我们之间建立了良好的战略合作关系,在中工互联擅长的工业领域,我们一起利用多模态大模型,在图纸理解、产品质检和异常检测等领域开展了广泛的产品落地。”

      智振董事长表示:中工互联复旦大学联合实验室,以及智工·工业大模型研发团队全程参与了项目研发。项目团队由顶级大学科研队伍和务实的产品落地成员组成。既有创新精神又可以高效快速落地。这种能力在智工工业大模型的研发中得以展现。


      应用:我是你的眼,世界就在你耳边

      听见世界APP采用安卓系统进行开发,可以支持最低端的智能手机。在后端模型架构层面,研发团队采用了非常灵活的部署策略,可以使用智算中心的闲置算力,甚至是居民个人家庭中3090显卡的闲置时间。

      听见世界APP的全部识别功能都全部来源于眸思大模型,在不同的模式下预设了不同的Prompt,从而方便盲人朋友使用。

      据悉,听见世界APP产品目前设计了街道行走、物品寻找、自由问答和电视介绍等四种模式。它可以成为视障人士的生活助手与智能管家。

图:听见世界APP电视介绍模式

      举个例子。当盲人朋友开启街道行走模式,听见世界APP会通过摄像头实时捕捉交通画面,并将画面传递给复旦眸思大模型,由模型识别当前场景中的情况,并对红绿灯、路口、台阶、坡道等信息进行重点识别,进而生成文字并合成语音,播放给盲人朋友。

图:听见世界APP街道行走模式

      “其他模式与这个类似,都是通过摄像头捕捉图像,盲人朋友通过语音与模型进行交互,从而得到整体结果,”张奇教授讲道:“未来,我们会围绕盲人的衣食住用行等方方面面的需求,全面完善产品功能。让听见世界APP真正变成盲人的朋友的‘眼睛’。”

图:听见世界APP物品寻找模式

      智振董事长表示:听见世界APP,我们为它找到了一个产品推广语——我是你的眼,世界就在你耳边。这款产品既可以成为盲人朋友生活的必备工具,让他们和正常人一样感受到世界的美好。

图:听见世界APP可以实现实时交互


      未来:定位公益项目,让每一份生活都更美好

      关于听见世界APP产品应用成本,研发团队曾经算过一笔账。

      张奇教授分析道:在大模型层面,我们目前有80亿、140亿和350亿等三个参数版本。即便采用80亿参数的版本,一个终端每小时所消耗的GPU计算费用在1元左右,估算下来,服务每个盲人朋友每个月大约需要150元左右。但是,我们希望尽最大努力,协调各方资源,将这个产品免费提供给盲人朋友。

      张奇教授表示:“在政府的支持下,我们计划与NGO组织、智算中心和硬件厂商等开展合作,致力于让盲人朋友免费使用产品和相关的服务。”

图:复旦大学NLP实验室青年副研究员桂韬

      “在人工智能引领的时代潮流中,我们不应该忽视任何一个人,眸思项目能够帮助1800万盲人重新找回生活的色彩,这不仅是技术的一次飞跃,也是人工智能在服务人类,改善我们生活方面道出的重要一步,”复且大学自然语言处理实验室青年副研究员桂韬表示:“这代表着我们实验室对于打造一个更加包容、更加美好世界的坚定承诺。”

      “人工智能等一切科技文明都是人类集体智慧的结晶,我们需要在科技的发展中寻求更多的公正和平等。听见世界,我们对它的定位是公益项目,”智振董事长讲道:“与此同时,我们会加快眸思大模型的商业化落地进程,尽快惠及更多行业更多用户。我们计划在复旦大学中工互联联合实验室的框架内,加大科研经费的投入,首期计划投入1500万研发经费来加大基础大模型的研究。”


责任编辑:刘明德
分享到:
0
【慎重声明】凡本站未注明来源为"新华教育网"的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如因作品内容、版权和其他问题需要同本网联系的,请在30日内进行!