科技助残 共享美好生活(十二)丨人工智能让视障者拥有“会思考的眼睛”
来源:    时间:2024-05-25    作者:中国残疾人杂志社 呼和浩特市残联

飞速发展的科技,正悄然改变着我们的生活。

新质生产力代表着创新、突破与变革,为科技助残领域注入了无限活力。科技产品不应是冰冷的工具,而是能够温暖人心、帮助残疾人更好地融入社会的有力支撑。

中国残疾人杂志社推出“科技助残 共享美好生活”系列报道,让我们在这个题里,一同探索新质生产力与科技助残的美妙结合,领略科技带来的希望与美好,感受走进现实的“未来”。


科技化、数字化

是中国科技高质量发展的主旋律。

2024年《政府工作报告》明确指出

要加快发展新质生产力,

开展“人工智能+”行动,

这标志着

人工智能已成为引领新质生产力发展的关键引擎


人工智能多模态大模型

是人工智能领域中的一项重要技术,

是一项战略性新兴产业,

可以推动科技跨越发展、产业优化升级、生产力整体跃升。

在人工智能多模态大模型服务场景中,

残疾人的生活正在随之变化


现在,

在人工智能的帮助下,

视障人士出行时可以通过摄像头,

将眼前的画面随时转化成语言,

耳机中描绘即时场景,

提示着可能出现的风险。

复旦大学自然语言处理实验室

基于人工智能多模态大模型“复旦·眸思”(mousi),

已经开放上线测试,

供视障人士使用。


人工智能让“眼睛会思考”



“眸思”顾名思义,

会思考的眼睛,

眸思能够理解并识别图片内容,

它致力于成为视障者的一双眼睛。

1896e0fc7972d9d6697eeef955587da8.png


基于“眸思”的“听见世界”app,为视障者日常生活需求量身打造,设计以下三种模式——


a25db43135a07d8a2a47c41e03fd242f.png

街道行走模式


“眸思”如一位忠实的向导

红绿灯、十字路口、障碍物……

它将细致扫描道路情况

提示潜在风险

陪伴视障者安全通行

“看不见”的漫漫长路


02b90a5f4e4d63373d5621aa25a9a77d.png


自由问答模式


“眸思”则是一位贴心的朋友

走进博物馆、艺术馆、公园……

捕捉四周景象的每个细节

用声音构建丰富的生活场景

传递每一处日常之美


bd27473d9059626e554502b184cb1ed5.png

寻物模式


“眸思”将成为一名可靠的管家

被移动的手杖、最爱口味的牛奶……

日常物件的寻觅过程

变得轻松无压力



“眸思”项目由学生打造



dfbe4a63ebcc1d58085bf34a385eb3d0.jpg

复旦大学眸思项目团队


“眸思”项目的主导者实际上都是“初出茅庐”的学生们,

整个团队25人,

全部由复旦大学的学生组成。

为了更好地感受视障者的难处,

团队成员同样模拟真实情境,

蒙眼探索视障者“黑暗”世界,

并邀请视障人士加入,

进一步摸清真实而具体的需求。

在基于几亿张图片训练出的“眸思”大模型基础上

针对视障者提出的各类需求,

团队又用上万张图片进行特殊样本训练,

使“眸思”具备能够适配更多场景的能力。

项目由复旦大学自然语言实验室张奇教授带队,

张奇说:“人工智能发展日新月异,

科技应该要改变更多人的生活,

希望‘眸思’能够帮助视障人士走出家门,

让他们可以尝试更多工作,

为人生书写更多可能”。