在2018年CCF-GAIR大会上,商汤科技联合创始人林达华教授针对计算机视觉领域的发展趋势,提出了从粗放式研究向精细化探索转型的深刻思考。他指出,随着人工智能技术的快速演进,单纯依赖数据规模和算力堆叠的粗放式研究模式已逐渐显现瓶颈,未来必须聚焦于更具深度与效率的创新路径。以下是林达华分享的三点核心思考:
第一,从“数据驱动”到“知识与数据融合”。传统计算机视觉研究高度依赖大规模标注数据,但现实中许多场景难以获取充足样本。林达华强调,需将人类先验知识、物理规律与数据驱动方法相结合,通过小样本学习、迁移学习等技术,构建更鲁棒且可解释的模型。例如,在医疗影像分析中,融入医学知识可显著提升模型在罕见病诊断中的准确性。
第二,突破“黑箱”局限,发展可解释的视觉系统。当前深度学习模型常被视为“黑箱”,其决策过程缺乏透明性,限制了在自动驾驶、金融安全等高可靠性领域的应用。林达华认为,研究应侧重于模型的可解释性设计,如通过注意力机制、因果推理等方法,使系统不仅能输出结果,还能提供决策依据,增强人机协作的信任度。
第三,从“通用模型”到“场景自适应”的精细化优化。通用视觉模型虽覆盖面广,但在具体场景中常面临效率与精度失衡的问题。林达华提出,需针对不同应用场景(如工业质检、智慧城市)的特点,开发轻量化、自适应算法,通过动态网络结构、元学习等技术,实现模型在资源受限环境下的高效部署。例如,商汤科技在安防领域通过定制化模型,将识别速度提升数倍的同时降低了能耗。
林达华道,计算机视觉的下一阶段竞争将集中于“精细化创新”,即通过跨学科融合、可解释性探索与场景深度适配,推动技术从实验室走向产业核心环节。这一转型不仅需要算法突破,更依赖于产学研协同构建开放生态,以解决实际社会需求为最终目标。商汤科技作为行业引领者,正持续投入基础研究,助力中国人工智能在全球视野下实现从“跟跑”到“领跑”的跨越。