职位描述
工作内容:1、基于transformer的视频任务推进(可能如****Recognition、Temporal****Detection、VideoCaptioning、video-LLM、LongVideoUnderstanding等)2、视频foundation预训练模型调研和推进任职要求:1、熟悉CNN基础模型,transformer基础模型(如resnet、vit、clip等)2、了解视频相关的基础任务、基础开源数据等3、硕士研究生以上学历,计算数学、模式识别、图像处理、多媒体技术等专业方向4、熟练掌握pytorch深度学习平台5、熟悉图像处理、模式识别算法,熟悉了解OpenCV、decord、CvCuda等图像处理平台6、熟悉Linux平台下脚本程序Shell、Python等,并能解决实际问题,可以针对数据清洗、数据标注灵活定制开发相关工具7、积极主动、性格开朗,乐于接受挑战,具有主动学习能力。
企业介绍
格灵深瞳是一家行业领先的人工智能公司,专注于将先进的计算机视觉技术、大数据分析技术、机器人和人机交互技术与应用场景深度融合,提供面向智慧金融、城市管理、商业零售、轨交运维、体育健康、元宇宙等领域的人工智能产品及解决方案。公司成立于 2013 年,2022年3月在上海证券交易所科创板挂牌上市,成为A股第一家AI计算机视觉上市公司。