课程
用于大规模语言模型的多模态数据增强
本课题将基于创新的预训练方法,通过在多模态输入中引入混合策略,帮助模型在特征表示层面进行特征解耦,更准确地理解和解析文本、图像、音频等不同模态中的语义信息,从而提升智能交互、视频监控等应用的性能。
工科
SCI
CCF
人工智能
多模态
大语言模型
申请匹配
咨询客服
课题详情
【课题推荐发表期刊】
【课题背景】
随着预训练数据规模的不断扩大,提升多模态大语言模型(MLLMs)的训练效率变得尤为关键。创新的预训练方法,通过视觉和文本输入的独特组合,提升了模型对不同模态特征的对齐和区分能力,从而增强了跨模态理解能力。在零样本和微调任务中,该方法表现出显著的性能提升,尤其是在需要复杂跨模态交互的任务中。研究表明,该方法不仅提升了模型的鲁棒性和泛化能力,还为多模态特征学习提供了新的思路。
本课题将基于创新的预训练方法,通过在多模态输入中引入混合策略,帮助模型在特征表示层面进行特征解耦,更准确地理解和解析文本、图像、音频等不同模态中的语义信息,从而提升智能交互、视频监控等应用的性能。
【适合人群】
多模态学习、自然语言处理(NLP)、机器学习和深度学习相关领域的研究生
熟悉TensorFlow、PyTorch等深度学习框架优先
具备良好的英语阅读和写作能力
【课题收获】
高质量论文一篇(SCI/CCF定向期刊)
SCI/CCF期刊投递与发表指导
结业证书
【导师介绍】
Dr. Liu,QS20高校人工智能博士
目前已发表20多篇高水平论文,如ICML,Nature, Neurips,IJCAI,ACL,IEEE IV,IEEE ITSC
谷歌学术引用量近百次
长期担任IEEE Transactions on Intelligent Transportation Systems、Transportation Re- search Part C: Emerging Technologies、TRB Annual Meeting - Transportation Research Board、IEEE International Conference on Intelligent Transportation Systems、IEEE Intelligent Vehicles Symposium等期刊会议审稿人
曾指导学生在 IEEE IROS, IEEE transaction on image processing发表论文
可提供开源代码并指导复现;可提供部分开放研究数据;可提供一定的算力资源;可撰写推荐信;期刊内推资源;就业/实习机会推荐
【课题安排】
研究周期预估六个月左右,具体视学员情况调整。
【推荐阅读】
课题导师
查看详情 >
Dr. Liu KY99659
QS20高校人工智能博士
大模型,智能体,强化学习,智能决策优化,轨迹预测,自动驾驶,智能交通,游戏AI,数据挖掘