李艺博

南方科技大学

📞 15909822363

📫 12111628@mail.sustech.edu.cn


教育经历

本科                                                                                         2021.09 至今

南方科技大学

统计与数据科学系 -- 数据科学与大数据技术专业

GPA:3.76/4

专业导师:杨鹏

学术经历

竞赛 -- Kaggle LMSYS - Chatbot Arena Human Preference Predictions

旨在帮助聊天机器人的回复更加符合人类的偏好,这项竞赛要求根据数据集中的prompt和不同大模型的回复,来预测用户更加偏好哪一个回复。

我通过使用 Qlora微调 Google开源的 Gemma 2 9B 模型,并通过数据增强增加训练样本,训练得到一个分类器,在提供的测试集上取得0.943的 log loss。

文献整理 -- 阅读整理关于 few shot learning 论文

为了完成 Kaggle ARC Prize 2024 竞赛,调查目前关于 few shot learning 的研究。我阅读了十篇左右相关领域论文,并将有价值的核心内容以及理念整理成一篇阅读报告(目前仍在进行中),为后续实现算法完成竞赛做准备。

论文复现 -- 复现论文 Neural Collaborative Filtering

论文创作和代码编写时间是2017年左右,原代码使用当时比较热门的keras实现了论文中提到的三种算法。

在学习pytorch之后,我使用pytorch复现这篇推荐系统领域的经典论文,包括构建数据集,实现论文中的GMF,MLP和NeuMF三种方法,以及比较不同层数的MLP的效果,最终取得了和原论文相似的实验结果,证明工作的可复现性。

项目 -- 使用神经网络实现逆强化学习

传统逆强化学习方法基本是通过假设状态的 reward 可以通过状态向量的线性和非线性组合表示,然后通过迭代的方法优化这种奖励的表示,使得产生的轨迹最贴合专家轨迹。即使与深度学习相结合也只是考虑通过神经网络中更加复杂的线性和非线性组合来获得更加复杂的奖励的表示。

考虑到强化学习中有着直接使用神经网络实现的策略梯度算法,我同样尝试完全使用神经网络实现逆强化学习算法,即给定policy作为输入,通过神经网络获得reward作为输出。在网格世界下,我使用值迭代算法获得5000条policy,reward数据对来训练一个五层CNN,由于神经网络推断只涉及到前向传播且不需要每一次都经历迭代,所以最终得到的模型可以在极短的时间内获得结果,但是损失略高于传统算法且不稳定。

参加会议

"Brain-network-inspired computing for next-generation efficient and sustainable AI", Prof.Carlo Vittorio Cannistraci, Tsinghua Laboratory of Brain and Intelligence, Sep 2024

"User behavior simulation based on large oracle model agent", Prof.Xu CHEN, Renmin University of China, Jun 2024

荣誉奖励

南科大新生奖学金,2021-09

国家励志奖学金,2023-11

大学生创新创业大赛校级奖, 2024-05

技能