逐水寻源

路漫漫其修远兮

保研经验帖

Tim 发布于 2023-10-09 收录于经历分享

这篇文章记录了一名末流211计算机学院大数据专业学生在多个夏令营和预推免中的经历。作者详细描述了参加吉林大学、南京大学、中国人民大学高瓴人工智能学院、中南大学和东南大学等五个夏令营的过程。每个夏令营都有不同的考核方式，包括笔试、面试、机试等，作者分享了自己在这些考核中的表现和感受。在吉林大学软件学院的夏令营中，考核包括自我介绍、试题回答和专家提问，涉及英语、计算机网络、操作系统和项目目标等问题。南京大学的夏令营则包括初筛、在线考试、机试和面试，在线考试内容广泛，涉及多个计算机相关领域。中国人民大学高瓴人工智能学院的夏令营给作者留下了深刻印象，考核包括笔试和面试，笔试内容涵盖数据结构、算法、英语和数学，面试则包括自我介绍、项目困难和解决方案等问题。中南大学大数据研究院的夏令营包括笔试、机试和英语+PPT面试，考核内容相对简单。东南大学的夏令营流程较为简单，仅有面试，作者准备了PPT进行介绍，并回答了项目创新点和研究进展等问题。在预推免阶段，作者参加了浙江大学、西安交通大学和中科院计算所的面试。浙江大学的数据科学项目面试包括自我陈述、专业知识问答和思想考核，西安交通大学的人机所面试则采取了群面的形式。文章最后总结了2023年保研形式的变化，包括线上转线下、保研名额增长、强基转段和国优计划等，并建议学生尽早联系导师和准备材料。

多主题共存的博客方案

Tim 发布于 2023-09-09 收录于计算机技术

在博客设计中，兼顾实用与美观的主题选择常常是一个挑战。本文提出了一种解决方案，允许在同一博客中使用多种主题，并能在不同主题间快速切换。通过使用Hexo的hexo generate命令指定不同的配置文件，可以实现多主题的生成。本文选择了Hexo Next 8和Aurora主题，分别为其配置了独立的配置文件和生成命令。Aurora主题需要的插件hexo-plugin-aurora与其他主题互斥，为此，采用了在构建时动态安装和卸载插件的方法，以保持package.json的简洁。为了实现主题间的路由一致性，本文建议在全局配置文件中统一permalink设置。Aurora主题作为Vue构建的单页应用，需要特殊的路由配置，尤其是在Vercel上托管时。通过在根目录创建vercel.json文件，设置重定向和反向代理规则，可以解决.html后缀的兼容性问题。对于不支持Pretty URL功能的Vercel，文章建议将Next主题托管于Netlify，以利用其对.html后缀的处理能力。最后，文章分享了在Vercel和Netlify上的部署配置，以便读者参考和应用。

大数据可视化课程复习

Tim 发布于 2023-06-30 收录于学习笔记和课程笔记

本博客首先探讨了数据、图形与可视化之间的关系，指出数据是可视化的基础，而图形是数据的表现形式。可视化的流程包括数据收集、处理、分析和展示，强调了每个步骤的重要性。文章接着分析了不同类型图表的特点：比较类图用于对比不同数据集，分布类图展示数据的分布情况，流程类图则用于描述过程或步骤。矢量图与位图的特点也被详细论述，矢量图具有缩放不失真的优势，而位图则在色彩表现上更为丰富。结构化数据、半结构化数据和非结构化数据的特点也被分析，结构化数据具有固定格式，半结构化数据有一定的结构信息，而非结构化数据则完全无结构。在云服务方面，文章介绍了不同类型的云服务及其应用场景，并特别提到华为云DLV的特点，如其高效的数据处理能力和灵活的可视化功能。AR、VR、MR技术的特点也被讨论，分别强调了增强现实、虚拟现实和混合现实的应用和发展趋势。最后，通过看图写代码和看代码画图的实践环节，文章展示了如何使用matplotlib和echarts进行数据可视化。通过这些实践，读者可以更好地理解如何将理论应用于实际操作中，提升数据分析和可视化的能力。

深度学习课程复习笔记

Tim 发布于 2023-06-21 收录于学习笔记数据科学与机器学习和课程笔记

本博客内容涵盖了机器学习和深度学习的多个重要方面，分为多个章节进行详细讲解。首先，介绍了机器学习的基本题型和分值分布，强调了课程中需要重点掌握的算法和理论，包括随机梯度下降、正则化方法（如L1和L2）、Dropout等。接着，深入探讨了Logistic回归、Softmax回归及其损失函数的应用场景，并解释了经验风险与结构风险的区别。随后，博客分析了几种常见的激活函数（如Sigmoid和ReLU）的优缺点，以及前馈神经网络的基础知识。在卷积神经网络（CNN）部分，详细描述了CNN的特点、卷积层和汇聚层的作用，以及残差网络的工作原理。接下来，博客介绍了循环神经网络（RNN）及其变种LSTM和GRU，讨论了它们在处理序列数据时的优势和不足。网络优化章节重点讲解了学习率的改进、自适应调整方法（如Adagrad、Adadelta、RMSProp）、梯度优化技术（如动量法、Nesterov加速梯度、Adam算法）以及数据归一化方法。注意力机制部分则介绍了Attention和Self-Attention的意义、公式和处理流程，以及Transformer的结构和优势。最后，博客探讨了强化学习的基本要素和常用算法，如策略迭代、值迭代、SARSA算法和Q-Learning算法，并通过蒙特卡洛采样方法解释了强化学习中的状态值函数和动作值函数。通过这些内容，读者可以全面了解机器学习和深度学习的核心概念和技术应用。

机器学习课程复习笔记

Tim 发布于 2023-05-24 收录于学习笔记和课程笔记

本博客首先介绍了机器学习的基本概念，包括回归、分类、聚类和降维等任务类型，以及有监督、无监督和强化学习等学习方式。接着，重点讨论了模型的评估与选择，介绍了留出法、交叉验证法和自助法等评估方法，并通过代码示例展示了如何实现这些方法。性能度量方面，文章介绍了均方误差(MSE)、平均绝对误差(MAE)等指标，并探讨了ROC曲线的应用。在模型选择中，强调了经验误差和泛化误差的区别，指出泛化误差越小越好，但经验误差并不一定是最优的。文章还讨论了偏差与方差的关系，指出在训练过程中通常会从偏差主导转向方差主导。线性模型部分介绍了最小二乘法和对数几率回归等方法，并通过梯度下降法优化模型参数。神经网络章节重点讲解了感知机和反向传播算法，介绍了如何通过早停和正则化应对过拟合问题。在支持向量机部分，文章详细解释了线性可分SVM、线性SVM和非线性SVM的原理，并通过核技巧解决非线性分类问题。最后，集成学习部分介绍了Adaboost和Bagging算法，探讨了通过数据样本扰动、输入属性扰动、输出表示扰动和算法参数扰动等方式增强多样性的方法。通过这些内容，读者可以全面了解机器学习的基础理论和实践方法，掌握如何评估和优化模型性能。

Pyinstaller打包问题

Tim 发布于 2023-05-14 收录于工具与应用计算机技术

在使用PyInstaller打包客户端应用时，可能会遇到一些跨平台问题。首先，Python 3.9及以上版本不再支持Windows 7，因此如果需要在Windows 7上运行，Python环境应限制在3.8版本。其次，可能会出现缺失DLL文件的问题，如api-ms-win-core-path-l1-1-0.dll，这通常是由于PyInstaller在打包时未包含所有动态加载的库。解决方法是将缺失的DLL文件放入程序根目录或系统目录中。此外，Qt库的动态加载部分可能会缺失，导致ImportError错误。解决方案包括将环境中的Sitepackages/QtGui复制到程序根目录，或在打包时使用hidden-import选项手动加载缺失的模块。最后，如果PyInstaller无法获取源代码，可以通过查看报错日志，手动复制缺失的环境包到程序根目录，或在打包时指定hidden-import导入这些包。通过这些方法，可以有效解决PyInstaller在不同平台上打包应用时遇到的问题。