逐水寻源

路漫漫其修远兮

服务监听地址

Tim 发布于 2023-01-26 收录于网络

在ECS上搭建MySQL服务后，尽管防火墙和安全组配置正常，仍然无法远程访问。通过使用nmap工具扫描服务器端口，发现MySQL的3306端口被关闭，尽管其他端口如22和80正常开放。进一步检查ECS上的端口使用情况，发现MySQL服务绑定到了本地回环地址127.0.0.1，导致无法对外提供服务。解决方法是修改MySQL的配置文件，将绑定地址从127.0.0.1改为0.0.0.0，这样MySQL服务就可以监听所有IPv4地址，支持远程访问。需要注意的是，不能简单地注释掉绑定地址，否则可能导致MySQL只监听IPv6地址，而不监听IPv4地址。通过这种方法，成功解决了MySQL无法远程访问的问题。总结来看，许多软件和框架默认绑定地址为127.0.0.1，需手动更改为0.0.0.0或:::，以支持IPv4或IPv6的远程访问。

HSV调试工具

Tim 发布于 2023-01-17 收录于工具与应用

在图像处理中，特别是使用OpenCV时，准确提取HSV颜色空间中的颜色是一项常见的任务。然而，当图像中存在多个颜色目标时，颜色提取工作可能会变得复杂。为了解决这个问题，本文介绍了一款小工具，用户可以通过拖动进度条来设置HSV三个值的上下限。该工具会实时显示调整后的结果在mask和result层上，极大地简化了颜色提取的过程。用户只需简单地拖动进度条，即可快速定位多个目标的HSV范围，甚至可以精确到某一个值。本文提供了完整的Python代码示例，展示了如何使用OpenCV创建一个包含6个滑动条的窗口，用户可以通过这些滑动条调整色调、饱和度和明度的最小值和最大值。代码中还展示了如何读取图像、将其转换为HSV颜色空间，并通过设定的HSV范围生成掩码，最终在原图上应用掩码以显示结果。通过这种方式，用户可以轻松地在图像中提取出所需的颜色区域。

Latex公式语法

Tim 发布于 2023-01-14 收录于工具与应用

这篇博客主要介绍了如何使用Latex语法和KaTeX引擎来编写和渲染数学公式。首先，文章展示了如何书写希腊字母和分行公式，并通过示例展示了矩阵、向量、横过来的大括号、上下划线与帽子、根号、分式、角标、乘法、不等号、连乘等数学表达方式。接着，文章详细说明了如何在Hugo主题中启用KaTeX支持，确保数学公式能够自动渲染。为了避免Markdown文档中的转义字符影响公式渲染，文章提供了一些转义字符的替换方法，如将_替换为\_等。此外，博客介绍了KaTeX的插件功能，包括Copy-tex和mhchem。Copy-tex可以在复制公式时保留其LaTeX源代码，而mhchem则用于编写化学方程式。最后，文章还介绍了FixIt主题支持的字符注音或注释扩展语法，以及分数的Markdown扩展语法。通过这些内容，读者可以更好地掌握数学公式的编写与呈现技巧。

HDFS WebUI无法访问问题

Tim 发布于 2022-12-19 收录于数据科学与机器学习

在一个由3个datanode、1个namenode和1个secondary namenode组成的Hadoop集群中，尽管通过命令检查状态显示一切正常，但HDFS的Web页面50070和文件端口9000无法访问。经过排查，发现两个问题：首先，50070端口不在服务列表中，原因是Hadoop 3.x版本中HDFS Web端口已更改为9870，因此需要访问9870端口来查看Web UI界面。其次，9000端口被绑定到内网IP，导致无法访问。解决方法是修改配置文件中的fs.defaultFS值，将其设置为hdfs://0.0.0.0:9000，以确保9000端口的正常服务。通过这些调整，Hadoop集群的Web页面和文件端口问题得以解决，集群恢复正常运行。

Flink中重写Watermark实践

Tim 发布于 2022-11-30 收录于数据科学与机器学习

Apache Flink是一个强大的流处理框架，能够处理实时数据流。在处理实时数据时，Watermark是一个关键工具，它是一种特殊的时间戳，用于处理事件时间的流数据，以解决乱序事件和延迟数据的问题。Flink使用Watermark来确定何时可以触发基于事件时间的窗口操作。为了满足特定业务需求，可能需要自定义Watermark的生成逻辑。在Flink中，可以通过实现WatermarkStrategy接口来自定义Watermark的生成。自定义Watermark策略通常需要定义Watermark策略、实现TimestampAssigner和WatermarkGenerator，并在数据流创建时应用该策略。本文提供了一个示例，展示了如何根据用户活动的频率动态调整Watermark，以更好地处理迟到的数据。此外，本文还讨论了如何针对特定时间格式进行Watermark的重写。如果时间信息是一个字符串，可以先将其解析为Java时间对象，然后在assignTimestampsAndWatermarks函数中使用它。通过自定义Watermark策略，可以更灵活地处理实时数据流，提高数据处理的准确性和效率。合理使用这一功能可以提升对大数据的处理能力。

大数据架构课程复习笔记

Tim 发布于 2022-11-12 收录于学习笔记数据科学与机器学习和课程笔记

大数据系统的需求包括数据、功能、性能等多个方面，目标是实现高性能、高可用、容错性和可伸缩性。大数据与云计算密切相关，云计算为大数据处理提供计算资源，而大数据是云计算服务的典型应用。云计算通过网络提供动态伸缩的计算服务，具有资源虚拟化、超大规模、弹性等特征，分为IaaS、PaaS、SaaS三类服务模式。公有云、私有云、社区云和混合云是四种主要的服务形态，各有优缺点。云计算的核心技术包括虚拟化和容器化，虚拟化将计算机资源抽象化，而容器化提供轻量级虚拟化环境。大数据处理过程涉及数据采集、预处理、存储、分析和可视化，分布式计算是其关键技术。Hadoop是大数据处理的核心框架，包含HDFS、MapReduce和YARN，支持大规模数据的存储和计算。分布式系统通过分片和副本实现高可用性和容错性，CAP定理指出分布式系统在一致性、可用性和分区容错性之间需做出权衡。