HTCondor下多台Linux计算集群的搭建

环境:四台同网段的Linux虚拟机

  • 一台当作Central Manager
  • 一台用来Submit
  • 两台用来Execute
(一)对四台虚拟机分别进行此操作
代码语言:javascript代码运行次数:0运行复制
apt-get update && apt-get install -y curl
(二)对三个角色分别进行如下操作
1)充当Central Manager角色的虚拟机

首先,查找此虚拟机的IP 命令行输入ifconfig -a,红框的即为虚拟机IP

将此IP替换192.168.87.132,输入如下命令

代码语言:javascript代码运行次数:0运行复制
sudo curl -fsSL  | GET_HTCONDOR_PASSWORD=wmcoder /bin/bash -s -- --no-dry-run --central-manager 192.168.87.132
2)充当Submit 角色的虚拟机

192.168.87.132用Central Manager角色虚拟机的IP来替换

代码语言:javascript代码运行次数:0运行复制
sudo curl -fsSL  | GET_HTCONDOR_PASSWORD=wmcoder /bin/bash -s -- --no-dry-run --submit 192.168.87.132
3)充当Execute角色的虚拟机(两台)

192.168.87.132用Central Manager角色虚拟机的IP来替换

代码语言:javascript代码运行次数:0运行复制
sudo curl -fsSL  | GET_HTCONDOR_PASSWORD=wmcoder /bin/bash -s -- --no-dry-run --execute 192.168.87.132
(三)执行condor_status查看

登录到提交计算机上的用户应该能够查看池中的执行计算机(使用condor_status),提交作业(使用condor_submit)以及运行(使用condor_q)。显示的为两台执行角色的虚拟机。

(附)部分bug及解决方案
因未设置密码问题无法使用root权限
如提前安装了htcondor,使用此命令卸载
代码语言:javascript代码运行次数:0运行复制
sh -c "apt-get -y remove --purge htcondor && apt-get -y autoremove --purge && rm -fr /etc/condor"

欢迎访问本人博客:/posts/1f58.html 未经本人同意,禁止转载。 参考链接: .html .html#admin-quick-start-guide

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。 原始发表:2024-10-12,如有侵权请联系 cloudcommunity@tencent 删除博客集群计算机虚拟机linux