2024年3月11日发(作者:)

Funnel阶段

Funnel阶段是一个处理阶段。它将多个输入数据集复制到单个数据集,该操作对于将

单独数据集合并到单个大型数据集而言非常有用。该阶段可以有众多输入链接和一个输出

链接

Funnel阶段能够以下列三种方式之一运行:

1、 连续传送以不可保证顺序合并输入数据的记录。它依次从每个输入链接获取一条

记录。如果输入链接上的数据不可用,那么该阶段会跳至下一个链接,而不是等待。

2、 排序传送按照一个或多个键列的值定义的顺序合并输入记录,输出记录的顺序由

这绡排序键确定。

3、 顺序将第一个输入数据集中的所有记录复制到输出数据集,然后将第二个输入数

据集中的所有记录复制到输出数据集,依此类推。

对于所有方法,所有数据数据集的元数据都必须椒相同的。

排序传送方法对于其输入数据有一些特定要求。所有输入数据集都 必须根据Funnel

操作的键列进行排序。

通常,排序传送操作的所有输入数据集在排序之前都是散列分区的(选择自动分区方

法将确保完成这一操作).散列分区可确保具有相同键列值的所有记录都位于同一分区中,

以便在同一个节点上处理。如果在Funnel阶段之前在单独的阶段上执行排序和分区,那

么必须保留该分区

排序传送操作允许您设置一个主键和多个辅键以确定将输出的记录的顺序。

Funnel阶段:快速路径

InfoSphere DataStage有许多缺省设置,这表示您能够载作业中轻松包含Funnel阶

段。本部分指定了要使Funnel阶段运行所需的最少步骤。InfoSphere DataStage提供了

多样化的用户界面,且提供了许多快捷方式供您达到特定目标,本部分描述了基本方法。

要使用Funnel阶段:

1、 在“阶段”页面的属性选项卡中,指定“传送类型”。“连续传送”为缺省值,但

也可以选择“顺序”或“排序传送”。

如果选择使用“排序传送”方法,则还需要指定对数据进行排序所依据的键。可以重

复使用键属性来指定组合键。

2、 如果使用“顺序”方法,请在“阶段”页面的“链接排序”选项卡中,指定合并

数据集的顺序。

3、 在“输出”页面的“映射”选项卡中,指定如何派生输出列的方法,即将那些输

入列映射到输出列,或如何生成这些输出列。

Funnel阶段:“属性”选项卡

在“属性”选项卡中,可指定确定阶段实际执行那些操作的属性。某些属性是必须的,

尽管许多属性都有缺省设置。无缺省设置的属性显示为警告色(缺省为红色),当你为其提