从文本文件获取数据

如果一个或多个文本文件中存储的数据有定界符或以固定宽度列形式存储,则用户可从中获取数据。 逗号分隔值(.csv)文件即是一个使用定界符的文本文件的示例。

.csv 文件以纯文本格式存储数字和文本。 每个记录所包含的字段通常由逗号或制表符分隔,不同记录由换行符分隔。 此处是一个包含逗号分隔数据的 .csv 文件的示例:

"Product","Country","Year","Quantity","Margin"
"Skis","Italy","2013","1,297","1,929"
"Computers","China","2014","609","10,659"

从此 .csv 文件获取数据会在数据集中得到五列: "Product," "Country," "Year," "Quantity," 和 "Margin." 本例中的第 2 列将包含值 "Country"、"Italy" 和 "China"。

此处是一个包含以固定宽度列形式存储的数据的文本文件的示例:

Product   Country   Year      Quantity  Margin
Skis      Italy     2013      1,297     1,929
Computers China     2014      609       10,659
可从多文件数据源获取数据。 这些文件必须具有相同的格式和数据类型。
表 1: 文本文件的“添加新数据集”对话框选项

选项

说明

“数据集名称”

数据集的名称

“文件”

包含新数据集数据的文件。 用户可以从一个或多个文件中导入数据。 要指定多个文件,请在“文件”字段中用分号分隔多个文件路径,或选择“添加文件”并选择一个或多个文件以添加到选择。

“分隔符”

选择文件中的数据以定界符分隔还是以固定宽度列的形式输入。 定界符是在数据源中分隔字段并将在 SAP Lumira 数据集中指示列的符号,如逗号、制表符或空格。

“将第一行设置为列名称”

选择此复选框可将第一行数据用作数据集中的列名称。

清除此复选框可使用默认列名称(“列 1”、“列 2”等)。

导航路径起点 “高级选项” 下一导航步骤 ““数字格式”” 导航路径终点

数据集中数值列的格式

导航路径起点 “高级选项” 下一导航步骤 ““日期格式”” 导航路径终点

数据集中日期列的格式

导航路径起点 “高级选项” 下一导航步骤 ““分栏”” 导航路径终点

获取以固定宽度列形式存储的数据时,会分析数据文件并提出列宽建议(以字符为单位),以将数据分隔为数据集中的多个列。

如果建议的宽度不合适,用户可通过输入逗号分隔值来更改宽度。 例如,如果数据有三列,列宽分别为 5、10 和 15 个字符,则可以在“分栏”框中输入 5,10,15,并选择“应用”以查看结果数据集的预览。

导航路径起点 “高级选项” 下一导航步骤 ““截去前导空格”” 导航路径终点

选择此复选框可删除数据集中数字和文本中的前导和尾随值,以便列标题不显示为空字段。 例如,如果“Product”条目有前导空格(“ Product”),则将删除该空格并且将“Product”显示为列标题。

  1. “主页”上,选择“Acquire Data”(获取数据)。
  2. “添加新数据集”对话框中,选择“文本”,然后选择“下一步”
  3. 选择一个或多个文本文件,然后选择“打开”
    “添加新数据集”对话框中预览来自这些文件的数据。
  4. (可选)按需要在对话框中调整数据集选项。
  5. 选择“创建”
打开“可视化”空间,可开始构建统计图和分析数据。 如果想先修改数据集,请切换至“准备”空间。