内容

名称

IO::Uncompress::AnyUncompress - 解压缩 gzip、zip、bzip2、zstd、xz、lzma、lzip、lzf 或 lzop 文件/缓冲区

概要

use IO::Uncompress::AnyUncompress qw(anyuncompress $AnyUncompressError) ;

my $status = anyuncompress $input => $output [,OPTS]
    or die "anyuncompress failed: $AnyUncompressError\n";

my $z = IO::Uncompress::AnyUncompress->new( $input [OPTS] )
    or die "anyuncompress failed: $AnyUncompressError\n";

$status = $z->read($buffer)
$status = $z->read($buffer, $length)
$status = $z->read($buffer, $length, $offset)
$line = $z->getline()
$char = $z->getc()
$char = $z->ungetc()
$char = $z->opened()

$data = $z->trailingData()
$status = $z->nextStream()
$data = $z->getHeaderInfo()
$z->tell()
$z->seek($position, $whence)
$z->binmode()
$z->fileno()
$z->eof()
$z->close()

$AnyUncompressError ;

# IO::File mode

<$z>
read($z, $buffer);
read($z, $buffer, $length);
read($z, $buffer, $length, $offset);
tell($z)
seek($z, $position, $whence)
binmode($z)
fileno($z)
eof($z)
close($z)

描述

此模块提供了一个 Perl 接口,允许读取使用各种压缩库压缩的文件/缓冲区。

支持的格式为

RFC 1950
RFC 1951 (可选)
gzip (RFC 1952)
zip
zstd (Zstandard)
bzip2
lzop
lzf
lzma
lzip
xz

该模块将自动检测是否使用任何支持的压缩格式。

函数式接口

提供了一个顶级函数 anyuncompress 用于在缓冲区和/或文件之间执行“一次性”解压缩。有关解压缩过程的更精细控制,请参阅 "面向对象接口" 部分。

use IO::Uncompress::AnyUncompress qw(anyuncompress $AnyUncompressError) ;

anyuncompress $input_filename_or_reference => $output_filename_or_reference [,OPTS]
    or die "anyuncompress failed: $AnyUncompressError\n";

函数式接口需要 Perl5.005 或更高版本。

anyuncompress $input_filename_or_reference => $output_filename_or_reference [, OPTS]

anyuncompress 至少需要两个参数,$input_filename_or_reference$output_filename_or_reference,以及零个或多个可选参数(请参阅 "可选参数")。

$input_filename_or_reference 参数

参数 $input_filename_or_reference 用于定义压缩数据的来源。

它可以采用以下形式之一

文件名

如果 $input_filename_or_reference 参数是一个简单的标量,则假定它是一个文件名。此文件将被打开以供读取,并且输入数据将从该文件读取。

文件句柄

如果 $input_filename_or_reference 参数是一个文件句柄,则输入数据将从该文件句柄读取。字符串 '-' 可以用作标准输入的别名。

标量引用

如果 $input_filename_or_reference 是一个标量引用,则输入数据将从 $$input_filename_or_reference 读取。

数组引用

如果 $input_filename_or_reference 是一个数组引用,则数组中的每个元素都必须是一个文件名。

输入数据将依次从每个文件读取。

将遍历整个数组以确保它只包含有效的文件名,然后再解压缩任何数据。

输入文件通配符字符串

如果 $input_filename_or_reference 是一个以字符 "<" 和 ">" anyuncompress 将假定它是一个输入文件通配符字符串。输入是与文件通配符匹配的文件列表。

有关更多详细信息,请参阅 File::GlobMapper

如果 $input_filename_or_reference 参数是任何其他类型,则将返回 undef

$output_filename_or_reference 参数

$output_filename_or_reference 参数用于控制解压缩数据的目标。此参数可以采用以下几种形式。

文件名

如果 $output_filename_or_reference 参数是一个简单的标量,则假定它是一个文件名。此文件将被打开以供写入,解压缩的数据将被写入其中。

文件句柄

如果 $output_filename_or_reference 参数是一个文件句柄,则解压缩的数据将被写入其中。字符串 '-' 可以用作标准输出的别名。

标量引用

如果 $output_filename_or_reference 是一个标量引用,则解压缩的数据将存储在 $$output_filename_or_reference 中。

数组引用

如果 $output_filename_or_reference 是一个数组引用,则解压缩的数据将被推送到数组中。

输出文件通配符

如果 $output_filename_or_reference 是一个以字符 "<" 和 ">" 分隔的字符串,anyuncompress 将假定它是一个输出文件通配符字符串。输出是与文件通配符匹配的文件列表。

$output_filename_or_reference 是一个文件通配符字符串时,$input_filename_or_reference 也必须是一个文件通配符字符串。任何其他情况都是错误。

有关更多详细信息,请参阅 File::GlobMapper

如果 $output_filename_or_reference 参数是任何其他类型,则将返回 undef

备注

$input_filename_or_reference 映射到多个压缩文件/缓冲区,而 $output_filename_or_reference 是单个文件/缓冲区时,解压缩后,$output_filename_or_reference 将包含来自每个输入文件/缓冲区的全部解压缩数据的串联。

可选参数

一次性函数 anyuncompress 的可选参数(在很大程度上)与在 "构造函数选项" 部分中定义的 OO 接口中使用的参数相同。例外情况如下所示

AutoClose => 0|1

此选项适用于任何输入或输出数据流到 anyuncompress,这些数据流是文件句柄。

如果指定了 AutoClose,并且值为 true,则会导致所有输入和/或输出文件句柄在 anyuncompress 完成后关闭。

此参数默认为 0。

BinModeOut => 0|1

此选项现在是一个无操作。所有文件都将以 binmode 模式写入。

Append => 0|1

此选项的行为取决于输出数据流的类型。

  • 缓冲区

    如果启用 Append,所有未压缩数据将追加到输出缓冲区的末尾。否则,在写入任何未压缩数据之前,将清除输出缓冲区。

  • 文件名

    如果启用 Append,文件将以追加模式打开。否则,在写入任何未压缩数据之前,将截断文件的内容(如果有)。

  • 文件句柄

    如果启用 Append,在写入任何未压缩数据之前,文件句柄将通过调用 seek 定位到文件末尾。否则,文件指针将不会移动。

Append 被指定并设置为 true 时,它将追加所有未压缩数据到输出数据流。

因此,当输出是文件句柄时,它将在写入任何未压缩数据之前执行 seek 到文件末尾的操作。如果输出是文件名,它将以追加模式打开。如果输出是缓冲区,所有未压缩数据将追加到现有缓冲区。

相反,当 Append 未被指定,或者它存在并被设置为 false 时,它将按如下方式操作。

当输出是文件名时,它将在写入任何未压缩数据之前截断文件的内容。如果输出是文件句柄,它的位置将不会改变。如果输出是缓冲区,它将在输出任何未压缩数据之前被清空。

默认为 0。

MultiStream => 0|1

如果输入文件/缓冲区包含多个压缩数据流,此选项将把所有数据流解压缩为单个数据流。

默认为 0。

TrailingData => $scalar

返回解压缩完成后,紧随压缩数据流之后存在的数据(如果有)。

当压缩数据流之后存在有用的信息,并且您不知道压缩数据流的长度时,可以使用此选项。

如果输入是缓冲区,trailingData 将返回从压缩数据流末尾到缓冲区末尾的所有内容。

如果输入是文件句柄,trailingData 将返回压缩数据流末尾到达后留在文件句柄输入缓冲区中的数据。然后,您可以使用文件句柄读取输入文件的其余部分。

如果输入是文件名,则无需使用 trailingData

如果您在开始解压缩之前知道压缩数据流的长度,则可以通过设置 InputLength 选项来避免使用 trailingData

示例

要读取文件 file1.txt.Compressed 的内容并将解压缩后的数据写入文件 file1.txt

use strict ;
use warnings ;
use IO::Uncompress::AnyUncompress qw(anyuncompress $AnyUncompressError) ;

my $input = "file1.txt.Compressed";
my $output = "file1.txt";
anyuncompress $input => $output
    or die "anyuncompress failed: $AnyUncompressError\n";

要从现有的 Perl 文件句柄 $input 读取,并将解压缩后的数据写入缓冲区 $buffer

use strict ;
use warnings ;
use IO::Uncompress::AnyUncompress qw(anyuncompress $AnyUncompressError) ;
use IO::File ;

my $input = IO::File->new( "<file1.txt.Compressed" )
    or die "Cannot open 'file1.txt.Compressed': $!\n" ;
my $buffer ;
anyuncompress $input => \$buffer
    or die "anyuncompress failed: $AnyUncompressError\n";

要解压缩目录 "/my/home" 中与 "*.txt.Compressed" 匹配的所有文件,并将压缩后的数据存储在同一目录中

use strict ;
use warnings ;
use IO::Uncompress::AnyUncompress qw(anyuncompress $AnyUncompressError) ;

anyuncompress '</my/home/*.txt.Compressed>' => '</my/home/#1.txt>'
    or die "anyuncompress failed: $AnyUncompressError\n";

如果您想一次压缩一个文件,这将起作用

use strict ;
use warnings ;
use IO::Uncompress::AnyUncompress qw(anyuncompress $AnyUncompressError) ;

for my $input ( glob "/my/home/*.txt.Compressed" )
{
    my $output = $input;
    $output =~ s/.Compressed// ;
    anyuncompress $input => $output
        or die "Error compressing '$input': $AnyUncompressError\n";
}

面向对象接口

构造函数

IO::Uncompress::AnyUncompress 的构造函数格式如下所示

my $z = IO::Uncompress::AnyUncompress->new( $input [OPTS] )
    or die "IO::Uncompress::AnyUncompress failed: $AnyUncompressError\n";

成功时返回 IO::Uncompress::AnyUncompress 对象,失败时返回 undef。变量 $AnyUncompressError 将在失败时包含错误消息。

如果您运行的是 Perl 5.005 或更高版本,则从 IO::Uncompress::AnyUncompress 返回的对象 $z 可以像 IO::File 文件句柄一样使用。这意味着所有正常的输入文件操作都可以使用 $z 执行。例如,要从压缩文件/缓冲区读取一行,您可以使用以下两种形式之一

$line = $z->getline();
$line = <$z>;

必需参数 $input 用于确定压缩数据的来源。此参数可以采用三种形式之一。

文件名

如果 $input 参数是标量,则假定它是一个文件名。此文件将被打开以供读取,压缩后的数据将从该文件读取。

文件句柄

如果 $input 参数是文件句柄,则压缩后的数据将从该文件句柄读取。字符串 '-' 可以用作标准输入的别名。

标量引用

如果 $input 是标量引用,则压缩后的数据将从 $$input 读取。

构造函数选项

下面定义的选项名称不区分大小写,并且可以选择以 '-' 为前缀。因此,以下所有内容都是有效的

-AutoClose
-autoclose
AUTOCLOSE
autoclose

OPTS 是以下选项的组合

AutoClose => 0|1

此选项仅在 $input 参数为文件句柄时有效。如果指定,并且值为真,则在调用 close 方法或销毁 IO::Uncompress::AnyUncompress 对象后,文件将被关闭。

此参数默认为 0。

MultiStream => 0|1

允许将多个连接的压缩流视为单个压缩流。解压缩将在以下情况之一发生时停止:到达文件/缓冲区的末尾、遇到错误(提前结束、压缩数据损坏)或流的末尾没有紧跟着另一个流的开始。

此参数默认为 0。

Prime => $string

此选项将在处理输入文件/缓冲区之前解压缩 $string 的内容。

当压缩数据嵌入在另一个文件/数据结构中,并且无法在不读取前几个字节的情况下确定压缩数据从何处开始时,此选项很有用。如果是这种情况,可以使用此选项用这些字节对解压缩进行“预处理”。

Transparent => 0|1

如果设置了此选项,并且输入文件/缓冲区不是压缩数据,该模块将允许读取它。

此外,如果输入文件/缓冲区包含压缩数据,并且紧随其后的是非压缩数据,设置此选项将使该模块将整个文件/缓冲区视为单个数据流。

此选项默认值为 1。

BlockSize => $num

读取压缩输入数据时,IO::Uncompress::AnyUncompress 将以 $num 字节的块大小读取它。

此选项默认值为 4096。

InputLength => $size

如果存在此选项,它将限制从输入文件/缓冲区读取的压缩字节数为 $size。此选项可用于压缩数据流之后存在有用数据,并且您事先知道压缩数据流的确切长度的情况。

此选项主要用于从文件句柄读取时,在这种情况下,文件指针将指向压缩数据流之后的第一字节。

此选项默认关闭。

Append => 0|1

此选项控制read方法对未压缩数据的处理方式。

如果设置为 1,所有未压缩数据将被追加到read方法的输出参数中。

如果设置为 0,read方法的输出参数内容将被未压缩数据覆盖。

默认为 0。

Strict => 0|1

此选项控制在执行解压缩时是否使用下面定义的额外检查。当 Strict 处于开启状态时,会执行额外的测试,当 Strict 处于关闭状态时,不会执行。

此选项的默认值为关闭。

RawInflate => 0|1

在自动检测压缩格式时,尝试使用IO::Uncompress::RawInflate模块测试原始压缩 (RFC 1951) 内容。

这不是默认行为的原因是,RFC 1951 内容只能通过尝试解压缩来检测。此过程容易出错,可能导致误报。

默认为 0。

UnLzma => 0|1

在自动检测压缩格式时,尝试使用IO::Uncompress::UnLzma模块测试 lzma_alone 内容。

这不是默认行为的原因是,lzma_alone 内容只能通过尝试解压缩来检测。此过程容易出错,可能导致误报。

默认为 0。

示例

待办事项

方法

read

用法是

$status = $z->read($buffer)

读取一块压缩数据(压缩块的大小由构造函数中的Buffer选项决定),解压缩它并将任何未压缩数据写入$buffer。如果在构造函数中设置了Append参数,则未压缩数据将被追加到$buffer参数。否则,$buffer将被覆盖。

返回写入到$buffer的未压缩字节数,如果遇到文件结尾则返回零,如果发生错误则返回负数。

read

用法是

$status = $z->read($buffer, $length)
$status = $z->read($buffer, $length, $offset)

$status = read($z, $buffer, $length)
$status = read($z, $buffer, $length, $offset)

尝试将$length字节的未压缩数据读入$buffer

此形式的read方法与之前形式的主要区别在于,此方法将尝试返回正好$length字节。此函数只有在遇到文件结尾或 IO 错误时才会返回其他值。

返回写入到$buffer的未压缩字节数,如果遇到文件结尾则返回零,如果发生错误则返回负数。

getline

用法是

$line = $z->getline()
$line = <$z>

读取一行。

此方法完全支持使用变量$/(或当English处于使用状态时使用$INPUT_RECORD_SEPARATOR$RS)来确定构成行尾的内容。段落模式、记录模式和文件全部读取模式都受支持。

getc

用法是

$char = $z->getc()

读取单个字符。

ungetc

用法是

$char = $z->ungetc($string)

getHeaderInfo

用法是

$hdr  = $z->getHeaderInfo();
@hdrs = $z->getHeaderInfo();

此方法返回一个哈希引用(在标量上下文中)或一个列表或哈希引用(在数组上下文中),其中包含有关压缩数据流中每个头字段的信息。

tell

用法是

$z->tell()
tell $z

返回未压缩的文件偏移量。

eof

用法是

$z->eof();
eof($z);

如果已到达压缩输入流的末尾,则返回真。

seek

$z->seek($position, $whence);
seek($z, $position, $whence);

提供seek功能的子集,限制是只能在输入文件/缓冲区中向前查找。尝试向后查找将导致致命错误。

请注意,此模块中seek的实现不提供对压缩文件/缓冲区的真正随机访问。它的工作原理是从文件/缓冲区中的当前偏移量解压缩数据,直到它到达seek参数中指定的未压缩偏移量。对于非常小的文件,这可能是可以接受的行为。对于大型文件,这可能会导致不可接受的延迟。

$whence参数采用一个通常的值,即 SEEK_SET、SEEK_CUR 或 SEEK_END。

成功时返回 1,失败时返回 0。

binmode

用法是

$z->binmode
binmode $z ;

这是一个为了完整性而提供的空操作。

opened

$z->opened()

如果对象当前引用的是打开的文件/缓冲区,则返回 true。

autoflush

my $prev = $z->autoflush()
my $prev = $z->autoflush(EXPR)

如果 $z 对象与文件或文件句柄相关联,则此方法将返回底层文件句柄的当前自动刷新设置。如果存在 EXPR 且不为零,则它将在每次写入/打印操作后启用刷新。

如果 $z 与缓冲区相关联,则此方法无效,始终返回 undef

注意 特殊变量 $| 不能 用于设置或检索自动刷新设置。

input_line_number

$z->input_line_number()
$z->input_line_number(EXPR)

返回当前未压缩的行号。如果存在 EXPR,则它将设置行号。请注意,设置行号不会更改正在读取的文件/缓冲区中的当前位置。

$/ 的内容用于确定什么构成行终止符。

fileno

$z->fileno()
fileno($z)

如果 $z 对象与文件或文件句柄相关联,则 fileno 将返回底层文件描述符。调用 close 方法后,fileno 将返回 undef

如果 $z 对象与缓冲区相关联,则此方法将返回 undef

close

$z->close() ;
close $z ;

关闭输出文件/缓冲区。

对于大多数版本的 Perl,如果 IO::Uncompress::AnyUncompress 对象被销毁(无论是显式销毁还是通过对对象的引用的变量超出范围),则此方法将自动调用。例外情况是 Perl 版本 5.005 到 5.00504 和 5.8.0。在这些情况下,close 方法将自动调用,但直到程序终止时所有活动对象的全局销毁才会调用。

因此,如果您希望您的脚本能够在所有版本的 Perl 上运行,则应显式调用 close,不要依赖于自动关闭。

成功返回 true,否则返回 0。

如果在创建 IO::Uncompress::AnyUncompress 对象时启用了 AutoClose 选项,并且对象与文件相关联,则底层文件也将被关闭。

nextStream

用法是

my $status = $z->nextStream();

跳过输入文件/缓冲区中的下一个压缩数据流。如果找到新的压缩数据流,则 eof 标记将被清除,$. 将重置为 0。

如果找到新流,则返回 1;如果未找到,则返回 0;如果遇到错误,则返回 -1。

trailingData

用法是

my $data = $z->trailingData();

返回解压缩完成后,压缩数据流之后立即出现的数据(如果有)。只有在遇到压缩数据流的末尾时,调用此方法才有意义。

当压缩数据流之后存在有用的信息,并且您不知道压缩数据流的长度时,可以使用此选项。

如果输入是缓冲区,trailingData 将返回从压缩数据流末尾到缓冲区末尾的所有内容。

如果输入是文件句柄,trailingData 将返回压缩数据流末尾到达后留在文件句柄输入缓冲区中的数据。然后,您可以使用文件句柄读取输入文件的其余部分。

如果输入是文件名,则无需使用 trailingData

如果您在开始解压缩之前知道压缩数据流的长度,则可以通过在构造函数中设置InputLength选项来避免使用trailingData

导入

目前,IO::Uncompress::AnyUncompress 不需要任何符号常量。

:all

导入anyuncompress$AnyUncompressError。与执行以下操作相同

use IO::Uncompress::AnyUncompress qw(anyuncompress $AnyUncompressError) ;

示例

支持

一般反馈/问题/错误报告应发送至 https://github.com/pmqs/IO-Compress/issues(首选)或 https://rt.cpan.org/Public/Dist/Display.html?Name=IO-Compress

另请参阅

Compress::ZlibIO::Compress::GzipIO::Uncompress::GunzipIO::Compress::DeflateIO::Uncompress::InflateIO::Compress::RawDeflateIO::Uncompress::RawInflateIO::Compress::Bzip2IO::Uncompress::Bunzip2IO::Compress::LzmaIO::Uncompress::UnLzmaIO::Compress::XzIO::Uncompress::UnXzIO::Compress::LzipIO::Uncompress::UnLzipIO::Compress::LzopIO::Uncompress::UnLzopIO::Compress::LzfIO::Uncompress::UnLzfIO::Compress::ZstdIO::Uncompress::UnZstdIO::Uncompress::AnyInflate

IO::Compress::FAQ

File::GlobMapperArchive::ZipArchive::TarIO::Zlib

作者

此模块由 Paul Marquess 编写,[email protected]

修改历史

请参阅 Changes 文件。

版权和许可

版权所有 (c) 2005-2023 Paul Marquess。保留所有权利。

本程序是自由软件;您可以在 Perl 本身的条款下重新发布和/或修改它。