2008年8月18日月曜日

PerlでHTMLタグの除去

#コマンドライン引数で与えられたファイルから読み込んで出力。
#ファイルがUTF-8、出力がShift_JISの想定。

use strict;
use warnings;

use Encode qw//;
use HTML::Parser;

my $html_str = Encode::decode("utf8", do { local $/ = undef; <>; });

my $parser = HTML::Parser->new(
api_version => 3,
text_h => [sub { print Encode::encode("shiftjis", shift); }, "dtext"]
);
$parser->parse($html_str);

0 件のコメント: