2015.02.17 12:23|PC
  後半は、前半の部で出来上がったテキスト字幕(Excelのcsvファイル)をテキスト字幕であるSRTファイルへ仕上げる方法を説明します。

  工程のアウトラインと使用するソフトをまとめますと、

 1)VSRipを使いVideo.TS内のVobファイルからidx/Subファイルを抜き出す。
 2)SubToSupを使ってidx/SubファイルをSupファイルへ変換。
 3)SUPReadを使ってSupファイルから時間タイミングのSRTファイルを取得する。
 4)Subtitle Workshopを使いタイミングSRTをタイミングTTSファイルを作る。
 5)Excelを使いOCR字幕csvファイルからテキスト字幕ファイルを作る。
 6)サクラエディタを使ってタイミングTTSとテキスト字幕ファイルを結合。
 7)Subtitle Workshopを使い、結合TTSファイルをSRT字幕ファイルへ変換して完成。

  1)と2)の工程は簡単なので、詳細説明を省きます。


1.SUPReadを使ってSupファイルから時間タイミングのSRTファイルを取得する

  時間タイミングのSRTファイルとは、字幕のSRTファイルに記載してある、字幕表示のタイミングと長さのデータ部分のファイルのことです。

  このSRTデータは、SupファイルをSUPReadというソフトで読み込むことにより生成します。下にそのデータを示します。


02.jpg




  SRTファイルの保存によりSaveします。


2.Subtitle Workshopを使いタイミングSRTからタイミングTTSファイルを作る

  上記でSaveしたタイミングSRTファイルをSubtitle Workshopで読み込みます。「名前を付けて保存」します。保存の際、保存形式を問われますので、「Turbo Titler」を選択します。すると、ttsという拡張子のファイルで保存されます。


294.jpg

  

  次に保存したttsファイルをサクラエディタで開くと下の画面のようになります。サクラエディタを使う理由は、範囲指定が矩形(くけい:四角く囲んで)で出来るからです。

04.jpg



  タイミングが記載された左側を残して、右側のline Xという文字を消してゆきます。 「Alt」キーを押しながら、マウスで範囲を指定すると、下の画面のように矩形の範囲が指定できます。

04a.jpg



  指定した矩形の範囲を削除すると、タイミングのみが記載されたタイミングTTSファイルになりますので、保存します。

05.jpg




3.Excelを使いOCR字幕csvファイルからテキスト字幕ファイルを作る

  字幕の時間タイミングTTSが準備できましたので、次に字幕テキストを作成します。OCRで作成したcsvファイルをExcelで開きます。

  次に最上行に一行ほど挿入します。
  なぜ、一行挿入かと言うと、次に数式を記載しますが、その時エラーが出るのを防ぐためです。

  二行、三行になっている字幕を一行に記載するために数式を記入します。字幕の改行文字は、「│」という半角文字が使われていますので、挿入します。

  B列の2行目に、次の数式をコピー&ペーストします。

    =IF(A2="","",IF(AND(A3<>"",A4<>""),A2&"|"&A3&"|"&A4,IF(AND(A1="",A3<>"",A4=""),A2&"|"&A3,IF(A1<>"","",A2))))

   数式の意味は、
     ・左のA列セルが空欄の場合は、空白を入れる
     ・左のA列が三行ともに文字が入っている場合は、三行の文字を「│」を入れてつなぐ
     ・左のA列が二行ともに文字が入っており、一行上が空白の場合は二行の文字を「│」を入れてつなぐ
     ・それ以外は、左のA列セルと同じ文字を入れる

07.jpg



  さらに、ペーストしたB列2行目をコピーし、最上行を除いてB列全行にペーストします。すると、下の画像になり、二行や三行にわたる字幕テキストが、改行マークの「│」を挿入して連結されます。

08.jpg


  次に、B列を計算式を含まない結果のみをC列に形式を選択して貼り付けます。

10.jpg



  貼り付けた結果が下の画面です。

11.jpg



  次にC列の空白行を削除します。C列を選択し、Excelメニューの「データ」→「フィルタ」→「オートフィルタ」をクリックすると、C列一行目に▼マークが出現します。クリックして最下段の「空白でないセル」を選びます。


12.jpg



  最終的に、次のような画面になり、C列に空白行の無い字幕テキストが得られます。

13.jpg



3.サクラエディタを使ってタイミングTTSとテキスト字幕ファイルを結合する

  Excelとサクラエディタを立ち上げ、Excel上に作成したテキスト字幕ファイルを開き、C行の空白の無いカラム全体を選択し、コピーする。


14.jpg



  一方、サクラエディタの方は、タイミングTTSを読み込み、改行マークのある最上部の箇所でマウスをクリックする。「編集」→「矩形貼り付け」をクリックすると、タイミングTTSに字幕テキストが挿入されます。

15.jpg



  最終的なサクラエディタの画面は次の画面になります。適当な名前でSaveします。

16.jpg





4.Subtitle Workshopを使って最終的なSRT字幕ファイルを作成

  Subtitle Workshopを立ち上げ、上で作成したTTSファイルを読み込みます。読み込んだ画面が下の画面です。

17.jpg



  名前を付けて保存を選択すると、保存形式を問われますので、「SubRip」をクリックすればSRT字幕ファイルが作成されます。

18.jpg


  メモ帳でSRT字幕ファイルを開くと、下の画面のようになり、複数行の字幕は、改行されていることが判ると思います。

19.jpg



スポンサーサイト
2015.02.16 18:49|PC
  DVDのグラフィック字幕(Subファイル)をテキスト字幕(SRTファイル)にするには、SubRipを使用して、OCRで読取る必要がありました。しかし、このOCR作業は退屈な作業であり、苦労の割には精度も低く、2度とやりたくない作業となっています。ちなみにBlu-rayのグラフィック字幕(Supファイル)の場合は、このブログでも既に取り上げましたが、リッピングすることなく映像と一緒に閲覧可能だし、適切なソフトで動画にMux可能である。

  DVDの字幕は開発されてから時間もかなり経過しており、そろそろ歴史の化石として取り残されようとしています。しかしながら、DVDの字幕は手に入るが、Blu-rayあるいはハイビジョンのAVCHDまたは動画ファイルはあるが、字幕が手元に無い場合は、DVDの字幕を加工して使わざるを得ません。

  このような状況下におかれた時、読取革命のようなOCRソフトでグラフィック字幕をテキストに変換できないか、という疑問であり、課題でもあります。今回、種々の便利ソフトをネットで探索した結果、何とか実用に耐える方法が見つかったので紹介してみます。


1.DVDSubEditを使用して、DVD字幕の色調を変える

  DVDの字幕はSubRipというソフトで抜き出してみると下のようなグラフィック文字です。


01.jpg


  このような字体では、OCRしてもまともにテキストへは変換できません。そこで、このようなグラフィック文字の字体を変えたり、バックグラウンドをOCRに適切な白地にしてくれるソフトがDVDSubEditです。このソフトはネットでフリーウェアとしてダウンロードできます。

  早速DVDSubEditを立ち上げ、DVDのVobファイルを読み込んでみよう。下図のような画面になります。


02.jpg



  真ん中の右側の赤で囲んだ箇所の「Use IFO CLUT」を「Use automatic CLUT」に変更すると、下の画面になります。

03.jpg


  この画面の中で、CLUT(クラットと読む)とは、カラー・パレットのこと。また、記号は次の意味です。
          b’:background(背景)
          p’:pattern (模様)
          e1’:emphasis 1(強調1)
          e2’:emphasis 2(強調2)

  4個のCLUTを使って、backgroundを白地、文字を黒に調整します。このブログの場合は、b'とe1'を白、p'とe2'を黒に選択すれば、白地に黒のグラフィック文字になりました。この状態のまま、左上の「file」から「Save Subpics of all Selected SUPs as Bitmaps」をクリックすると、保存先を聞かれます。Saveすれば数百個のbmpファイルがフォルダへ保存されます。


04.jpg


  保存されたbmpファイルの字体は次のようになっています。


05.jpg




2.OCRソフト読取革命15によるグラフィック文字のOCR

  次にbmpファイルをOCRします。OCRソフトは、読取革命15の体験版を使ってみました。性能が良ければ購入したいと思います。

  ソフトと立ち上げ、「かんたんモード」を選び、「入力」をクリックすると、下の画面になります。

06.jpg


  「画像ファイル」をクリックし、bmpファイル群が入ったフォルダを選択、フォルダ内のファイル全部を選択して開きます。すると自動的に全部のbmpファイルが読み込まれ、OCRする部分も自動的にセットアップしてくれます。読み込み完了画面が下の画面です。


07.jpg



  次に、上部にある「認識」をクリックすれば自動的に全部のbmpファイルをOCRしてくれます。OCR完了画面が下の画面です。右側にOCRして生成したテキストが示されています。


<

08.jpg

 

 




  読取革命15の認識正解率は、通常のグラフィック文字で98%以上、斜体文字で50%くらいの感じです。斜体文字でなければ実用に十分に耐え得ます。

  OCRを終えると、次のステップとして少々面倒な、時間タイミングと字幕文字の結合作業が待っています。字幕が1行であれば結構簡単なのですが、字幕は次の例のように最大3行になります。


10.jpg



  このような字幕の行数のデータを含んだOCRデータの保存方法は、Excelのcsvファイルへの保存です。上の図のように、字幕間には空白行が入っています。

  以上、前半のDVDから字幕情報をリッピングし、OCRまでの作業を説明しました。後半は、OCRしたテキスト情報を時間タイミング情報と結合させて、テキスト字幕であるSRTファイルに仕立てる作業を説明したいと思います。



01 | 2015/02 | 03
-
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
カレンダー

<
>
- - - - - - 1
2 3 4 5 6 78
9 10 11 12 13 1415
16 17 18 19 20 2122
23 24 25 26 27 28 -

全記事

Designed by 石津 花

プロフィール

洋ネコのまるちゃん

Author:洋ネコのまるちゃん
FC2ブログへようこそ!

最新記事

最新コメント

月別アーカイブ

最新トラックバック

カテゴリ

メールフォーム

名前:
メール:
件名:
本文:

検索フォーム

RSSリンクの表示

リンク

ブロとも申請フォーム

この人とブロともになる

QRコード

QR

アクセス