import fitz    
defextract_text_from_pdf(pdf_path):
    text = ""with fitz.open(pdf_path) as pdf:    
        for page in pdf:    
            text += page.get_text() 
    return text

テキストの修正

OCRでの文字認識の際にどうしても誤認識が含まれてしまいます。

手作業で修正するのは面倒なので、テキストの修正はLLMに投げてしまっています。

ChatGPTなどを使ってもいいでしょうが、自分の場合は、ローカルでLlama-3-ELYZA-JP-8Bを動かしています。

本の中身を全てLLMに入力するとコンテキスト長が持たないので、本をチャンクに分割します。

defchunking_text(text:str, max_chunk_size:int=1000):
    # 句点（.）および全角句点（。）で文字列を分割
    sentences = re.split(r'(?<=[。．.])', text)
    chunks = []
    current_chunk = ""for sentence in sentences:
        whilelen(sentence) > max_chunk_size:
            # 文が最大チャンクサイズを超える場合、分割する           
            chunks.append(sentence[:max_chunk_size])            
            sentence = sentence[max_chunk_size:]            
        iflen(current_chunk) + len(sentence) > max_chunk_size:
            # 現在のチャンクをリストに追加し、新しいチャンクを開始
            chunks.append(current_chunk)
            current_chunk = sentence
        else:
            # 現在のチャンクに文を追加
            current_chunk += sentence
    # 最後のチャンクをリストに追加if current_chunk: 
        chunks.append(current_chunk)
    return chunks

チャンク毎にLLMに修正をお願いします。

# 目的
あなたには、OCRで読み取った本の一部の修正を行ってもらいます。
日本語として自然な文章に修正してください。

# 制約
- 出力は修正後の文章のみとしてください
- アルファベットはカタカナに変換してください

# 以下のOCRで読み取った文章を修正
{chunk}

音声合成の際に英語がうまく扱えないことがあるのでカタカナに変換するようにお願いしています。

音声合成

音声合成にはVOICEVOXを使います。

LLMを貫通してきた英語に対応するために、alkanaを使ったカタカナ変換も行っています。

自宅サーバー

出来上がった音声ファイルをスマホやタブレットなどの端末から再生するために、audiobookshelfを自宅サーバーでホストして、音声ファイルを配置します。

audiobookshelfを利用することで、アプリから検索・再生ができるほか、再生を中断した時にその続きから再生できる、複数の端末間でどこまで再生したかが共有されるので端末を変えても続きから再生できる、など有料のオーディオブックと遜色ない利用が可能になります。

自炊オーディオブックを作って聴く

紙の本からオーディオブックを作成する手順

流れ

紙の本の電子化

本の裁断

本のスキャン

電子書籍の読み上げ

PDFからのテキスト抽出

テキストの修正

音声合成

自宅サーバー

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？