技術メモ
This project is maintained by kino-3
コピーした文章の行末に改行文字が入ると正しく Google 翻訳出来ないため, 以下の前処理が必要である。
# コピーした文章を hoge.txt にコピーする。
# 以下のコマンドで, 成形された文章が fuga.txt として出力される。
cat hoge.txt | tr '\r\n' ' ' | sed 's/([^)]*)/()/g' | sed 's/\. /\.\r\n/g' > fuga.txt
以下の記事を参考にした。
導入手順は以下のとおり。
ツールのダウンロード
requirements
pip install pdfminer.six tqdm
Google Apps Script の作成
Google Apps Script にアクセスして, 「新しいプロジェクト」に, 下のコードを保存する。
その後, デプロイ > 新しいデプロイ > (種類の選択)ウェブアプリ > 完了 > URL をコピー の手順を行う。
function doGet(e) {
var p = e.parameter;
var translatedText = LanguageApp.translate(p.text, p.source, p.target);
return ContentService.createTextOutput(translatedText);
}
URL の登録
cfg.py
の api
のリストに URL を文字列として追加する。
実行
# python pdf2text.py --help
python pdf2text.py hoge.pdf