論壇
排行
專題
Collection
學(xué)院設(shè)施
登錄
加入學(xué)院
搜索
本版
用戶
每日簽到
任務(wù)中心
勛章中心
發(fā)帖際遇
貝殼夢
PassWord
RoseTta
海龜湯之謎
邏輯訓(xùn)練場
推理小說
【教程二】小白如何翻譯閱讀“豎排日文pdf小說”?
回復(fù)
【教程二】小白如何翻譯閱讀“豎排日文pdf小說”?
樓主:
256402
|
查看:
1萬
|
回復(fù):
16
查看:
1萬
|
回復(fù):
16
[小說安利]
【教程二】小白如何翻譯閱讀“豎排日文pdf小說”?
簡潔模式
256402
發(fā)表于 2024-11-19 01:10:53
河南
|
2024-11-19 16:41編輯
|
發(fā)自
安卓客戶端
早就想寫的教程了,看到有人問我,那簡單寫了吧。
適合小白的,
一整套翻譯“豎排日文pdf小說”流程:
看到評論區(qū)的回復(fù)補(bǔ)充:
我似乎應(yīng)該把最好的方案效果截圖放在開頭:
圖片是1984年的,不夠清晰,且?guī)Ш芏嘧⒁粜∽值呢Q排日文pdf文檔
原圖:
譯圖:
這里你看注音小字,和那個底部序號都不會識別,從而干擾翻譯。
注音小字我試了很多張都沒有,底部序號小概率還是會出現(xiàn)。
我最開始沒發(fā)最好的效果,是因?yàn)槲耶吘箤懙氖钦麄€流程的教程
要說單發(fā)個效果最好的付費(fèi)方案效果圖,
那我還寫了效果差點(diǎn)的/麻煩的免費(fèi)方案啊,這不純抬高預(yù)期嗎
沒辦法,只能先發(fā)圖,不啰嗦了開始全流程:
第一,豎排日文pdf文件下載,
隨你在各個論壇,或者“安娜圖書館”這種庫存下載。
(這個要.提.子.)
https://zh.annas-archive.org/
第二,簡單處理,
你可以用這個網(wǎng)站將pdf文件拆分為幾百張圖:
https://tools.pdf24.org/zh/split-pdf
第三,文字識別,這里拓展一下:
可以不要錢的:
識別豎排日文的軟件
似乎只有
pc端的“.a.b.b.y.y.”
我反正之前試過
不滿意識別率,但是也能用。
你可以自己去找,額,學(xué)習(xí)版
我看b站似乎就有學(xué)習(xí)版
但是有一說一,我?guī)啄昵把b這個直接給我電腦搞藍(lán)屏了一次,
并且當(dāng)時d盤的頭像還被這軟件替換了,功能倒是沒問題
換電腦之后就再沒用過這軟件
要錢的:
我之前和一個人鼓搗好幾天找好方案,
或者識別率不行,
或者能識別,但是像google和白描的ocr識別,
會把“日文注音小字”也識別出來
翻譯質(zhì)量直接大打折扣。
最后感覺只有“團(tuán)子翻譯器”的批量漫畫翻譯功能,
https://translator.dango.cloud/
識別率還可以,又不會識別注音小字。
別急,這個流程也有問題,
不是那么簡單的。
1:
費(fèi)用20/月,
這倒還好,你可以攢一堆書然后一起識別嘛
2:這軟件說到底是翻譯漫畫的,
他沒有做適配識別小說的便捷流程,
我給
作者
反饋過,但他
似乎是不想做
也就是說,你確實(shí)可以用這軟件一鍵識別一本豎排日文pdf
(把流程二導(dǎo)出的幾百張圖導(dǎo)入漫畫翻譯功能,然后導(dǎo)出文字)
但是,你點(diǎn)“導(dǎo)出文字”,
軟件會把原文,譯文,
包括你用的翻譯服務(wù)名全導(dǎo)出混在一起
你只能手動一條條把日文復(fù)制出來
(
只要日文,翻譯功能在別的軟件做
)
我拜托過一個程序朋友,寫程序分離出日文
結(jié)果不能保證百分百準(zhǔn)確率,
也就是說你還是一條條復(fù)制吧。
快捷鍵我記得是ctrl加選,
反正我感覺復(fù)制幾百張圖的識別日文,
也就十分鐘吧,可看你接受程度
總結(jié),團(tuán)子翻譯器這套流程,
就是你從首頁選項(xiàng)卡點(diǎn)進(jìn)那個圖片翻譯的功能,
然后批量導(dǎo)入圖片,翻譯好,關(guān)閉圖片翻譯,
再回到首頁選項(xiàng)卡找翻譯記錄導(dǎo)出txt文字。
翻譯服務(wù)就選谷歌之類的都行,畢竟我們只要日文。
然后手動ctrl把導(dǎo)出文字里的識別日文復(fù)制出來。
注意我看到評論區(qū)提示,重新去截圖才發(fā)現(xiàn)的:
你得一次導(dǎo)入好幾張圖翻譯,單獨(dú)一張圖,翻譯歷史里沒有記錄。
第四,有了識別到的日文之后,
就是AI翻譯了。
這里
直接去看我第一個教程
簡單來說就是,隨你手機(jī)或者電腦下載“沉浸式翻譯”
然后自己去注冊AI大模型的官網(wǎng)注冊API服務(wù),
(教程我第一個教程寫了,
沉浸式翻譯的教程也寫了
)
https://immersivetranslate.com/zh-Hans/docs/services/deepseek/
然后導(dǎo)入配置到沉浸式翻譯里調(diào)用服務(wù)就能簡單翻譯電子書了。
這里我只簡單補(bǔ)充點(diǎn)新結(jié)論:
在翻譯質(zhì)量方面,
質(zhì)量和提示詞(prompt)關(guān)系很大
在沉浸式翻譯默認(rèn)的提示詞下,中英翻譯是“deepseek”最好
然后切換到“意譯大師”那個提示詞,
這個流程似乎是翻譯一遍,優(yōu)化一遍,增加質(zhì)量但也增加消耗的token
此時就是qwen 2.5 72b效果最好
然后中日翻譯是claude 3.5 sonnet效果最好。
(不過claude價格可比上面這倆貴,你要性價比,
與其claude選常規(guī)提示詞翻譯一遍,
不如選這倆便宜的模型加上意譯大師提示詞,
翻譯一遍優(yōu)化一遍更好還便宜。
)
哦這里說的翻譯一遍優(yōu)化一遍是他內(nèi)部翻譯的流程
我們用那就是傻瓜操作,點(diǎn)一下等翻譯好
最后再順便補(bǔ)充下,
和標(biāo)題沒什么關(guān)系,
就是一些ocr識別服務(wù)的大雜燴。
我研究方案的時候,接觸了不少。
你如果想批量識別橫排的,不管是繁體簡體,中文英文,
那我上面提的“白描”也行,這個也要錢,手機(jī)電腦都有,
價格在“果殼剝殼”賣好像是二十幾買斷。
然后白描也能識別表格,
但是識別公式,據(jù)說是“mathpix”最好
這軟件我用過,也是收費(fèi),而且有點(diǎn)惡心人的
然后簡單的ocr識別,各個手機(jī)廠商似乎都推出了自己的服務(wù)
谷歌的“智能鏡頭”也還行。
復(fù)雜的,一整本pdf里識別表格公式,這個就很難了,
我看b站有人在研究用AI多模態(tài)大模型和傳統(tǒng)ocr服務(wù)結(jié)合來識別。
再順帶一提,github上也有不錯的開源軟件
比如有個叫“manga ocr”的似乎是可以識別豎排日文
但本人智力有限,實(shí)在是不會部署,
有的別的軟件部署之后也不會寫代碼做到批量識別
總之就是擺了,不會用。
最后,我才發(fā)現(xiàn)本軟件排版技巧
你選了“字體加紅加粗”之后
如圖,想要正文呈現(xiàn)的效果是換行,
你得在編輯界面,這個代碼之后空一行
同理,想正文空一行,就得在編輯這里空兩行
我說之前發(fā)的帖子,排版看著怪呢,很多字就連在一起
本帖子中包含更多圖片或附件資源
您需要
登錄
才可以下載或查看,沒有帳號?
加入學(xué)院
21
34
分享
256402
0
|
樓主
|
發(fā)表于 2024-11-19 12:09:27
河南
|
2024-11-20 08:00編輯
|
發(fā)自
安卓客戶端
我有要補(bǔ)充的內(nèi)容,就固定在這樓補(bǔ)充了。
帖子編輯一次都得重新審核太麻煩。
0:類似的githubocr方案,還有這個
https://meta.appinn.net/t/topic/62859
不過這是用來翻譯帶公示表格論文的,
很明顯這些有實(shí)力的大佬不會研究豎排日文文檔
這才是目前起碼我找不到合適開源方案,批量簡易翻譯豎排日文pdf文檔的原因
1:我才想起來,就是如果你的素材比我這個模糊不少
那似乎可以考慮lr批量加對比度調(diào)整
和團(tuán)子翻譯器這軟件設(shè)置里我看有個實(shí)驗(yàn)性“超分辨率”
可以試試,我沒試過,我跑通了這個流程就沒關(guān)系了
畢竟我又沒有翻譯這種數(shù)的需求。
2:我剛才改帖子居然秒審核通過,搞得我都不好意思再改了
3:我其實(shí)沒有這類需求,為什么研究流程呢?
一是自己對新技術(shù)感興趣,
二是有人拿著這個1984年的的這個豎排日文pdf問我了
這就不得不提:我研究那時候還非常熱
當(dāng)時我有一次吹風(fēng)扇吹得肚子巨疼,真是感覺馬上要噶了。
要不是刷到一個b站視頻,說是按壓左手什么穴位,確實(shí)緩解了,
那都難以想象
就在那天,我輕松不少的時候,都是咬了兩塊餅干,
繼續(xù)上qq和那人研究流程。
所以,本人這帖子,耗費(fèi)的精力還是有一點(diǎn)的。
4:帖子中間不是提到了那個a.b.b.y.y.嘛
傳說國內(nèi)代理商很強(qiáng),因此在國內(nèi)公開互聯(lián)網(wǎng)上找不到學(xué)習(xí)版
我一聽這話好家伙,看看資源檢索能力?
直接就去telegram搜搜看,翻了幾頁就見到了
當(dāng)然只是這么一找,實(shí)際我肯定不會用
因?yàn)槲铱碽站評論區(qū)都說這軟件有問題,會和win11安全中心沖突什么的。
我本來幾年前試用這軟件的時候就沒什么好印象
5:我想到我末尾提到的“github也有不少優(yōu)秀開源ocr項(xiàng)目,
只是我完全不懂代碼不知道怎么部署和批量識別”
我又想了想,感覺簡單需求,還是可以問AI來教我python代碼,如圖
但問題在于,稍微復(fù)雜的問題,比如我正文提到的“只保留日文”AI代碼,
公認(rèn)最好的claude也不行。
你說批量識別文本,我總得要求這些文本打包到一個文檔里,
還要注意排版,還要消除文檔需要之類的吧?
感覺ai很難滿足這種需求
哦ai的代碼能力,公認(rèn)最好的是國外的claude,
然后平替,國內(nèi)的deepseek也還湊合,
然后最近剛出的,國外google的類open ai o1的gemini 1114也還行
本帖子中包含更多圖片或附件資源
您需要
登錄
才可以下載或查看,沒有帳號?
加入學(xué)院
175696
0
|
發(fā)表于 2024-11-19 12:55:13
江蘇
朋友,關(guān)鍵是Z站上和安娜圖書館下載的日文PDF文件,有些小說資源年代太過古老導(dǎo)致PDF文件圖像質(zhì)量模糊不清晰,EPUB日文原版的注音平假小字就難以解決了,PDF文件更是把小字和大字混合在一起狼狽不堪,搞不明白日本搞這種注音平假小字是干嘛的,谷歌機(jī)器翻譯都沒的操作,很多小說資源不是沒得找而是就算找到了也沒得翻譯
261868
0
|
發(fā)表于 2024-11-19 13:25:36
上海
|
來自小霸王手機(jī)
關(guān)鍵是日語原版的新小說都找不到
256402
0
|
樓主
|
發(fā)表于 2024-11-20 08:01:42
河南
|
發(fā)自
安卓客戶端
...???這還能直接吞評論
248937
0
|
發(fā)表于 2024-11-20 11:55:11
陜西
epub還好,可以保留格式復(fù)制文本到word里,然后清除讀音,就可以去掉小字了。 pdf是真的麻煩,先不說ocr的識別率了,那個換行短句就很惡心
278218
1
|
發(fā)表于 2025-8-24 12:54:47
浙江
推薦用ImageTrans,支持豎排OCR,也能直接提取PDF中可以復(fù)制的文字,支持合并文字為段落。
返回版塊
尚未登錄
高級模式
您需要登錄后才可以回帖
登錄
|
加入學(xué)院
回帖后跳轉(zhuǎn)到最后一頁
發(fā)表回復(fù)
分享
復(fù)制鏈接
国产三级毛片
|
岳扒开下面让我舔是什么意思
|
国产淫片
|
三级片中文字幕
|
插大香蕉
|